[go: up one dir, main page]

CN114827657B - 一种音频拼接方法、设备及存储介质 - Google Patents

一种音频拼接方法、设备及存储介质 Download PDF

Info

Publication number
CN114827657B
CN114827657B CN202210461487.8A CN202210461487A CN114827657B CN 114827657 B CN114827657 B CN 114827657B CN 202210461487 A CN202210461487 A CN 202210461487A CN 114827657 B CN114827657 B CN 114827657B
Authority
CN
China
Prior art keywords
audio
splicing
fundamental frequency
length
overlapping portion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210461487.8A
Other languages
English (en)
Other versions
CN114827657A (zh
Inventor
张超鹏
赵伟峰
姜涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202210461487.8A priority Critical patent/CN114827657B/zh
Publication of CN114827657A publication Critical patent/CN114827657A/zh
Application granted granted Critical
Publication of CN114827657B publication Critical patent/CN114827657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本申请公开了音频处理技术领域内的一种音频拼接方法、设备及存储介质,本申请在获取到待拼接的两个音频片段后,先确定两个音频片段的重叠部分,重叠部分的两个音频片段的基频;若两个音频片段的基频音高差超过音高阈值,则增加二者重叠部分的时长,基于增加时长后的重叠部分更新两个音频片段后,对更新后的两个音频片段执行拼接操作。该方案针对任意两段待拼接音频,在确定二者的基频差异较大时,先增大二者的重叠部分,以使两段音频在拼接后尽可能连续,从而使拼接结果的听感相对自然,不会出现卡顿和怪音感。相应地,本申请提供的音频拼接设备及存储介质,也同样具有上述技术效果。

Description

一种音频拼接方法、设备及存储介质
技术领域
本申请涉及音频处理技术领域,特别涉及一种音频拼接方法、设备及存储介质。
背景技术
目前,现有的音频拼接技术,如:Ola(Overlap and add,重叠相加)或Crossfade(渐入渐出)可以拼接不同语音片段。但是,这些拼接技术仅适用于拼接人说话声,对于歌声,尤其是高音歌声进行拼接后,往往会出现卡顿、怪音感。
发明内容
有鉴于此,本申请的目的在于提供一种音频拼接方法、设备及存储介质,能够针对各种音频片段进行拼接,且拼接结果的听感相对自然,不会出现卡顿、怪音感。其具体方案如下:
为实现上述目的,一方面,本申请提供了一种音频拼接方法,包括:
获取待拼接的第一音频片段和第二音频片段;
确定所述第一音频片段的尾部与所述第二音频片段的头部的重叠部分,提取所述第一音频片段在所述重叠部分的第一基频,提取所述第二音频片段在所述重叠部分的第二基频;
若所述第一基频和所述第二基频的音高差超过音高阈值,则增加所述重叠部分的时长;
基于增加时长后的重叠部分更新所述第一音频片段和所述第二音频片段;
对更新后的第一音频片段和更新后的第二音频片段执行拼接操作。
优选地,所述音高阈值为两个半音。
优选地,所述增加所述重叠部分的时长,包括:
基于预设采样率和所述音高差确定增加后的重叠部分的时长。
优选地,所述基于预设采样率和所述音高差确定增加后的重叠部分的时长,包括:
计算所述预设采样率与所述音高差的乘积,基于所述乘积确定增加后的重叠部分的时长。
优选地,还包括:
若所述第一基频和所述第二基频中存在无效基频,或所述第一基频和所述第二基频中不存在无效基频但所述音高差未超过所述音高阈值,则对所述第一音频片段和所述第二音频片段执行拼接操作。
优选地,还包括:
确定执行拼接操作的两个音频片段的重叠部分的信号幅度差;
若所述信号幅度差不小于幅度阈值且反相拼接符合预设条件,则对拼接位置在后的一个音频片段进行相位翻转。
优选地,所述确定执行拼接操作的两个音频片段的重叠部分的信号幅度差,包括:
按照第一公式计算执行拼接操作的两个音频片段的重叠部分的信号幅度差;所述第一公式为:
其中,Δp表示执行拼接操作的音频片段xA和音频片段xB的重叠部分的信号幅度差,L为音频片段xA和音频片段xB的重叠部分的长度,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。
优选地,对两个音频片段执行拼接操作,包括:
基于第二公式对两个音频片段执行拼接操作,所述第二公式为:
其中,y(n)表示音频片段xA和音频片段xB在采样点n处的拼接结果,L为音频片段xA和音频片段xB的重叠部分的长度,w(l)为窗函数,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。
优选地,所述预设条件为:|p--pT|<|p+-pT|;
其中,p-为重叠部分相位差,p+为重叠部分相位和,为音频片段xA位于重叠部分的信号幅度绝对值的均值,为音频片段xB位于重叠部分的信号幅度绝对值的均值,pT=(pA+pB)/2,L为音频片段xA和音频片段xB的重叠部分的长度,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。
又一方面,本申请还提供了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述音频拼接方法。
又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述音频拼接方法。
本申请提供的音频拼接方法,在获取到待拼接的第一音频片段和第二音频片段后,首先确定第一音频片段的尾部与第二音频片段的头部的重叠部分,提取第一音频片段在重叠部分的第一基频,提取第二音频片段在重叠部分的第二基频;若第一基频和第二基频的音高差超过音高阈值,则表明两段音频的基频差异较大,直接执行拼接操作容易出现卡顿和怪音感。为解决此问题,增加重叠部分的时长;基于增加时长后的重叠部分更新第一音频片段和第二音频片段;对更新后的第一音频片段和更新后的第二音频片段执行拼接操作。该方案增加了两段音频重叠部分的时长,从而增大了两段音频的信号连续的可能性。可见,该方案针对任意两段待拼接音频,在确定二者的基频差异较大时,先增加二者重叠部分的时长,以使两段音频在拼接后尽可能连续,从而可以使拼接结果的听感相对自然,不会出现卡顿和怪音感。
相应地,本申请提供的音频拼接设备及存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种本申请适用的物理架构示意图;
图2为本申请提供的一种音频拼接方法流程图;
图3为本申请提供的一种重叠部分的增大前后对比示意图;
图4为本申请提供的另一种音频拼接方法流程图;
图5为本申请提供的一种本发明与现有技术的拼接效果对比图;
图6为本申请提供的一种音频拼接方案的应用示意图;
图7为本申请提供的一种服务器结构图;
图8为本申请提供的一种终端结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
现有现有的音频拼接技术,如:Ola(Overlap and add,重叠相加)或Crossfade(渐入渐出)可以拼接不同语音片段。但是,这些拼接技术仅适用于拼接人说话声,对于歌声,尤其是高音歌声进行拼接后,往往会出现卡顿、怪音感。鉴于目前所存在的上述问题,本申请提出了音频拼接方案,该方案能够针对各种音频片段进行拼接,且拼接结果的听感相对自然,不会出现卡顿、怪音感。
为了便于理解,先对本申请所适用的物理框架进行介绍。
应理解,本申请提供的音频拼接方法可以应用于具有音频拼接功能的系统或程序中。具体的,具有音频拼接功能的系统或程序可以运行于服务器、个人计算机等设备中。
如图1所示,图1为本申请适用的物理架构示意图。在图1中,具有音频拼接功能的系统或程序可以运行于服务器,该服务器通过网络从其他终端设备中获取到待拼接的第一音频片段和第二音频片段后,首先确定第一音频片段的尾部与第二音频片段的头部的重叠部分,提取第一音频片段在重叠部分的第一基频,提取第二音频片段在重叠部分的第二基频;若所述第一基频和所述第二基频的音高差超过音高阈值,则增加所述重叠部分的时长;基于增加时长后的重叠部分更新所述第一音频片段和所述第二音频片段,对更新后的第一音频片段和更新后的第二音频片段执行拼接操作。
由图1可知,该服务器可以与多个设备建立通信连接,服务器从这些设备中获取待拼接的音频片段,之后服务器按照本申请提供的方案拼接获取到的音频片段。
图1中示出了多种终端设备,在实际场景中可以有更多或更少种类的终端设备参与到音频拼接的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
应当注意的是,本实施例提供的音频拼接方法可以离线进行,即服务器本地存储有待拼接的音频片段,其可以直接利用本申请提供的方案拼接音频。
可以理解的是,上述具有音频拼接功能的系统、程序,也可以运行于个人移动终端,也可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
具体的,在拼接多段音频后,可以获得拼接歌曲、人物对话等。可见,该方案可用于语音剪辑、歌曲剪辑等工具中。
结合以上共性,请参见图2,图2为本申请实施例提供的一种音频拼接方法流程图。如图2所示,该音频拼接方法可以包括以下步骤:
S201、获取待拼接的第一音频片段和第二音频片段。
在本实施例中,第一音频片段和第二音频片段可以是人物说话语音音频,也可以是歌声音频。
S202、确定第一音频片段的尾部与第二音频片段的头部的重叠部分,提取第一音频片段在重叠部分的第一基频,提取第二音频片段在重叠部分的第二基频。
音频处理一般以帧为单位进行,为了保证信号的连续性,分帧时相邻帧会有重复。例如:单位帧长度为20ms(毫秒)时,第一帧是0ms~20ms,那么第二帧可以是10ms~30ms,其中的10ms~20ms即为二者的重叠部分。一般重叠部分为单位帧长度的二分之一、三分之一等,具体可根据实际情况灵活取值。据此,第一音频片段和第二音频片段通常指:长度等于单位帧长度的两个帧,如上述举例的第一帧0ms~20ms、第二帧10ms~30ms。
需要说明的是,上述举例的第一帧和第二帧在时间上重叠的10ms~20ms这一部分的信号并不一定相同,因此不宜直接认为第一帧和第二帧的信号差异仅在于:0ms~10ms、20ms~30ms,还需要考虑两个帧重叠部分的信号差异。
本实施例为了辨别第一音频片段和第二音频片段在重叠部分的信号差异,提取第一音频片段在重叠部分的第一基频,提取第二音频片段在重叠部分的第二基频,并在提取到的第一基频和第二基频均有效的情况下,判断第一基频和第二基频的音高差。若第一基频和第二基频的音高差(即:音调差异)超过音高阈值,则说明第一音频片段和第二音频片段在重叠部分的信号差异较大,直接使用拼接技术进行拼接难以消除信号突变情况,容易出现听感不连续、怪音等情况。若第一基频和第二基频中存在无效基频,或音第一基频和第二基频中不存在无效基频但第一基频和第二基频的音高差未超过音高阈值,则说明第一音频片段和第二音频片段在重叠部分的信号差异不太大,直接使用拼接技术基本可以消除信号突变情况,保障信号拼接的连接性,故无需增加重叠部分的时长。因此在一种具体实施方式中,若第一基频和第二基频中存在无效基频,或音第一基频和第二基频中不存在无效基频但高差未超过音高阈值,则对第一音频片段和第二音频片段执行拼接操作。
其中,使用pYin等开源工具可以提取音频中的基频,并转换为音调信息。在一种具体实施方式中,音高阈值为两个半音。一般地,在基频变化程度大于4个半音时,拼接过渡位置往往会出现怪音,而Ola和Crossfade可以消除两个半音及其以内的音调差异。
S203、若第一基频和第二基频的音高差超过音高阈值,则增加重叠部分的时长,基于增加时长后的重叠部分更新第一音频片段和第二音频片段后,对更新后的第一音频片段和更新后的第二音频片段执行拼接操作。
本实施例为了解决第一音频片段和第二音频片段在重叠部分的信号差异较大的问题,增大了重叠部分,从而基于增大后的重叠部分更新第一音频片段和第二音频片段后,对更新后的第一音频片段和更新后的第二音频片段执行拼接操作。
请参见图3,假设拼接第一帧0ms~20ms和第二帧10ms~30ms,此二者重叠部分为10ms~20ms。若将此重叠部分增大5ms,每个音频片段的起始位置保持不变,那么新的重叠部分为10ms~25ms,之后第一帧由0ms~20ms更新为:0ms~25ms,第二帧由10ms~30ms更新为:10ms~35ms。
可见,本实施例在获取到待拼接的第一音频片段和第二音频片段后,首先确定第一音频片段的尾部与第二音频片段的头部的重叠部分,提取第一音频片段在重叠部分的第一基频,提取第二音频片段在重叠部分的第二基频;若第一基频和第二基频均有效、且第一基频和第二基频的音高差超过音高阈值,则表明两段音频的基频差异较大,直接执行拼接操作容易出现卡顿和怪音感。为解决此问题,该方案增大二者的重叠部分,以增大两段音频的信号连续的可能性,并基于增大后的重叠部分更新第一音频片段和第二音频片段后,对更新后的第一音频片段和更新后的第二音频片段执行拼接操作。可见,该方案针对任意两段待拼接音频,在确定二者的基频差异较大时,先增大二者的重叠部分,以使两段音频在拼接后尽可能连续,从而可以使拼接结果的听感相对自然,不会出现卡顿和怪音感。
基于上述实施例,需要说明的是,在第一基频和第二基频均有效、且第一基频和第二基频的音高差超过音高阈值的情况下,重叠部分可以到底增大多少呢,一般基于单位帧长度的取值范围可确定。例如:假设单位帧长度的取值范围为Xms~Yms,那么在更新后的片段的长度(即单位帧长度)不超出单位帧长度的取值范围的情况下,可以随意改变重叠部分的长度。
在一种具体实施方式中,增加重叠部分的时长,包括:基于预设采样率和音高差确定增加后的重叠部分的时长。其中,基于预设采样率和音高差确定增加后的重叠部分的时长,包括:计算预设采样率与音高差的乘积,基于乘积确定增加后的重叠部分的时长。如:将预设采样率与音高差的乘积的一半作为增大后的重叠部分的时长,除不尽时向上取整。当然,在更新后的片段的长度不超出单位帧长度的取值范围的情况下,可以灵活设定重叠部分的增大程度。
基于上述实施例,需要说明的是,在一种具体实施方式中,还包括:确定执行拼接操作的两个音频片段的重叠部分的信号幅度差;若能量差不小于幅度阈值且反相拼接符合预设条件,则对拼接位置在后的一个音频片段进行相位翻转。否则,直接拼接两段音频。
在一种具体实施方式中,确定执行拼接操作的两个音频片段的重叠部分的信号幅度差,包括:按照第一公式计算执行拼接操作的两个音频片段的重叠部分的信号幅度差;第一公式为:其中,Δp表示执行拼接操作的音频片段xA和音频片段xB的重叠部分的信号幅度差,L为音频片段xA和音频片段xB的重叠部分的长度,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。
在一种具体实施方式中,对两个音频片段执行拼接操作,包括:基于第二公式对两个音频片段执行拼接操作,第二公式为:
其中,y(n)表示音频片段xA和音频片段xB在采样点n处的拼接结果,L为音频片段xA和音频片段xB的重叠部分的长度,w(l)为窗函数,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。最终拼接得到的信号长度Ny=NA+NB-L。
其中,预设条件为:|p--pT|<|p+-pT|;其中,p-为重叠部分相位差,p+为重叠部分相位和,为音频片段xA位于重叠部分的信号幅度绝对值的均值,为音频片段xB位于重叠部分的信号幅度绝对值的均值,pT=(pA+pB)/2,L为音频片段xA和音频片段xB的重叠部分的长度,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。
请参见图4,在一种具体实施方式中,音频拼接过程可以包括:
1、获取音频片段A和B。
2、提取基频。
具体的,利用pYin等开源工具可以提取基音频率(即基频)并转换为音调信息,转换公式为:c=12·log2(f/440)+69,其中c表示音符编号,f表示基音频率值。
3、确定过渡时长(即重叠部分的长度)。
若音频片段A的结尾和B的开头(即重叠部分)是清音,则过渡时长保持不变,后续使用现有方式(如crossfade)进行拼接。清音表示A和B重叠部分的信号都没有有效基频,故此时无需考虑基频差异。
若A和B重叠部分的信号均为浊音,那么可以从中提取出有效基频,在提取到的两个有效基频的音高变化在2个半音(包含2个半音)以内时,过渡时长也保持不变,同时使用现有方式进行拼接。此时,认为现有方式可以消除2个半音(包含2个半音)以内的基频差异。
若提取到的两个有效基频的音高变化超过2个半音时,增大过渡时长,从而让重叠部分自然过渡,防止出现卡顿等情况。其中,增大后的过渡时长其中Δc表示两个有效基频的音高差,L为采样率,符号表示向上取整。
其中,若过渡时长保持不变,那么使用现有方式拼接两个原始音频片段A和B。若过渡时长被增大,则需要基于增大后的过渡时长更新音频片段A和B,然后拼接更新后的A和更新后的B。A和B的更新步骤可参照上文的相关介绍,在此不再赘述。
4、确定拼接位置在后的B的相位是否需要翻转。
计算两个待拼接片段在重叠部分的能量差异,若能量差异过大,则在反相拼接满足预设条件时,翻转B的相位;否则,保持B的相位不变。
具体的,在l=[0,L]范围内计算:之后计算Δp=p+-p-,L表示两个待拼接片段重叠部分的时长。p+为重叠部分相位和,p-为重叠部分相位差,相位和减去相位差,Δp越大,表明重叠部分能量差异大;否则,表明重叠部分能量差异小。在能量差异小时,翻转B的相位,可以使拼接结果的相位更连续。
具体的,如果两段音频满足xA=-xB,那么xA+xB=0,即拼接部分的幅度为0,这是不能接受的。因为听感上会有卡顿。因此本实施例利用本步骤进行拼接预判,目的是为了确认xA+xB的幅度值在合理范围内,而不是一个很小的值。
所以,Δp越大,表明正相拼接(即拼接xA和xB)和反相拼接(即拼接xA和-xB)的差异大,故Δp≥Thr时,需要使B的相位适于拼接,而当Δp<Thr时,B的相位是否翻转对拼接结果影响不大,故可以保持B相位不变。
基于上述可确定:若Δp<Thr,则xB(n)=xB(n)。若Δp≥Thr,且符合预设条件|p--pT|<|p+-pT|时,xB(n)=-xB(n),其中n∈[0,NB],此处阈值Thr取经验值,如:Thr=-0.002。若Δp≥Thr,但不符合预设条件|p--pT|<|p+-pT|时,xB(n)=xB(n)。
其中,表示xA结尾部分的幅度绝对值的均值;表示xB开头部分的幅度绝对值的均值;pT=(pA+pB)/2,表示一个折中值。如果p-与pT的差异(即|p--pT|)小于p+与pT的差异(即|p+-pT|),则表明反相拼接可使拼接结果的相位更连续,故翻转xB的相位。反之,如果Δp≥Thr,但不满足预设条件|p--pT|<|p+-pT|,那么B的相位是否翻转对拼接结果影响不大,可以直接拼接xA和xB,而不翻转xB的相位。
5、拼接两个音频片段。
拼接两个音频片段的公式为:
其中,y(n)表示音频片段xA和音频片段xB在采样点n处的拼接结果,L为音频片段xA和音频片段xB的重叠部分的长度,w(l)为窗函数,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。Ny=NA+NB-L
其中,w(l)可以为升余弦窗函数、汉明窗函数等。其中,升余弦窗函数可以使得拼接后信号仍保持最佳幅度变化。使用汉明窗函数等函数加窗时,若重叠部分的长度不是单位帧长度的一半,则拼接完成后考虑进行信号的后处理,以去除掉幅度抖动。
当w(l)为升余弦窗函数时,
可见,本实施例针对任意音频,都可以满足拼接后的自然度和流畅感,能够对高音歌声实现自然的基频过渡,降低了歌声信号合成/拼接过程中的卡顿、怪音等问题。其中,按照本实施例完成拼接后,拼接效果与现有技术的对比可参照图5。如图5所示,图5中A处直接使用现有一般拼接方案(如crossfade)完成拼接,而图5中B处使用本实施例完成拼接,且这两个方案针对同一对音频片段进行拼接。具体的,A处的拼接效果对应图5中的C,C示意的波形存在明显的突增,波形不够流畅,容易出现怪音感;而B处的拼接效果对应图5中的D,D示意的波形消减了明显的突增,波形较缓慢上升,因此降低了怪音等异常情况的出现概率,可使拼接处的听感相对自然。
下面通过具体的应用场景实例描述,来介绍本申请提供的音频拼接方案。下面通过具体的应用场景实例描述,来介绍本申请提供的方案,该方案可以对任意音频进行拼接。
请参见图6,具体流程包括:
S601、用户在终端上选择需要拼接的几个音频;
S602、终端将用户所选音频发送至服务器;
S603、服务器收到音频后,对音频进行分帧,之后针对拼接位置的音频帧执行本申请提供的方法,最终得到拼接音频;
S604、服务器将拼接音频发送至终端;
S605、终端接收拼接音频后,用户可以播放该拼接音频。
其中,终端可以为智能手机、电视、平板电脑、笔记本电脑或台式电脑等设备。
在实际应用时,本申请可以设置于音视频剪辑工具内,该工具安装在用户终端上,那么用户就可以实时拼接音频。
下面对本申请实施例提供的一种电子设备进行介绍,下文描述的一种电子设备与上述实施例的相关实现步骤可以相互参照。
进一步的,本申请实施例还提供了一种电子设备。其中,上述电子设备既可以是如图7所示的服务器50,也可以是如图8所示的终端60。图7和图8均是根据一示例性实施例示出的电子设备结构图,图中的内容不能被认为是对本申请的使用范围的任何限制。
图7为本申请实施例提供的一种服务器的结构示意图。该服务器50,具体可以包括:至少一个处理器51、至少一个存储器52、电源53、通信接口54、输入输出接口55和通信总线56。其中,所述存储器52用于存储计算机程序,所述计算机程序由所述处理器51加载并执行,以实现前述任一实施例公开的音频拼接中的相关步骤。
本实施例中,电源53用于为服务器50上的各硬件设备提供工作电压;通信接口54能够为服务器50创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口55,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器52作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统521、计算机程序522及数据523等,存储方式可以是短暂存储或者永久存储。
其中,操作系统521用于管理与控制服务器50上的各硬件设备以及计算机程序522,以实现处理器51对存储器52中数据523的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序522除了包括能够用于完成前述任一实施例公开的音频拼接方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据523除了可以包括应用程序的更新信息等数据外,还可以包括应用程序的开发商信息等数据。
图8为本申请实施例提供的一种终端的结构示意图,该终端60具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
通常,本实施例中的终端60包括有:处理器61和存储器62。
其中,处理器61可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器61可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器61可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器61还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器62可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器62还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器62至少用于存储以下计算机程序621,其中,该计算机程序被处理器61加载并执行之后,能够实现前述任一实施例公开的由终端侧执行的音频拼接方法中的相关步骤。另外,存储器62所存储的资源还可以包括操作系统622和数据623等,存储方式可以是短暂存储或者永久存储。其中,操作系统622可以包括Windows、Unix、Linux等。数据623可以包括但不限于应用程序的更新信息。
在一些实施例中,终端60还可包括有显示屏63、输入输出接口64、通信接口65、传感器66、电源67以及通信总线68。
本领域技术人员可以理解,图8中示出的结构并不构成对终端60的限定,可以包括比图示更多或更少的组件。
下面对本申请实施例提供的一种存储介质进行介绍,下文描述的一种存储介质与上述实施例的相关实现步骤可以相互参照。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述任一实施例公开的音频拼接方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
需要指出的是,上述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种音频拼接方法,其特征在于,包括:
获取待拼接的第一音频片段和第二音频片段;
确定所述第一音频片段的尾部与所述第二音频片段的头部的重叠部分,提取所述第一音频片段在所述重叠部分的第一基频,提取所述第二音频片段在所述重叠部分的第二基频;
若所述第一基频和所述第二基频的音高差超过音高阈值,则增加所述重叠部分的时长;其中,增加时长后的重叠部分的长度不超出单位帧长度的取值范围;其中,所述增加所述重叠部分的时长,包括:基于预设采样率和所述音高差确定增加后的重叠部分的时长;
基于增加时长后的重叠部分更新所述第一音频片段和所述第二音频片段;
对更新后的第一音频片段和更新后的第二音频片段执行拼接操作;
其中,还包括:
确定执行拼接操作的两个音频片段的重叠部分的信号幅度差;
若所述信号幅度差不小于幅度阈值且反相拼接符合预设条件,则对拼接位置在后的一个音频片段进行相位翻转;否则,直接拼接两段音频;
其中,所述预设条件为:|p--pT|<|p+-pT|;
其中,p-为重叠部分相位差,p+为重叠部分相位和,pT=(pA+pB)/2,pA为执行拼接操作的音频片段xA位于重叠部分的信号幅度绝对值的均值,pB为执行拼接操作的音频片段xB位于重叠部分的信号幅度绝对值的均值。
2.根据权利要求1所述的方法,其特征在于,所述音高阈值为两个半音。
3.根据权利要求1所述的方法,其特征在于,所述基于预设采样率和所述音高差确定增加后的重叠部分的时长,包括:
计算所述预设采样率与所述音高差的乘积,基于所述乘积确定增加后的重叠部分的时长。
4.根据权利要求1所述的方法,其特征在于,还包括:
若所述第一基频和所述第二基频中存在无效基频,或所述第一基频和所述第二基频中不存在无效基频但所述音高差未超过所述音高阈值,则对所述第一音频片段和所述第二音频片段执行拼接操作。
5.根据权利要求1所述的方法,其特征在于,所述确定执行拼接操作的两个音频片段的重叠部分的信号幅度差,包括:
按照第一公式计算执行拼接操作的两个音频片段的重叠部分的信号幅度差;所述第一公式为:
其中,Δp表示执行拼接操作的音频片段xA和音频片段xB的重叠部分的信号幅度差,L为音频片段xA和音频片段xB的重叠部分的长度,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。
6.根据权利要求1所述的方法,其特征在于, L为音频片段xA和音频片段xB的重叠部分的长度,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。
7.根据权利要求1至4任一项所述的方法,其特征在于,对两个音频片段执行拼接操作,包括:
基于第二公式对两个音频片段执行拼接操作,所述第二公式为:
其中,y(n)表示音频片段xA和音频片段xB在采样点n处的拼接结果,L为音频片段xA和音频片段xB的重叠部分的长度,w(l)为窗函数,NA为音频片段xA的长度,NB为音频片段xB的长度,l=[0,L]。
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的方法。
CN202210461487.8A 2022-04-28 2022-04-28 一种音频拼接方法、设备及存储介质 Active CN114827657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210461487.8A CN114827657B (zh) 2022-04-28 2022-04-28 一种音频拼接方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210461487.8A CN114827657B (zh) 2022-04-28 2022-04-28 一种音频拼接方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114827657A CN114827657A (zh) 2022-07-29
CN114827657B true CN114827657B (zh) 2025-01-07

Family

ID=82508697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210461487.8A Active CN114827657B (zh) 2022-04-28 2022-04-28 一种音频拼接方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114827657B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713945B (zh) * 2022-11-10 2024-09-27 杭州爱华仪器有限公司 一种音频数据处理方法和预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920547A (zh) * 2017-02-21 2017-07-04 腾讯科技(上海)有限公司 语音转换方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4152192B2 (ja) * 2001-04-13 2008-09-17 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
JP3846300B2 (ja) * 2001-12-14 2006-11-15 オムロン株式会社 録音原稿作成装置および方法
WO2004027758A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. Method for controlling duration in speech synthesis
CN101261836B (zh) * 2008-04-25 2011-03-30 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
US10531219B2 (en) * 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
CN110189743B (zh) * 2019-05-06 2024-03-08 平安科技(深圳)有限公司 波形拼接中的拼接点平滑方法、装置及存储介质
CN110931021B (zh) * 2019-10-29 2023-10-13 平安科技(深圳)有限公司 一种音频信号处理方法及装置
CN113362837B (zh) * 2021-07-28 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法、设备及存储介质
CN113643728B (zh) * 2021-08-12 2023-08-22 荣耀终端有限公司 一种音频录制方法、电子设备、介质及程序产品
CN114360490B (zh) * 2022-01-26 2024-07-09 腾讯科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920547A (zh) * 2017-02-21 2017-07-04 腾讯科技(上海)有限公司 语音转换方法和装置

Also Published As

Publication number Publication date
CN114827657A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
US10629223B2 (en) Fast playback in media files with reduced impact to speech quality
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
US6205420B1 (en) Method and device for instantly changing the speed of a speech
US9710552B2 (en) User driven audio content navigation
US11462207B1 (en) Method and apparatus for editing audio, electronic device and storage medium
US11996084B2 (en) Speech synthesis method and apparatus, device and computer storage medium
US20250054509A1 (en) Training generative adversarial networks to upsample audio
CN112908292A (zh) 文本的语音合成方法、装置、电子设备及存储介质
CN114827657B (zh) 一种音频拼接方法、设备及存储介质
US20150051911A1 (en) Method for dividing letter sequences into pronunciation units, method for representing tones of letter sequences using same, and storage medium storing video data representing the tones of letter sequences
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
CN114783409A (zh) 语音合成模型的训练方法、语音合成方法及装置
US11830481B2 (en) Context-aware prosody correction of edited speech
CN113205797B (zh) 虚拟主播生成方法、装置、计算机设备及可读存储介质
CN116189654A (zh) 语音编辑方法、装置、电子设备及存储介质
CN113763921B (zh) 用于纠正文本的方法和装置
CN111583945B (zh) 用于处理音频的方法、装置、电子设备和计算机可读介质
US20110010179A1 (en) Voice synthesis and processing
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
CN112289298A (zh) 合成语音的处理方法、装置、存储介质以及电子设备
US8005670B2 (en) Audio glitch reduction
US20250078851A1 (en) System and Method for Disentangling Audio Signal Information
WO2024215520A1 (en) System and method for training speech processing neural networks for dynamic loads
CN118865943A (zh) 语音合成模型训练方法以及语音合成方法
CN118397985A (zh) 音乐生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant