CN108269579A - 语音数据处理方法、装置、电子设备及可读存储介质 - Google Patents
语音数据处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN108269579A CN108269579A CN201810049575.0A CN201810049575A CN108269579A CN 108269579 A CN108269579 A CN 108269579A CN 201810049575 A CN201810049575 A CN 201810049575A CN 108269579 A CN108269579 A CN 108269579A
- Authority
- CN
- China
- Prior art keywords
- voice data
- target
- frequency
- audios
- domain parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 20
- 238000009432 framing Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 6
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 239000011295 pitch Substances 0.000 description 40
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明提供了一种语音数据处理方法、装置、电子设备及可读存储介质,涉及数据处理技术领域。该方法通过获得语音数据的初始频域参数;再获得与预设的目标MIDI音频对应的目标频域参数,然后根据所述目标频域参数对所述初始频域参数进行修改,得到变调后的语音数据。可以使语音数据中的语音具有目标MIDI音频的频域参数,使变调后的语音数据可以具有目标MIDI音频的音高特征,实现对语音数据的变调操作,可以实现不改变语音数据中语速和语音时长的情况下,对语音数据进行变调。变调后的语音数据的相位连续,不会出现噪音,同时能够避免出现机械音,变调效果更好。可以应用于歌曲中音高的修正,或人声到歌声的转换等,在声音处理领域具有较高的应用前景。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种语音数据处理方法、装置、电子设备及可读存储介质。
背景技术
语音变调是在不改变音频文件语速的情况下,通过一定算法实现说话人语调的改变,包括语调的平移及将语音变换到特定的音调上。现有的变调处理会出现相位不连续,并且会产生噪音的问题。
发明内容
有鉴于此,本发明提供了一种语音数据处理方法、装置、电子设备及可读存储介质,可以解决上述问题,实现变调后的语音相位连续。
本发明提供的技术方案如下:
一种语音数据处理方法,包括:
获取语音数据及目标MIDI音频,所述语音数据包括与所述目标MIDI音频对齐后的语音;
获得所述语音数据的初始频域参数;
获得与预设的目标MIDI音频对应的目标频域参数,其中所述初始频域参数包括所述语音数据的初始相位,所述目标频域参数包括与所述目标MIDI音频对应的目标相位;
根据所述目标频域参数对所述初始频域参数进行修改,将所述语音数据中的音高变换到所述目标MIDI音频中的目标音高,得到变调后的语音数据。
进一步的,获得语音数据的初始频域参数的步骤包括:
获取所述语音数据中与所述目标音高对应时间上的语音数据;
对与所述目标音高对应时间上的语音数据进行去零点漂移和预加重处理;
对经过去零点漂移和预加重处理的语音数据进行时频转换,得到所述语音数据每一帧的频域参数。
进一步的,对经过去零点漂移和预加重处理的语音数据进行时频转换的步骤包括:
计算所述语音数据中每一帧的帧移;
根据计算得到的帧移及预设的窗函数对所述语音数据进行分帧、加窗;
将分帧、加窗后的每一帧语音数据进行傅里叶变换,得到所述语音数据中每一帧的频域参数。
进一步的,计算所述语音数据中每一帧的帧移的步骤包括:
利用采样率除以目标频率得到每一帧的帧移,其中所述目标频率为所述目标MIDI音频的频率,目标频率采用以下公式计算得到:
其中,F为所述目标MIDI音频的目标频率,MIDINote为所述目标MIDI音频包括的音高值。
进一步的,所述目标MIDI音频记录有声音的目标频率,获得与预设的目标MIDI音频对应的目标频域参数的步骤包括:
生成与所述目标频率相同音高的,且与该目标频率对应的语音数据等时长的目标波形;
提取所述目标波形的相位值,作为所述目标频域参数;
相应的,根据所述目标MIDI音频的频域参数对所述语音数据的频域参数进行修改的步骤包括:
将所述语音数据中与该目标波形对应位置的语音数据的相位值替换为所述目标波形的相位值,得到变调后的语音数据的频域参数;
对变调后的语音数据的频域参数进行逆傅里叶变换,并通过OLA重叠叠加算法处理后得到变调后的语音数据。
本发明还提供了一种语音数据处理装置,包括:
数据获取模块,用于获取语音数据及目标MIDI音频,所述语音数据包括与所述目标MIDI音频对齐后的语音;
语音数据处理模块,用于获得所述语音数据的初始频域参数;
目标MIDI音频处理模块,获得与预设的目标MIDI音频对应的目标频域参数,其中所述初始频域参数包括所述语音数据的初始相位,所述目标频域参数包括与所述目标MIDI音频对应的目标相位;
变调模块,用于根据所述目标频域参数对所述初始频域参数进行修改,将所述语音数据中的音高变换到所述目标MIDI音频中的目标音高,得到变调后的语音数据。
进一步的,所述语音数据处理模块获得语音数据的初始频域参数的方法包括:
对所述语音数据进行去零点漂移和预加重处理;
对经过去零点漂移和预加重处理的语音数据进行时频转换,得到所述语音数据每一帧的频域参数。
进一步的,所述语音数据处理模块对经过去零点漂移和预加重处理的语音数据进行时频转换的步骤包括:
计算所述语音数据中每一帧的帧移;
根据计算得到的帧移及预设的窗函数对所述语音数据进行分帧、加窗;
将分帧、加窗后的每一帧语音数据进行傅里叶变换,得到所述语音数据中每一帧的频域参数。
进一步的,所述语音数据处理模块计算所述语音数据中每一帧的帧移的步骤包括:
利用采样率除以目标频率得到每一帧的帧移,其中所述目标频率为所述目标MIDI音频的频率,目标频率采用以下公式计算得到:
其中F为所述目标MIDI音频的目标频率,MIDINote为所述目标MIDI音频包括的音高值。
进一步的,所述目标MIDI音频记录有声音的目标频率,所述目标MIDI音频处理模块获得与预设的目标MIDI音频对应的目标频域参数的方法包括:
生成与所述目标频率相同音高的,且与该目标频率对应的语音数据等时长的目标波形;
提取所述目标波形的相位值,作为所述目标频域参数;
相应的,所述变调模块根据所述目标MIDI音频的频域参数对所述语音数据的频域参数进行修改的方法包括:
将所述语音数据中与该目标波形对应位置的语音数据的相位值替换为所述目标波形的相位值,得到变调后的语音数据的频域参数;
对变调后的语音数据的频域参数进行逆傅里叶变换,并通过OLA重叠叠加算法处理后得到变调后的语音数据。
本发明还提供了一种电子设备,所述电子设备包括:处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行以下操作:
获取语音数据及目标MIDI音频,所述语音数据包括与所述目标MIDI音频对齐后的语音;
获得所述语音数据的初始频域参数;
获得与预设的目标MIDI音频对应的目标频域参数,其中所述初始频域参数包括所述语音数据的初始相位,所述目标频域参数包括与所述目标MIDI音频对应的目标相位;
根据所述目标频域参数对所述初始频域参数进行修改,将所述语音数据中的音高变换到所述目标MIDI音频中的目标音高,得到变调后的语音数据。
本发明还提供了一种可读存储介质,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在电子设备执行权利要求1-5中任意一项所述的语音数据处理方法。
本申请实施例可以使语音数据中的语音具有目标MIDI音频的频域参数,使变调后的语音数据可以具有目标MIDI音频的音高特征,实现对语音数据的变调操作,可以实现不改变语音数据中语速和语音时长的情况下,对语音数据进行变调。变调后的语音数据的相位连续,不会出现噪音,同时能够避免出现机械音,变调效果更好。可以应用于歌曲中音高的修正,或人声到歌声的转换等,在声音处理领域具有较高的应用前景。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的电子设备的方框示意图。
图2为本发明实施例提供的一种语音数据处理方法的流程示意图。
图3为本发明实施例提供的一种语音数据处理方法中步骤S102的子步骤的流程示意图。
图4为本发明实施例提供的一种语音数据处理方法中步骤S103的子步骤的流程示意图。
图5为本发明实施例提供的一种语音数据处理装置的功能模块示意图。
图标:100-电子设备;111-存储器;112-存储控制器;113-处理器;300-语音数据处理装置;310-数据获取模块;320-语音数据处理模块;330-目标MIDI音频处理模块;340-变调模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
目前已有的变调方法主要可以分为两大类:一类是时域插值拼接的方法,例如同步累叠相加固定合成法(synchronized overlap-add fixed synthesis,SOLA-FS);另一类是频域处理法,常被称为相位声码器(phase vocoder)。时域处理方法的优点是计算量小,而且变调结果的自然度较好,但由于拼接处理会带来相位的不连续,产生噪音;频域方法需要进行时频转换、相位估计等,需要较大的运算量且变调后的语音会存在机械音。
请参照图1,是本发明较佳实施例提供的的一种电子设备100的方框示意图。所述电子设备100可以包括语音数据处理装置300、存储器111、存储控制器112及处理器113。
所述存储器111、存储控制器112及处理器113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述语音数据处理装置300可以包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述电子设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器113用于执行所述存储器111中存储的可执行模块,例如所述语音数据处理装置300所包括的软件功能模块及计算机程序等。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序。所述处理器113以及其他可能的组件对存储器111的访问可在所述存储控制器112的控制下进行。
所述处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供了一种语音数据处理方法,可以实现对语音数据的变调,可以应用于上述电子设备100,如图2所示,该方法包括以下步骤。
步骤S101,获取语音数据及目标MIDI音频,所述语音数据包括与所述目标MIDI音频对齐后的语音。
步骤S102,获得语音数据的初始频域参数。
本申请实施例中的语音数据可以是一段语音,也可以是一段歌曲,本申请实施例并不限定语音数据的时长和内容,该语音数据可以根据实际需要选择确定。本申请实施例通过对语音数据的处理实现对语音数据中语音的变调,计算得到的初始频域参数可以是语音数据中每一帧数据的初始频域参数,也可以仅计算需要变调的帧的频域参数,在本申请实施例中,语音数据的初始频域参数可以包括语音数据中声音的相位和幅度。
本申请实施例中的变调是指改变语音数据中声音的音高,将某一帧语音的音高改变为需要的音高。
如图3所示,获得语音数据的初始频域参数的步骤可以包括以下子步骤。
子步骤S1021,对所述语音数据进行去零点漂移和预加重处理。
子步骤S1022,对经过去零点漂移和预加重处理的语音数据进行时频转换,得到所述语音数据每一帧的频域参数。
由于语音数据会存在零点漂移的情况,通过去零点漂移可以改善零点漂移的情况。同时语音数据会受口唇辐射的影响,通过预加重可以对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。去零点漂移和预加重处理可以采用以下公式进行计算。
x(n)=x(n)-mean_x
其中x(n)为第n点对应的采样值,为去零点漂移后的输出值,mean_x为计算得到的该段语音的时域幅度的均值。
预加重可以通过一阶FIR高通滤波器来实现。具体计算公式如下。
y(n)=x(n)-ax(n-1)
其中y(n)为预处理后的输出,x(n)为未经预处理的音频,a为预加重系数,一般取0.9~1.0,可选的,a取0.98。
对经过去零点漂移和预加重处理的语音数据进行时频转换的方法可以包括以下三个步骤。
首先,计算所述语音数据中每一帧的帧移。
再次,根据计算得到的帧移及预设的窗函数对所述语音数据进行分帧、加窗。
然后,将分帧、加窗后的每一帧语音数据进行傅里叶变换,得到所述语音数据中每一帧的频域参数。
计算所述语音数据中每一帧的帧移可以利用采样率除以目标频率得到每一帧的帧移,其中所述目标频率为所述目标MIDI音频的频率,采用以下公式计算得到:
其中F为对应的频率音高,MIDINote为目标MIDI音频文件包括的音高值。要想提高一个八度可以将数值110替换成220。
语音信号是一种随时间而变化的信号,然而发声器官的状态变化速度较声音振动的速度要缓慢的多。我们可以认为在很短的时间内语音信号是平稳的,即短时平稳性。这样我们可以将语音进行分帧然后进行分析。一般帧长为10~30毫秒,帧与帧之间有帧叠。加窗主要有两个作用:一是使信号全局更加连续,避免出现吉布斯效应。二是使原本没有周期性的语音信号呈现出周期函数的部分特征。可以采用窗函数进行加窗处理,下面列举几种窗函数。
矩形窗函数如下:
汉明窗函数如下:
汉宁窗函数如下:
其中N为窗长。通过上述窗函数实现对语音数据的加窗处理。
通过上述方法可以获得语音数据的初始频域参数。
步骤S103,获得与预设的目标MIDI音频对应的目标频域参数。
本申请实施例中的目标MIDI音频可以包括语音数据需要变调后的音高信息,该目标MIDI音频可以是一段与语音数据等时长的数据,该目标MIDI音频可以作为语音数据变调的基准。可以理解的是,可以先确定需要变调的语音数据,再确定作为变调基准的目标MIDI音频。也可以先确定目标MIDI音频,再根据目标MIDI音频的时长选择等时长的语音数据。
在本申请实施例中,目标MIDI音频可以是MIDI(Musical instrument DigitalInterface)格式的文件,其中包含有以时间为基准不同时间点的音高信息,及不同音高持续的时长,以及不同音高的起始和终止时间点。通过确定目标MIDI音频的音高信息,可以确定语音数据需要变调到的音高。并且根据音高和频率的转换关系,可以确定不同音高对应的频率。
可以理解的是,在获得语音数据和目标MIDI音频的过程中,可以先确定需要变调的起始位置和对应的需要变调到的目标音高。
详细的,如图4所示,目标MIDI音频的目标频域参数可以通过以下子步骤确定。
子步骤S1031,生成与所述目标频率相同音高的,且与该目标频率对应的语音数据等时长的目标波形。
所述目标波形的频率与所述目标MIDI音频中的预设目标频率的频率相同,所述目标波形的时长与该预设目标频率对应的语音数据的时长相等。
如前所述,目标MIDI音频中包含有不同的音高信息,通过音高和频率的转换关系,可以确定不同的音高对应的频率,这些频率即为目标MIDI音频包含的预设目标频率。生成的目标波形的频率与目标MIDI音频中的预设目标频率的频率相同,在一个目标MIDI音频中可以包含有多个预设目标频率,可以分别生成与多个预设目标频率相对应的目标波形,并且目标波形的时长与语音数据中相应位置的语音的时长分别相等。
目标波形可以根据实际需要确定,例如可以生成正弦波或者正弦波的变形作为目标波形。由于人类的声带是直接生成正弦波的声音,且在说话时声带的振动与弦类的波形类似。在对语音数据中的所有进行变调操作时,可以针对不同时间点的语音进行针对性的波形选择。可以选择正弦波作为所有时间点的语音变调的目标波形,也可以针对不同时间点的语音数据生成不同的目标波形。不同的目标波形可以对应不同的音色,使得人类听觉感受也不同。
详细的,可以通过下面的方法生成目标波形。
首先,获取一个目标波形在目标音高时对应的采样点数。通过如下公式计算。
Len=Fs/F
其中Len为目标波形一个周期对应的采样点数,Fs为采样率,F为目标频率。
然后,计算采样间隔。
delta1=(4*π)/Len
delta2=(2*π)/Len
再计算不同目标波形对应的采样值。参考音色1可表示为:
y[n]=(sin(-3*π+n*delta1))/(-3*π+n*delta1)
参考音色2可表示为:
y[n]=(sin(n*delta2)+abs(sin(n*delta2))*alpha)/(1+alpha)
其中y为波形一个周期对应的所有采样值,n为采样点,0≤n<Len,abs()为求绝对值,alpha大于0小于1。通过重复一个周期的数据多次后,即可获得与目标语音等长度的波形采样值数据。
子步骤S1032,提取所述目标波形的相位值。
生成对应的目标波形后,可以先对目标波形进行分帧、加窗处理,使目标波形的帧长与语音数据的帧长保持一致,再进行短时傅里叶变换,提取每一帧目标波形变换后对应的相位值,作为目标MIDI音频的目标频域参数。
步骤S104,根据所述目标频域参数对所述初始频域参数进行修改,将所述语音数据中的音高变换到所述目标MIDI音频中的目标音高,得到变调后的语音数据。
通过上述步骤得到了目标频域参数后,就可以将语音数据的初始频域参数替换为目标频域参数,实现对初始频域参数的修改。具体的,将语音数据的初始相位替换为对应的目标波形的相位值。由于语音数据中包含有清音和浊音,而清音不具有周期性,如果对清音对应的初始相位也进行相位值替换,就会使变调后的结果变差。本申请实施例中的相位值的替换可以仅针对浊音对应的音帧,不对清音的相位值进行替换,清音对应的语音数据仍然使用原有的相位值。
详细的,可以先将所述语音数据中与所述目标波形对应位置的语音数据的相位值替换为所述目标波形的相位值,得到变调后的语音数据的频域参数。
对变调后的语音数据的频域参数进行逆傅里叶变换,并通过OLA(Overlap-and-Add)重叠叠加算法处理后得到变调后的语音数据。变调后的语音数据就可以进行输出、保存等其他操作。
本申请实施例还提供了一种语音数据处理装置300,如图5所示,包括:
数据获取模块310,用于获取语音数据及目标MIDI音频,所述语音数据包括与所述目标MIDI音频对齐后的语音;
语音数据处理模块320,用于获得所述语音数据的初始频域参数;
目标MIDI音频处理模块330,获得与预设的目标MIDI音频对应的目标频域参数,其中所述初始频域参数包括所述语音数据的初始相位,所述目标频域参数包括与所述目标MIDI音频对应的目标相位;
变调模块340,用于根据所述目标频域参数对所述初始频域参数进行修改,将所述语音数据中的音高变换到所述目标MIDI音频中的目标音高,得到变调后的语音数据。
可以理解的是,所述语音数据处理模块320获得语音数据的初始频域参数的方法包括:
对所述语音数据进行去零点漂移和预加重处理;
对经过去零点漂移和预加重处理的语音数据进行时频转换,得到所述语音数据每一帧的频域参数。
在本实施例中,所述语音数据处理模块320对经过去零点漂移和预加重处理的语音数据进行时频转换的步骤包括:
计算所述语音数据中每一帧的帧移;
根据计算得到的帧移及预设的窗函数对所述语音数据进行分帧、加窗;
将分帧、加窗后的每一帧语音数据进行傅里叶变换,得到所述语音数据中每一帧的频域参数。
在本实施例中,所述语音数据处理模块320计算所述语音数据中每一帧的帧移的步骤包括:
利用采样率除以目标频率得到每一帧的帧移,其中所述目标频率为所述目标MIDI音频的频率,目标频率采用以下公式计算得到:
其中F为所述目标MIDI音频的目标频率,MIDINote为所述目标MIDI音频包括的音高值。
在本实施例中,所述目标MIDI音频记录有声音的目标频率,所述变调模块340根据所述目标MIDI音频的频域参数对所述语音数据的频域参数进行修改的方法包括:
生成与所述目标频率相同音高的,且与该目标频率对应的语音数据等时长的目标波形;
提取所述目标波形的相位值;
将所述语音数据中与该目标波形对应位置的语音数据的相位值替换为所述目标波形的相位值,得到变调后的语音数据的频域参数;
对变调后的语音数据的频域参数进行逆傅里叶变换,并通过OLA重叠叠加算法处理后得到变调后的语音数据。
本申请实施例中根据目标MIDI音频生成与语音数据对应的目标波形,并且目标波形是基于目标MIDI音频包含的音高信息进行生成的,再使用目标波形的相位值替换语音数据中的语音的相位值。使得语音数据的频域参数被修改为与目标MIDI音频对应的频域参数,使语音数据具有目标MIDI音频的音高特征,实现对语音数据的变调处理。本申请实施例通过相位值的替换,并没有将语音数据的相位值置零,在实现变调的同时,可以避免出现相位不连续和机械音的情况。同时通过使用目标波形对语音数据相位值的替换,使得变调后的语音数据可以具有目标波形的声音效果,使变调后的语音具有目标波形的音色性质。
综上所述,通过利用目标MIDI音频的频域参数对语音数据的频域参数进行修改,可以使语音数据中的语音具有目标MIDI音频的频域参数,使变调后的语音数据可以具有目标MIDI音频的音高特征,实现对语音数据的变调操作,可以实现不改变语音数据中语速和语音时长的情况下,对语音数据进行变调。变调后的语音数据的相位连续,不会出现噪音,同时能够避免出现机械音,变调效果更好。可以应用于歌曲中音高的修正,或人声到歌声的转换等,在声音处理领域具有较高的应用前景。
本方法是在传统的基于零相位的变调算法上进行改进得到的,通过加入同频率的波形对应的相位值,改善了相位不连续与机械音的情况。同时在原语音上加入了添加波形的一些音色信息,这样就可以通过添加不同的波形获得不同的变调结果,增加了变调的多样性。在应用中可以通过让用户自选波形的方式,使每个用户获得个性化的变调结果,具有较好的实用背景。本方法相比于传统的基于零相位的方法对机械音的情况有了较好的改善,相比于传统的时域方法在相位连续性上也有了较为明显的提升。
本申请实施例提供的方法还可以与语音变速方法结合,并且可以结合混音技术将变调后的干声与背景乐结合实现歌声的自动合成。由于本方法中的变调算法可以实现个性化的变调,所以本方法在歌声合成是可以实现个性化的歌声合成。可以通过不同的添加波形来控制不同的歌声合成输出,波形为用户可选的,这样用户可以根据自己的喜好选择不同的效果,增加了本方法的实用性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (12)
1.一种语音数据处理方法,其特征在于,包括:
获取语音数据及目标MIDI音频,所述语音数据包括与所述目标MIDI音频对齐后的语音;
获得所述语音数据的初始频域参数;
获得与预设的目标MIDI音频对应的目标频域参数,其中所述初始频域参数包括所述语音数据的初始相位,所述目标频域参数包括与所述目标MIDI音频对应的目标相位;
根据所述目标频域参数对所述初始频域参数进行修改,将所述语音数据中的音高变换到所述目标MIDI音频中的目标音高,得到变调后的语音数据。
2.根据权利要求1所述的语音数据处理方法,其特征在于,获得语音数据的初始频域参数的步骤包括:
获取所述语音数据中与所述目标音高对应时间上的语音数据;
对与所述目标音高对应时间上的语音数据进行去零点漂移和预加重处理;
对经过去零点漂移和预加重处理的语音数据进行时频转换,得到所述语音数据每一帧的频域参数。
3.根据权利要求2所述的语音数据处理方法,其特征在于,对经过去零点漂移和预加重处理的语音数据进行时频转换的步骤包括:
计算所述语音数据中每一帧的帧移;
根据计算得到的帧移及预设的窗函数对所述语音数据进行分帧、加窗;
将分帧、加窗后的每一帧语音数据进行傅里叶变换,得到所述语音数据中每一帧的频域参数。
4.根据权利要求3所述的语音数据处理方法,其特征在于,计算所述语音数据中每一帧的帧移的步骤包括:
利用采样率除以目标频率得到每一帧的帧移,其中所述目标频率为所述目标MIDI音频的频率,目标频率采用以下公式计算得到:
其中,F为所述目标MIDI音频的目标频率,MIDINote为所述目标MIDI音频包括的音高值。
5.根据权利要求1所述的语音数据处理方法,其特征在于,所述目标MIDI音频记录有声音的目标频率,获得与预设的目标MIDI音频对应的目标频域参数的步骤包括:
生成与所述目标频率相同音高的,且与该目标频率对应的语音数据等时长的目标波形;
提取所述目标波形的相位值,作为所述目标频域参数;
相应的,根据所述目标MIDI音频的频域参数对所述语音数据的频域参数进行修改的步骤包括:
将所述语音数据中与该目标波形对应位置的语音数据的相位值替换为所述目标波形的相位值,得到变调后的语音数据的频域参数;
对变调后的语音数据的频域参数进行逆傅里叶变换,并通过OLA重叠叠加算法处理后得到变调后的语音数据。
6.一种语音数据处理装置,其特征在于,包括:
数据获取模块,用于获取语音数据及目标MIDI音频,所述语音数据包括与所述目标MIDI音频对齐后的语音;
语音数据处理模块,用于获得所述语音数据的初始频域参数;
目标MIDI音频处理模块,获得与预设的目标MIDI音频对应的目标频域参数,其中所述初始频域参数包括所述语音数据的初始相位,所述目标频域参数包括与所述目标MIDI音频对应的目标相位;
变调模块,用于根据所述目标频域参数对所述初始频域参数进行修改,将所述语音数据中的音高变换到所述目标MIDI音频中的目标音高,得到变调后的语音数据。
7.根据权利要求6所述的语音数据处理装置,其特征在于,所述语音数据处理模块获得语音数据的初始频域参数的方法包括:
对所述语音数据进行去零点漂移和预加重处理;
对经过去零点漂移和预加重处理的语音数据进行时频转换,得到所述语音数据每一帧的频域参数。
8.根据权利要求7所述的语音数据处理装置,其特征在于,所述语音数据处理模块对经过去零点漂移和预加重处理的语音数据进行时频转换的步骤包括:
计算所述语音数据中每一帧的帧移;
根据计算得到的帧移及预设的窗函数对所述语音数据进行分帧、加窗;
将分帧、加窗后的每一帧语音数据进行傅里叶变换,得到所述语音数据中每一帧的频域参数。
9.根据权利要求7所述的语音数据处理装置,其特征在于,所述语音数据处理模块计算所述语音数据中每一帧的帧移的步骤包括:
利用采样率除以目标频率得到每一帧的帧移,其中所述目标频率为所述目标MIDI音频的频率,目标频率采用以下公式计算得到:
其中F为所述目标MIDI音频的目标频率,MIDINote为所述目标MIDI音频包括的音高值。
10.根据权利要求6所述的语音数据处理装置,其特征在于,所述目标MIDI音频记录有声音的目标频率,所述目标MIDI音频处理模块获得与预设的目标MIDI音频对应的目标频域参数的方法包括:
生成与所述目标频率相同音高的,且与该目标频率对应的语音数据等时长的目标波形;
提取所述目标波形的相位值,作为所述目标频域参数;
相应的,所述变调模块根据所述目标MIDI音频的频域参数对所述语音数据的频域参数进行修改的方法包括:
将所述语音数据中与该目标波形对应位置的语音数据的相位值替换为所述目标波形的相位值,得到变调后的语音数据的频域参数;
对变调后的语音数据的频域参数进行逆傅里叶变换,并通过OLA重叠叠加算法处理后得到变调后的语音数据。
11.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行以下操作:
获取语音数据及目标MIDI音频,所述语音数据包括与所述目标MIDI音频对齐后的语音;
获得所述语音数据的初始频域参数;
获得与预设的目标MIDI音频对应的目标频域参数,其中所述初始频域参数包括所述语音数据的初始相位,所述目标频域参数包括与所述目标MIDI音频对应的目标相位;
根据所述目标频域参数对所述初始频域参数进行修改,将所述语音数据中的音高变换到所述目标MIDI音频中的目标音高,得到变调后的语音数据。
12.一种可读存储介质,所述可读存储介质包括计算机程序,其特征在于,所述计算机程序运行时控制所述可读存储介质所在电子设备执行权利要求1-5中任意一项所述的语音数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810049575.0A CN108269579B (zh) | 2018-01-18 | 2018-01-18 | 语音数据处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810049575.0A CN108269579B (zh) | 2018-01-18 | 2018-01-18 | 语音数据处理方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108269579A true CN108269579A (zh) | 2018-07-10 |
CN108269579B CN108269579B (zh) | 2020-11-10 |
Family
ID=62776086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810049575.0A Active CN108269579B (zh) | 2018-01-18 | 2018-01-18 | 语音数据处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108269579B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697985A (zh) * | 2018-12-25 | 2019-04-30 | 广州市百果园信息技术有限公司 | 语音信号处理方法、装置及终端 |
CN111739544A (zh) * | 2019-03-25 | 2020-10-02 | Oppo广东移动通信有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN112309425A (zh) * | 2020-10-14 | 2021-02-02 | 浙江大华技术股份有限公司 | 一种声音变调方法、电子设备及计算机可读存储介质 |
CN112420062A (zh) * | 2020-11-18 | 2021-02-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信号处理方法及设备 |
CN114255774A (zh) * | 2021-12-20 | 2022-03-29 | 咪咕音乐有限公司 | 音调调整方法、装置、设备及存储介质 |
CN114449339A (zh) * | 2022-02-16 | 2022-05-06 | 深圳万兴软件有限公司 | 背景音效的转换方法、装置、计算机设备及存储介质 |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1164084A (zh) * | 1995-12-28 | 1997-11-05 | 日本胜利株式会社 | 音调转换装置 |
CN1283060A (zh) * | 1999-07-28 | 2001-02-07 | 雅马哈株式会社 | 发音控制装置以及使用它的携带用终端装置及系统 |
CN1470050A (zh) * | 2000-10-20 | 2004-01-21 | ����ɭ�绰�ɷ�����˾ | 可感知地改善的编码声信号的增强 |
CN1473325A (zh) * | 2001-08-31 | 2004-02-04 | ��ʽ���罨�� | 基音波形信号发生设备、基音波形信号发生方法及程序 |
CN101015451A (zh) * | 2007-02-13 | 2007-08-15 | 电子科技大学 | 一种音乐脑电分析方法 |
CN101267686A (zh) * | 2007-03-12 | 2008-09-17 | 雅马哈株式会社 | 扬声器阵列设备及其信号处理方法 |
CN101354889A (zh) * | 2008-09-18 | 2009-01-28 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
CN101652807A (zh) * | 2007-02-01 | 2010-02-17 | 缪斯亚米有限公司 | 音乐转录 |
CN1831940B (zh) * | 2006-04-07 | 2010-06-23 | 安凯(广州)微电子技术有限公司 | 基于音频解码器的音调和节奏调节方法 |
CN101894563A (zh) * | 2010-07-15 | 2010-11-24 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
KR20120061008A (ko) * | 2010-11-02 | 2012-06-12 | 에스케이 텔레콤주식회사 | 오디오 신호의 변형을 통한 데이터 전달 통신의 음질 개선 시스템 및 방법, 그리고 이에 적용되는 장치 |
CN102870153A (zh) * | 2010-02-26 | 2013-01-09 | 弗兰霍菲尔运输应用研究公司 | 用于利用谐波锁定修改音频信号的装置和方法 |
CN102934163A (zh) * | 2010-06-01 | 2013-02-13 | 高通股份有限公司 | 用于宽带语音编码的系统、方法、设备和计算机程序产品 |
CN103514883A (zh) * | 2013-09-26 | 2014-01-15 | 华南理工大学 | 一种自适应实现男女声切换方法 |
US20140187210A1 (en) * | 2012-12-28 | 2014-07-03 | Cellco Partnership D/B/A Verizon Wireless | Filtering and enhancement of voice calls in a telecommunications network |
CN104409073A (zh) * | 2014-11-04 | 2015-03-11 | 贵阳供电局 | 一种变电设备声音与语音的识别方法 |
CN104599677A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院上海高等研究院 | 基于语音重建的瞬态噪声抑制方法 |
CN104780091A (zh) * | 2014-01-13 | 2015-07-15 | 北京发现角科技有限公司 | 一种具有语音音频处理功能的即时通信方法和系统 |
CN105654941A (zh) * | 2016-01-20 | 2016-06-08 | 华南理工大学 | 一种基于指向目标人变声比例参数的语音变声方法及装置 |
CN105788589A (zh) * | 2016-05-04 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
CN106228973A (zh) * | 2016-07-21 | 2016-12-14 | 福州大学 | 稳定音色的音乐语音变调方法 |
CN106297770A (zh) * | 2016-08-04 | 2017-01-04 | 杭州电子科技大学 | 基于时频域统计特征提取的自然环境声音识别方法 |
EP3113175A1 (en) * | 2015-07-02 | 2017-01-04 | Thomson Licensing | Method for converting text to individual speech, and apparatus for converting text to individual speech |
CN106328111A (zh) * | 2016-08-22 | 2017-01-11 | 广州酷狗计算机科技有限公司 | 音频处理方法及装置 |
CN107170464A (zh) * | 2017-05-25 | 2017-09-15 | 厦门美图之家科技有限公司 | 一种基于音乐节奏的语音变速方法及计算设备 |
-
2018
- 2018-01-18 CN CN201810049575.0A patent/CN108269579B/zh active Active
Patent Citations (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1135531C (zh) * | 1995-12-28 | 2004-01-21 | 日本胜利株式会社 | 音调转换装置 |
CN1164084A (zh) * | 1995-12-28 | 1997-11-05 | 日本胜利株式会社 | 音调转换装置 |
CN1283060A (zh) * | 1999-07-28 | 2001-02-07 | 雅马哈株式会社 | 发音控制装置以及使用它的携带用终端装置及系统 |
CN1470050A (zh) * | 2000-10-20 | 2004-01-21 | ����ɭ�绰�ɷ�����˾ | 可感知地改善的编码声信号的增强 |
CN1473325A (zh) * | 2001-08-31 | 2004-02-04 | ��ʽ���罨�� | 基音波形信号发生设备、基音波形信号发生方法及程序 |
CN1831940B (zh) * | 2006-04-07 | 2010-06-23 | 安凯(广州)微电子技术有限公司 | 基于音频解码器的音调和节奏调节方法 |
CN101652807A (zh) * | 2007-02-01 | 2010-02-17 | 缪斯亚米有限公司 | 音乐转录 |
CN101015451A (zh) * | 2007-02-13 | 2007-08-15 | 电子科技大学 | 一种音乐脑电分析方法 |
CN101267686A (zh) * | 2007-03-12 | 2008-09-17 | 雅马哈株式会社 | 扬声器阵列设备及其信号处理方法 |
CN101354889A (zh) * | 2008-09-18 | 2009-01-28 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
CN102870153A (zh) * | 2010-02-26 | 2013-01-09 | 弗兰霍菲尔运输应用研究公司 | 用于利用谐波锁定修改音频信号的装置和方法 |
CN102934163A (zh) * | 2010-06-01 | 2013-02-13 | 高通股份有限公司 | 用于宽带语音编码的系统、方法、设备和计算机程序产品 |
CN101894563B (zh) * | 2010-07-15 | 2013-03-20 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN101894563A (zh) * | 2010-07-15 | 2010-11-24 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
KR20120061008A (ko) * | 2010-11-02 | 2012-06-12 | 에스케이 텔레콤주식회사 | 오디오 신호의 변형을 통한 데이터 전달 통신의 음질 개선 시스템 및 방법, 그리고 이에 적용되는 장치 |
US20140187210A1 (en) * | 2012-12-28 | 2014-07-03 | Cellco Partnership D/B/A Verizon Wireless | Filtering and enhancement of voice calls in a telecommunications network |
CN103514883A (zh) * | 2013-09-26 | 2014-01-15 | 华南理工大学 | 一种自适应实现男女声切换方法 |
CN103514883B (zh) * | 2013-09-26 | 2015-12-02 | 华南理工大学 | 一种自适应实现男女声切换方法 |
CN104780091A (zh) * | 2014-01-13 | 2015-07-15 | 北京发现角科技有限公司 | 一种具有语音音频处理功能的即时通信方法和系统 |
CN104409073A (zh) * | 2014-11-04 | 2015-03-11 | 贵阳供电局 | 一种变电设备声音与语音的识别方法 |
CN104599677A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院上海高等研究院 | 基于语音重建的瞬态噪声抑制方法 |
EP3113175A1 (en) * | 2015-07-02 | 2017-01-04 | Thomson Licensing | Method for converting text to individual speech, and apparatus for converting text to individual speech |
CN105654941A (zh) * | 2016-01-20 | 2016-06-08 | 华南理工大学 | 一种基于指向目标人变声比例参数的语音变声方法及装置 |
CN105788589A (zh) * | 2016-05-04 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
CN106228973A (zh) * | 2016-07-21 | 2016-12-14 | 福州大学 | 稳定音色的音乐语音变调方法 |
CN106297770A (zh) * | 2016-08-04 | 2017-01-04 | 杭州电子科技大学 | 基于时频域统计特征提取的自然环境声音识别方法 |
CN106328111A (zh) * | 2016-08-22 | 2017-01-11 | 广州酷狗计算机科技有限公司 | 音频处理方法及装置 |
CN107170464A (zh) * | 2017-05-25 | 2017-09-15 | 厦门美图之家科技有限公司 | 一种基于音乐节奏的语音变速方法及计算设备 |
Non-Patent Citations (2)
Title |
---|
梅铁民: ""一种有效的语音变调算法研究"", 《沈阳理工大学学报》 * |
汪石农等: ""改进相位声码器的音频时长变换算法研究"", 《计算机工程与应用》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697985A (zh) * | 2018-12-25 | 2019-04-30 | 广州市百果园信息技术有限公司 | 语音信号处理方法、装置及终端 |
CN109697985B (zh) * | 2018-12-25 | 2021-06-29 | 广州市百果园信息技术有限公司 | 语音信号处理方法、装置及终端 |
CN111739544A (zh) * | 2019-03-25 | 2020-10-02 | Oppo广东移动通信有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN111739544B (zh) * | 2019-03-25 | 2023-10-20 | Oppo广东移动通信有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN112309425A (zh) * | 2020-10-14 | 2021-02-02 | 浙江大华技术股份有限公司 | 一种声音变调方法、电子设备及计算机可读存储介质 |
CN112420062A (zh) * | 2020-11-18 | 2021-02-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信号处理方法及设备 |
CN114255774A (zh) * | 2021-12-20 | 2022-03-29 | 咪咕音乐有限公司 | 音调调整方法、装置、设备及存储介质 |
CN114449339A (zh) * | 2022-02-16 | 2022-05-06 | 深圳万兴软件有限公司 | 背景音效的转换方法、装置、计算机设备及存储介质 |
CN114449339B (zh) * | 2022-02-16 | 2024-04-12 | 深圳万兴软件有限公司 | 背景音效的转换方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108269579B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108269579A (zh) | 语音数据处理方法、装置、电子设备及可读存储介质 | |
Serra et al. | Spectral modeling synthesis: A sound analysis/synthesis system based on a deterministic plus stochastic decomposition | |
JP6791258B2 (ja) | 音声合成方法、音声合成装置およびプログラム | |
Amatriain et al. | Spectral processing | |
Quatieri et al. | Audio signal processing based on sinusoidal analysis/synthesis | |
Schwarz et al. | Spectral envelope estimation, representation, and morphing for sound analysis, transformation, and synthesis. | |
Välimäki et al. | Creating endless sounds | |
Caetano et al. | A source-filter model for musical instrument sound transformation | |
WO2020162392A1 (ja) | 音信号合成方法およびニューラルネットワークの訓練方法 | |
WO2023086018A2 (en) | Differentiable wavetable synthesizer | |
JP2018077283A (ja) | 音声合成方法 | |
Cavaliere et al. | Granular synthesis of musical signals | |
Every | Separation of musical sources and structure from single-channel polyphonic recordings | |
CN112750422A (zh) | 一种歌声合成方法、装置及设备 | |
CN117953837A (zh) | 基于基频控制的歌声转换方法、装置、电子设备及存储介质 | |
JP2017219595A (ja) | 音楽生成法 | |
Lee et al. | Excitation signal extraction for guitar tones | |
Bonada et al. | Spectral approach to the modeling of the singing voice | |
US5911170A (en) | Synthesis of acoustic waveforms based on parametric modeling | |
JP2013015601A (ja) | 音源の識別装置および音源に連動する情報処理装置 | |
JP6683103B2 (ja) | 音声合成方法 | |
Rajan et al. | A continuous time model for Karnatic flute music synthesis | |
JP2018077281A (ja) | 音声合成方法 | |
Dai et al. | Efficient synthesis of violin sounds using a bilstm network based source filter model | |
JP2013041128A (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |