[go: up one dir, main page]

CN107871494A - 一种语音合成的方法、装置及电子设备 - Google Patents

一种语音合成的方法、装置及电子设备 Download PDF

Info

Publication number
CN107871494A
CN107871494A CN201610849422.5A CN201610849422A CN107871494A CN 107871494 A CN107871494 A CN 107871494A CN 201610849422 A CN201610849422 A CN 201610849422A CN 107871494 A CN107871494 A CN 107871494A
Authority
CN
China
Prior art keywords
parameters
audio
parameter
amplitude
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610849422.5A
Other languages
English (en)
Other versions
CN107871494B (zh
Inventor
宋阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610849422.5A priority Critical patent/CN107871494B/zh
Publication of CN107871494A publication Critical patent/CN107871494A/zh
Application granted granted Critical
Publication of CN107871494B publication Critical patent/CN107871494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种语音合成的方法、装置及电子设备,该语音合成的方法包括:从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。在上述技术方案中,通过音频压限和滤波处理使音频达到幅度更均衡及音频协调一致的效果,使得频谱参数达到与纯参数合成语音(非固定成分文本)的音色一致,再基于此固定成分文本的基频参数和频谱参数合成语音,其固定成分文本的音色与非固定成分文本一致,解决了现有技术中参数语音合成音色不一致的技术问题。

Description

一种语音合成的方法、装置及电子设备
技术领域
本发明涉及语音信号处理技术领域,特别涉及一种语音合成的方法、装置及电子设备。
背景技术
参数语音合成,是目前一种主流的语音合成技术。参数语音合成占用空间少、运算实时性高,在智能终端、嵌入式设备上广泛的应用前景。
参数语音时由合成文本完成,合成文本通常由固定不变成分(即固定成分文本)及可变参数成分(即非固定成分文本)构成。现有技术中,语音合成时将固定成分文本通过预先录制自然语音的方式获取部分语音片断,对可变成分文本执行语音合成得到另一语音片断,然后将两断语音片断信号拼接获取到最后的连续语音信号。由于,自然语音和电子设备合成的合成语音之间音色存在较大差异,导致固定成分文本采用自然语音、非固定成分文本采用合成语音进行拼接合成的语音存在音色不一致的问题。
可见,现有技术中参数语音合成存在音色不一致的技术问题。
发明内容
本发明实施例提供一种语音合成的方法、装置及电子设备,用于解决现有技术中参数语音合成存在音色不一致的技术问题。
本申请实施例提供一种语音合成的方法,所述方法包括:
从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;
根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;
在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
可选的,所述根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数,包括:
针对所述幅度参数进行归一化处理,并将归一化处理后的参数转换为分贝值序列;
针对所述分贝值序列进行音频压限处理;
对音频压限处理后的音频幅度进行幅度反归一化获得处理后的幅度参数;
根据所述处理后的幅度参数进行滤波处理获得所述频谱参数。
可选的,所述针对所述幅度参数进行归一化处理,包括:根据如下公式对所述幅度参数进行归一化处理,并获得归一处理后的参数y1
其中,scale表示归一化系数,y表示所述幅度参数,n表示所述固定成分文本音频的量化位数。
可选的,所述将归一化处理后的参数转换为分贝值序列,包括:
根据如下公式将所述归一化处理后的参数中的每一个点x1转换成对应的分贝值y2
y2=20*log10(abs(x1))
由所有的y2构成所述分贝值序列。
可选的,所述针对所述分贝值序列进行音频压限处理,包括:
通过如下公式对所述分贝值序列中的每一个分贝值进行处理:
其中,ratio表示压限比例,0<ratio<1,border表示压限的边界值,y2表示所述分值序列中的一个分贝值,y3表示压限获得的目标分贝值。
可选的,所述对音频压限处理后的目标分贝值进行幅度反归一化获得处理后的幅度参数,包括:
其中,scale表示归一化系数,y3表示压限获得的目标分贝值,y4表示反归一化获得的幅度参数中的一个参数,n表示所述固定成分文本音频的量化位数。
可选的,所述根据所述处理后的幅度参数进行滤波处理获得所述频谱参数,包括:
对所述处理后的幅度参数进行频谱包络参数的提取,并对提取的频谱包络参数进行滤波操作;
对滤波后的频谱包络参数进行梅尔倒谱或者线谱对参数的提取;
将提取的所述梅尔倒谱或者线谱对参数作为所述频谱参数。
可选的,所述在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音之后,所述方法还包括:
采用如下公式对合成的语音的音频序列的每一个点进行规整处理:
其中,ytts表示预设音频序列,Ynat表示合成的语音的音频序列,y′nat表示规整处理后的音频序列中的每一个点,ynat表示规整处理前的音频序列中的每一个点。
本申请实施例还提供一种语音合成的装置,包括:
提取单元,用于从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;
频谱获取单元,用于根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;
合成单元,用于在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
可选的,所述频谱获取单元,包括:
转换子单元,用于针对所述幅度参数进行归一化处理,并将归一化处理后的参数转换为分贝值序列;
压限子单元,用于针对所述分贝值序列进行音频压限处理;
所述转换子单元还用于,对音频压限处理后的音频幅度进行幅度反归一化获得处理后的幅度参数;
滤波子单元,用于根据所述处理后的幅度参数进行滤波处理获得所述频谱参数。
可选的,所述转换子单元,用于:根据如下公式对所述幅度参数进行归一化处理,并获得归一处理后的参数y1
其中,scale表示归一化系数,y表示所述幅度参数,n表示所述固定成分文本音频的量化位数。
可选的,所述转换子单元,还用于:
根据如下公式将所述归一化处理后的参数中的每一个点x1转换成对应的分贝值y2
y2=20*log10(abs(x1))
由所有的y2构成所述分贝值序列。
可选的,所述压限子单元,用于:通过如下公式对所述分贝值序列中的每一个分贝值进行处理:
其中,ratio表示压限比例,0<ratio<1,border表示压限的边界值,y2表示所述分值序列中的一个分贝值,y3表示压限获得的目标分贝值。
可选的,所述转换子单元还用于:通过如下公式处理获得幅度参数:
其中,scale表示归一化系数,y3表示压限获得的目标分贝值,y4表示反归一化获得的幅度参数中的一个参数,n表示所述固定成分文本音频的量化位数。
可选的,所述滤波子单元,用于:
对所述处理后的幅度参数进行频谱包络参数的提取,并对提取的频谱包络参数进行滤波操作;
对滤波后的频谱包络参数进行梅尔倒谱或者线谱对参数的提取;
将提取的所述梅尔倒谱或者线谱对参数作为所述频谱参数。
可选的,所述装置还包括:
规整单元,用于在基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音之后,采用如下公式对合成的语音的音频序列的每一个点进行规整处理:
其中,ytts表示预设音频序列,Ynat表示合成的语音的音频序列,y′nat表示规整处理后的音频序列中的每一个点,ynat表示规整处理前的音频序列中的每一个点。
本申请实施例还提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;
根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;
在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本申请实施例通过从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;根据提取的幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数,音频压限和滤波处理能够使音频达到幅度更均衡及音频协调一致的效果,从而获得的频谱参数能够达到与纯参数合成语音(非固定成分文本)的音色一致;为此,在合成语音时,基于待合成语音中的固定成分文本的上述基频参数和频谱参数合成语音,由于固定成分文本的音色与非固定成分文本一致,进而解决了现有技术中参数语音合成音色不一致的技术问题,并且,又因合成语音时采用了录音的基频参数,使得合成的语音韵律与自然语音一致,表现力更强,达到了保证合成语音音色整体一致的同时提高合成语音表现力的有益效果。
附图说明
图1为本申请实施例提供的一种语音合成的方法流程图;
图2为本申请实施例提供的一种语音合成装置的示意图;
图3为本申请实施例提供的用于实现语音合成方法的电子设备示意图。
具体实施方式
在本申请实施例提供的技术方案中,通过对固定成分文本的参数进行调整,频谱参数由录音中提取的幅度参数经过音频压限和滤波处理获得,使得其频谱参数与非固定成分文本的频谱参数一致,以解决现有技术中参数语音合成音色不一致的技术问题。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例
请参考图1,本申请实施例提供一种语音合成的方法,该方法包括:
S101:从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;
S102:根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;
S103:在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
在具体实施过程中,本申请实施例可以在合成语音之前,建立模板库,存储固定成分文本的基频参数和频谱参数。建立模板库时,对常用文本进行录音并从中提取固定成分文本,如对“开往蓉城的飞机即将起飞”的录音提取固定成分文本“飞机即将起飞”。针对固定成分文本的录音,执行S101从中提取固定成分文本音频的基频参数和幅度参数。
为了使固定成分文本的音色与非固定成分文本的音色一致,本申请实施例对提取的幅度参数进行处理,执行S102根据提取的幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数。可选地,具体可以通过如下步骤进行:
步骤1:针对所述幅度参数进行归一化处理,并将归一化处理后的参数转换为分贝值序列。可选的,可以根据如下公式一和公式二对提取的幅度参数进行归一化处理,并获得归一处理后的参数y1
其中,scale表示归一化系数,y表示幅度参数(即固定成分文本音频的幅度序列,包含多个幅度值),n表示所述固定成分文本音频的量化位数,abs表示取绝对值,max表示取最大值。由于幅度参数为多个幅度值组成的序列,每一个幅度值归一化后对应一个点,为此,归一化获得的y1中包含多个点。通过对幅度参数的归一化,保证后续对不同音频进行幅度操作时的效果一致。
进一步的,可以根据公式三,对归一化处理后的参数进行y1转换,将y1中的每一个点x1转换成对应的分贝值y2
y2=20*log10(abs(x1)) 公式三
由转换成获得的所有的y2构成提取的幅度参数的分贝值序列。
步骤2:针对转换获得的分贝值序列进行音频压限处理。音频压限处理可以通过音频压限器进行,本申请实施例并不限制音频压限器种类,下面以通过公式四为例,对转换获得的分贝值序列中的每一个分贝值进行处理:
其中,ratio表示压限比例,0<ratio<1,border表示压限的边界值,y2表示所述分值序列中的一个分贝值,y3表示压限获得的目标分贝值。在实际应用过程中,压限比例和压限边界值的大小可以由设计人员进行调节,根据经验一般设置ratio为0.7,border为-10。因为非固定成分文本的音频是基于统计模型预测,而统计模型具有平均化效应,而统计模型具有平均化效应其音量更均衡,通过音频压限处理,使得录音中较微小的声音大,较大的声音变小,使固定成分文本音频的声音之间的差别变小,使得固定成分文本的音频音量更均衡,达到与非固定成分文本音频的幅度一致的效果。
步骤3:对音频压限处理后的目标分贝值进行幅度反归一化获得处理后的幅度参数。具体的,可以根据公式五获得处理后的幅度参数:
其中,scale表示归一化系数,y3表示压限获得的目标分贝值,y4表示反归一化获得的幅度参数中的一个参数,n表示所述固定成分文本音频的量化位数。
步骤4:根据处理后的幅度参数进行滤波处理获得固定成分文本音频的频谱参数。具体的,可以先对处理后的幅度参数进行频谱包络参数的提取,并对提取的频谱包络参数进行滤波操作;接着,对滤波后的频谱包络参数进行梅尔倒谱或者线谱对参数的提取;然后,将提取的梅尔倒谱或者线谱对参数作为频谱参数。假设频谱包络为M维,总共T帧,针对提取的M*T矩阵进行滤波操作,本申请实施例在滤波过程中选择二维中值滤波,首先选取w1*w2的窗口(w1和w2可以根据实际情况调节,具体可以将w1设置为81、w2设置为5),在M*T的矩阵中,每一个点都用其附近w1*w2窗口内数值的中值来替换。滤波操作也可以采用二维均值滤波或其它滤波器,在此不再赘述。
可以将从录音中提取的固定成分文本音频的基频参数和处理获得的频谱参数存储到模板库中,以便于执行S103在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。具体的,在合成语音时,可以对待合成语音的文本进行分析,提取出固定成分文本和非固定成分文本,针对固定成分文本从模板库中提取对应固定成分文本的基频参数和频谱参数,再与非固定成分文本的基频参数和频谱参数一起,通过声码成器合成语音。
在具体实施过程中,针对合成的语音,固定成分文本对应的语音和非固定成分文本的语音,能量上存在不一致的问题,会出现音量忽大忽小的问题,为此,在本申请实施例的一种可选的实现方式中,还可以在合成语音后进行规整处理:采用公式六对合成的语音的音频序列的每一个点进行规整处理:
其中,ytts表示预设音频序列,可以为采用传统的语音合成系统合成出的语音,如固定成分文本和非固定成分文本的基频和频谱,通过统计模型预测,然后通过声码器合成出的语音;Ynat表示采用本申请实施例的方法合成的音频序列即规整处理前的音频序列,如:固定成分文本的基频和频谱均采用压限和滤波后获取的参数,然后通过声码器合成出的音频序列;y′nat表示规整处理后的音频序列中的每一个点,ynat表示规整处理前的音频序列中的每一个点。通过对合成语音进行规整,可以保证语音整体音量的一致。
在上述技术方案中,通过音频压限和频谱滤波,实现了自然语音即录音和参数合成语音的频谱一致,从而使其音色一致,与此同时,采用固定成分文本录音的基频参数,保证固定成分文本的韵律和自然语音一样,提高了合成语音的表现力,最后通过对合成语音的音量规整,保证了合成语音的音量一致。
请参考图2,基于上述实施例提供的一种语音合成的方法,本申请实施例还对应提供一种语音合成的装置,包括:
提取单元21,用于从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;
频谱获取单元22,用于根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;
合成单元23,用于在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
在具体实施过程中,所述频谱获取单元22可以包括:转换子单元、压限子单元及滤波子单元。转换子单元,用于针对所述幅度参数进行归一化处理,并将归一化处理后的参数转换为分贝值序列;压限子单元,用于针对所述分贝值序列进行音频压限处理;所述转换子单元还用于,对音频压限处理后的音频幅度进行幅度反归一化获得处理后的幅度参数;滤波子单元,用于根据所述处理后的幅度参数进行滤波处理获得所述频谱参数。
其中,所述转换子单元可以根据如下公式对所述幅度参数进行归一化处理,并获得归一处理后的参数y1
其中,scale表示归一化系数,y表示所述幅度参数,n表示所述固定成分文本音频的量化位数。
所述转换子单元,在获得归一化处理后的参数后,还可以:根据如下公式将所述归一化处理后的参数中的每一个点x1转换成对应的分贝值y2
y2=20*log10(abs(x1))
由所有的y2构成所述分贝值序列。
所述压限子单元可以用于:通过如下公式对所述分贝值序列中的每一个分贝值进行处理:
其中,ratio表示压限比例,0<ratio<1,border表示压限的边界值,y2表示所述分值序列中的一个分贝值,y3表示压限获得的目标分贝值。
进一步的,所述转换子单元还可以用于:通过如下公式处理获得幅度参数:
其中,scale表示归一化系数,y3表示压限获得的目标分贝值,y4表示反归一化获得的幅度参数中的一个参数,n表示所述固定成分文本音频的量化位数。
所述滤波子单元在获得频谱参数时,可以对所述处理后的幅度参数进行频谱包络参数的提取,并对提取的频谱包络参数进行滤波操作;对滤波后的频谱包络参数进行梅尔倒谱或者线谱对参数的提取;将提取的所述梅尔倒谱或者线谱对参数作为所述频谱参数。
在具体实施过程中,本申请实施例提供的语音合成的装置还可以包括:
规整单元24,用于在基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音之后,采用如下公式对合成的语音的音频序列的每一个点进行规整处理:
其中,ytts表示预设音频序列,Ynat表示合成的语音的音频序列,y′nat表示规整处理后的音频序列中的每一个点,ynat表示规整处理前的音频序列中的每一个点。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于实现语音合成的方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种语音合成的方法,从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音合成的方法,其特征在于,所述方法包括:
从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;
根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;
在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
2.如权利要求1所述的方法,其特征在于,所述根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数,包括:
针对所述幅度参数进行归一化处理,并将归一化处理后的参数转换为分贝值序列;
针对所述分贝值序列进行音频压限处理;
对音频压限处理后的音频幅度进行幅度反归一化获得处理后的幅度参数;
根据所述处理后的幅度参数进行滤波处理获得所述频谱参数。
3.如权利要求2所述的方法,其特征在于,所述针对所述幅度参数进行归一化处理,包括:
根据如下公式对所述幅度参数进行归一化处理,并获得归一处理后的参数y1
<mrow> <mi>s</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>e</mi> <mo>=</mo> <mfrac> <msup> <mn>2</mn> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mi>s</mi> <mo>(</mo> <mi>y</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
<mrow> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>e</mi> <mo>*</mo> <mi>y</mi> </mrow> <msup> <mn>2</mn> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> </mfrac> </mrow>
其中,scale表示归一化系数,y表示所述幅度参数,n表示所述固定成分文本音频的量化位数。
4.如权利要求2所述的方法,其特征在于,所述将归一化处理后的参数转换为分贝值序列,包括:
根据如下公式将所述归一化处理后的参数中的每一个点x1转换成对应的分贝值y2
y2=20*log10(abs(x1))
由所有的y2构成所述分贝值序列。
5.如权利要求2所述的方法,其特征在于,所述针对所述分贝值序列进行音频压限处理,包括:
通过如下公式对所述分贝值序列中的每一个分贝值进行处理:
<mrow> <msub> <mi>y</mi> <mn>3</mn> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mo>*</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mo>)</mo> </mrow> <mo>*</mo> <mi>b</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mi>e</mi> <mi>r</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>&gt;</mo> <mi>b</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mi>e</mi> <mi>r</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>y</mi> <mn>2</mn> </msub> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>&amp;le;</mo> <mi>b</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mi>e</mi> <mi>r</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,ratio表示压限比例,0<ratio<1,border表示压限的边界值,y2表示所述分值序列中的一个分贝值,y3表示压限获得的目标分贝值。
6.如权利要求2所述的方法,其特征在于,所述对音频压限处理后的目标分贝值进行幅度反归一化获得处理后的幅度参数,包括:
<mrow> <msub> <mi>y</mi> <mn>4</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>y</mi> <mn>3</mn> </msub> <mo>*</mo> <msup> <mn>2</mn> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> </mrow> <mrow> <mi>s</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>e</mi> </mrow> </mfrac> </mrow>
其中,scale表示归一化系数,y3表示压限获得的目标分贝值,y4表示反归一化获得的幅度参数中的一个参数,n表示所述固定成分文本音频的量化位数。
7.如权利要求2所述的方法,其特征在于,所述根据所述处理后的幅度参数进行滤波处理获得所述频谱参数,包括:
对所述处理后的幅度参数进行频谱包络参数的提取,并对提取的频谱包络参数进行滤波操作;
对滤波后的频谱包络参数进行梅尔倒谱或者线谱对参数的提取;
将提取的所述梅尔倒谱或者线谱对参数作为所述频谱参数。
8.如权利要求1~7任一所述的方法,其特征在于,所述在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音之后,所述方法还包括:
采用如下公式对合成的语音的音频序列的每一个点进行规整处理:
<mrow> <msubsup> <mi>y</mi> <mrow> <mi>n</mi> <mi>a</mi> <mi>t</mi> </mrow> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mi>s</mi> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>t</mi> <mi>t</mi> <mi>s</mi> </mrow> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mi>s</mi> <mo>(</mo> <msub> <mi>Y</mi> <mrow> <mi>n</mi> <mi>a</mi> <mi>t</mi> </mrow> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&amp;times;</mo> <msub> <mi>y</mi> <mrow> <mi>n</mi> <mi>a</mi> <mi>t</mi> </mrow> </msub> </mrow>
其中,ytts表示预设音频序列,Ynat表示合成的语音的音频序列,y′nat表示规整处理后的音频序列中的每一个点,ynat表示规整处理前的音频序列中的每一个点。
9.一种语音合成的装置,其特征在于,包括:
提取单元,用于从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;
频谱获取单元,用于根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;
合成单元,用于在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
10.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从固定成分文本的录音中提取固定成分文本音频的基频参数和幅度参数;
根据所述幅度参数进行音频压限和滤波处理,获得固定成分文本音频的频谱参数;
在合成语音时,基于待合成语音中的固定成分文本的基频参数和频谱参数合成语音。
CN201610849422.5A 2016-09-23 2016-09-23 一种语音合成的方法、装置及电子设备 Active CN107871494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610849422.5A CN107871494B (zh) 2016-09-23 2016-09-23 一种语音合成的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610849422.5A CN107871494B (zh) 2016-09-23 2016-09-23 一种语音合成的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107871494A true CN107871494A (zh) 2018-04-03
CN107871494B CN107871494B (zh) 2020-12-11

Family

ID=61751192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610849422.5A Active CN107871494B (zh) 2016-09-23 2016-09-23 一种语音合成的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107871494B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584859A (zh) * 2018-11-07 2019-04-05 上海指旺信息科技有限公司 语音合成方法及装置
CN110020616A (zh) * 2019-03-26 2019-07-16 深兰科技(上海)有限公司 一种目标识别方法及设备
CN110930977A (zh) * 2019-11-12 2020-03-27 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN111328008A (zh) * 2020-02-24 2020-06-23 广州市迪士普音响科技有限公司 一种基于扩声系统的声压级智能控制方法
CN111883103A (zh) * 2020-06-19 2020-11-03 马上消费金融股份有限公司 语音合成的方法及装置
WO2021051765A1 (zh) * 2019-09-17 2021-03-25 北京京东尚科信息技术有限公司 一种语音合成方法及装置、存储介质
CN113744716A (zh) * 2021-10-19 2021-12-03 北京房江湖科技有限公司 用于合成语音的方法和装置
CN113920983A (zh) * 2021-10-25 2022-01-11 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH037999A (ja) * 1989-06-05 1991-01-16 Matsushita Electric Works Ltd 音声出力装置
WO2000060575A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
CN1835075A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合自然样本挑选与声学参数建模的语音合成方法
CN1945691A (zh) * 2006-10-16 2007-04-11 安徽中科大讯飞信息科技有限公司 一种在语音合成系统中提升模板句合成效果的方法
US20080243511A1 (en) * 2006-10-24 2008-10-02 Yusuke Fujita Speech synthesizer
CN101471071A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种基于混合隐马尔可夫模型的语音合成系统
CN201422103Y (zh) * 2009-06-18 2010-03-10 安徽汇鑫电子有限公司 音频处理器
US20120053933A1 (en) * 2010-08-30 2012-03-01 Kabushiki Kaisha Toshiba Speech synthesizer, speech synthesis method and computer program product
CN103065619A (zh) * 2012-12-26 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
CN103247295A (zh) * 2008-05-29 2013-08-14 高通股份有限公司 用于频谱对比加强的系统、方法、设备及计算机程序产品
CN104485099A (zh) * 2014-12-26 2015-04-01 中国科学技术大学 一种合成语音自然度的提升方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH037999A (ja) * 1989-06-05 1991-01-16 Matsushita Electric Works Ltd 音声出力装置
WO2000060575A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
CN1835075A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合自然样本挑选与声学参数建模的语音合成方法
CN1945691A (zh) * 2006-10-16 2007-04-11 安徽中科大讯飞信息科技有限公司 一种在语音合成系统中提升模板句合成效果的方法
US20080243511A1 (en) * 2006-10-24 2008-10-02 Yusuke Fujita Speech synthesizer
CN101471071A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种基于混合隐马尔可夫模型的语音合成系统
CN103247295A (zh) * 2008-05-29 2013-08-14 高通股份有限公司 用于频谱对比加强的系统、方法、设备及计算机程序产品
CN201422103Y (zh) * 2009-06-18 2010-03-10 安徽汇鑫电子有限公司 音频处理器
US20120053933A1 (en) * 2010-08-30 2012-03-01 Kabushiki Kaisha Toshiba Speech synthesizer, speech synthesis method and computer program product
CN103065619A (zh) * 2012-12-26 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
CN104485099A (zh) * 2014-12-26 2015-04-01 中国科学技术大学 一种合成语音自然度的提升方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584859A (zh) * 2018-11-07 2019-04-05 上海指旺信息科技有限公司 语音合成方法及装置
CN110020616A (zh) * 2019-03-26 2019-07-16 深兰科技(上海)有限公司 一种目标识别方法及设备
WO2021051765A1 (zh) * 2019-09-17 2021-03-25 北京京东尚科信息技术有限公司 一种语音合成方法及装置、存储介质
US12198674B2 (en) 2019-09-17 2025-01-14 Beijing Jingdong Shangke Information Technology Co., Ltd. Speech synthesis method and apparatus, and storage medium
CN110930977A (zh) * 2019-11-12 2020-03-27 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN111328008A (zh) * 2020-02-24 2020-06-23 广州市迪士普音响科技有限公司 一种基于扩声系统的声压级智能控制方法
CN111328008B (zh) * 2020-02-24 2021-11-05 广州市迪士普音响科技有限公司 一种基于扩声系统的声压级智能控制方法
CN111883103A (zh) * 2020-06-19 2020-11-03 马上消费金融股份有限公司 语音合成的方法及装置
CN111883103B (zh) * 2020-06-19 2021-12-24 马上消费金融股份有限公司 语音合成的方法及装置
CN113744716A (zh) * 2021-10-19 2021-12-03 北京房江湖科技有限公司 用于合成语音的方法和装置
CN113744716B (zh) * 2021-10-19 2023-08-29 北京房江湖科技有限公司 用于合成语音的方法和装置
CN113920983A (zh) * 2021-10-25 2022-01-11 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置

Also Published As

Publication number Publication date
CN107871494B (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN107871494B (zh) 一种语音合成的方法、装置及电子设备
US11430427B2 (en) Method and electronic device for separating mixed sound signal
CN107705783B (zh) 一种语音合成方法及装置
CN109637518B (zh) 虚拟主播实现方法及装置
CN110136692B (zh) 语音合成方法、装置、设备及存储介质
CN110097890B (zh) 一种语音处理方法、装置和用于语音处理的装置
CN108198569B (zh) 一种音频处理方法、装置、设备及可读存储介质
CN110890083B (zh) 音频数据的处理方法、装置、电子设备及存储介质
CN109410973B (zh) 变声处理方法、装置和计算机可读存储介质
CN110677734B (zh) 视频合成方法、装置、电子设备及存储介质
CN111326138A (zh) 语音生成方法及装置
CN109887515A (zh) 音频处理方法及装置、电子设备和存储介质
CN104394265A (zh) 基于移动智能终端的自动会话方法及装置
EP3340077B1 (en) Method and apparatus for inputting expression information
CN107437412B (zh) 一种声学模型处理方法、语音合成方法、装置及相关设备
CN110135349A (zh) 识别方法、装置、设备及存储介质
CN113301372A (zh) 直播方法、装置、终端及存储介质
CN110931028A (zh) 一种语音处理方法、装置和电子设备
US12119012B2 (en) Method and apparatus for voice recognition in mixed audio based on pitch features using network models, and storage medium
CN111373409A (zh) 获取颜值变化的方法及终端
CN115396776A (zh) 耳机的控制方法、装置、耳机及计算机可读存储介质
CN110580910A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN113436601A (zh) 音频合成方法、装置、电子设备及存储介质
CN111063365B (zh) 一种语音处理方法、装置和电子设备
CN113113036B (zh) 音频信号处理方法及装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant