[go: up one dir, main page]

CN103474075B - 语音信号发送方法及系统、接收方法及系统 - Google Patents

语音信号发送方法及系统、接收方法及系统 Download PDF

Info

Publication number
CN103474075B
CN103474075B CN201310362024.7A CN201310362024A CN103474075B CN 103474075 B CN103474075 B CN 103474075B CN 201310362024 A CN201310362024 A CN 201310362024A CN 103474075 B CN103474075 B CN 103474075B
Authority
CN
China
Prior art keywords
unit
model
synthesis unit
synthesis
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310362024.7A
Other languages
English (en)
Other versions
CN103474075A (zh
Inventor
江源
周明
凌震华
何婷婷
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201310362024.7A priority Critical patent/CN103474075B/zh
Publication of CN103474075A publication Critical patent/CN103474075A/zh
Application granted granted Critical
Publication of CN103474075B publication Critical patent/CN103474075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音信号发送方法及系统,该发送方法包括:确定待发送的连续语音信号对应的文本内容;根据所述文本内容确定各合成单元的语音合成参数模型;拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;确定所述语音合成参数模型序列对应的序号串;将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。本发明还公开了一种语音信号接收方法及系统。利用本发明,可以在保证语音恢复音质损失最小化的前提下实现极低码流率的信号传输。

Description

语音信号发送方法及系统、接收方法及系统
技术领域
本发明涉及信号传输技术领域,具体涉及一种语音信号发送方法及系统、以及一种语音信号接收方法及系统。
背景技术
随着互联网的普及和便携式设备的推广,各种基于手持设备的聊天软件应运而生。语音交互的自然人性化是其他交互手段无法超越的,特别是在不利于手写按键输入的手持小屏设备应用上。对此很多产品都支持语音交互功能,将某终端接收到的语音信号传输至目的端,如腾讯推出的微讯产品即支持VoiceMessage的语音消息传输功能。然而直接传输的语音信号数据量往往极大,在互联网或通讯网等按流量收费的信道中给用户带来了较大的经济负担。显然如何在不影响语音质量的前提下尽可能压缩传送的数据量是提高语音信号传输应用价值的前提条件。
针对语音信号传输的问题,研究人员尝试了多种语音编码方法,对语音信号进行数字量化和压缩传输,在提高语音信号的恢复话质条件下降低编码码率并提升传输效率。目前常用的语音信号压缩方法有波形编码和参数编码等。其中:
波形编码是将时域的模拟信号波形经过取样、量化、编码,形成数字信号,这种编码方式具有适应能力强、话音质量高的优点。但由于需要保持恢复原有语音信号的波形形状,这种方案码流率要求较高,在高于16kb/s才能取得较好的音质。
参数编码即从原始语音信号中提取表征语音发音特征的参量,并对该特征参量进行编码。这种方案的目标在于保持原始语音的语意,保证可懂度。其优点在于码流率较低,但恢复音质受损较多。
在传统的语音通信时代,往往采用时间计费方式,编码方法主要考量算法延时和通信质量;而在移动互联时代,语音作为数据信号的一种,通常使用流量来收取费用,编码语音码流率的高低将直接影响用户使用的花费。此外,传统电话信道语音只使用8k采样率,属于窄带语音,音质受损且存在上限。显然如果继续使用传统编码方式处理宽带或超宽带语音,需要增加码流率,成倍提升流量消耗。
发明内容
本发明实施例一方面提供一种语音信号发送方法及系统,在保证语音恢复音质损失最小化的前提下实现极低码流率的信号传输。
本发明实施例另一方面提供一种语音信号接收方法及系统,以降低语音恢复音质损失。
为此,本发明提供如下技术方案:
一种语音信号发送方法,包括:
确定待发送的连续语音信号对应的文本内容;
根据所述文本内容确定各合成单元的语音合成参数模型;
拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;
确定所述语音合成参数模型序列对应的序号串;
将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
一种语音信号发送系统,包括:
文本获取模块,用于确定待发送的连续语音信号对应的文本内容;
参数模型确定模块,用于根据所述文本内容确定各合成单元的语音合成参数模型;
拼接模块,用于拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;
序号串确定模块,用于确定所述语音合成参数模型序列对应的序号串;
发送模块,用于将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
本发明实施例提供的语音信号发送方法及系统,采用统计分析模型编码,其处理方式与语音采样率无关,在保证语音恢复音质损失最小化的前提下极大地降低了传输码流率,减少了流量消耗,解决了传统语音编码方法不能兼顾音质和流量的问题,改善了移动网络时代下用户通信需求体验。
相应地,本发明实施例提供的语音信号接收方法及系统,接收方根据接收到的语音合成参数模型序列对应的序号串从码本中获取语音合成参数模型序列,利用该序列通过语音合成方式得到语音信号,大大降低了语音恢复音质损失,实现了语音信号的极大压缩和信号损失的最小化。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例语音信号发送方法的流程图;
图2是本发明实施例中确定各合成单元的语音合成参数模型的一种流程图;
图3是本发明实施例中二叉决策树的构建流程图;
图4是本发明实施例中一种二叉决策树的示意图;
图5是本发明实施例中确定各合成单元的语音合成参数模型的另一种流程图;
图6是本发明实施例语音信号接收方法的流程图;
图7是本发明实施例中语音信号发送系统的结构框图;
图8是本发明实施例中参数模型确定模块的结构框图;
图9是本发明实施例中二叉决策树构建模块的结构框图;
图10是本发明实施例中语音信号发送系统中基频模型确定单元的一种结构框图;
图11是本发明实施例中语音信号发送系统中频谱模型确定单元的一种结构框图;
图12是本发明实施例中语音信号发送系统中基频模型确定单元的另一种结构框图;
图13是本发明实施例中语音信号发送系统中频谱模型确定单元的另一种结构框图;
图14是本发明实施例语音信号接收系统的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对传统编码方式处理宽带或超宽带语音,需要增加码流率,流量消耗大的问题,本发明实施例提供一种语音信号发送方法及系统,以及一种语音信号接收方法及系统,适用于各类语音(如16KHz采样率的超宽带语音、8KHz采样率的窄带语音等)的编码,在保证语音恢复音质损失最小化的前提下,实现极低码流率的信号传输。
如图1所示,是本发明实施例语音信号发送方法的流程图,包括以下步骤:
步骤101,确定待发送的连续语音信号对应的文本内容。
具体地,可以通过语音识别算法自动获取所述文本内容,当然也可以通过人工标注的方式来获取所述文本内容。另外,为了进一步保证语音识别得到的文本内容的正确性,还可以对语音识别得到的文本内容进行人工编辑修正。
步骤102,根据所述文本内容确定各合成单元的语音合成参数模型。
所述合成单元是预先设定的最小合成对象,如音节单元、音素单元,甚至是音素HMM模型中的状态单元等。
为了尽量减少接收端恢复音质的损失,使接收端能够通过语音合成方式恢复连续语音信号,发送端从原始语音信号中获取的语音合成参数模型应尽可能符合原语音信号特点,以减少信号压缩和恢复的损失。
具体地,可以根据所述文本内容对连续语音信号进行语音片断切分,得到各合成单元对应的语音片断,进而得到各合成单元对应的时长、基频模型和频谱模型,具体过程将在后面详细描述。
步骤103,拼接各合成单元的语音合成参数模型得到语音合成参数模型序列。
步骤104,确定所述语音合成参数模型序列对应的序号串。
步骤105,将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
本发明实施例语音信号发送方法,采用统计分析模型编码,其处理方式与语音采样率无关,对16kHz超宽带语音编码无需付出额外码流率代价,其音质效果好,编码流量低。以一段典型的中文语音片段为例,其有效语音段持续10s,拥有80个声韵母(音素),以每个音素拥有5个基频状态、5个频谱状态、1个时长状态计,每状态采用1个字节编码(8bit),其码流率为m:m=[80*(5+5+1)]*8bit/10s=704b/s,低于1kb/s,属于极低码率编码方法,码流率大大低于当前主流语音通讯领域的各项编码标准,网络通讯的流量将会大大降低。相较当前主流的通信领域语音编码方法,本发明方法的语音编码方式可处理超宽带语音(16kHz采样率),音质更高;且具有更低的码流率(1kb/s以下),有效降低网络通信流量。
如图2所示,是本发明实施例中确定各合成单元的语音合成参数模型的一种流程图,包括以下步骤:
步骤201,根据文本内容对连续语音信号进行语音片断切分,得到各合成单元对应的语音片断。
具体地,可以将所述连续语音信号与所述文本内容中合成单元对应的声学模型序列做强制对齐,即计算语音信号相应于所述声学模型序列的语音识别解码,从而获取各合成单元对应的语音片段。
需要说明的是,所述合成单元可以根据不同的应用需求而选择不同规格。一般来说,如果对码流率要求较高,则选择较大的语音单元,如音节单元、音素单元等;反之若对音质要求较高,则可以选择更小的语音单元,如模型的状态单元、特征流单元等。
在采用基于HMM(Hidden Markov Model,隐马尔可夫模型)的声学模型设置下,还可进一步选取HMM模型的各状态作为合成单元,并获取相应的基于状态层的语音片断。随后对每个状态分别从其对应的基频二叉决策树及频谱二叉决策树中确定每个状态对应的基频模型和频谱模型。这样可以使获取的语音合成参数模型能够更细致地描述语音信号的特点。
步骤202,获取当前考察的合成单元。
步骤203,统计当前考察的合成单元对应的语音片段时长。
步骤204,确定当前考察的合成单元的基频模型。
具体地,首先获取当前考察的合成单元对应的基频二叉决策树;对所述合成单元进行文本解析,获得所述合成单元的上下文信息,比如,音素单元、调性、词性、韵律层次等上下文信息;然后,根据所述上下文信息在所述基频二叉树中进行路径决策,得到对应的叶子节点,将所述叶子节点对应的基频模型作为所述合成单元的基频模型。
具体地,进行路径决策的过程如下:
根据所述合成单元的上下文信息,从所述基频二叉决策树的根节点开始依次对各节点分裂问题进行回答;根据回答结果获取一条自上而下的匹配路径;根据所述匹配路径获得叶子节点。
步骤205,确定当前考察的合成单元的频谱模型。
具体地,首先获取当前考察的合成单元对应的基频二叉决策树;对所述合成单元进行文本解析,获得所述合成单元的上下文信息,比如,音素单元、调性、词性、韵律层次等上下文信息;然后,根据所述上下文信息,在所述频谱二叉决策树中进行路径决策,得到对应的叶子节点,将所述叶子节点对应的频谱模型作为所述合成单元的频谱模型。
具体地,进行路径决策的过程如下:
根据所述合成单元的上下文信息,从所述频谱二叉决策树的根节点开始依次对各节点分裂问题进行回答;根据回答结果获取一条自上而下的匹配路径;根据所述匹配路径获得叶子节点。
步骤206,判断当前考察的合成单元是否为最后一个合成单元。如果是,则执行步骤207;否则,执行步骤202。
步骤207,输出各合成单元对应的语音片段时长、基频模型及频谱模型。
合成单元对应的语音合成参数模型的质量和二叉决策树(包括基频二叉决策树和频谱二叉决策树)的构建有着直接的关系。在本发明实施例中,采用从下而上的聚类方法构建二叉决策树。
如图3所示,是本发明实施例中二叉决策树的构建流程图,包括以下步骤:
步骤301,获取训练数据。
具体地,可以采集大量的语音训练数据并对其进行文本标注,然后根据标注的文本内容进行基本语音单元乃至合成单元(如基本语音单元模型的状态单元)的语音片断切分,获取各合成单元对应的语音片断集合,并将每个合成单元对应的语音片断集合中的语音片断作为该合成单元对应的训练数据。
步骤302,从所述训练数据中提取合成单元对应的语音片断集合的合成参数。
所述合成参数包括:基频特征和频谱特征等。
步骤303,根据提取的合成参数对所述合成单元对应的二叉决策树进行初始化,并设置根节点作为当前考察节点。
对所述二叉决策树进行初始化即构建只有根节点的二叉决策树。
步骤304,判断当前考察节点是否需要分裂。如果是,则执行步骤305;否则执行步骤306。
挑选预设问题集合中的剩余问题对当前考察节点的数据进行分裂尝试,获取子节点。所述剩余问题是指没有询问过的问题。
具体地,可以首先计算当前考察节点的样本聚集度,即描述语音片断集合内样本的分散程度。一般来说,分散程度越大,则说明该节点分裂的可能性越大,否则分裂的可能性越小。具体可以采用样本方差来衡量节点的样本聚集度,即计算该节点下所有样本距离类中心的距离(或平方)的均值。然后计算分裂后子节点的样本聚集度,并选择具有最大样本聚集度下降幅度的问题作为优选问题。
然后根据所述优选问题进行分裂尝试,得到子节点。如果根据所述优选问题分裂的聚集度下降小于设定的阈值,或者分裂后的子节点中训练数据最低于设定的门限,则确定当前考察节点不再继续分裂。
步骤305,对当前考察节点进行分裂,并获取分裂后的子节点及所述子节点对应的训练数据。然后,执行步骤307。
具体地,可以根据所述优选问题对当前考察节点进行分裂。
步骤306,将当前考察节点标记为叶子节点。
步骤307,判断所述二叉决策树中是否还有未考察过的非叶子节点。如果是,则执行步骤308;否则执行步骤309。
步骤308,获取下一个未考察过的非叶子节点作为当前考察节点。然后,返回步骤304。
步骤309,输出二叉决策树。
需要说明的是,在本发明实施例中,基频二叉决策树和频谱二叉决策树都可以按照图3所示流程来建立。
如图4所示,是本发明实施例中一种二叉决策树的示意图。
图4展示了音素”*-aa+”的第三个状态的二叉决策树的构建图。如图4所示,在根节点分裂时根据对预设问题“右相邻音素是否为鼻音”的回答可以将根节点对应的训练数据拆分,随后在下一层节点分裂时,如对左节点分裂时,根据对预设问题“左相邻音素是否为浊辅音”的回答可以将所述节点对应的训练数据进一步拆分。最后在节点无法进一步拆分时设定其为叶子节点,并利用其所对应得训练数据训练得到数学统计模型,如高斯模型,将该数字统计模型作为当前叶子节点对应的合成参数模型。
显然,在图2所示实施例中,语音合成参数模型的挑选主要依赖于基于文本分析的二叉决策树,如通过当前考察的合成单元上下文的音素类别、当前音素的发音类型等。这样挑选语音合成参数模型方便快捷,但对特定语音信号输入,这种具有普适性的语音合成参数模型确定方法无法很好地体现发音特点。
为此,图5示出了本发明实施例中确定各合成单元的语音合成参数模型的另一种流程图,包括以下步骤:
步骤501,根据文本内容对连续语音信号进行语音片断切分,得到各合成单元对应的语音片断。
具体地,可以将所述连续语音信号与预设的合成单元对应的声学模型做强制对齐,即计算语音信号相应于所述声学模型序列的语音识别解码,从而获取各合成单元对应的语音片段。
需要说明的是,所述合成单元可以根据不同的应用需求而选择不同规格。一般来说,如果对码流率要求较高,则选择较大的语音单元,如音节单元、音素单元等;反之若对音质要求较高,则可以选择更小的语音单元,如模型的状态单元、特征流单元等。
在采用基于HMM(Hidden Markov Model,隐马尔可夫模型)的声学模型设置下,还可进一步选取HMM模型的各状态作为合成单元,并获取相应的基于状态层的语音片断。随后对每个状态分别从其对应的基频二叉决策树及频谱二叉决策树中确定每个状态对应的基频模型和频谱模型。这样可以使获取的语音合成参数模型能够更细致地描述语音信号的特点。
步骤502,确定各合成单元对应的语音片断的时长、以及所述连续语音信号对应的基频特征序列和频谱特征序列。
步骤503,根据所述基频特征序列及所述合成单元对应的基频模型集合确定所述合成单元的基频模型。
具体地,确定所述合成单元对应的基频特征序列,并获取所述合成单元对应的基频模型集合,即所述合成单元的基频二叉决策树的所有叶子节点对应的基频模型。然后计算所述基频特征序列与所述基频模型集合中各基频模型的似然度,并选择具有最大似然度的基频模型作为所述合成单元的基频模型。
步骤504,根据所述频谱特征序列及所述合成单元对应的频谱模型集合确定各合成单元的频谱模型。
具体地,确定所述合成单元对应的频谱特征序列,并获取所述合成单元对应的频谱模型集合,即所述合成单元的频谱二叉决策树的所有叶子节点对应的频谱模型。然后计算所述频谱特征序列与所述频谱模型集合中各频谱模型的似然度,并选择具有最大似然度的频谱模型作为所述合成单元的频谱模型。
可见,本发明实施例的语音信号发送方法,在保证语音恢复音质损失最小化的前提下极大地降低了传输码流率,减少了流量消耗,解决了传统语音编码方法不能兼顾音质和流量的问题,改善了移动网络时代下用户通信需求体验。
相应地,本发明实施例还提供一种语音信号接收方法,如图6所示,是该方法的流程图,包括以下步骤:
步骤601,接收语音合成参数模型序列对应的序号串。
步骤602,根据所述序号串从码本中获取语音合成参数模型序列。
由于每个语音合成参数模型都有一个唯一的序号,而且,在发送方和接收方都保存有相同的码本,所述码本中包含了所有语音合成参数模型。因此,接收方根据收到的序号串即可从码本中获取对应各序号的语音合成参数模型,拼接这些语音合成参数模型得到所述语音合成参数模型序列。
步骤603,根据所述语音合成参数模型序列确定语音合成参数序列。
具体地,可以根据所述语音合成参数模型序列和合成单元对应的时长序列确定语音合成参数,生成语音合成参数序列。
比如,按照以下公式来得到语音合成参数序列:
Omax=arg maxP(O|,λ,T)
其中,O为参数序列,λ为给定的语音合成参数模型序列,T为各合成单元对应的时长序列。
Omax即最终生成的基频参数序列或频谱参数序列,在单元时长序列T的范围内,求取相应于给定的语音合成参数模型序列λ的具有最大似然值的参数序列Omax,从而得到用于语音合成的参数序列。
步骤604,根据所述语音合成参数序列恢复语音信号。
将上步得到的语音合成参数序列Omax送入语音合成器即可得到对应语音。语音合成器是一种语音信号的分析恢复工具,可以将参数化的语音数据(如基频参数、频谱参数)恢复出高质量的语音波形。
可见,本发明实施例语音信号发送方法及接收方法,通过对连续语音信号对应的语音合成参数模型的提取和信号合成,实现了语音信号的极大压缩和信号损失的最小化,即有效地减少信号失真。
相应地,本发明实施例还提供一种语音信号发送系统,如图7所示,是该系统的结构框图。
在该实施例中,所述语音信号发送系统包括:
文本获取模块701,用于确定待发送的连续语音信号对应的文本内容;
参数模型确定模块702,用于根据所述文本内容确定各合成单元的语音合成参数模型;
拼接模块703,用于拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;
序号串确定模块704,用于确定所述语音合成参数模型序列对应的序号串;
发送模块705,用于将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
在实际应用中,上述文本获取模块701可以通过语音识别算法自动获取所述文本内容,当然也可以通过人工标注的方式来获取所述文本内容。为此,可以在文本获取模块701中设置语音识别单元和/或标注信息获取单元,以便可以使用户选择不同方式来得到待发送的连续语音信号对应的文本内容。其中,所述语音识别单元,用于通过语音识别算法确定待发送的连续语音信号对应的文本内容;所述标注信息获取单元用于通过人工标注的方式获取待发送的连续语音信号对应的文本内容。
所述合成单元是预先设定的最小合成对象,如音节单元、音素单元,甚至是音素HMM模型中的状态单元等。
为了尽量减少接收端恢复音质的损失,使接收端能够通过语音合成方式恢复连续语音信号,参数模型确定模块702从原始语音信号中获取的语音合成参数模型应尽可能符合原语音信号特点,以减少信号压缩和恢复的损失。具体地,可以根据所述文本内容对连续语音信号进行语音片断切分,得到各合成单元对应的语音片断,进而得到各合成单元对应的时长、基频模型和频谱模型。
本发明实施例语音信号发送系统,采用统计分析模型编码,其处理方式与语音采样率无关,对16kHz超宽带语音编码无需付出额外码流率代价,其音质效果好,编码流量低。相较当前主流的通信领域语音编码系统,本发明系统的语音编码方式可处理超宽带语音(16kHz采样率),音质更高;且具有更低的码流率(1kb/s以下),有效降低网络通信流量。
如图8所示,是本发明实施例中参数模型确定模块的一种结构框图。
所述参数模型确定模块包括:
切分单元801,用于根据所述文本内容对所述连续语音信号进行语音片断切分,得到各合成单元对应的语音片断。
具体地,可以将连续语音信号与所述文本内容中合成单元对应的声学模型序列做强制对齐,即计算语音信号相应于所述声学模型序列的语音识别解码,从而获取各合成单元对应的语音片段。
需要说明的是,所述合成单元可以根据不同的应用需求而选择不同规格。一般来说,如果对码流率要求较高,则选择较大的语音单元,如音节单元、音素单元等;反之若对音质要求较高,则可以选择更小的语音单元,如模型的状态单元、特征流单元等。在采用基于HMM(Hidden Markov Model,隐马尔可夫模型)的声学模型设置下,还可进一步选取HMM模型的各状态作为合成单元,并获取相应的基于状态层的语音片断。随后对每个状态分别从其对应的基频二叉决策树及频谱二叉决策树中确定每个状态对应的基频模型和频谱模型。这样可以使获取的语音合成参数模型能够更细致地描述语音信号的特点。
时长确定单元802,用于依次确定各合成单元对应的语音片断的时长。
基频模型确定单元803,用于依次确定各合成单元对应的语音片断的基频模型。
频谱模型确定单元804,用于依次确定各合成单元对应的语音片断的频谱模型。
在实际应用中,上述基频模型确定单元803和频谱模型确定单元804可以有多种实现方式,比如,可以根据二叉决策树来得到基频模型和频谱模型,为此,在本发明语音信号发送系统的另一实施例中,所述系统还包括二叉决策树构建模块,用于构建基频二叉决策树及频谱二叉决策树。另外,上述基频模型确定单元803和频谱模型确定单元804还可以基于信号特征优化来得到基频模型和频谱模型,对此将在后面详细描述。
如图9所示,是本发明实施例中语音信号发送系统中二叉决策树构建模块的结构框图。
所述二叉决策树构建模块包括:
训练数据获取单元901,用于获取训练数据;
参数提取单元902,用于从所述训练数据中提取所述合成单元对应的语音片断集合的合成参数,所述合成参数包括:基频特征和频谱特征;
初始化单元903,用于根据所述合成参数对所述合成单元对应的二叉决策树进行初始化,即构建只有根节点的二叉决策树;
节点考察单元904,用于从所述二叉决策树的根节点开始,依次考察每个非叶子节点;如果当前考察节点需要分裂,则对当前考察节点进行分裂,并获取分裂后的子节点及所述子节点对应的训练数据;否则,将当前考察节点标记为叶子节点;
二叉决策树输出单元905,用于在所述节点考察单元对所有非叶子节点考察完成后,输出所述合成单元的二叉决策树。
在该实施例中,训练数据获取单元901具体可以采集大量的语音训练数据并对其进行文本标注,然后根据标注的文本内容进行基本语音单元乃至合成单元(如基本语音单元模型的状态单元)的语音片断切分,获取各合成单元对应的语音片断集合,并将每个合成单元对应的语音片断集合中的语音片断作为该合成单元对应的训练数据。
上述节点考察单元904在判断当前考察节点是否需要分裂时,可以根据当前考察节点的样本聚集度,选择具有最大样本聚集度下降幅度的问题作为优选问题进行分裂尝试,获取子节点。如果根据所述优选问题分裂的聚集度下降小于设定的阈值,或者分裂后的子节点中训练数据最低于设定的门限,则确定当前考察节点不再继续分裂。
上述考察及分裂过程可参照前面本发明实施例语音信号发送方法中的描述,在此不再赘述。
需要说明的是,在本发明实施例中,基频二叉决策树和频谱二叉决策树都可以由该二叉决策树构建模块来建立,其实现过程相类似,在此不再一一详细说明。
基于上述基频二叉决策树和频谱二叉决策树,下面进一步详细说明本发明实施例中基频模型确定单元和频谱模型确定单元的实现方案。
如图10所示,是本发明实施例中语音信号发送系统中基频模型确定单元的一种结构框图。
在该实施例中,所述基频模型确定单元包括:
第一获取单元161,用于获取所述合成单元对应的基频二叉决策树。
第一解析单元162,用于对所述合成单元进行文本解析,获得所述合成单元的上下文信息,比如,音素单元、调性、词性、韵律层次等上下文信息。
第一决策单元163,用于根据所述上下文信息在所述基频二叉树中进行路径决策,得到对应的叶子节点。
具体地,进行路径决策的过程如下:根据所述合成单元的上下文信息,从所述基频二叉决策树的根节点开始依次对各节点分裂问题进行回答;根据回答结果获取一条自上而下的匹配路径;根据所述匹配路径获得叶子节点。
第一输出单元164,用于将所述叶子节点对应的基频模型作为所述合成单元的基频模型。
与上述基频模型确定单元的实现类似,如图11所示,是本发明实施例中语音信号发送系统中频谱模型确定单元的一种结构框图。
在该实施例中,所述频谱模型确定单元包括:
第二获取单元171,用于获取所述合成单元对应的频谱二叉决策树。
第二解析单元172,用于对所述合成单元进行文本解析,获得其音素单元,调性,词性,韵律层次等上下文信息,比如,音素单元、调性、词性、韵律层次等上下文信息。
第二决策单元173,用于根据所述合成文本的上下文信息,在所述频谱二叉树中进行路径决策,得到对应的叶子节点。
具体地,进行路径决策的过程如下:根据所述合成单元的上下文信息,从所述频谱二叉决策树的根节点开始依次对各节点分裂问题进行回答;根据回答结果获取一条自上而下的匹配路径;根据所述匹配路径获得叶子节点。
第二输出单元174,将所述叶子节点对应的频谱模型作为所述合成单元的频谱模型。
需要说明的是,在实际应用中,上述图10所示的基频模型确定单元和图11所示的频谱模型确定单元可以分别由各自独立的物理单元来实现,也可以统一由一个物理单元来实现。在需要生成基频模型时,获取合成单元对应的基频二叉决策树,并对合成单元进行相应的解析及决策,得到对应所述合成单元的基频模型。在需要生成频谱模型时,获取合成单元对应的频谱二叉决策树,并对合成单元进行相应的解析及决策,得到对应所述合成单元的频谱模型。
如图12所示,是本发明实施例中语音信号发送系统中基频模型确定单元的另一种结构框图。
在该实施例中,所述基频模型确定单元包括:
第一确定单元181,用于确定所述合成单元对应的基频特征序列。
第一集合获取单元182,用于获取所述合成单元对应的基频模型集合,即所述合成单元的基频二叉决策树的所有叶子节点对应的基频模型。
第一计算单元183,用于计算所述基频特征序列与所述基频模型集合中各基频模型的似然度。
第一选择单元184,用于选择具有最大似然度的基频模型作为所述合成单元的基频模型。
与上述基频模型确定单元的实现类似,图13是本发明实施例中语音信号发送系统中频谱模型确定单元的另一种结构框图。
在该实施例中,所述频谱模型确定单元包括:
第二确定单元191,用于确定所述合成单元对应的频谱特征序列。
第二集合获取单元192,用于获取所述合成单元对应的频谱模型集合,即所述合成单元的基频二叉决策树的所有叶子节点对应的频谱模型。
第二计算单元193,用于计算所述频谱特征序列与所述频谱模型集合中各频谱模型的似然度。
第二选择单元194,用于选择具有最大似然度的频谱模型作为所述合成单元的频谱模型。
需要说明的是,在实际应用中,上述图12所示的基频模型确定单元和图13所示的频谱模型确定单元可以分别由各自独立的物理单元来实现,也可以统一由一个物理单元来实现。在需要生成基频模型时,获取合成单元对应的基频二叉决策树,并对合成单元进行相应的解析及决策,得到对应所述合成单元的基频模型。在需要生成频谱模型时,获取合成单元对应的频谱二叉决策树,并对合成单元进行相应的解析及决策,得到对应所述合成单元的频谱模型。
可见,本发明实施例的语音信号发送系统,在保证语音恢复音质损失最小化的前提下极大地降低了传输码流率,减少了流量消耗,解决了传统语音编码方法不能兼顾音质和流量的问题,改善了移动网络时代下用户通信需求体验。
相应地,本发明实施例还提供一种语音信号接收系统,如图14所示,是该系统的结构框图。
在该实施例中,所述语音信号接收系统包括:
接收模块141,用于接收语音合成参数模型序列对应的序号串;
提取模块142,用于根据所述序号串从码本中获取语音合成参数模型序列;
确定模块143,用于根据所述语音合成参数模型序列确定语音合成参数序列;
信号恢复模块144,用于根据所述语音合成参数序列恢复语音信号。
上述确定模块143可以根据所述语音合成参数模型序列和模型序列持续时长确定语音合成参数,生成语音合成参序列。具体实现过程可参照前面本发明实施例语音信号接收方法中的描述,在此不再赘述。
由于本发明实施例语音信号接收系统中语音信号的恢复与语音采样率无关,因此,可以在保证语音恢复音质损失最小化的前提下实现极低码流率的信号传输,较好地解决了传统语音编码方法的音质和流量问题,改善了移动网络时代下用户通信需求体验,节约了网络费用。
本发明实施例的语音信号发送及接收方案可以适用于各类语音(如16k采样率的超宽带语音,8k采样率的窄带语音等)的编码,并可得到较好的音质。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种语音信号发送方法,其特征在于,包括:
确定待发送的连续语音信号对应的文本内容;
根据所述文本内容确定各合成单元的语音合成参数模型;
拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;
确定所述语音合成参数模型序列对应的序号串;
将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
2.根据权利要求1所述的方法,其特征在于,所述确定待发送的连续语音信号对应的文本内容包括:
通过语音识别算法确定待发送的连续语音信号对应的文本内容;或者
通过人工标注的方式获取待发送的连续语音信号对应的文本内容。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文本内容确定各合成单元的语音合成参数模型包括:
根据所述文本内容对所述连续语音信号进行语音片断切分,得到各合成单元对应的语音片断;
依次确定各合成单元对应的语音片断的时长、基频模型和频谱模型。
4.根据权利要求3所述的方法,其特征在于,所述确定合成单元对应的基频模型包括:
获取所述合成单元对应的基频二叉决策树;
对所述合成单元进行文本解析,获得所述合成单元的上下文信息;
根据所述上下文信息在所述基频二叉树中进行路径决策,得到对应的叶子节点;
将所述叶子节点对应的基频模型作为所述合成单元的基频模型。
5.根据权利要求3所述的方法,其特征在于,所述确定合成单元对应的频谱模型包括:
获取所述合成单元对应的频谱二叉决策树;
对所述合成单元进行文本解析,获得其包括音素单元,调性,词性,韵律层次的上下文信息;
根据所述合成单元的上下文信息,在所述频谱二叉树中进行路径决策,得到对应的叶子节点;
将所述叶子节点对应的频谱模型作为所述合成单元的频谱模型。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:按以下方式构建所述合成单元对应的二叉决策树:
获取训练数据;
从所述训练数据中提取所述合成单元对应的语音片断集合的合成参数,所述合成参数包括:基频特征和频谱特征;
根据所述合成参数对所述合成单元对应的二叉决策树进行初始化;
从所述二叉决策树的根节点开始,依次考察每个非叶子节点;
如果当前考察节点需要分裂,则对当前考察节点进行分裂,并获取分裂后的子节点及所述子节点对应的训练数据;否则,将当前考察节点标记为叶子节点;
当所有非叶子节点考察完成后,得到所述合成单元的二叉决策树。
7.根据权利要求3所述的方法,其特征在于,所述确定合成单元对应的基频模型包括:
确定所述合成单元对应的基频特征序列;
获取所述合成单元对应的基频模型集合;
计算所述基频特征序列与所述基频模型集合中各基频模型的似然度;
选择具有最大似然度的基频模型作为所述合成单元的基频模型。
8.根据权利要求3所述的方法,其特征在于,所述确定合成单元对应的频谱模型包括:
确定所述合成单元对应的频谱特征序列;
获取所述合成单元对应的频谱模型集合;
计算所述频谱特征序列与所述频谱模型集合中各频谱模型的似然度;
选择具有最大似然度的频谱模型作为所述合成单元的频谱模型。
9.一种语音信号接收方法,其特征在于,包括:
接收语音合成参数模型序列对应的序号串;
根据所述序号串从码本中获取语音合成参数模型序列;
根据所述语音合成参数模型序列确定语音合成参数序列;
根据所述语音合成参数序列恢复语音信号。
10.根据权利要求9所述的方法,其特征在于,所述根据所述语音合成参数模型序列确定语音合成参数序列包括:
根据所述语音合成参数模型序列和模型序列持续时长确定语音合成参数,生成语音合成参序列。
11.一种语音信号发送系统,其特征在于,包括:
文本获取模块,用于确定待发送的连续语音信号对应的文本内容;
参数模型确定模块,用于根据所述文本内容确定各合成单元的语音合成参数模型;
拼接模块,用于拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;
序号串确定模块,用于确定所述语音合成参数模型序列对应的序号串;
发送模块,用于将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。
12.根据权利要求11所述的系统,其特征在于,所述文本获取模块包括:
语音识别单元,用于通过语音识别算法确定待发送的连续语音信号对应的文本内容;或者
标注信息获取单元,用于通过人工标注的方式获取待发送的连续语音信号对应的文本内容。
13.根据权利要求11所述的系统,其特征在于,所述参数模型确定模块包括:
切分单元,用于根据所述文本内容对所述连续语音信号进行语音片断切分,得到各合成单元对应的语音片断;
时长确定单元,用于依次确定各合成单元对应的语音片断的时长;
基频模型确定单元,用于依次确定各合成单元对应的语音片断的基频模型
频谱模型确定单元,用于依次确定各合成单元对应的语音片断的频谱模型。
14.根据权利要求13所述的系统,其特征在于,所述基频模型确定单元包括:
第一获取单元,用于获取所述合成单元对应的基频二叉决策树;
第一解析单元,用于对所述合成单元进行文本解析,获得所述合成单元的上下文信息;
第一决策单元,用于根据所述上下文信息在所述基频二叉树中进行路径决策,得到对应的叶子节点;
第一输出单元,用于将所述叶子节点对应的基频模型作为所述合成单元的基频模型。
15.根据权利要求13所述的系统,其特征在于,所述频谱模型确定单元包括:
第二获取单元,用于获取所述合成单元对应的频谱二叉决策树;
第二解析单元,用于对所述合成单元进行文本解析,获得其包括音素单元,调性,词性,韵律层次的上下文信息;
第二决策单元,用于根据所述合成单元的上下文信息,在所述频谱二叉树中进行路径决策,得到对应的叶子节点;
第二输出单元,用于将所述叶子节点对应的频谱模型作为所述合成单元的频谱模型。
16.根据权利要求14或15所述的系统,其特征在于,所述系统还包括:二叉决策树构建模块,所述二叉决策树构建模块包括:
训练数据获取单元,用于获取训练数据;
参数提取单元,用于从所述训练数据中提取所述合成单元对应的语音片断集合的合成参数,所述合成参数包括:基频特征和频谱特征;
初始化单元,用于根据所述合成参数对所述合成单元对应的二叉决策树进行初始化;
节点考察单元,用于从所述二叉决策树的根节点开始,依次考察每个非叶子节点;如果当前考察节点需要分裂,则对当前考察节点进行分裂,并获取分裂后的子节点及所述子节点对应的训练数据;否则,将当前考察节点标记为叶子节点;
二叉决策树输出单元,用于在所述节点考察单元对所有非叶子节点考察完成后,输出所述合成单元的二叉决策树。
17.根据权利要求13所述的系统,其特征在于,所述基频模型确定单元包括:
第一确定单元,用于确定所述合成单元对应的基频特征序列;
第一集合获取单元,用于获取所述合成单元对应的基频模型集合;
第一计算单元,用于计算所述基频特征序列与所述基频模型集合中各基频模型的似然度;
第一选择单元,用于选择具有最大似然度的基频模型作为所述合成单元的基频模型。
18.根据权利要求13所述的系统,其特征在于,所述频谱模型确定单元包括:
第二确定单元,用于确定所述合成单元对应的频谱特征序列;
第二集合获取单元,用于获取所述合成单元对应的频谱模型集合;
第二计算单元,用于计算所述频谱特征序列与所述频谱模型集合中各频谱模型的似然度;
第二选择单元,用于选择具有最大似然度的频谱模型作为所述合成单元的频谱模型。
19.一种语音信号接收系统,其特征在于,包括:
接收模块,用于接收语音合成参数模型序列对应的序号串;
提取模块,用于根据所述序号串从码本中获取语音合成参数模型序列;
确定模块,用于根据所述语音合成参数模型序列确定语音合成参数序列;
信号恢复模块,用于根据所述语音合成参数序列恢复语音信号。
20.根据权利要求19所述的系统,其特征在于,
所述确定模块,具体用于根据所述语音合成参数模型序列和模型序列持续时长确定语音合成参数,生成语音合成参序列。
CN201310362024.7A 2013-08-19 2013-08-19 语音信号发送方法及系统、接收方法及系统 Active CN103474075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310362024.7A CN103474075B (zh) 2013-08-19 2013-08-19 语音信号发送方法及系统、接收方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310362024.7A CN103474075B (zh) 2013-08-19 2013-08-19 语音信号发送方法及系统、接收方法及系统

Publications (2)

Publication Number Publication Date
CN103474075A CN103474075A (zh) 2013-12-25
CN103474075B true CN103474075B (zh) 2016-12-28

Family

ID=49798896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310362024.7A Active CN103474075B (zh) 2013-08-19 2013-08-19 语音信号发送方法及系统、接收方法及系统

Country Status (1)

Country Link
CN (1) CN103474075B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373581A (zh) * 2016-09-28 2017-02-01 成都奥克特科技有限公司 语音信号的数据编码处理方法
CN108346423B (zh) * 2017-01-23 2021-08-20 北京搜狗科技发展有限公司 语音合成模型的处理方法和装置
CN108389592B (zh) * 2018-02-27 2021-10-08 上海讯飞瑞元信息技术有限公司 一种语音质量评价方法及装置
CN111147444B (zh) * 2019-11-20 2021-08-06 维沃移动通信有限公司 一种交互方法及电子设备
CN116469405A (zh) * 2023-04-23 2023-07-21 富韵声学科技(深圳)有限公司 一种降噪通话方法、介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0360265A2 (en) * 1988-09-21 1990-03-28 Nec Corporation Communication system capable of improving a speech quality by classifying speech signals
CN1256001A (zh) * 1998-01-27 2000-06-07 松下电器产业株式会社 滞后参数编码的方法和装置、以及制作码本的方法
CN1321297A (zh) * 1999-08-23 2001-11-07 松下电器产业株式会社 音频编码装置以及音频编码方法
CN1486486A (zh) * 2000-11-27 2004-03-31 日本电信电话株式会社 用于编码和解码声学参数的方法、设备和程序及用于编码和解码语音的方法、设备和程序

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008139631A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、装置、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0360265A2 (en) * 1988-09-21 1990-03-28 Nec Corporation Communication system capable of improving a speech quality by classifying speech signals
CN1256001A (zh) * 1998-01-27 2000-06-07 松下电器产业株式会社 滞后参数编码的方法和装置、以及制作码本的方法
CN1321297A (zh) * 1999-08-23 2001-11-07 松下电器产业株式会社 音频编码装置以及音频编码方法
CN1486486A (zh) * 2000-11-27 2004-03-31 日本电信电话株式会社 用于编码和解码声学参数的方法、设备和程序及用于编码和解码语音的方法、设备和程序

Also Published As

Publication number Publication date
CN103474075A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103474075B (zh) 语音信号发送方法及系统、接收方法及系统
CN101447185B (zh) 一种基于内容的音频快速分类方法
CN101510424B (zh) 基于语音基元的语音编码与合成方法及系统
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
CN102254557B (zh) 基于自然语音识别的导航方法和系统
CN108053823A (zh) 一种语音识别系统及方法
CN102446504B (zh) 语音/音乐识别方法及装置
CN102496364A (zh) 基于云端网络的交互式语音识别方法
CN102568469B (zh) G.729a压缩语音流信息隐藏检测装置及检测方法
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
CN102723078A (zh) 基于自然言语理解的语音情感识别方法
CN103065620A (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN105261356A (zh) 一种语音识别系统及方法
CN109785832A (zh) 一种适用于重口音的老人机顶盒智能语音识别方法
CN116665676B (zh) 一种用于智能语音外呼系统的语义识别方法
CN106356054A (zh) 一种基于语音识别的农产品信息采集方法和系统
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN103474067B (zh) 语音信号传输方法及系统
CN101814289A (zh) 低码率dra数字音频多声道编码方法及其系统
CN108010533A (zh) 音频数据码率的自动识别方法和装置
WO2019119552A1 (zh) 连续长语音文件的翻译方法与翻译机
CN103077705B (zh) 一种基于分布式自然韵律优化本地合成方法
CN110765300B (zh) 一种基于emoji的语义解析方法
CN109192197A (zh) 基于互联网的大数据语音识别系统
CN102314878A (zh) 一种音素自动切分方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 Building No. 666 Xunfei

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant