CN109545243B

CN109545243B - 发音质量评价方法、装置、电子设备及存储介质

Info

Publication number: CN109545243B
Application number: CN201910062339.7A
Authority: CN
Inventors: 刘顺鹏; 钟贵平; 李宝祥
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2022-09-02
Anticipated expiration: 2039-01-23
Also published as: CN109545243A

Abstract

本发明涉及语音识别技术领域，公开了一种发音质量评价方法、装置、电子设备及存储介质，所述方法包括：在待评价语音中，确定出参考文本对应的每个音素对应的音频帧以及每个音素与对应的音频帧的匹配概率，参考文本为待评价语音对应的参考文本；针对每个音素，根据该音素对应的匹配概率和该音素对应的音频帧计算该音素的发音准确度评价值；根据每个音素的发音准确度评价值和预先为每个音素确定的权重值，得到待评价语音的准确度评价值。本发明实施例提供的技术方案，通过为各个音素设置权重值，扩大发音较好的语音和发音较差的语音之间的准确度评价值的差异度，提高发音质量评价的准确性和可信度。

Description

发音质量评价方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种发音质量评价方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展，基于互联网的语言学习应用也得到了快速的发展。对于语言学习，除了学习语法和词汇等之外，一个重要的方面是学习语言的听说能力，尤其是说的能力。现有的语言学习应用中，用户通过用户端的录音设备录制语音，系统根据与该语音相对应的参考文本，将用户录制的语音和现有声学模型进行比较，从而向用户提供整句录音的发音评分，以及每个单词的发音是否正确的反馈。因此，发音评价方法的准确性直接影响用户学习效果。

目前，对口语发音进行评价的方法主要采用GOP(Goodness of Pronunciation，发音准确度)算法，通过GOP算法计算用户录制的语音对应的参考文本对应的每个音素的发音准确度评价值，求每个单词对应的音素的发音准确度评价值的平均值，得到单词的发音准确度评价值，然后在求参考文本中所有单词的发音准确度评价值的平均值，作为该语音的发音评分。但是，现有的GOP算法得到的是每个单词对应的准确度评价值，而单词本身的颗粒度比较大，不能反应更为详细的质量评价结果，导致发音质量评价结果不够准确、可信度较低。

发明内容

本发明实施例提供一种发音质量评价方法、装置、电子设备及存储介质，以解决现有技术中发音质量评价不够准确、可信度较低的问题。

第一方面，本发明一实施例提供了一种发音质量评价方法，包括：

在待评价语音中，确定出参考文本对应的每个音素对应的音频帧以及每个音素与对应的音频帧的匹配概率，参考文本为待评价语音对应的参考文本；

针对每个音素，根据音素对应的匹配概率和音素对应的音频帧计算音素的发音准确度评价值；

根据每个音素的发音准确度评价值和预先为每个音素确定的权重值，得到待评价语音的准确度评价值。

第二方面，本发明一实施例提供了一种发音质量评价装置，包括：

确定模块，用于在待评价语音中，确定出参考文本对应的每个音素对应的音频帧以及每个音素与对应的音频帧的匹配概率，参考文本为待评价语音对应的参考文本；

音素准确度计算模块，用于针对每个音素，根据音素对应的匹配概率和音素对应的音频帧计算音素的发音准确度评价值；

准确度计算模块，用于根据每个音素的发音准确度评价值和预先为每个音素确定的权重值，得到待评价语音的准确度评价值。

第三方面，本发明一实施例提供了一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，收发机用于在处理器的控制下接收和发送数据，处理器执行计算机程序时实现上述任一种方法的步骤。

第四方面，本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

本发明实施例提供的技术方案，在基于音素的发音准确度评价单词或句子的发音准确度时，通过为各个音素设置权重值，提升了部分音素对发音准确度评价值的贡献度，扩大发音较好的语音和发音较差的语音之间的准确度评价值的差异度，提高发音质量评价的准确性和可信度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的发音质量评价方法的应用场景示意图；

图2为本发明一实施例提供的发音质量评价方法的流程示意图；

图3为本发明一实施例提供的发音质量评价方法的流程示意图；

图4为本发明一实施例提供的发音质量评价装置的结构示意图；

图5为本发明一实施例提供的发音质量评价装置的结构示意图；

图6为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本发明实施例中涉及的名词进行解释：

GOP(Goodness of Pronunciation，发音准确度)算法是由麻省理工大学的SilkeWitt在他的博士论文中提出。GOP算法的基本思想正是利用了事先知道的参考文本，把语音和该语音对应的参考文本做强制对齐(force alignment)，识别参考文本中每个音素对应的语音段(即语音中的多个连续的音频帧)，然后计算在观察到这个语音段的前提下，这个语音段对应参考文本中的音素的匹配概率，匹配概率越高，说明发音越准确，匹配概率越低，说明发音越差。直观的来说，GOP算法计算的是输入语音对应于已知文字的可能性，如果可能性越高，说明发音越标准。

音素(phone)，是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音、辅音两大类，例如，元音有a、e、ai等，辅音有p、t、h等。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，对口语发音进行评价的方法主要采用GOP算法，通过GOP算法计算用户录制的语音对应的参考文本对应的每个音素的发音准确度评价值，求每个单词对应的音素的发音准确度评价值的平均值，得到单词的发音准确度评价值，然后在求参考文本中所有单词的发音准确度评价值的平均值，作为该语音的发音评分。本发明的发明人发现，在利用GOP算法计算单词发音的准确度时，GOP算法输出的评分对某些音素的发音的准确度较为敏感，即这些音素对应的发音的好坏会导致评分相差较大，而对另外一些音素的发音的准确度不太敏感，即这些音素对应的发音无论是好还是坏，得到的评分相差较小。例如，当两个人发同一个元音时，甲发音很好，乙发音较差，则甲的评分会远高于乙；但是，当两个人发同一个辅音时，甲发音很好，乙发音较差，甲的评分和乙的评分相差较小。因此，如果采用现有的求音素的发音准确度评价值的平均值的方法，来计算语音的发音准确度评价值，会降低敏感音素在最终得到的发音准确度评价值中所占的比重，从而缩小发音较好的语音和发音较差的语音之间的评分差异度，降低了发音准确度评价值的准确性。此外，本发明的发明人还发现，目前评价语音的指标只有发音准确度这一个维度，但是，现有的GOP算法得到的是每个单词对应的准确度，仅简单的求句子中所有单词的准确度的平均值的方法，容易忽略发音时单词和单词间的关系，导致一段流利完整的语音和一段不太流利完整的语音得到的发音评分的区分度较低，致使发音评分不够客观准确。

为此，本发明的发明人考虑到，在基于音素的发音准确度评价单词或句子的发音准确度时，通过为各个音素设置权重值，提升了部分音素对发音准确度评价值的贡献度，扩大发音较好的语音和发音较差的语音之间的准确度评价值的差异度，提高发音质量评价的准确性和可信度。此外，在得到待评价语音的发音的准确度评价值的前提下，确定待评价语音的发音的完整度评价值和流利度评价值，综合待评价语音的准确度评价值、完整度评价值和流利度评价值确定待评价语音的发音评分，引入的完整度评价值和流利度评价值充分考虑了发音时单词和单词间的关系，从而得到句子级别的评分指标，通过综合单词级别的评分指标和句子级别的评分指标，使得发音评分更加全面、客观、准确，提高发音评分的可信度。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

首先参考图1，其为本发明实施例提供的发音质量评价方法的应用场景示意图。用户10通过用户端11内的应用程序与用户端11完成交互，用户端11可以显示参考文本或者播放参考文本，用户10读出参考文本，此时，用户端11通过应用程序启动用户端11内置或外接的语音采集装置12(如麦克风)，以采集用户朗读参考文本的语音作为待评价语音，应用程序将待评价语音以及参考文本发送给服务器13，服务器13根据待评价语音和参考文本对待评价语音进行发音质量的评价，得到待评价语音的发音评分，将发音评分反馈给用户端11，用户端11显示服务器13反馈的发音评分。

这种应用场景下，用户端11和服务器13之间通过网络进行通信连接，该网络可以为局域网、广域网等。用户端11可以为便携设备(例如：手机、平板、笔记本电脑等)，也可以为个人电脑(PC，Personal Computer)，一般手机、平板、笔记本电脑均内置有麦克风，而个人电脑可通过外接语音采集装置采集用户的语音。服务器13可以为任何能够提供语音识别、发音质量评价服务的设备。

此外，本发明实施例提供的发音质量评价方法也可在用户端本地执行。具体地，用户10通过用户端11内的应用程序与用户端11完成交互，用户端11可以显示参考文本或者播放参考文本，用户10朗读参考文本，此时，用户端11通过应用程序启动用户端11内置或外接的语音采集装置12(如麦克风)，以采集用户朗读参考文本的语音作为待评价语音，然后，根据待评价语音和参考文本对待评价语音进行发音质量的评价，得到待评价语音的发音评分，并显示发音评分。

下面结合图1所示的应用场景，对本发明实施例提供的技术方案进行说明。

参考图2，本发明实施例提供一种发音质量评价方法，包括以下步骤：

S201、在待评价语音中，确定出参考文本对应的每个音素对应的音频帧以及每个音素与对应的音频帧的匹配概率，参考文本为待评价语音对应的参考文本。

本实施例中，参考文本通常是一句完整的句子，参考文本包含至少一个单词。通过查找发音词典即可确定参考文本对应的音素串。例如，参考文本为“good morning”，则对应的音素串包括八个音素[g]、[u]、[d]、[m]、

[n]、[i]、[η]。参考文本为“你好”，则对应的音素串包括三个音素[n]、[i]、[h]、[ao]。具体实施时，待评价语音是何种语言，就选择该语言对应的发音词典，例如，待评价语言为英文，则选择英文发音词典。

具体实施时，步骤S201可通过对齐处理实现，在进行对齐处理前，需要对待评价语音进行预处理：将待评价语音切分为若干音频帧，提取各个音频帧的声学特征向量，声学特征向量为一个多维特征向量，每一帧音频用一个多维特征向量表示，以将待评价语音转化为多个音频帧组成的音频帧序列。一般取10-30ms为一帧，可使用移动窗口函数实现分帧，相邻音频帧之间有重叠部分，以避免窗边界对信号的遗漏。提取的声学特征可以Fbank特征、MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)特征或语谱图特征等。Fbank特征、MFCC特征的提取方法为现有技术，不再赘述。

具体实施时，对齐处理的过程大致为：将待评价语音对应的声学特征向量输入对齐模型，得到条件概率矩阵，条件概率矩阵描述了各个音频帧被识别为任一音素的条件概率，其中，针对一个音频帧，条件概率矩阵给出了该音频帧与多个音素之间的条件概率，例如，可包括一个音频帧被识别为[u]的条件概率和一个音频帧被识别为

的条件概率；然后，将条件概率矩阵输入解码器进行路径搜索，将参考文本对应的音素串作为路径搜索时的限制条件，得到参考文本对应的音素串中每个音素对应的音频帧，一般一个音素对应待评价语音中的多个连续的音频帧，该解码器已经预先对所有音素进行构图。其中，对齐模型可选用DNN(Deep Neural Network，深度神经网络)-HMM模型，或者对齐模型也可选用CNN(卷积神经网络，Convolutional Neural Networks)+LSTM(Long Short-Term Memory，长短期记忆网络)的网络实现。可通过预先训练的混合高斯(GMM，Gaussian Mixture Model)-隐马尔科夫(HMM，Hidden Markov Model)模型确定解码过程中使用的状态转移概率。由于已经确定了参考文本对应的每个音素与音频帧之间的对应关系，因此，针对参考文本对应的每个音素，可从条件概率矩阵中获取该音素与该音素对应的音频帧之间的条件概率，从而确定该音素与对应的音频帧的匹配概率，例如，音素[u]对应10个音频帧，从条件概率矩阵中获取这10个音频帧与音素[u]之间的条件概率，取这10个条件概率的平均值或最大值或中值，作为音素[u]与音素[u]对应的音频帧的匹配概率。

本实施例中，可以通过对齐模型对待评价语音与参考文本进行对齐处理，以确定参考文本中的每个单词对应的每个音素与待评价语音的部分语音(即多个连续的音频帧)之间的对应关系。

S202、针对每个音素，根据该音素对应的匹配概率和该音素对应的音频帧计算该音素的发音准确度评价值。

具体实施时，可将GOP值作为发音准确度评价值。具体地，可通过以下公式计算音素的GOP值：

其中，p为参考文本中的音素，P(p|o)为音素p对应的匹配概率，NF(p)为音素p对应的音频帧的数量，o为音素p对应的音频帧。

S203、根据每个音素的发音准确度评价值和预先为每个音素确定的权重值，得到待评价语音的准确度评价值。

具体实施时，可根据预先为每个音素确定的权重值，对每个音素对应的发音准确度评价值进行加权，得到待评价语音的准确度评价值。

例如，单词good对应的音素包括[g]、[u]、[d]，假设[g]和[d]对应的权重值均为0.15，[u]对应的权重值0.7。发音较好的用户甲输入语音good后，得到[g]对应的GOP值为0.9，[u]对应的GOP值为0.8，[d]对应的GOP值为0.8，加权后得到语音good的准确度评价值为0.815。发音较差的用户乙输入语音good后，得到[g]对应的GOP值为0.85，[u]对应的GOP值为0.6，[d]对应的GOP值为0.8，加权平均后得到语音good的准确度评价值为0.6675。如果不设置权重值的话，用户甲得到语音good的准确度评价值为0.83，用户已得到语音good的准确度评价值为0.75，用户甲和用户乙得到的准确度评价值较为接近，无法很好地区分较好的发音和较差的发音。

显然，在基于音素的准确度计算单词或句子发音的准确度评价值时，增加了音素的权重后，扩大发音较好的语音和发音较差的语音之间的准确度评价值的差异度，提高发音质量评价的准确性和可信度。

本实施例中，每个音素元音对应的权重值可预先根据实际应用场景中的测试结果确定，在此不作限定。例如，根据测试结果发现，发音准确度评价算法输出的准确度评价值对元音发音的准确度较为敏感，而对辅音发音的准确度不太敏感，因此，如果采用现有的求平均值的方法来计算语音的发音准确度评价值，会降低元音在最终得到的发音准确度评价值中所占的比重，从而缩小发音较好的语音和发音较差的语音之间的评分差异度，降低了发音准确度评价值的准确性。为此，本实施例中，预先为每个音素确定的权重值中，元音对应的权重值大于辅音对应的权重值。

在具体实施时，所有元音可共用一个权重值，所有辅音可共用一个权重值，此时，可以计算参考文本中所有元音的发音准确度评价值的平均值，计算参考文本中所有辅音的发音准确度评价值的平均值，对所有元音的发音准确度评价值的平均值和所有辅音的发音准确度评价值的平均值进行加权，将加权结果作为待评价语音的准确度评价值。其中，元音对应的权重值和辅音对应的权重值的具体设定，在此不作限定。当然，也可以为每个音素单独设置权重值。

具体实施时，还可以设置一个截断阈值，当音素的发音准确度评价值低于该截断阈值时，在根据每个音素的发音准确度评价值和预先为每个音素确定的权重值，计算待评价语音的准确度评价值时，将该音素对应的权重值设为0。例如，单词good对应的音素包括[g]、[u]、[d]，用户输入语音good后，得到[g]对应的GOP值为0.9，[u]对应的GOP值为0.09，[d]对应的GOP值为0.8，假设截断阈值为0.1，则[u]对应权重值调整为0，则加权后得到语音good的准确度为0.57。

本发明实施例的发音质量评价方法，在基于音素的发音准确度评价单词或句子的发音准确度时，通过为各个音素设置权重值，提升了部分音素对发音准确度评价值的贡献度，扩大发音较好的语音和发音较差的语音之间的准确度评价值的差异度，提高发音质量评价的准确性和可信度。

基于上述任一实施例，进一步地，如图3所示，本发明实施例的方法还包括以下处理步骤：

S204、确定待评价语音的完整度评价值。

本实施例中，可通过现有的语音识别方法对待评价语音进行识别，将待评价语音转换为对应的识别文本，具体的语音识别方法为现有技术，不再赘述。

具体实施时，根据待评价语音对应的识别文本中包含的单词的数量和待评价语音对应的参考文本中包含的单词的数量，确定待评价语音的完整度评价值，识别文本为对待评价语音进行语音识别得到的文本。具体地，可根据识别文本中包含的单词的数量与参考文本中包含的单词的数量的差值，确定待评价语音的完整度评价值。例如，可通过以下公式计算待评价语音的完整度评价值I：

其中，N₀为参考文本中包含的单词数量，N为识别文本中包含的单词数量。需要说明的是，上述计算完整度评价值的公式仅为一个示例，实际应用时，可选用其他的公式计算完整度评价值。

例如，识别文本中包含9个单词，但是参考文本中包含10个单词，显然根据待评价语音得到的语音识别结果中缺少单词，这可能是用户发音不标准导致语音识别时漏识别个别单词或将两个单词识别为一个单词，也可能是用户朗读参考文本时漏读了一个单词引起的，根据上述计算完整度评价值的公式，可得到待评价语音的完整度评价值为0.9。若识别文本中包含11个单词，但是参考文本中包含10个单词，显然根据待评价语音得到的语音识别结果中多了一个单词，这可能是用户发音不标准导致语音识别时将一个单词识别为两个单词，根据上述计算完整度评价值的公式，可得到待评价语音的完整度评价值为0.9。

S205、确定待评价语音的流利度评价值。

具体实施时，可通过以下步骤确定待评价语音的流利度：针对参考文本对应的每个音素，根据该音素对应的音频帧，确定该音素对应的实际发音时长，根据该音素对应的实际发音时长与该音素对应的参考发音时长，确定该音素对应的流利度评价值；根据参考文本对应的每个音素对应的流利度评价值确定待评价语音的流利度评价值。待评价语音中音素的实际发音长度越接近参考发音时长，则说明用户在说该音素时的流利度越高。例如，实际应用时，可通过以下公式计算音素的流利度评价值F：

其中，T₀为音素对应的参考发音时长，T为音素对应的实际发音时长。

本实施例中，实际发音时长可根据音素对应的音频帧的数量以及一帧音频的时长确定。例如音素[g]对应30帧音频帧，每一帧音频的时长为20ms，则音素[g]的实际发音时长为600ms，假设音素[g]的参考发音时长为400ms，则待评价语音中的音素[g]的流利度评价值为0.667。例如音素[i:]对应30帧音频帧，每一帧音频的时长为20ms，则音素[i:]的实际发音时长为600ms，假设音素[i:]的参考发音时长为1000ms，则待评价语音中的音素[g]的流利度评价值为0.6。

具体实施时，可根据预先为每个音素确定的权重值，对每个音素对应的流利度评价值进行加权，得到待评价语音的流利度评价值。

具体实施时，也可以根据每个音素对应的流利度评价值，确定参考文本中每个单词的流利度评价值；然后根据每个单词的流利度评价值，确定待评价语音的流利度评价值。

根据各个音素的流利度评价值，计算参考文本中每个单词的流利度评价值，具体计算方法可以是：

针对每个单词，计算该单词对应的音素的流利度评价值的平均值，得到该单词的第一流利度评价值；计算该单词对应的第一时间长度，该第一时间长度为该单词对应的第一个音素对应的第一个音频帧到最后一个音素对应的最后一个音频帧之间的时间长度，计算该单词对应的每个音素对应的实际发音时长的总和，得到该单词对应的第二时间长度，根据该单词对应的第一时间长度和第二时间长度，确定该单词的第二流利度评价值；根据该单词的第一流利度评价值和第二流利度评价值，得到该单词的流利度评价值。

具体地，可对该单词的第一流利度评价值和第二流利度评价值进行加权处理，将加权处理结果作为该单词的流利度评价值。其中，加权处理使用的权重可根据实际情况进行自由设定，在此不作限定。

当然，具体实施时也可以仅计算该单词的第一流利度评价值，直接将该单词的第一流利度评价值作为该单词的流利度评价值；具体实施时也可以仅计算该单词的第二流利度评价值，直接将该单词的第二流利度评价值作为该单词的流利度评价值。

单词的第一流利度评价值的计算具体为针对参考文本中的每个单词，计算该单词对应的音素的流利度评价值的平均值，得到该单词的第一流利度评价值。

例如，单词good对应的音素包括[g]、[u]、[d]，假设[g]、[u]、[d]的流利度评价值分别为0.9、0.8和0.84，则单词good的第一流利度评价值为0.847。进一步地，针对参考文本中的每个单词，可根据预先为每个音素确定的权重值，对该单词对应的每个音素的流利度评价值进行加权，得到该单词的第一流利度评价值。

单词的第二流利度评价值是根据各个音素间的空白音频帧，确定单词的第二流利度评价值。空白音频帧即进过对齐处理后，确定出的不属于任何一个音素的音频帧，同一单词中相邻两个音素间的空白音频帧越多，说明用户在读该单词时越不流利。具体地，针对参考文本中的每个单词，计算该单词对应的第一时间长度，计算该单词对应的音素对应的实际发音时长的总和，得到该单词对应的第二时间长度，根据该单词对应的第一时间长度和第二时间长度，确定该单词的第二流利度评价值。其中，第一时间长度为该单词对应的第一个音素对应的第一个音频帧到最后一个音素对应的最后一个音频帧之间的时间长度。

例如，单词morning对应的音素为[m]、

[n]、[i]、[η]，假设[m]对应待评价语音中的第11-40个音频帧、

对应第41-80个音频帧、[n]对应第101-130个音频帧、[i]对应第131-160个音频帧、[η]对应第161-190个音频帧，则morning对应的第一时间长度为音素为[m]对应的第一帧(即第11个音频帧)到[η]对应的最后一帧(即第190个音频帧)的时间长度，则第一时间长度对应180个音频帧的时间长度。[m]、

[n]、[i]和[η]分别对应的音频帧的数量的总和为160，则单词morning对应的第二时间长度为160个音频帧的时间长度。第一时间长度和第二时间长度相差20帧的时间长度，这个差值是由于用户读单词时不够流利引起的。第一时间长度与第二时间长度的差值越大，说明用户在读该单词时越不流利。单词对应的第一时间长度和第二时间长度，与该单词的第二流利度评价值之间的对应关系，可根据实际情况确定，此处不做限定。

在计算出参考文本中每个单词的流利度评价值后，可以根据每个单词的流利度评价值，计算待评价语音的流利度评价值。

待评价语音的流利度评价值的具体计算方法可以是：计算参考文本中各个单词的流利度评价值的平均值，作为待评价语音的流利度评价值，例如，单词good的流利度评价值为0.847，单词morning的流利度为评价值0.78，则待评价语音“good morning”对应的流利度评级值为0.814。

待评价语音的流利度评价值的具体计算方法也可以是：将上述计算方法计算出的待评价语音的流利度评价值作为待评价语音的第一流利度评价值；根据相邻两个单词间的空白音频帧，确定待评价语音的第二流利度评价值；根据待评价语音的第一流利度评价值和待评价语音的第二流利度评价值，综合确定所述待评价语音的流利度评价值。具体地，可对待评价语音的第一流利度评价值和第二流利度评价值进行加权处理，将加权处理结果作为该待评价语音的流利度评价值。其中，加权处理使用的权重可根据实际情况进行自由设定，在此不作限定。

一个句子中，相邻两个单词间的空白音频帧超过一定数量后，空白音频帧越多，说明用户停顿时间越长，用户在读句子时越不流利。具体地，根据参考文本中每个单词对应的音频帧，确定任意两个相邻单词间的空白音频帧的数量，根据任意两个相邻单词间的空白音频帧的数量，确定待评价语音的第二流利度评价值。

具体实施时，根据任意两个相邻单词间的空白音频帧的数量，确定待评价语音的第二流利度评价值，可通过以下方法实施：根据两个相邻单词间的空白音频帧数量确定两个相邻单词间的停顿时长，统计停顿时长超过预设时长的次数，根据统计的次数以及超过预设时长的停顿时长，确定待评价语音的第二流利度评价值。其中，停顿时长超过预设时长的次数越多，待评价语音的第二流利度的分值越低，超过预设时长的停顿时长的值越大，则待评价语音的第二流利度的分值越低。其中，预设时长可根据统计人说话时单词间的平均停顿时长确定，在此不作限定。

当然，具体实施时，也可以仅计算待评价语音的第二流利度评价值，将待评价语音的第二流利度评价值直接作为该待评价语音的流利度评价值。

本实施例中，可通过以下步骤预先确定各个音素的参考发音时长：

步骤一、针对语料库中的每段语音信息，在语音信息中，确定出文本信息对应的每个音素对应的音频帧，文本信息为语音信息对应的参考文本。

本实施例中，语料库中存储了与待评价语音属于同种语言的语料。语料库中的语音信息来自不同的人，语料库中的语音信息为发音标准的语音。

具体实施时，可通过对齐处理的方法在语音信息中确定出文本信息对应的每个音素对应的音频帧，具体实施方式可参考S201的具体实施方式，不再赘述。

步骤二、根据文本信息对应的每个音素对应的音频帧，确定每个音素对应的发音时长。

本实施例中，音素的发音时长可根据音素对应的音频帧的数量以及一帧音频的时长确定。例如音素[g]对应30帧音频帧，每一帧音频的时长为20ms，则音素[g]的发音时长为600ms。

步骤三、根据每个音素对应的发音时长，统计音素集中的每个音素对应的发音时长分布，音素集为指定语种包含的所有音素组成的集合。

例如，指定语种为英语，英语一共包含48个音素，则英语对应的音素集中包含这48个音素。

步骤四、将每个音素对应的发音时长分布的中心值作为音素集中的每个音素的参考发音时长。

S206、根据完整度评价值、流利度评价值和准确度评价值确定待评价语音的发音评分。

具体实施时，可根据预先拟合的权重系数，对完整度评价值、流利度评价值和准确度评价值进行加权，得到待评价语音的发音评分。具体地，可通过线性回归的方式确定完整度评价值、流利度评价值和准确度评价值分别对应的权重系数，本实施例对权重系数不作限定。

具体实施时，反馈给用户端的发音评分可转换为百分制。

本实施例的发音质量评价方法，在利用GOP算法得到待评价语音的发音的准确度评价值的前提下，确定待评价语音的发音的完整度评价值和流利度评价值，综合待评价语音的准确度评价值、完整度评价值和流利度评价值确定待评价语音的发音评分，引入的完整度评价值和流利度评价值充分考虑了发音时单词和单词间的关系，从而得到句子级别的评分指标，通过综合单词级别的评分指标和句子级别的评分指标，使得发音评分更加全面、客观、准确，提高发音评分的可信度。

需要说明的是，上述步骤S203、步骤S204和步骤S205之间没有必然的先后顺序，例如，步骤S203、步骤S204和步骤S205可同时执行，也可以按预设的顺序先后执行步骤S203、步骤S204和步骤S205。

本实施例的方法可用于对任意一种语言的语音进行测评，例如，汉语、英语、日语、韩语等。具体实施时，针对不同的语言，只需要使用不同语言对应的语料训练本实施例的方法中使用的解码器、对齐模型等模型即可，针对不同语言，模型训练的方法相同，不再赘述。

如图4所示，基于与上述发音质量评价方法相同的发明构思，本发明实施例还提供了一种发音质量评价装置40，包括确定模块401、音素准确度计算模块402和准确度计算模块403。

确定模块401，用于在待评价语音中，确定出参考文本对应的每个音素对应的音频帧以及每个音素与对应的音频帧的匹配概率，参考文本为待评价语音对应的参考文本。

音素准确度计算模块402，用于针对每个音素，根据该音素对应的匹配概率和该音素对应的音频帧计算该音素的发音准确度评价值。

准确度计算模块403，用于根据每个音素的发音准确度评价值和预先为每个音素确定的权重值，得到待评价语音的准确度评价值。

进一步地，预先为每个音素确定的权重值中，元音对应的权重值大于辅音对应的权重值。

进一步地，准确度计算模块403具体用于：根据预先为每个音素确定的权重值，对每个音素对应的发音准确度评价值进行加权，得到待评价语音的准确度评价值。

进一步地，如图5所示，本发明实施例的发音质量评价装置40还包括完整度计算模块404、流利度计算模块405和评分模块406。

完整度计算模块404，用于确定待评价语音的完整度评价值。

流利度计算模块405，用于确定待评价语音的流利度评价值。

评分模块406，用于根据完整度评价值、流利度评价值和准确度评价值确定待评价语音的发音评分。

进一步地，完整度计算模块404具体用于：根据待评价语音对应的识别文本中包含的单词的数量和待评价语音对应的参考文本中包含的单词的数量，确定待评价语音的完整度评价值，识别文本为对待评价语音进行语音识别得到的文本。

进一步地，流利度计算模块405包括：音素流利度计算单元和语音流利度计算单元。

音素流利度计算单元，用于针对参考文本对应的每个音素，根据该音素对应的音频帧，确定该音素对应的实际发音时长，根据该音素对应的实际发音时长与该音素对应的参考发音时长，确定该音素对应的流利度评价值。

语音流利度计算单元，用于根据每个音素对应的流利度评价值确定待评价语音的流利度评价值。

进一步地，语音流利度计算单元具体用于：根据预先为每个音素确定的权重值，对每个音素对应的流利度评价值进行加权，得到待评价语音的流利度评价值。

进一步地，语音流利度计算单元具体用于：针对参考文本中的每个单词，计算该单词对应的音素的流利度评价值的平均值，得到该单词的第一流利度评价值；针对参考文本中的每个单词，计算该单词对应的第一时间长度，第一时间长度为该单词对应的第一个音素对应的第一个音频帧到最后一个音素对应的最后一个音频帧之间的时间长度，计算该单词对应的音素对应的实际发音时长的总和，得到该单词对应的第二时间长度，根据该单词对应的第一时间长度和第二时间长度，确定该单词的第二流利度评价值；针对参考文本中的每个单词，根据该单词的第一流利度评价值和第二流利度评价值，得到该单词的流利度评价值；根据参考文本中每个单词的流利度评价值，确定待评价语音的流利度评价值。

进一步地，语音流利度计算单元还用于：根据参考文本中每个单词对应的音频帧，确定任意两个相邻单词间的空白音频帧的数量，根据任意两个相邻单词间的空白音频帧的数量，确定待评价语音的第二流利度评价值；根据参考文本中每个单词的流利度评价值，确定待评价语音的第一流利度评价值；对待评价语音的第一流利度评价值和第二流利度评价值进行加权平均，得到待评价语音的流利度评价值。

进一步地，本发明实施例的发音质量评价装置40还包括参考发音时长确定模块，用于：针对语料库中的每段语音信息，在语音信息中，确定出文本信息对应的每个音素对应的音频帧，文本信息为语音信息对应的参考文本；根据文本信息对应的每个音素对应的音频帧，确定每个音素对应的发音时长；根据每个音素对应的发音时长，统计音素集中的每个音素对应的发音时长分布，音素集为指定语种包含的所有音素组成的集合；将每个音素对应的发音时长分布的中心值作为音素集中的每个音素的参考发音时长。

进一步地，评分模块406具体用于：根据预先拟合的权重系数，对完整度评价值、流利度评价值和准确度评价值进行加权，得到待评价语音的发音评分。

本发明实施例提的发音质量评价装置与上述发音质量评价方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述发音质量评价方法相同的发明构思，本发明实施例还提供了一种电子设备，该电子设备具体可以为智能音箱、桌面计算机、便携式计算机、智能手机、平板电脑等用户端设备，也可以为服务器等云端设备。如图6所示，该电子设备60可以包括处理器601、存储器602和收发机603。收发机603用于在处理器601的控制下接收和发送数据。

存储器602可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储发音质量评价方法的程序。

处理器601可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令，按照获得的程序指令实现上述任一实施例中的发音质量评价方法。

本发明实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述发音质量评价方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。

Claims

1.一种发音质量评价方法，其特征在于，包括：

在待评价语音中，确定出参考文本对应的每个音素对应的音频帧以及所述每个音素与对应的音频帧的匹配概率，所述参考文本为所述待评价语音对应的参考文本；

针对所述每个音素，根据所述音素对应的匹配概率和所述音素对应的音频帧计算所述音素的发音准确度评价值；

根据所述每个音素的发音准确度评价值和预先为每个音素确定的权重值，得到所述待评价语音的准确度评价值，其中，所述音素包括元音和辅音，元音对应的权重值大于辅音对应的权重值，若音素的发音准确度评价值低于预设的截断阈值，则所述音素的权重值为0；

确定所述待评价语音的完整度评价值和流利度评价值；

根据所述完整度评价值、所述流利度评价值和所述准确度评价值确定所述待评价语音的发音评分；

其中，确定所述待评价语音的流利度评价值，包括：

针对所述每个音素，根据所述音素对应的音频帧，确定所述音素对应的实际发音时长，根据所述音素对应的实际发音时长与所述音素对应的参考发音时长，确定所述音素对应的流利度评价值；

根据所述每个音素对应的流利度评价值确定所述待评价语音的流利度评价值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个音素的发音准确度评价值和预先为每个音素确定的权重值，得到所述待评价语音的准确度评价值，包括：

根据预先为每个音素确定的权重值，对所述每个音素对应的发音准确度评价值进行加权，得到所述待评价语音的准确度评价值。

3.根据权利要求1或2所述的方法，其特征在于，所述确定所述待评价语音的完整度评价值，包括：

根据所述待评价语音对应的识别文本中包含的单词的数量和所述待评价语音对应的参考文本中包含的单词的数量，确定所述待评价语音的完整度评价值，所述识别文本为对所述待评价语音进行语音识别得到的文本。

4.根据权利要求1所述的方法，其特征在于，所述根据所述每个音素对应的流利度评价值确定所述待评价语音的流利度评价值，包括：

根据预先为每个音素确定的权重值，对所述每个音素对应的流利度评价值进行加权，得到所述待评价语音的流利度评价值。

5.根据权利要求1所述的方法，其特征在于，所述根据所述每个音素对应的流利度评价值确定所述待评价语音的流利度评价值，包括：

针对所述参考文本中的每个单词，计算所述单词对应的音素的流利度评价值的平均值，得到所述单词的第一流利度评价值；

针对所述参考文本中的每个单词，计算所述单词对应的第一时间长度，所述第一时间长度为所述单词对应的第一个音素对应的第一个音频帧到最后一个音素对应的最后一个音频帧之间的时间长度，计算所述单词对应的每个音素对应的实际发音时长的总和，得到所述单词对应的第二时间长度，根据所述单词对应的第一时间长度和第二时间长度，确定所述单词的第二流利度评价值；

针对所述参考文本中的每个单词，根据所述单词的第一流利度评价值和第二流利度评价值，得到所述单词的流利度评价值；

根据所述参考文本中每个单词的流利度评价值，确定所述待评价语音的流利度评价值。

6.根据权利要求5所述的方法，其特征在于，还包括：

根据所述参考文本中每个单词对应的音频帧，确定任意两个相邻单词间的空白音频帧的数量，根据所述任意两个相邻单词间的空白音频帧的数量，确定所述待评价语音的第二流利度评价值；

所述根据所述参考文本中每个单词的流利度评价值，确定所述待评价语音的流利度评价值，包括：

根据所述参考文本中每个单词的流利度评价值，确定所述待评价语音的第一流利度评价值；

对所述待评价语音的第一流利度评价值和第二流利度评价值进行加权平均，得到所述待评价语音的流利度评价值。

7.根据权利要求1所述的方法，其特征在于，确定所述参考发音时长的方法包括：

针对语料库中的每段语音信息，在所述语音信息中，确定出文本信息对应的每个音素对应的音频帧，所述文本信息为所述语音信息对应的参考文本；

根据所述文本信息对应的每个音素对应的音频帧，确定所述每个音素对应的发音时长；

根据所述每个音素对应的发音时长，统计音素集中的每个音素对应的发音时长分布，所述音素集为指定语种包含的所有音素组成的集合；

将所述每个音素对应的发音时长分布的中心值作为所述音素集中的每个音素的参考发音时长。

8.根据权利要求1或2所述的方法，其特征在于，根据所述完整度评价值、所述流利度评价值和所述准确度评价值确定所述待评价语音的发音评分，包括：

根据预先拟合的权重系数，对所述完整度评价值、所述流利度评价值和所述准确度评价值进行加权，得到所述待评价语音的发音评分。

9.一种发音质量评价装置，其特征在于，包括：

确定模块，用于在待评价语音中，确定出参考文本对应的每个音素对应的音频帧以及所述每个音素与对应的音频帧的匹配概率，所述参考文本为所述待评价语音对应的参考文本；

音素准确度计算模块，用于针对所述每个音素，根据所述音素对应的匹配概率和所述音素对应的音频帧计算所述音素的发音准确度评价值；

准确度计算模块，用于根据所述每个音素的发音准确度评价值和预先为每个音素确定的权重值，得到所述待评价语音的准确度评价值，其中，所述音素包括元音和辅音，元音对应的权重值大于辅音对应的权重值，若音素的发音准确度评价值低于预设的截断阈值，则所述音素的权重值为0；

完整度计算模块，用于确定所述待评价语音的完整度评价值；

流利度计算模块，用于确定所述待评价语音的流利度评价值；

评分模块，用于根据所述完整度评价值、所述流利度评价值和所述准确度评价值确定所述待评价语音的发音评分；

其中，所述流利度计算模块包括：

音素流利度计算单元，用于针对所述每个音素，根据所述音素对应的音频帧，确定所述音素对应的实际发音时长，根据所述音素对应的实际发音时长与所述音素对应的参考发音时长，确定所述音素对应的流利度评价值；

语音流利度计算单元，用于根据所述每个音素对应的流利度评价值确定所述待评价语音的流利度评价值。

10.根据权利要求9所述的装置，其特征在于，所述准确度计算模块具体用于：

11.根据权利要求9或10所述的装置，其特征在于，所述完整度计算模块具体用于：

12.根据权利要求9所述的装置，其特征在于，所述语音流利度计算单元具体用于：

13.根据权利要求9所述的装置，其特征在于，所述语音流利度计算单元具体用于：

14.根据权利要求13所述的装置，其特征在于，所述语音流利度计算单元还用于：

15.根据权利要求9所述的装置，其特征在于，还包括参考发音时长确定模块，用于：

16.根据权利要求9或10所述的装置，其特征在于，所述评分模块具体用于：

17.一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述收发机用于在所述处理器的控制下接收和发送数据，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至8任一项所述方法的步骤。