CN111402887A

CN111402887A - 一种语音转义文字的方法及装置

Info

Publication number: CN111402887A
Application number: CN201811542192.3A
Authority: CN
Inventors: 陈长伟; 杨晓亮; 田丹
Original assignee: Beijing Evomedia Technology Co ltd
Current assignee: Beijing Evomedia Technology Co ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2020-07-10

Abstract

本发明公开了一种语音转义文字的方法及装置，包括：对获取的语音进行预处理，获得与所述语音对应的语音特征；将所述语音特征存入到数据库模型库中，并进行匹配处理，获得语音信号；将所述语音信号基于预设语言模型进行处理，确定与所述语音信号对应的语音序列，其中，所述预设语言模型表征对语音信号中多音字的处理模型；基于预设声建模型对所述语音序列进行解码处理，获得与所述语音序列对应的文字信息。通过本发明实现了对语音识别及对文字转换更加精准，符合用户的需求的目的。

Description

一种语音转义文字的方法及装置

技术领域

本发明涉及音频处理技术领域，特别是涉及一种语音转义文字的方法及装置。

背景技术

在很多场景中，例如：会议、培训、采访和演讲比赛等，需要对音频内容进行记录，通常是将上述内容以音频形式进行记录，然后由专业的人员通过听音频并将音频转换为对应的文字进行记录。但是人工转换记录的方式会耗费时间并且效率低。

伴随着智能技术的发展，已经出现了语音转换为文字的方法，将产生的音频转换为文字进行输出，现有的语音转化文字技术都要求讲话者按照固定的模式和语法结构进行语音输出，才能够被转换系统或者工具识别。由于上述的语音转换文字技术对环境以及讲话者的方式和特点都有一定的要求，对于语音中夹杂多国语言或者存在一些低频词汇和专业术语，这就使得语音识别过程较为困难，并且在受到口音、方言或者不同音色的影响，也会影响该语音转换成文字的准确性，进而不能符合用户讲话的本质含义。

发明内容

针对于上述问题，本发明提供一种语音转义文字的方法及装置，实现了对语音识别及对文字转换更加精准，符合用户的需求的目的。

为了实现上述目的，本发明提供了如下技术方案：

一种语音转义文字的方法，包括：

对获取的语音进行预处理，获得与所述语音对应的语音特征；

将所述语音特征存入到数据库模型库中，并进行匹配处理，获得语音信号；

将所述语音信号基于预设语言模型进行处理，确定与所述语音信号对应的语音序列，其中，所述预设语言模型表征对语音信号中多音字的处理模型；

基于预设声建模型对所述语音序列进行解码处理，获得与所述语音序列对应的文字信息。

可选地，所述对获取的语音进行预处理，获得与所述语音对应的语音特征，包括：

获取语音；

提取所述语音在单位时间内通过垂直于声波传播方向的单位面积的语音特征，其中，所述语音特征包括平均声能、声音强度、音频特征、基音周期、信噪比和谐噪比中的一种或多种。

可选地，所述将所述语音特征存入到数据库模型中，并进行匹配处理，获得语音信号，包括：

将所述语音特征存入数据模型库；

将所述语音特征与所述数据模型库中的语音标准进行匹配，获得滤除干扰音的语音信号。

可选地，所述将所述语音信号基于预设语言模型进行处理，确定与所述语音信号对应的语音序列，包括：

基于语音信号集，创建语言模型；

通过所述语言模型，对所述语音信号进行分帧，确定所述语音信号的每一帧所匹配的音素；

根据所述语音信号的每一帧所匹配的音素，计算获得每一帧的左右音素；

根据所述语音信号的每一帧音素和左右音素，确定与所述语音信号对应的语音序列。

可选地，所述基于预设声建模型对所述语音序列进行解码处理，获得与所述语音序列对应的文字信息，包括：

基于预设声建模型，对所述语音序列进行处理，获得与所述语音序列对应的声学表示信息；

对所述声学表示信息进行解码处理，获得与所述声学表示信息对应的文字搜索路径；

在所述文字搜索路径中确定最优搜索路径，并根据所述最优搜索路径确定与所述语音序列对应的文字信息。

一种语音转义文字的装置，包括：

预处理单元，用于对获取的语音进行预处理，获得与所述语音对应的语音特征；

匹配处理单元，用于将所述语音特征存入到数据库模型库中，并进行匹配处理，获得语音信号；

语言模型处理单元，用于将所述语音信号基于预设语言模型进行处理，确定与所述语音信号对应的语音序列，其中，所述预设语言模型表征对语音信号中多音字的处理模型；

声建模型处理单元，用于基于预设声建模型对所述语音序列进行解码处理，获得与所述语音序列对应的文字信息。

可选地，所述预处理单元包括：

获取子单元，用于获取语音；

提取子单元，用于提取所述语音在单位时间内通过垂直于声波传播方向的单位面积的语音特征，其中，所述语音特征包括平均声能、声音强度、音频特征、基音周期、信噪比和谐噪比中的一种或多种。

可选地，所述匹配处理单元包括：

存储子单元，用于将所述语音特征存入数据模型库；

匹配子单元，用于将所述语音特征与所述数据模型库中的语音标准进行匹配，获得滤除干扰音的语音信号。

可选地，所述语言模型处理单元包括：

模型创建子单元，用于基于语音信号集，创建语言模型；

分帧子单元，用于通过所述语言模型，对所述语音信号进行分帧，确定所述语音信号的每一帧所匹配的音素；

计算子单元，用于根据所述语音信号的每一帧所匹配的音素，计算获得每一帧的左右音素；

确定子单元，用于根据所述语音信号的每一帧音素和左右音素，确定与所述语音信号对应的语音序列。

可选地，所述声建模型处理单元包括：

语音序列处理子单元，用于基于预设声建模型，对所述语音序列进行处理，获得与所述语音序列对应的声学表示信息；

解码处理子单元，用于对所述声学表示信息进行解码处理，获得与所述声学表示信息对应的文字搜索路径；

文字确定子单元，用于在所述文字搜索路径中确定最优搜索路径，并根据所述最优搜索路径确定与所述语音序列对应的文字信息。

相较于现有技术，本发明提供了一种语音转义文字的方法及装置，对获取的语音进行处理后得到语音信号，然后基于语言模型对语音信号进行处理，可以对语音信号进行多音字处理，使得处理后的语音序列更能满足语境和情感，然后基于通过大量数据训练产生声建模型将语音序列转换成文字，进而使得将语音转义成的文字更加准确，能够与讲话者的情感更加匹配，符合用户的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种语音转义文字的方法的流程示意图；

图2为本发明实施例提供的另一种语音转义文字的方法的示意图；

图3为本发明实施例提供的一种语音转义文字的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种语音转义文字的方法，参见图1，包括：

S11、对获取的语音进行预处理，获得与语音对应的语音特征。

由于获取的语音中会基于环境的不同或者受讲话者的口音、方言、音色的不同的限制，会使得语音呈现出不同的特点，为了使得对语音的处理更加精准，需要对语音进行预处理，提取出对应的语音特征，具体包括：

获取语音；

提取语音在单位时间内通过垂直于声波传播方向的单位面积的语音特征，其中，语音特征包括平均声能、声音强度、音频特征、基音周期、信噪比和谐噪比中的一种或多种。

即在语音输入以后，提取语音在单位时间内通过垂直于声波传播方向的单位面积的平均声能、声音强度、音频高低、估算基音周期、信噪比、谐噪比等语音特征。其中，之所以要获取单位时间内的这些语音特征是由于讲话者可能会受情感或语境的影响，使得不同时间的语音特点不同，进而采集单位时间内的语音特征会使得后续处理更加准确。而采集单位面积会使得分析范围更加精准。

S12、将语音特征存入到数据库模型库中，并进行匹配处理，获得语音信号。

在获取到语音特征后，会将这些语音特征或者语音特征对应的数据值存入数据模型库，通过不停的训练匹配和对比最终获得满足预设要求的语音信号。即这些语音信号已经滤除了相关干扰信息，例如，环境中的杂音、语气叹音或者现场反馈的掌声等信息。

在该数据库模型中可以对声音数据进行分类，区分哪些是干扰声音数据，哪些是正常的讲话者的语音数据。

S13、将语音信号基于预设语言模型进行处理，确定与语音信号对应的语音序列；

其中，预设语言模型表征对语音信号中多音字的处理模型。

由于该语言模型可以理解为对多音字进行消减处理，基于语言模型的处理具体可以包括：

基于语音信号集，创建语言模型；

通过语言模型，对语音信号进行分帧，确定语音信号的每一帧所匹配的音素；

根据语音信号的每一帧所匹配的音素，计算获得每一帧的左右音素；

根据语音信号的每一帧音素和左右音素，确定与语音信号对应的语音序列。

该语言模型是基于历史采集的语言信号集进行训练和预测获得的。构建语言模型主要目的是使用计算一个句子出现的模型的概率，即在该语言模型中会对语音信号进行语义分析处理，获取其对应的上下文语境环境。具体的，构建语言模型主要使用计算一个句子出现的概率模型，利用语言模型确定哪个词序列的可能性最大，或者给若干个词可以预测出下一个词语出现的可能性。即对语音信号使用预设算法对语音进行分帧，对每一帧位于哪个音素，同时对于每一个音素找到它对应的所有帧，从这些帧的特征中估计出音素模型参数，进而只需判断相邻因素的那一帧是左边因素还是右边因素，这样反复训练得到准确率较高的语言模型库，从而可以确定语音序列。

S14、基于预设声建模型对语音序列进行解码处理，获得与语音序列对应的文字信息。

对语音信号处理之后，需要将语音转换为文字，这里需要机遇声建模型进行处理，可以包括：

基于预设声建模型，对语音序列进行处理，获得与语音序列对应的声学表示信息；

对声学表示信息进行解码处理，获得与声学表示信息对应的文字搜索路径；

在文字搜索路径中确定最优搜索路径，并根据最优搜索路径确定与语音序列对应的文字信息。

具体的，创建的声建模型可以理解为对发声的建模能够把语音输入转换成声学表示的输出，或者可以理解为该语音属于某个声学符号的概率即用来描述语音和状态之间转化的模型。

在处理过程中使用基于隐使马尔科夫模型的转移概率密度以递归神经网络进行建模。完成声学建模就可以基于声建模型对未知语音序列进行语音识别从而转换得到文字。

本发明提供了一种语音转义文字的方法，对获取的语音进行处理后得到语音信号，然后基于语言模型对语音信号进行处理，可以对语音信号进行多音字处理，使得处理后的语音序列更能满足语境和情感，然后基于通过大量数据训练产生声建模型将语音序列转换成文字，进而使得将语音转义成的文字更加准确，能够与讲话者的情感更加匹配，符合用户的需求。

参见图2，为本发明实施例提供的另一种语音转义文字的方法。

语音输入之后，提取语音中单位时间内通过垂直于声波传播方向的单位面积的平均声能、声音强度、音频高低、估算基音周期、信噪比、谐噪比等语音特征，将这些个语音的特征数据值存入数据模型库，持续训练匹配和对比最终获得预期的语音信号。

构建语言模型，主要使用计算一个句子出现的概率模型，利用语言模型确定哪个词序列的可能性更大，或者给若干个词可以预测出下一个词语出现的可能性，将得到的语音信号使用预设EM算法对语音信号进行分帧处理，其中，EM算法包括E步骤和M步骤，E步骤：使用BPTT算法优化神经网络参数，M步骤：使用神经网络的输出，重新寻找最优的对齐关系。具体的，对语音信号进行分帧，使用E步骤是对每一帧位于哪一个因素，M步骤是对每一个因素，找到它对应的所有帧，从这些帧的特征中估计出音素模型的参数。对齐之后对每个状态进行GMM训练，之后循环E步骤和M步骤。E步骤只需要判断相邻音素的那一帧是左边音素还是右边音素。这样反复训练得到准确率较高的语言模型库。

然后创建声建模型，即可以理解为对发声的建模能够把语音输入转化成声学表示的输出，或者理解为该语音属于某个声学符号的概率，即该模型是用来描述语音和状态之间转化的模型。使用隐式马尔科夫模型的转移概率密度以递归神经网络进行建模，完成声建模型就可以基于声学模型对未知语音帧序列进行语音识别，这一过程通常称为搜索解码过程，然后解码通常会给定了根据语法、字典对马尔科夫模型进行连接后的搜索网络(网络的每个节点可以是一个词组)后，在所有可能的搜索路径中选择一条或者多条最优路径作为识别结果转义成文字，其中，最优的条件通常满足最大后验概率，而路径可以理解为字典中出现词组的词组串。

其中，隐式马尔科夫模型HMM是指这一马尔科夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得到的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值至与当前状态或者当前的状态转移有关，这样可以降低模型的复杂度。

在本发明提供的实施例中基于人工智能的识别，算法训练，对于发音不准的语音识别存在一定的识别不准确问题，对于带有一定情感的语音存在语句标点符号的差异，会根据上下文去理解，通过人工智能来分析出大致意思。在声学模式上训练了大量的数据库，提高了低频词语的识别率和在不同的音色区别上进行了改进，同时还对情感色彩识别方面进行了改进，对于妇幼情感色彩的声音系统识别会做出相应的表情以及符号来增强识别准确性。

在本发明实施例中还提供了一种语音转义文字的装置，参见图3，包括：

预处理单元，用于对获取的语音进行预处理，获得与语音对应的语音特征；

匹配处理单元，用于将语音特征存入到数据库模型库中，并进行匹配处理，获得语音信号；

语言模型处理单元，用于将语音信号基于预设语言模型进行处理，确定与语音信号对应的语音序列，其中，预设语言模型表征对语音信号中多音字的处理模型；

声建模型处理单元，用于基于预设声建模型对语音序列进行解码处理，获得与语音序列对应的文字信息。

可选地，预处理单元包括：

获取子单元，用于获取语音；

提取子单元，用于提取语音在单位时间内通过垂直于声波传播方向的单位面积的语音特征，其中，语音特征包括平均声能、声音强度、音频特征、基音周期、信噪比和谐噪比中的一种或多种。

可选地，匹配处理单元包括：

存储子单元，用于将语音特征存入数据模型库；

匹配子单元，用于将语音特征与数据模型库中的语音标准进行匹配，获得滤除干扰音的语音信号。

可选地，语言模型处理单元包括：

模型创建子单元，用于基于语音信号集，创建语言模型；

分帧子单元，用于通过语言模型，对语音信号进行分帧，确定语音信号的每一帧所匹配的音素；

计算子单元，用于根据语音信号的每一帧所匹配的音素，计算获得每一帧的左右音素；

确定子单元，用于根据语音信号的每一帧音素和左右音素，确定与语音信号对应的语音序列。

可选地，声建模型处理单元包括：

语音序列处理子单元，用于基于预设声建模型，对语音序列进行处理，获得与语音序列对应的声学表示信息；

解码处理子单元，用于对声学表示信息进行解码处理，获得与声学表示信息对应的文字搜索路径；

文字确定子单元，用于在文字搜索路径中确定最优搜索路径，并根据最优搜索路径确定与语音序列对应的文字信息。

本发明提供了一种语音转义文字的装置，在预处理单元和匹配处理单元中对获取的语音进行处理后得到语音信号，然后通过语言模型处理单元和声建模型处理单元中基于语言模型对语音信号进行处理，可以对语音信号进行多音字处理，使得处理后的语音序列更能满足语境和情感，然后基于通过大量数据训练产生声建模型将语音序列转换成文字，进而使得将语音转义成的文字更加准确，能够与讲话者的情感更加匹配，符合用户的需求。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音转义文字的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对获取的语音进行预处理，获得与所述语音对应的语音特征，包括：

获取语音；

3.根据权利要求1所述的方法，其特征在于，所述将所述语音特征存入到数据库模型中，并进行匹配处理，获得语音信号，包括：

将所述语音特征存入数据模型库；

4.根据权利要求1所述的方法，其特征在于，所述将所述语音信号基于预设语言模型进行处理，确定与所述语音信号对应的语音序列，包括：

基于语音信号集，创建语言模型；

5.根据权利要求1所述的方法，其特征在于，所述基于预设声建模型对所述语音序列进行解码处理，获得与所述语音序列对应的文字信息，包括：

6.一种语音转义文字的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述预处理单元包括：

获取子单元，用于获取语音；

8.根据权利要求6所述的装置，其特征在于，所述匹配处理单元包括：

存储子单元，用于将所述语音特征存入数据模型库；

9.根据权利要求6所述的装置，其特征在于，所述语言模型处理单元包括：

模型创建子单元，用于基于语音信号集，创建语言模型；

10.根据权利要求6所述的装置，其特征在于，所述声建模型处理单元包括：