CN104157285B - 语音识别方法、装置及电子设备 - Google Patents
语音识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN104157285B CN104157285B CN201310177246.1A CN201310177246A CN104157285B CN 104157285 B CN104157285 B CN 104157285B CN 201310177246 A CN201310177246 A CN 201310177246A CN 104157285 B CN104157285 B CN 104157285B
- Authority
- CN
- China
- Prior art keywords
- syllable
- node
- word
- score
- grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000013518 transcription Methods 0.000 claims description 19
- 230000035897 transcription Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001629511 Litchi Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 101150071577 chi2 gene Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音识别方法、装置及电子设备,属于音视频处理领域。所述方法包括:从获取到的语音信号中提取音频特征;根据所述音频特征识别出音节混淆网络;根据所述音节混淆网络和预设的标音词表生成词语网格;在所述词语网格中计算最优文字序列作为识别结果。本发明通过以音节而非词语作为基本识别单位,并根据音节混淆网络和词语网格来识别出最优文字序列,解决了现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题;达到了即便词表发生变化,但是作为基本识别单位的音节并不会发生改变,无需重新构造解码搜索空间的效果。
Description
技术领域
本发明涉及音视频处理领域,特别涉及一种语音识别方法、装置及电子设备。
背景技术
语音识别是将语音信号识别为对应的文字序列的一种技术,广泛应用于人机交互、音视频检索等等领域。
现有的语音识别方法大多以词语或者句子作为基本识别单位,大概包括如下步骤:第一,首先提取语音信号中的音频特征;第二,通过维特比解码计算该音频特征在预设的解码搜索网络中的最优文字序列,并将该最优文字序列作为识别结果。具体来讲,该预设的解码搜索网络中通常包括声学模型、词典和语言模型,声学模型通常为基于单音素或者三音素的隐马尔可夫模型,词典包括词语与音素之间的对应关系,语言模型则包括词语与词语之间组合成文字序列时的概率关系。在音频特征输入解码搜索网络后,通过声学模型可以识别出与该音频特征对应的音素序列,通过该音素序列又可以在词典中查询出若干个候选词语,最后通过语言模型中的概率关系选择出具有最大概率的几个候选词语所构成的顺序组合作为最优文本序列。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:由于上述解码搜索网络是由词语直接参与构造的,一旦词表(也即所有可识别词语的集合)发生变化,就需要重新构造解码搜索空间,整个技术方案的灵活性较低。
发明内容
为了解决现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题,本发明实施例提供了一种语音识别方法、装置及电子设备。所述技术方案如下:
第一方面,提供了一种语音识别方法,所述方法包括:
从获取到的语音信号中提取音频特征;
根据所述音频特征识别出音节混淆网络;
根据所述音节混淆网络和预设的标音词表生成词语网格;
在所述词语网格中计算最优文字序列作为识别结果;
其中,所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径,所述在所述词语网格中计算最优文字序列作为识别结果,包括:
在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌,并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动;
在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分;
在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。
第二方面,提供了一种语音识别装置,所述装置包括:
特征提取模块,用于从获取到的语音信号中提取音频特征;
音节识别模块,用于根据所述音频特征识别出音节混淆网络;
网格生成模块,用于根据所述音节混淆网络和预设的标音词表生成词语网格;
文字识别模块,用于在所述词语网格中计算最优文字序列作为识别结果;
其中,所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径,所述文字识别模块,包括:
令牌移动单元、得分计算单元和最优选择单元;
所述令牌移动单元,用于在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌,并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动;
所述得分计算单元,用于在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分;
所述最优选择单元,用于在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。
第三方面,提供了一种电子设备,所述电子设备包括如第二方面所述的语音识别装置。
本发明实施例提供的技术方案带来的有益效果是:
通过以音节而非词语作为基本识别单位,并根据音节混淆网络和词语网格来识别出最优文字序列,解决了现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题;达到了即便词表发生变化,但是作为基本识别单位的音节并不会发生改变,无需重新构造解码搜索空间的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的语音识别方法的方法流程图;
图2A是本发明实施例二提供的语音识别方法的方法流程图;
图2B是本发明实施例二所涉及的音节混淆网络的结构示意图;
图2C是本发明实施例二所涉及的生成词语网格过程的方法流程图;
图2D是本发明实施例二所涉及的词语网格的结构示意图;
图2E是本发明实施例二所涉及的在词语网格中计算最优文字序列过程的方法流程图;
图3是本发明实施例三提供的语音识别装置的结构示意图;
图4是本发明实施例四提供的语音识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例涉及的若干术语如下:
音素:根据语音的自然属性划分出的最小语音单位,比如在汉语中,声母y、l、k之类的均为一个音素,韵母i、o、e之类的也均为一个音素。在汉语中,拥有35个音素。
音节:由一个或者几个音素按照一定规则组合成的语音单位,汉语音节以韵母为中心,由声母、韵母和声调三部分组成;英语音节则以元音音素为中心,配合一个或多个辅音音素组成。汉语通常包括22个声母与38个韵母,400多个无调音节和1300个左右的有调音节。比如,“yu”、“xiao”等即为无调音节。
音节混淆网络:由一组有序的节点组成的网络结构,只有两个相邻的节点之间存在边(也称“弧”),且两个相邻节点之间存在一条或者多条边。其中,两个节点之间的部分可以称之为一个切片,每个切片包含一组音节,一组音节包括至少一个音节,每个音节与该两个节点之间的一条边对应,同时每个音节还对应有一个得分。
标音词表:对词表中的每个字或者词语给出其对应的发音音节序列和音素序列。
语言模型:描述词语之间统计特性的数学模型,通常包括词语与词语之间组合成文字序列时的概率关系。
令牌:用于控制网格遍历状态的特殊数据结构,可以记录遍历过程中走过的路径。
实施例一
请参考图1,其示出了本发明实施例一提供的语音识别方法的方法流程图。该语音识别方法可以用于电子设备中,该电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端;该电子设备也可以是服务器,该服务器属于提供语音识别功能的电子系统,该电子系统不仅包括服务器,还包括至少一个位于前端的终端,终端与服务器之间通过有线或者无线网络相连。该语音识别方法,包括:
步骤102,从获取到的语音信号中提取音频特征;
音频特征可以采用PLP(PerceptualLinearPredictive,感知线性预测)特征、LPCC(LinearPredictionCepstrumCoefficient,线性预测倒谱系数)与MFCC(MelFrequencyCepstrumCoefficient,美尔频率倒谱系数)中的任意一种。
步骤104,根据音频特征识别出音节混淆网络;
步骤106,根据音节混淆网络和预设的标音词表生成词语网格;
步骤108,在词语网格中计算最优文字序列作为识别结果。
综上所述,本实施例的语音识别方法,通过以音节而非词语作为基本识别单位,并根据音节混淆网络和词语网格来识别出最优文字序列,解决了现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题;达到了即便词表发生变化,但是作为基本识别单位的音节并不会发生改变,无需重新构造解码搜索空间的效果。
实施例二
请参考图2A,其示出了本发明实施例二提供的语音识别方法的方法流程图。该语音识别方法可以用于电子设备中,该电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端;该电子设备也可以是服务器,该服务器属于提供语音识别功能的电子系统,该电子系统不仅包括服务器,还包括至少一个位于前端的终端,终端与服务器之间通过有线或者无线网络相连。该语音识别方法,包括:
步骤201,获取语音信号;
电子设备获取语音信号。具体来讲,电子设备通常通过如下三种方式获取语音信号:读取预先存储的语音信号、通过内置或者外置麦克风采集语音信号、和/或,通过网络接收其他设备传输的语音信号。当然,电子设备也可能采取其他方式获取语音信号,其他方式可以是蓝牙、红外之类的近距离通信技术等等。
比如:电子设备是终端,则终端可以获取预先存储的语音信号,也可以通过内置或者外置麦克风采集用户实时输入的语音信号。
又比如:电子设备是电子系统中的服务器,则服务器可以通过网络接收来自电子系统中的终端的语音信号,终端的语音信号可以是终端采集到的用户实时输入的语音信号。
步骤202,从获取到的语音信号中提取音频特征;
在电子设备获取到语音信号之后,电子设备从获取到的语音信号中提取音频特征。音频特征可以采用PLP(PerceptualLinearPredictive,感知线性预测)特征、LPCC(LinearPredictionCepstrumCoefficient,线性预测倒谱系数)与MFCC(MelFrequencyCepstrumCoefficient,美尔频率倒谱系数)中的任意一种。
本实施例中以音频特征为PLP特征为例来举例说明。提取PLP特征的过程可以包括:
1)对语音信号进行预处理,预处理包括:预加重、分帧及加窗;
2)对预处理后的语音信号进行离散傅里叶变换,得到短时频率谱;
3)对短时频率谱进行临界频带分析,得到临时带宽听觉谱;
4)对临时带宽听觉谱用模拟人耳的等响度曲线进行等响度曲线预加重;
5)对预加重后的频谱进行强度-响度转换;
6)对转换后的频谱做离散傅里叶反变换,并用德宾算法计算出全极点模型;
7)根据全极点模型进行倒谱计算,并最终输出PLP特征。
当然,其它实施例中,也可以采用其它提取音频特征的方法,本文对此不作限定。
步骤203,根据音频特征识别出音节混淆网络;
电子设备可以根据音频特征识别出音节混淆网络。一种实现下,电子设备可以根据音频特征识别出包括至少两条音节路径的音节混淆网络;另一种实现下,电子设备可以根据音频特征识别出只包括最优音节路径的音节混淆网络。
其中,包括至少两条音节路径的音节混淆网络可以认为是普通的音节混淆网络,而只包括最优音节路径的音节混淆网络可以认为是普通的音节混淆网络中的一种特例。
以电子设备根据音频特征识别出的包括至少两条音节路径的音节混淆网络为例,整个音节混淆网络的识别过程可以利用SRILM(StanfordResearchInstituteLanguageModelingToolkit,斯坦福研究所语言建模工具包)中相关的音节混淆网络工具来实现。其主要步骤包括:
1)根据音频特征和声学模型识别出相应的音节网格lattice,该声学模型可以是预设的隐马尔科夫模型;
2)在音节网格lattice上利用前向、后向算法计算节点的后验概率,每个节点的后验概率=前向概率*后向概率;
3)对音节网格lattice进行概率剪枝,剪枝后重新计算每个节点的后验概率;
4)在音节网格lattice上寻找概率最大的节点,利用维特比算法生成一条包含起始和结束节点的最优音节路径,作为构建音节混淆网络的参照路径;
5)在音节网格lattice的剩余弧中寻找一个概率最大的节点,利用维特比算法生成一条最佳路径;
6)对于最佳路径中的所有弧节点,与音节混淆网络的每个切片进行比较,计算删除、插入、替代三种代价,取代价最小的一种方式将弧作为音节混淆网络中的一条边引入到参照路径中;
7)迭代执行5和6,直至所有弧都加入到音节混淆网络中。
当然,其它实施例中,也可以采用其它生成音节混淆网络的方法,本文对此不作限定。
在一个具体的例子中,假设语音信号的内容是“你知道了吧”,则识别出的音节混淆网络可以参考图2B所示。该音节混淆网络包括首节点0、第一节点1、第二节点2、第三节点3、第四节点4、第五节点5、第六节点6和尾节点7共8个节点。除首尾节点之外的每两个相邻节点之间可以认为是一个切片(也称混淆集合),每个切片包括一组音节,每组音节包括1至多个音节,每个音节对应有一个得分,一组切片中的所有音节的得分相加结果为1。具体来讲,第一节点1和第二节点2之间是第一切片,该第一切片包括3个音节,分别是ni3、yi3和li4,各自对应的得分是0.9、0.07和0.03;第二节点2和第三节点之间是第二切片,该第二切片包括2个音节,分别是zhi1和chi2,各自对应的得分是0.95和0.05;、、、,依次类推,第五节点5和第六节点6之间是第五切片,第五切片包括2个音节,分别是ba4和ma1,各自对应的得分为0.8和0.2。
步骤204,根据音节混淆网络和预设的标音词表生成词语网格;
电子设备可以根据音节混淆网络和预设的标音词表生成词语网格。具体来讲,本步骤可以包括如下几个子步骤,如图2C所示:
204a,遍历音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字;
音节混淆网络包括按序排列的至少一个切片,每个切片包含一组音节,每个音节对应有一个得分。电子设备需要遍历音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字。标音词表对词表中的每个字或者词语给出其对应的发音音节序列和音素序列,比如“你”对应的发音音节序列是“ni3”,“你好”对应的发音音节序列是“ni3hao3”。
在遍历到音节混淆网络中每个切片中的一个音节时,可以根据该音节在预设的标音词表中查询出所对应的候选文字。根据相邻切片间所对应的音节是否能够组成词语,分为如下204b和204c两种不同的处理操作:
204b,若当前切片中的音节与当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语,则将该词语生成为一个网格节点,并将当前切片中的音节与当前切片之后的切片中的音节各自所对应的得分的乘积作为网格节点的得分;
结合参考图2B和图2D,假设当前切片为第二切片,当前切片中的音节为“zhi1”,当前切片之后的切片为第三切片,当前切片之后的切片中的音节为“dao4”,这两个音节“zhi1”和“dao4”各自在标音词表中所对应的候选文字组合后是一个词语“知道”,则将该词语“知道”生成为图2D所示的词语网格中的一个网格节点21,同时将音节“zhi1”所对应的得分“0.95”和音节“dao4”所对应的得分“0.7”的乘积“0.665”作为网格节点21的得分。
采用类似的处理,还可以生成图2D所示的词语“迟到”、“已知”和“荔枝”所对应的三个网格节点。
204c,若当前切片中的音节与当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语,则将当前切片中的音节所对应的候选文字单独生成为一个网格节点,并将当前切片中的音节所对应的得分作为网格节点的得分;
继续参考图2B和图2D,假设当前切片是第一切片,当前切片中的音节为“ni3”,音节“ni3”在标音词表中所对应的候选文字“你”不能与当前切片之后的切片中的音节“zhi1”和“chi2”所对应的候选文字组合成为一个词语,则将当前切片中的音节所对应的候选文字“你”单独生成为一个网格节点,并将当前切片中的音节所对应的得分0.9作为这个网格节点的得分。
采用类似的处理,还可以生成图2D所示的候选文字“以”、“蚁”、“利”、“持”、“达”、“妖”、“套”、“到”、“了”、“吧”、“吗”和“爸”等等所对应的多个网格节点。
204d,将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接,并与开始网格节点和结束网格节点一起生成为词语网格。
由于各个切片中的音节存在前后顺序,对应地,可以将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接,并与开始网格节点22和结束网格节点23一起生成为词语网格,该词语网格可以是图2D所示出的词语网格。
但需要说明的是,词语网格的生成过程可能还会结合其他的子步骤,而不局限于上述的子步骤。在其它一些实施例中,可能还在构建词语网格时考虑插入错误、删除错误及替换错误所带来的影响而进行优化,比如一个音节为“zhou1”,所对应的候选文字为“周”,考虑可能由方言发音不准引起的替换错误,而将“走”也作为一个网格节点。在另外一些实施例中,还可能预先为网格节点的得分设置惩罚因子,对由音节的得分直接计算出的网格节点的得分用惩罚因子做一定调整,而获得更优的网格节点的得分以便后续计算过程中使用。
步骤205,在词语网格中计算最优文字序列作为识别结果。
在生成词语网格后,词语网格包括有开始网格节点、结束网格节点和位于开始网格节点和结束网格节点之间的至少一条节点路径,电子设备在词语网格中计算最优文字序列作为识别结果。具体来讲,本步骤可以包括如下子步骤,如图2E所示:
205a,在开始网格节点和结束网格节点之间的各条节点路径上分别设置一令牌,并将各个令牌从开始网格节点开始向结束网格节点逐步移动;
具体实现时,可以先在开始网格节点22设置一个初始活跃令牌,并将初始活跃令牌的得分设为1。然后将初始活跃令牌向下一级网格节点移动,若下一级网格节点为两个或者两个以上,则将初始活跃令牌按照与下一级节点路径一一对应的关系复制为多个令牌来向下一级网格节点移动,后续逐步移动过程时的操作可以依次类推。
205b,在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分;
设令牌Tp上的路径为Sp0Sp1Sp2…Sp3,网格节点Spi上的词语为Wpi,那么令牌Tp的得分可用如下公式计算:
其中,Score(Spi)为令牌Tp途经网格节点Spi上的得分,p为令牌的标识,k为当前途经网格节点的标识,P(Wp0Wp1…Wp3)为网格节点Spi上的词语在语言模型中的概率。以语言模型为二元模型为例,其计算公式如下:
优选地,为了减少运算量,可以实时判断令牌是否活跃,若令牌不活跃则丢弃该令牌。此时,子步骤205b还可以包括:
1)对于每一个令牌,根据当前途经网格节点的得分和预设的语言模型的概率计算该令牌的得分;
2)检测该令牌的得分是否小于预设阈值;
3)若检测结果为该令牌的得分不小于预设阈值,认为该令牌是活跃令牌,则将该令牌移动到下一个网格节点并重复上述步骤。
若检测结果为该令牌的得分小于预设阈值,认为该令牌是不活跃令牌,则丢弃该令牌不进行后续计算过程。
该预设阈值可以自行调节,预设阈值高时,识别速度会加快;预设阈值低时,活跃令牌较多,识别结果相对更多、更准确。
205c,在抵达结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为最优文字序列。
最终抵达结束网格节点23的令牌可能是两个或者两个以上,此时选择得分最高的一个令牌所途经的节点路径上的各个网格节点所对应的候选文字组合作为最优文字序列。本实施例中,最优文字序列是“你+知道+了+吧”。
步骤206,将识别结果做后续处理,后续处理包括显示、执行识别结果所指示的指令、发送给其它设备、利用识别结果进行检索和分析中的至少一种。
比如电子设备是终端,则终端可以将识别结果进行显示,或者根据识别结果进行提醒设置、打开相应的应用、查询天气和查询地理位置等。
又比如电子设备是服务器,则可以将识别结果发送给相应的位于前端的终端,以便终端对识别结果进行后续利用。
补充说明的是,步骤205之前,电子设备可以根据不同的词表生成并保存至少一个语言模型。在实际使用过程中,若词表发生变化,只需要对语言模型做相应的调整即可。具体来讲:
若增加一个词表,则根据增加的词表生成新的语言模型,并增加入初始的至少一个语言模型中;
若删除一个词表,则根据删除的词表从初始的至少一个语言模型中删除相应的语言模型;
若修改一个词表,则根据修改的词表生成新的语言模型,并增加入初始的至少一个语言模型中,或者,根据修改的词表从初始的至少一个语言模型中修改相应的语言模型。
综上所述,本实施例的语音识别方法,与上一实施例相比,还通过采用计算令牌的得分来从词语网格中计算出最优文字序列,能够实现较快的识别解码速度。还通过检测令牌是否活跃,只在令牌处于活跃状态时继续后续计算过程,可以实现更快的识别解码速度。
并且,现有的语音识别方法在词表变化时,需要重新构建解码搜索网络,若词表增加,则解码搜索网络也会成倍增长,对硬件的存储性能和计算性能都有较高要求。而本实施例中的语音识别方法,通过词表发生变化时,只对初始的至少一个语言模型进行相应的调整即可,对硬件的存储性能和计算性能的要求都相对较低。
下面为本发明实施例中的装置实施例,对于装置实施例中未详尽描述的部分,可以结合参考上述对应的方法实施例。
实施例三
请参考图3,其示出了本发明实施例三提供的语音识别装置的结构方框图。该语音识别装置可以通过软件、硬件或者两者的结合实现成为电子设备的全部或者部分,电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端;该电子设备也可以是服务器,该服务器属于提供语音识别功能的电子系统,该电子系统不仅包括服务器,还包括至少一个位于前端的终端,终端与服务器之间通过有线或者无线网络相连。该语音识别装置,包括:特征提取模块320、音节识别模块340、网格生成模块360和文字识别模块380。
特征提取模块320,用于从获取到的语音信号中提取音频特征;
音节识别模块340,用于根据所述特征提取模块320提取到的音频特征识别出音节混淆网络;
网格生成模块360,用于根据所述音节识别模块340识别出的音节混淆网络和预设的标音词表生成词语网格;
文字识别模块380,用于在所述网格生成模块360生成的词语网格中计算最优文字序列作为识别结果。
综上所述,本实施例的语音识别装置,通过以音节而非词语作为基本识别单位,并根据音节混淆网络和词语网格来识别出最优文字序列,解决了现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题;达到了即便词表发生变化,但是作为基本识别单位的音节并不会发生改变,无需重新构造解码搜索空间的效果。
实施例四
请参考图4,其示出了本发明实施例四提供的语音识别装置的结构方框图。该语音识别装置可以通过软件、硬件或者两者的结合实现成为电子设备的全部或者部分,电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端;该电子设备也可以是服务器,该服务器属于提供语音识别功能的电子系统,该电子系统不仅包括服务器,还包括至少一个位于前端的终端,终端与服务器之间通过有线或者无线网络相连。作为基于实施例三提供的更为优选的实施例,该语音识别装置,包括:特征提取模块320、音节识别模块340、网格生成模块360和文字识别模块380。
特征提取模块320,用于从获取到的语音信号中提取音频特征;
音节识别模块340,用于根据所述特征提取模块320提取到的音频特征识别出音节混淆网络;
网格生成模块360,用于根据所述音节识别模块340识别出的音节混淆网络和预设的标音词表生成词语网格;
文字识别模块380,用于在所述网格生成模块360生成的词语网格中计算最优文字序列作为识别结果。
更为优选地,所述音节识别模块340,用于根据所述音频特征识别出包括至少两条音节路径的音节混淆网络;或者,所述音节识别模块340,用于根据所述音频特征识别出只包括最优音节路径的音节混淆网络。
更为优选地,所述音节混淆网络包括按序排列的至少一个切片,每个切片包含一组音节,每个音节对应有一个得分,所述网格生成模块360,包括:网络遍历单元362、第一生成单元364、第二生成单元366和网格生成单元368;
所述网络遍历单元362,用于遍历所述音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字;
所述第一生成单元364,用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语,则将所述词语生成为一个网格节点,并将所述当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的得分的乘积作为所述网格节点的得分;
所述第二生成单元366,用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语,则将所述当前切片中的音节所对应的候选文字单独生成为一个网格节点,并将所述当前切片中的音节所对应的得分作为所述网格节点的得分;
所述网格生成单元368,用于将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接,并与开始网格节点和结束网格节点一起生成为词语网格。
更为优选地,所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径,所述文字识别模块380,包括:令牌移动单元382、得分计算单元384和最优选择单元386;
所述令牌移动单元382,用于在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌,并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动;
所述得分计算单元384,用于在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分;
所述最优选择单元386,用于在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。
更为优选地,所述得分计算单元384,包括:计算子单元、检测子单元和移动子单元;
所述计算子单元,用于对于每一个令牌,根据当前途经网格节点的得分和预设的语言模型的概率计算所述令牌的得分;
所述检测子单元,用于检测所述令牌的得分是否小于预设阈值;
所述移动子单元,用于若检测结果为所述令牌的得分不小于所述预设阈值,则将所述令牌移动到下一个网格节点并重复上述步骤。
更为优选地,所述文字识别模块380,还包括:模型生成单元381a、模型增加单元381b、模型删除单元381c和模型修改单元381d;
所述模型生成单元381a,用于根据不同的词表生成并保存至少一个语言模型;
所述模型增加单元381b,用于若增加一个词表,则根据增加的所述词表生成新的语言模型,并增加入所述至少一个语言模型中;
所述模型删除单元381c,用于若删除一个所述词表,则根据删除的所述词表从所述至少一个语言模型中删除相应的语言模型;
所述模型修改单元381d,用于若修改一个所述词表,则根据修改的所述词表生成新的语言模型,并增加入所述至少一个语言模型中,或者,根据修改的所述词表从所述至少一个语言模型中修改相应的语言模型。
综上所述,本实施例的语音识别装置,与上一实施例相比,还通过采用计算令牌的得分来从词语网格中计算出最优文字序列,能够实现较快的识别解码速度。还通过检测令牌是否活跃,只在令牌处于活跃状态时继续后续计算过程,可以实现更快的识别解码速度。
并且,现有的语音识别方法在词表变化时,需要重新构建解码搜索网络,若词表增加,则解码搜索网络也会成倍增长,对硬件的存储性能和计算性能都有较高要求。而本实施例中的语音识别装置,通过词表发生变化时,只对初始的至少一个语言模型进行相应的调整即可,对硬件的存储性能和计算性能的要求都相对较低。
需要说明的是:上述实施例提供的语音识别装置在进行语音识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。对于方法实施例中详尽描述的细节,但装置实施例中未详尽描述的部分,本领域技术人员可以理解只需在装置实施例中增设与之一一对应的模块或单元即可实现,本文也不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种语音识别方法,其特征在于,所述方法包括:
从获取到的语音信号中提取音频特征;
根据所述音频特征识别出音节混淆网络;
根据所述音节混淆网络和预设的标音词表生成词语网格;
在所述词语网格中计算最优文字序列作为识别结果;
其中,所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径,所述在所述词语网格中计算最优文字序列作为识别结果,包括:
在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌,并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动;
在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分;
在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。
2.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述音频特征识别出音节混淆网络,包括:
根据所述音频特征识别出包括至少两条音节路径的音节混淆网络;或者,
根据所述音频特征识别出只包括最优音节路径的音节混淆网络。
3.根据权利要求1所述的语音识别方法,其特征在于,所述音节混淆网络包括按序排列的至少一个切片,每个切片包含一组音节,每个音节对应有一个得分,所述根据所述音频混淆网络和预设的标音词表生成词语网格,包括:
遍历所述音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字;
若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语,则将所述词语生成为一个网格节点,并将所述当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的得分的乘积作为所述网格节点的得分;
若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语,则将所述当前切片中的音节所对应的候选文字单独生成为一个网格节点,并将所述当前切片中的音节所对应的得分作为所述网格节点的得分;
将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接,并与开始网格节点和结束网格节点一起生成为词语网格。
4.根据权利要求1所述的语音识别方法,其特征在于,所述在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分,包括:
对于每一个令牌,根据当前途经网格节点的得分和预设的语言模型的概率计算所述令牌的得分;
检测所述令牌的得分是否小于预设阈值;
若检测结果为所述令牌的得分不小于所述预设阈值,则将所述令牌移动到下一个网格节点并重复上述步骤。
5.根据权利要求4所述的语音识别方法,其特征在于,所述在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分之前,还包括:
根据不同的词表生成并保存至少一个语言模型;
若增加一个词表,则根据增加的所述词表生成新的语言模型,并增加入所述至少一个语言模型中;
若删除一个所述词表,则根据删除的所述词表从所述至少一个语言模型中删除相应的语言模型;
若修改一个所述词表,则根据修改的所述词表生成新的语言模型,并增加入所述至少一个语言模型中,或者,根据修改的所述词表从所述至少一个语言模型中修改相应的语言模型。
6.一种语音识别装置,其特征在于,所述装置包括:
特征提取模块,用于从获取到的语音信号中提取音频特征;
音节识别模块,用于根据所述音频特征识别出音节混淆网络;
网格生成模块,用于根据所述音节混淆网络和预设的标音词表生成词语网格;
文字识别模块,用于在所述词语网格中计算最优文字序列作为识别结果;
其中,所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径,所述文字识别模块,包括:
令牌移动单元、得分计算单元和最优选择单元;
所述令牌移动单元,用于在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌,并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动;
所述得分计算单元,用于在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分;
所述最优选择单元,用于在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。
7.根据权利要求6所述的装置,其特征在于,所述音节识别模块,用于根据所述音频特征识别出包括至少两条音节路径的音节混淆网络;或者,
所述音节识别模块,用于根据所述音频特征识别出只包括最优音节路径的音节混淆网络。
8.根据权利要求6所述的装置,其特征在于,所述音节混淆网络包括按序排列的至少一个切片,每个切片包含一组音节,每个音节对应有一个得分,所述网格生成模块,包括:网络遍历单元、第一生成单元、第二生成单元和网格生成单元;
所述网络遍历单元,用于遍历所述音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字;
所述第一生成单元,用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语,则将所述词语生成为一个网格节点,并将所述当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的得分的乘积作为所述网格节点的得分;
所述第二生成单元,用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语,则将所述当前切片中的音节所对应的候选文字单独生成为一个网格节点,并将所述当前切片中的音节所对应的得分作为所述网格节点的得分;
所述网格生成单元,用于将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接,并与开始网格节点和结束网格节点一起生成为词语网格。
9.根据权利要求6所述的装置,其特征在于,所述得分计算单元,包括:
计算子单元、检测子单元和移动子单元;
所述计算子单元,用于对于每一个令牌,根据当前途经网格节点的得分和预设的语言模型的概率计算所述令牌的得分;
所述检测子单元,用于检测所述令牌的得分是否小于预设阈值;
所述移动子单元,用于若检测结果为所述令牌的得分不小于所述预设阈值,则将所述令牌移动到下一个网格节点并重复上述步骤。
10.根据权利要求9所述的装置,其特征在于,所述文字识别模块,还包括:模型生成单元、模型增加单元、模型删除单元和模型修改单元;
所述模型生成单元,用于根据不同的词表生成并保存至少一个语言模型;
所述模型增加单元,用于若增加一个词表,则根据增加的所述词表生成新的语言模型,并增加入所述至少一个语言模型中;
所述模型删除单元,用于若删除一个所述词表,则根据删除的所述词表从所述至少一个语言模型中删除相应的语言模型;
所述模型修改单元,用于若修改一个所述词表,则根据修改的所述词表生成新的语言模型,并增加入所述至少一个语言模型中,或者,根据修改的所述词表从所述至少一个语言模型中修改相应的语言模型。
11.一种电子设备,其特征在于,所述电子设备包括如权利要求6至10任一所述的语音识别装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310177246.1A CN104157285B (zh) | 2013-05-14 | 2013-05-14 | 语音识别方法、装置及电子设备 |
PCT/CN2013/085155 WO2014183373A1 (en) | 2013-05-14 | 2013-10-14 | Systems and methods for voice identification |
US14/291,138 US9558741B2 (en) | 2013-05-14 | 2014-05-30 | Systems and methods for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310177246.1A CN104157285B (zh) | 2013-05-14 | 2013-05-14 | 语音识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104157285A CN104157285A (zh) | 2014-11-19 |
CN104157285B true CN104157285B (zh) | 2016-01-20 |
Family
ID=51882768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310177246.1A Active CN104157285B (zh) | 2013-05-14 | 2013-05-14 | 语音识别方法、装置及电子设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9558741B2 (zh) |
CN (1) | CN104157285B (zh) |
WO (1) | WO2014183373A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102267405B1 (ko) * | 2014-11-21 | 2021-06-22 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 장치의 제어 방법 |
CN104538032B (zh) * | 2014-12-19 | 2018-02-06 | 中国科学院计算技术研究所 | 一种融合用户反馈的汉语语音识别方法及系统 |
KR102117082B1 (ko) * | 2014-12-29 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US9384188B1 (en) * | 2015-01-27 | 2016-07-05 | Microsoft Technology Licensing, Llc | Transcription correction using multi-token structures |
CN106157957A (zh) * | 2015-04-28 | 2016-11-23 | 中兴通讯股份有限公司 | 语音识别方法、装置及用户设备 |
CN105513589B (zh) * | 2015-12-18 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN107885716B (zh) * | 2016-09-29 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 文本识别方法及装置 |
CN106782513B (zh) * | 2017-01-25 | 2019-08-23 | 上海交通大学 | 基于置信度的语音识别实现方法及系统 |
US10599645B2 (en) * | 2017-10-06 | 2020-03-24 | Soundhound, Inc. | Bidirectional probabilistic natural language rewriting and selection |
CN107992486A (zh) * | 2017-10-30 | 2018-05-04 | 上海寒武纪信息科技有限公司 | 一种信息处理方法及相关产品 |
CN107919127B (zh) * | 2017-11-27 | 2021-04-06 | 北京地平线机器人技术研发有限公司 | 语音处理方法、装置和电子设备 |
US11990137B2 (en) | 2018-09-13 | 2024-05-21 | Shanghai Cambricon Information Technology Co., Ltd. | Image retouching method and terminal device |
CN111415654B (zh) * | 2019-01-07 | 2023-12-08 | 北京嘀嘀无限科技发展有限公司 | 一种音频识别方法和装置、以及声学模型训练方法和装置 |
CN111583906B (zh) * | 2019-02-18 | 2023-08-15 | 中国移动通信有限公司研究院 | 一种语音会话的角色识别方法、装置及终端 |
CN110046276B (zh) * | 2019-04-19 | 2021-04-20 | 北京搜狗科技发展有限公司 | 一种语音中关键词的检索方法和装置 |
US11322148B2 (en) * | 2019-04-30 | 2022-05-03 | Microsoft Technology Licensing, Llc | Speaker attributed transcript generation |
CN110610700B (zh) * | 2019-10-16 | 2022-01-14 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN112259082B (zh) * | 2020-11-03 | 2022-04-01 | 思必驰科技股份有限公司 | 实时语音识别方法及系统 |
CN113380227B (zh) * | 2021-07-23 | 2024-11-15 | 上海才历网络有限公司 | 一种基于神经网络的语种识别方法、装置及电子设备 |
CN113963688B (zh) * | 2021-12-23 | 2022-05-20 | 深圳市友杰智新科技有限公司 | 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234504A (ja) * | 2004-02-23 | 2005-09-02 | Advanced Telecommunication Research Institute International | 音声認識装置及びhmm発音モデルをトレーニングする方法 |
CN1692405A (zh) * | 2002-11-21 | 2005-11-02 | 索尼株式会社 | 语音处理设备、语言处理方法、存储介质及程序 |
US7006971B1 (en) * | 1999-09-17 | 2006-02-28 | Koninklijke Philips Electronics N.V. | Recognition of a speech utterance available in spelled form |
CN101493812A (zh) * | 2009-03-06 | 2009-07-29 | 中国科学院软件研究所 | 一种音字转换方法 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2836159B2 (ja) * | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
US6574597B1 (en) * | 1998-05-08 | 2003-06-03 | At&T Corp. | Fully expanded context-dependent networks for speech recognition |
US6269335B1 (en) * | 1998-08-14 | 2001-07-31 | International Business Machines Corporation | Apparatus and methods for identifying homophones among words in a speech recognition system |
US7212968B1 (en) * | 1999-10-28 | 2007-05-01 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
TW495736B (en) * | 2001-02-21 | 2002-07-21 | Ind Tech Res Inst | Method for generating candidate strings in speech recognition |
US7092883B1 (en) * | 2002-03-29 | 2006-08-15 | At&T | Generating confidence scores from word lattices |
US7571098B1 (en) * | 2003-05-29 | 2009-08-04 | At&T Intellectual Property Ii, L.P. | System and method of spoken language understanding using word confusion networks |
EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
JP4604178B2 (ja) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
US7831425B2 (en) * | 2005-12-15 | 2010-11-09 | Microsoft Corporation | Time-anchored posterior indexing of speech |
US8214210B1 (en) * | 2006-09-19 | 2012-07-03 | Oracle America, Inc. | Lattice-based querying |
US8831944B2 (en) * | 2009-12-15 | 2014-09-09 | At&T Intellectual Property I, L.P. | System and method for tightly coupling automatic speech recognition and search |
-
2013
- 2013-05-14 CN CN201310177246.1A patent/CN104157285B/zh active Active
- 2013-10-14 WO PCT/CN2013/085155 patent/WO2014183373A1/en active Application Filing
-
2014
- 2014-05-30 US US14/291,138 patent/US9558741B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006971B1 (en) * | 1999-09-17 | 2006-02-28 | Koninklijke Philips Electronics N.V. | Recognition of a speech utterance available in spelled form |
CN1692405A (zh) * | 2002-11-21 | 2005-11-02 | 索尼株式会社 | 语音处理设备、语言处理方法、存储介质及程序 |
JP2005234504A (ja) * | 2004-02-23 | 2005-09-02 | Advanced Telecommunication Research Institute International | 音声認識装置及びhmm発音モデルをトレーニングする方法 |
CN101493812A (zh) * | 2009-03-06 | 2009-07-29 | 中国科学院软件研究所 | 一种音字转换方法 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
Also Published As
Publication number | Publication date |
---|---|
US20140350934A1 (en) | 2014-11-27 |
CN104157285A (zh) | 2014-11-19 |
WO2014183373A1 (en) | 2014-11-20 |
US9558741B2 (en) | 2017-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
US11514891B2 (en) | Named entity recognition method, named entity recognition equipment and medium | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
CN112185363B (zh) | 音频处理方法及装置 | |
CN108630200B (zh) | 声音关键字检测装置以及声音关键字检测方法 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
CN113948062A (zh) | 数据转换方法及计算机存储介质 | |
JP2024512607A (ja) | 単語のセグメント化を正則化すること | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
CN108364655A (zh) | 语音处理方法、介质、装置和计算设备 | |
Mandel et al. | Audio super-resolution using concatenative resynthesis | |
CN112133285B (zh) | 语音识别方法、装置、存储介质和电子设备 | |
CN113112996A (zh) | 用于基于语音的音频和文本对齐的系统和方法 | |
CN114528812A (zh) | 一种语音识别方法、系统、计算设备及存储介质 | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
CN113763921B (zh) | 用于纠正文本的方法和装置 | |
Håkansson et al. | Transfer learning for domain specific automatic speech recognition in Swedish: An end-to-end approach using Mozilla’s DeepSpeech | |
Nahid et al. | Comprehending real numbers: Development of bengali real number speech corpus | |
CN112733546A (zh) | 表情符号生成方法、装置、电子设备及存储介质 | |
CN112750423A (zh) | 个性化语音合成模型构建方法、装置、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200826 Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd. Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TR01 | Transfer of patent right |