CN108806691B - 语音识别方法及系统 - Google Patents
语音识别方法及系统 Download PDFInfo
- Publication number
- CN108806691B CN108806691B CN201710317318.6A CN201710317318A CN108806691B CN 108806691 B CN108806691 B CN 108806691B CN 201710317318 A CN201710317318 A CN 201710317318A CN 108806691 B CN108806691 B CN 108806691B
- Authority
- CN
- China
- Prior art keywords
- acoustic
- recognition result
- recognized
- voice signal
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000013507 mapping Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 22
- 230000006399 behavior Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 12
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 11
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种语言识别方法及系统,其通过用户输入的特定的语音信号和相应的期望识别结果而建立特定人声学数据库,从而使得下次进行语音识别时,可通过特定人声学数据库和非特定人声学数据库两种数据库进行模式匹配,从而确定出最佳匹配于待识别语音信号的识别结果。由于特定人声学数据库是由特定用户建立的,因而其更符合用户的语音习惯,因此对于特定人而言,其识别准确度将大大提高。本发明的语音识别方法,不仅可对非特定人输入的语音信号进行准确的识别,也可对特定人输入的语音信号进行准确识别,从而利于发音不标准、发音带有特定口音的用户进行使用,扩大语音识别的应用范围,提高语音识别的准确度。
Description
【技术领域】
本发明涉及语音识别,特别涉及一种面向特定人和非特定人的语音识别方法及系统。
【背景技术】
语音识别技术是通过机器的识别和理解过程将人发出的声音、字节或短语转换成相应的文字或符号,或者给出响应的一种信息技术。随着信息技术的飞速发展,语音识别技术已经广泛应用于人们的日常生活中。例如,使用终端设备时,采用语音识别技术可以通过输入语音的方式方便地在终端设备中输入信息。
语音识别技术的本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果输出。现有的语音识别技术采用的识别方法有多种,例如模型匹配法、概率模型法等。目前业界普遍采用的是概率模型法语音识别技术。概率模型法语音识别技术,是通过云端对大量的不同用户输入的语音进行声学训练,而得到一个通用的声学模型,根据所述通用的声学模型及语音模型将待识别的语音信号解码为文本输出。这种识别方法,主要是针对非特定人而言,其可对大部分人的语音进行识别,但是,由于其是通用的声学模型,当用户发音不够标准,或者带有地方口音时,这种通用的声学模型便无法准确的进行匹配计算,从而导致其识别结果准确度降低,不利于特定用户,尤其是发音不标准,有地方口音的用户进行使用。
【发明内容】
本发明旨在解决上述问题,而提供一种可提高语音识别准确度,既可对非特定人进行准确的语音识别,也可对特定人进行准确的语音识别的语音识别方法及装置。
为实现上述目的,本发明提供了一种语音识别方法,其特征在于,识别时,其包括:
S1、接收用户输入的待识别语音信号,并从输入的待识别语音信号中提取出可表征该待识别语音信号的声学特征;
S2、获取特定人声学数据库,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出;若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则获取非特定人声学数据库,将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出;
或,获取非特定人声学数据库,将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出;若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则获取特定人声学数据库,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出;
或,获取非特定人声学数据库和特定人声学数据库,将提取的待识别语音信号的声学特征与非特定人声学数据库和特定人声学数据库进行模式匹配,寻找非特定人声学数据库和特定人声学数据库中最佳匹配于该待识别语音信号的识别结果或满足预设条件的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
进一步地,识别前,可选的,还包括以下步骤:
S01、预先接收用户输入的语音信号和用户定义的与该输入的语音信号相对应的期望识别结果;
S02、从输入的语音信号中提取出可表征该语音信号的声学特征;
S03、将用户输入的语音信号和/或提取出的声学特征与所述期望识别结果建立映射关系,以建立或更新所述特定人声学数据库。
进一步地,识别后,若输出的最终识别结果不符合用户的期望,则:
S31、提供输入入口供用户输入与该待识别语音信号相对应的期望识别结果;
S32、将该期望识别结果与所述待识别语音信号和/或声学特征建立映射关系以更新所述特定人声学数据库;
进一步地,按以下规则建立或更新所述特定人声学数据库:
将期望识别结果与相应的语音信号和/或该语音信号的声学特征整体建立映射,使一项语音信号和/或该语音信号的声学特征对应一项期望识别结果;
将所述语音信号和/或该语音信号的声学特征与对应的期望识别结果更新至所述特定人声学数据库中。
进一步地,按以下规则更新所述特定人声学数据库:
将期望识别结果以语音单元进行划分,为每个含有语音单元的发音按照声学建模方式建立声学模型;
将建立的各个声学模型及相应的语音单元更新至所述特定人声学数据库中。
进一步地,按以下规则更新所述特定人声学数据库:
将期望识别结果与相应的语音信号和/或该语音信号的声学特征整体建立映射,使一项语音信号和/或该语音信号的声学特征对应一项期望识别结果;
并将期望识别结果以语音单元进行划分,为每个含有语音单元的发音按照声学建模方式建立声学模型;
将所述语音信号和/或该语音信号的声学特征与对应的期望识别结果及建立的各个声学模型与相应的语音单元更新至所述特定人声学数据库中。
进一步地,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,将待识别语音信号的声学特征与特定人声学数据库中的声学特征进行比较,确定出最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果,并将该期望识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
进一步地,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,将待识别语音信号的声学特征与特定人声学数据库中的声学模型进行比较,确定出最佳匹配于待识别语音信号的声学特征的声学模型序列,并将该声学模型序列所对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
进一步地,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时:
将提取的待识别语音信号的声学特征与特定人声学数据库中的声学特征数据进行比较,寻找最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果;
若该最佳匹配的期望识别结果满足预设条件,则将该最佳匹配的期望识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果;
若无最佳匹配的期望识别结果数据,或该最佳匹配的期望识别结果数据不满足预设条件,则将提取的待识别语音信号的声学特征与特定人声学数据库中的声学模型进行模式匹配,确定出最佳匹配于该声学特征的声学模型序列,并将该声学模型序列所对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
进一步地,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时:
将提取的待识别语音信号的声学特征与特定人声学数据库中的声学特征数据及声学模型进行比较,寻找最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果及最佳匹配于该声学特征的声学模型序列;
根据预设条件确定出最佳匹配的识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
进一步地,所述语音单元包括音素、音节、词、短语、句子中的一种或多种。
进一步地,输出最终识别结果后,则:
获取基于该识别结果的反馈;
根据该反馈而更新所述特定人声学数据库。
进一步地,所述反馈包括用户主动输入的反馈、系统根据用户的输入行为进行自动判断而产生的反馈中的一种或多种。
进一步地,所述用户的输入行为包括输入次数、输入时间间隔、输入语音的语气语调、输入语音的声音强弱、输入语音的语速、前后输入行为对应的输入内容之间的关联关系。
此外,本发明还提供一种语音识别系统,其特征在于,其包括:
接收模块,其用于接收由用户输入的待识别的语音信号;
处理模块,其用于根据接收模块接收到的待识别的语音信号提取出相应的声学特征;
非特定人声学数据库,其为根据采集的大量的不同用户输入的语音信号进行声学训练而得到的通用声学数据库;
特定人声学数据库,其为通过对特定语音信号与用户输入的相应的期望识别结果和/或系统自动判断出的推测识别结果建立映射关系而形成的非通用声学数据库;
语音决策模块,其用于通过将提取的待识别语音信号的声学特征与特定人声学数据库和非特定人声学数据库进行模式匹配而确定出最佳匹配于该待识别语音信号的识别结果。
进一步地,所述语音决策模块用于:
将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;
若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出;
若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
进一步地,所述语音决策模块用于:
将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;
若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出;
若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
进一步地,所述语音决策模块用于:将提取的待识别语音信号的声学特征与非特定人声学数据库和特定人声学数据库进行模式匹配,寻找非特定人声学数据库和特定人声学数据库中最佳匹配于该待识别语音信号的识别结果或满足预设条件的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
进一步地,所述特定人声学数据库包括有若干个基本单元,所述基本单元包括特定用户输入的语音信号和/或根据该语音信号提取出的声学特征及相应的期望识别结果。
进一步地,所述特定人声学数据库包括若干个声学模型,所述声学模型是通过将特定的语音信号的期望识别结果以语音单元进行划分而为每个含有语音单元的发音进行声学建模而形成。
进一步地,所述特定人声学数据库包括若干个基本单元和若干个声学模型,所述基本单元包括特定用户输入的语音信号和/或根据该语音信号提取出的声学特征及相应的期望识别结果;所述声学模型通过将特定的语音信号的期望识别结果以语音单元进行划分而为每个含有语音单元的发音进行声学建模而形成。
进一步地,所述语音决策模块将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,其将待识别语音信号的声学特征与基本单元进行比较,寻找基本单元中最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果,并将该期望识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
进一步地,所述语音决策模块将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,其将待识别语音信号的声学特征与声学模型进行比较,寻找最佳匹配于该待识别语音信号的声学特征的声学模型序列,并将该声学模型序列对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
进一步地,所述语音决策模块将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时:
所述语音决策模块将待识别语音信号的声学特征与基本单元进行比较,寻找基本单元中最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果;
若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果;
若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则将待识别语音信号的声学特征与声学模型进行模式比较,寻找最佳匹配于该待识别语音信号的声学特征的声学模型序列,并将该声学模型序列对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
进一步地,所述语音决策模块将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时:
所述语音决策模块将待识别语音信号的声学特征与基本单元及声学模型进行比较,寻找基本单元中最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果,及最佳匹配于该待识别语音信号的声学特征的声学模型序列;
根据预设条件确定出最佳匹配的识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
进一步地,所述语音单元包括音素、音节、词、短语、句子中的一种或多种。
进一步地,其包括训练模块,其用于:接收来自处理模块的声学特征信号的输入;接收来自处理模块的与待识别的语音信号相对应的期望识别结果的输入;将所述待识别语音信号和/或声学特征与期望识别结果建立映射关系而更新所述特定人声学数据库。
进一步地,其包括反馈模块,其用于:在语音决策模块确定出最终识别结果后获取基于该识别结果的反馈;产生更新所述特定人声学数据库的信号至所述训练模块。
进一步地,所述反馈包括用户主动输入的反馈,和系统根据用户的输入行为进行自动判断而产生的反馈。
进一步的,所述用户的输入行为包括输入次数、输入时间间隔、输入语音的语气语调、输入语音的声音强弱、输入语音的语速、前后输入行为对应的输入内容之间的关联关系。
本发明的有益贡献在于,其有效解决了上述问题。本发明通过用户输入的特定的语音信号和相应的期望识别结果而建立特定人声学数据库,从而使得下次进行语音识别时,可通过特定人声学数据库和非特定人声学数据库进行模式匹配,从而确定出最佳匹配于待识别语音信号的识别结果。由于特定人声学数据库是由特定用户建立的,因而其更符合用户的语音习惯,因此对于特定人而言,其识别准确度将大大提高。本发明的语音识别方法,不仅可对非特定人输入的语音信号进行准确的识别,也可对特定人输入的语音信号进行准确识别,从而利于发音不标准、发音带有特定口音的用户进行使用,扩大语音识别的应用范围,提高语音识别的准确度。
【附图说明】
图1是本发明的语音识别系统的整体框架图。
图2是实施例中第一种特定人声学数据库的结构示意图。
图3是实施例中第二种特定人声学数据库的识别原理图。
图4是实施例中使用模式一进行语音识别的原理流程图。
图5是实施例中使用模式二进行语音识别的原理流程图。
图6是实施例中使用模式三进行语音识别的原理流程图。
图7是实施例中使用方法一从特定人声学数据库中确定出最佳匹配的识别结果的原理流程图。
图8是实施例中使用方法二从特定人声学数据库中确定出最佳匹配的识别结果的原理流程图。
【具体实施方式】
下列实施例是对本发明的进一步解释和补充,对本发明不构成任何限制。
如图1所示,本发明的语音识别系统包括接收模块、处理模块、非特定人声学数据库、特定人声学数据库、语音决策模块、训练模块。进一步的,其还可包括反馈模块。
所述接收模块用于接收由用户输入的待识别的语音信号。
所述处理模块,其用于从接收模块接收到的待识别的语音信号中提取出相应的声学特征。所述声学特征是用以表征语音本质特征的信息,其可用于表征该待识别语音信号。通常情况下,所述声学特征以特征向量进行表示。所述声学特征的提取,可参考公知技术,本实施例中,所述处理模块提取出的声学特征的类型不限。
所述非特定人声学数据库为通用声学数据库,其是根据采集的大量的不同用户输入的语音信号进行声学训练而得到的,该非特定人声学数据可选用公知的声学数据库,或采用公知的方法训练而成。所述非特定人声学数据库既可是本地的,也可是云端的。
所述特定人声学数据库,其是通过对特定语音信号与特定用户输入的相应的期望识别结果建立映射关系而形成的非通用声学数据库。进一步的,当该系统具有反馈模块时,所述特定人声学数据库也可自动更新,其由特定的语音信号与系统自动判断出的推测识别结果建立映射关系时而自动更新。所述特定人声学数据库可在进行语音识别前由特定用户建立,也可在进行语音识别后由特定用户建立或更新。对于某一特定人用户,该系统存在一个相应的特定人声学数据库或将建立起一个特定人声学数据库。对于N个特定人用户,该系统存在N个相应的特定人声学数据库或将建立起N个相对应的特定人声学数据库。所述特定人声学数据库可以存在于本地,也可存在于云端,其根据系统性能需求而配置。本实施例中,所述特定人声学数据库可通过以下步骤建立:
1、通过接收模块接收用户输入的语音信号和用户定义的与该输入的语音信号相对应的期望识别结果;
2、通过处理模块从输入的语音信号中提取出可表征该语音信号的声学特征;
3、通过训练模块将用户输入的语音信号和/或提取出的声学特征与所述期望识别结果建立映射关系,形成所述特定人声学数据库。
上述步骤中,声学特征提取,可发生在用户输入期望识别结果之前,也可发生在用户输入期望识别结果之后。例如,对于在进行语音识别前建立或更新特定人声学数据库时,可按上述1、2、3的步骤顺序完成。对于在进行语音识别后,当用户对当前识别结果不满意时,用户可通过输入相应的期望识别结果而建立或更新所述特定人声学数据库,此时,在语音识别过程中已提取出当前语音信号的声学特征了,此时用户便可直接输入相应的期望识别结果,然后进入到上述步骤3,而不严格按照上述1/2/3的顺序步骤完成特定人声学数据库的建立或更新。
在建立或更新特定人声学数据库过程中,用户输入的期望识别结果是由用户决定的,其不必须是大众对于该语音信号的理解。例如,用户输入的语音信号的内容为“你吃饭了吗”时,用户输入的期望识别结果可能是“你吃饭了吗”,也可能是“你饿不?”,也可能是完全不相关的内容,该期望识别结果是由用户自定义的。
在通过训练模块将用户输入的语音信号和/或提取出的声学特征与所述期望识别结果建立映射关系而形成特定人声学数据库的过程中,根据建立的映射关系的不同而将形成不同结构的特定人声学数据库。具体的,根据是否对期望识别结果进行分割,其可包括以下三种结构的特定人声学数据库:
第一种特定人声学数据库(为便于描述,以下简称库1):如图2所示,该特定人声学数据库包括若干个基本单元,各基本单元包括用户输入的语音信号和/或根据该语音信号提取出的声学特征及相应的期望识别结果。对于该种特定人声学数据库,如图2所示,期望识别结果与语音信号和/或声学特征是整体映射的,即通过接收模块接收到的语音信号和期望识别结果的原始数据经过预处理后,便直接存储及建立映射,而不对其进行分割。例如,用户输入的语音信号是“打开浏览器”,输入的期望识别结果是“打开浏览器”,其建立映射关系时,便以“打开浏览器”的语音信号和/或以该语音信号提取出的声学特征与“打开浏览器”的文本数据建立映射,使语音信号和/或声学特征直接与期望识别结果形成映射关系,使一项语音信号和/或声学特征对应一项期望识别结果。在实际实施过程中,为减少计算量,可优选仅以声学特征与期望识别结果建立映射,使一项声学特征对应一项期望识别结果。藉此,一项语音信号和/或根据该语音信号提取出的声学特征及相应的期望识别结果便形成一个基本单元,若干个基本单元便形成了所述特定人声学数据库。使用该特定人声学数据库进行特定人语音识别时,其能很容易识别出已训练过的特定语音,而对于未训练过的特定语音,其将主要依靠非特定人声学数据库进行识别。而对于一般用户而言,大部分语音是可以通过非特定人声学数据库进行识别的,而不能识别的通常为少数,因此,对少数的不能被非特定人声学数据库识别准确的语音信号建立此种特定人声学数据库,其便能基本满足所有的语音识别需求,并能显著提高识别准确率和识别效率,因此,其实用性很高。
第二种特定人声学数据库(为便于描述,以下简称库2):如图3所示,该特定人声学数据库包括若干个声学模型,所述声学模型通过将特定的语音信号的期望识别结果以语音单元进行划分而为每个含有语音单元的发音进行声学建模而形成的。所述语音单元包括音素、音节、词、短语、句子中的一种或多种。例如,其可以是以音节为单元,然后根据语音信号和期望识别结果而对语音信号中的各音节建立声学模型,如隐马尔可夫模型。又如,其可以是以词为单元,为语音信号中的各个词建立声学模型。所述声学模型的建立,可参考公知技术。由于该特定人声学数据库中的声学模型是以语音单元为基础而建立的,因此,为使各语音单元可按自然语言的规律而被组合成语言,其通常还包括语言模型和词典。所述语言模型和词典可参考公知技术。此种特定人声学数据库的建立,可参考现有的非特定人声学数据库的建立方法,其与现有的非特定人声学数据库的建立方法的主要区别在于,本发明的特定人声学数据库的训练用语料仅来自于某一特定人用户,而非特定人声学数据库的训练用语料来自于各种不同的用户,且本发明的特定人声学数据库的期望识别结果是特定人用户根据其自身习惯而定义的,其与语音信号之间未必像非特定人声学数据库一般符合大众理解。如图3所示,该种特定人声学数据库可以语言单元为基础进行识别,然后通过算法(语言模型)确定出各语音单元对应的声学模型的序列而确定出识别结果。使用该特定人声学数据库进行特定人语音识别时,其不仅能识别出已训练过的特定语音,而且对于未训练过的特定语音,若该特定语音中的语音单元已经建立了声学模型,其同样也能识别出该未训练过的特定语音信号。例如,以词为语言单元时,用户曾训练过“你好吗”“我在吃饭”“是不是有问题”等特定语音,那么,当用户输入“你是不是在吃饭”这一包含有已训练过的语音单元的特定语音信号时,该特定人声学数据库便能很大概率上识别出该语音信号为“你是不是在吃饭”。对于该种特定人声学数据库,当特定人用户训练的数据足够多时,其准确率也将大大提高,而且其识别范围将比库1更广。
第三种特定人声学数据库(为便于描述,以下简称库3):该特定人声学数据库包括库1和库2,其包括若干个基本单元和若干个声学模型。所述基本单元的结构可参考库1的基本单元结构,所述声学模型的结构可参考库2的声学模型结构。使用该种特定人声学数据库进行识别时,其既可从整体上对待识别语音信号进行识别,也能局部的以语音单元为基础进行识别然后确定出声学模型的序列而确定出识别结果。使用该种特定人声学数据库,对于已经训练过的特定语音,其可快速而准确的识别出来,而对于未训练过的特定语音,其也可很大概率识别准确,其采用两种结构结合,其具有上述两种特定人声学数据库的优点,其可最大程度上保证特定人语音的识别准确率和识别效率。
终上所述,在将用户输入的语音信号和/或提取出的声学特征与所述期望识别结果建立映射关系而形成特定人声学数据库的过程中,可根据实际需要而选取一种模式建立所需的特定人声学数据库。当建立的特定人声学数据库是通过将期望识别结果与语音信号和/或声学特征整体映射而形成若干个基本单元的方式建立时,其识别时也将以整体匹配的方式行识别,相比于第二种特定人声学数据库,其通用性不及第二种特定人声学数据库,但其识别速度更快,对于特定人已训练过的语音信号,可通过所述特定人声学数据库快速识别出来。当建立的特定人声学数据库是通过以语音单元为基础进行分割而建立声学模型的方式建立而成时,其识别时亦以语音单元为基础进行识别和组合,因此,其相比第一种特定人声学数据库具有更强的通用性,其不仅仅能用于识别已训练过的语音信号,而且对于未经训练过的语音信号也能在一定程度上识别出来。当建立的特定人声学数据库是通过以整体映射和以语音单元为基础建立声学模型两种方式结合在一起而建立时,其识别时既可整体识别,也可以语音单元为基础进行识别,因此,其具有其他两种特定人声学数据库各自的优点,其既具有很强的通用性,而且识别速度也很快,其可最大程度上保证特定人语音的识别准确率和识别效率。
所述语音决策模块用于通过将提取的待识别语音信号的声学特征与特定人声学数据库和非特定人声学数据库进行模式匹配而确定出最佳匹配于该待识别语音信号的识别结果。具体的,根据与特定人声学数据库匹配的顺序的不同,所述语音决策模块可采用下面三种不同的方式确定出最佳匹配于待识别语音信号的识别结果:
模式一:如图4所示,先与特定人声学数据库匹配,再与非特定人声学数据库匹配:
a、将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找特定人声学数据库中最佳匹配于该待识别语音信号的识别结果。
b、若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出。所述预设条件,可根据需要而设定或可参看公知技术,例如,可以通过相似度评分进行判定,当识别结果的相似度大于75%时,认为满足预设条件,当低于等于75%时,认为不满足预设条件。这样,若步骤a中特定人声学数据库中最佳匹配于待识别语音信号的声学特征的相似度大于75%时,则将步骤a中确定出的最佳匹配于该待识别语音信号的识别结果作为最终识别结果进行输出,匹配过程结束,不再执行步骤c;若步骤a中特定人声学数据库中最佳匹配于待识别语音信号的声学特征的相似度小于等于75%,则继续进行匹配,进入步骤c。
c、若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,例如对于步骤b的例子相似度为20%时,则将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。此过程中,无论从非特定人声学数据库中确定出的结果如何,其均作为最终识别结果进行输出。
模式二:如图5所示,先与非特定人声学数据库匹配,再与特定人声学数据库匹配:
d、将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;
e、若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出。所述预设条件,可根据需要而设定或参看公知技术,例如,可以通过概率评分进行判定,当最大概率大于80%时,认为满足预设条件,当低于等于80%时,认为不满足预设条件。这样,若步骤d中非特定人声学数据库中最佳匹配于待识别语音信号的声学模型序列的最大概率大于80%时,则将步骤d中确定出的最佳匹配于该待识别语音信号的识别结果作为最终识别结果进行输出,匹配过程结束,不再执行步骤f;若步骤d中非特定人声学数据库中最佳匹配于待识别语音信号的声学模型序列的最大概率小于等于80%时,则继续进行匹配,进入步骤f。
f、若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,例如对于步骤e的例子最大概率为20%时,则将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
模式三:如图6所示,同时与非特定人声学数据库和特定人声学数据库进行匹配:
g、将提取的待识别语音信号的声学特征与非特定人声学数据库和特定人声学数据库进行模式匹配,寻找非特定人声学数据库和特定人声学数据库中最佳匹配于该待识别语音信号的识别结果或满足预设条件的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。所述预设条件可根据需要而设定,其可以是以匹配时间进行判断,也可以是以准确率进行判断,抑或是根据匹配时间和准确率结合进行判断,或者是综合从特定人声学数据库和非特定人声学数据库中匹配出的最佳匹配识别结果而形成新的最终识别结果进行输出等。本发明对所述预设条件不做限制。例如,可以将通过非特定人声学数据库和特定人声学数据库进行匹配而最先确定出满足相应准确率的识别结果作为此次最佳匹配的识别结果,具体的例子如:预设条件的准确率为75%,在与特定人声学数据库和非特定人声学数据库进行匹配时,最先从特定人声学数据库中确定出准确率大于75%的识别结果,则将该最先从特定人声学数据库中确定出的识别结果作为最终识别结果输出,而不管非特定人声学数据库和特定人声学数据库中是否还存在准确率更高的识别结果。同样的,若最先从非特定人声学数据库中确定出准确率大于75%的识别结果,则将该最先从非特定人声学数据库中确定出的识别结果作为最终识别结果输出,而不管非特定人声学数据库和特定人声学数据库中是否还存在准确率更高的识别结果。
上述步骤a、f、g中,在将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,根据特定人声学数据库的结构的不同,其将采用不同的方式确定出特定人声学数据库中最佳匹配于该待识别语音信号的识别结果:
对于库1结构的特定人声学数据库,将提取的待识别语音信号的声学特征与基本单元进行比较,寻找出基本单元中与待识别语音信号的声学特征最接近的声学特征所对应的期望识别结果,该最接近的声学特征所对应的期望识别结果便是从特定人声学数据库中确定出的最佳匹配的识别结果。
对于库2结构的特定人声学数据库,将提取的待识别语音信号的声学特征与各声学模型进行模式比较,确定出最佳匹配于所述声学特征的声学模型序列,该确定出的声学模型序列所对应的结果便是从特定人声学数据库中确定出的最佳匹配的识别结果。
对于库3结构的特定人声学数据库,由于其既包括有基本单元,又包括有声学模型,根据与基本单元或声学模型匹配的先后顺序的不同,其可采用以下两种方式进行确定:
方法一:如图7所示,先与基本单元比较,再与声学模型比较——先将待识别语音信号的声学特征与基本单元进行比较,寻找出基本单元中与待识别语音信号的声学特征最接近的声学特征。若该最接近的声学特征与待识别语音信号的声学特征之间的相似度满足预设条件时,如预设条件是相似度为90%,实际相似度达到95%,则该最接近的声学特征所对应的期望识别结果便是从特定人声学数据库中确定出的最佳匹配的识别结果,此时不再与声学模型进行模式匹配;若该最接近的声学特征与待识别语音信号的声学特征之间的相似度不满足预设条件时,如预设条件是相似度为90%,而实际相似度却只有50%,则继续将待识别语音信号的声学特征与声学模型进行模式比较,确定出最佳匹配于所述声学特征的声学模型序列,并以该确定出的声学模型序列所对应的结果为库3确定出的最佳匹配的识别结果。通过该方式进行确定,其逻辑简单,计算也更简单,对于已训练过的特定人语音信号,可以很快速的识别出来,并保证识别准确率。
方法二:如图8所示,同时与基本单元和声学模型进行比较——将待识别语音信号的声学特征与基本单元和声学模型进行比较,寻找出基本单元中与待识别语音信号的声学特征最接近的声学特征所对应的期望识别结果,及确定出最佳匹配于所述声学特征的声学模型序列,其后根据预设条件确定出最佳匹配的识别结果。所述预设条件可以根据需要而设置,其可以是以匹配时间进行判断,也可以是以准确率进行判断,抑或是根据匹配时间和准确率结合进行判断,或者是综合从基本单元中匹配出的期望识别结果和从声学模型中匹配出的声学模型序列而形成新的最终识别结果。例如,可以将通过两种模式匹配而最先确定出满足相应准确率的识别结果作为此次最佳匹配的识别结果,具体的例子如:与基本单元进行模式匹配的预设条件是相似度为90%,与声学模型进行模式匹配的预设条件是最大概率为80%,若在进行两种模式匹配时,最先从基本单元中寻找出相似度大于90%的声学特征,则将该声学特征对应的期望识别结果作为从库3确定出的最佳匹配的识别结果;若在进行两种模式匹配时,最先从声学模型中确定出最大概率大于80%的声学模型序列,则将该声学模型序列所对应的结果作为从库3确定出的最佳匹配的识别结果。又如,可以将通过两种模式匹配而确定出的最高准确率的识别结果作为此次最佳匹配的识别结果,具体的例子如:与基本单元进行模式匹配而确定的最相似的声学特征与待识别语音信号的声学特征的相似度为60%,而与声学模型进行模式匹配而确定的最佳匹配的声学模型序列的最大概率为75%,则将该声学模型序列所对应的结果作为从库3确定出的最佳匹配的识别结果。通过该方式进行确定,两种匹配动作同步运行,因此其识别效率高,能快速的识别出结果,其识别结果与预设条件相关,其可随预设条件的不同,而产生不同的识别结果。
采用上述模式一、模式二、模式三,所述语音决策模块便可通过将提取的待识别语音信号的声学特征与特定人声学数据库和非特定人声学数据库进行模式匹配而确定出最佳匹配于该待识别语音信号的识别结果。
所述训练模块用于根据待识别语音信号和/或声学特征与期望识别结果建立映射关系而建立或更新所述特定人声学数据库。具体的,其用于接收来自处理模块的声学特征信号的输入;用于接收来自处理模块的与待识别的语音信号相对应的期望识别结果的输入;用于将所述待识别语音信号和/或声学特征与期望识别结果建立映射关系而更新所述特定人声学数据库。对于不同结构的特定人声学数据库,所述训练模块可采用不同的方法而形成或更新所述特定人声学数据库。例如,对于库2结构的特定人声学数据库,所述训练模块可通过公知的声学模型训练方法形成库2结构的特定人声学数据库。又如,对于库1结构的特定人声学数据库,其可通过公知的数据映射方法形成库1结构的特定人声学数据库。
所述反馈模块用于在语音决策模块确定出最终识别结果后获取基于该识别结果的反馈,而产生更新所述特定人声学数据库的信号至所述训练模块,使所述训练模块可更新所述特定人声学数据库,从而提高系统的智能化。所述反馈包括用户主动输入的反馈,和系统根据用户的输入行为进行自动判断而产生的反馈。所述用户的输入行为包括输入次数、输入时间间隔、输入语音的语气语调、输入语音的声音强弱、输入语音的语速、前后输入行为对应的输入内容之间的关联关系等。例如,当识别结束后,该系统可以提供输入入口以供用户输入对该识别结果的评价,所述反馈模块便可将该评价信息反馈至训练模块而更新所述特定人声学数据库;例如,当识别结束后,系统可提供输入入口以供用户输入期望识别结果,当用户输入期望识别结果后,则自动认定上一次的识别结果错误,所述反馈模块便将相应信息反馈至训练模块而使用户此次输入的期望识别结果更新至特定人声学数据库中,并将上一次错误的识别结果与相应的声学特征之间的映射关系在特定人声学数据库中进行修正,使当前输入的期望识别结果与相应的声学特征建立正确的映射关系。又如,识别结束后,若用户在一定时间内未进行重复或相似操作,则认定上一次识别结果准确,所述反馈模块便可根据操作时间间隔而自动将该信息反馈至训练模块而强化所述特定人声学数据库。又如,识别结束后,发现用户又针对相同或十分相似的语音内容进行识别,则认定前面多次的识别结果均不正确,最后一次的识别结果正确。所述反馈的内容可多样化,其可根据需要而设置,通过所述反馈模块获取到基于识别结果的反馈,可自动完善所述特定人声学数据库,从而可进一步提高特定人语音识别的准确率和效率。
此外,本发明还提供一种语音识别方法。该语音识别方法包括以下步骤:
S1、接收用户输入的待识别语音信号,并从输入的待识别语音信号中提取出可表征该待识别语音信号的声学特征;
S2、将提取的待识别语音信号的声学特征与特定人声学数据库和非特定人声学数据库进行模式匹配而确定出最佳匹配于该待识别语音信号的识别结果。具体的,根据与特定人声学数据库匹配的顺序的不同,其包括以下三种不同的模式匹配方法。
模式一:如图4所示,先与特定人声学数据库匹配,再与非特定人声学数据库匹配,其具体方法如下:
a、将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找特定人声学数据库中最佳匹配于该待识别语音信号的识别结果。
b、若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出。所述预设条件,可根据需要而设定或参考公知技术,例如,可以通过相似度评分进行判定,当识别结果的相似度大于75%时,认为满足预设条件,当低于等于75%时,认为不满足预设条件。这样,若步骤a中特定人声学数据库中最佳匹配于待识别语音信号的声学特征的相似度大于75%时,则将步骤a中确定出的最佳匹配于该待识别语音信号的识别结果作为最终识别结果进行输出,匹配过程结束,不再执行步骤c;若步骤a中特定人声学数据库中最佳匹配于待识别语音信号的声学特征的相似度小于等于75%,则继续进行匹配,进入步骤c。
c、若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,例如对于步骤b的例子相似度为20%时,则将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。此过程中,无论从非特定人声学数据库中确定出的结果如何,其均作为最终识别结果进行输出。
模式二:如图5所示,先与非特定人声学数据库匹配,再与特定人声学数据库匹配:
d、将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;
e、若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出。所述预设条件,可根据需要而设定,例如,可以通过概率评分进行判定,当最大概率大于80%时,认为满足预设条件,当低于等于80%时,认为不满足预设条件。这样,若步骤d中非特定人声学数据库中最佳匹配于待识别语音信号的声学模型序列的最大概率大于80%时,则将步骤d中确定出的最佳匹配于该待识别语音信号的识别结果作为最终识别结果进行输出,匹配过程结束,不再执行步骤f;若步骤d中非特定人声学数据库中最佳匹配于待识别语音信号的声学模型序列的最大概率小于等于80%时,则继续进行匹配,进入步骤f。
f、若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,例如对于步骤e的例子最大概率为20%时,则将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
模式三:如图6所示,同时与非特定人声学数据库和特定人声学数据库进行匹配:
g、将提取的待识别语音信号的声学特征与非特定人声学数据库和特定人声学数据库进行模式匹配,寻找非特定人声学数据库和特定人声学数据库中最佳匹配于该待识别语音信号的识别结果或满足预设条件的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。所述预设条件可根据需要而设定,其可以是以匹配时间进行判断,也可以是以准确率进行判断,抑或是根据匹配时间和准确率结合进行判断,又或者是综合从特定人声学数据库和非特定人声学数据库中匹配出的最佳匹配识别结果而形成新的最终识别结果进行输出等。例如,可以将通过非特定人声学数据库和特定人声学数据库进行匹配而最先确定出满足相应准确率的识别结果作为此次最佳匹配的识别结果,具体的例子如:预设条件的准确率为75%,在与特定人声学数据库和非特定人声学数据库进行匹配时,最先从特定人声学数据库中确定出准确率大于75%的识别结果,则将该最先从特定人声学数据库中确定出的识别结果作为最终识别结果输出,而不管非特定人声学数据库和特定人声学数据库中是否还存在准确率更高的识别结果。同样的,若最先从非特定人声学数据库中确定出准确率大于75%的识别结果,则将该最先从非特定人声学数据库中确定出的识别结果作为最终识别结果输出,而不管非特定人声学数据库和特定人声学数据库中是否还存在准确率更高的识别结果。
上述步骤a、f、g中,在将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,根据特定人声学数据库的结构的不同,其将采用不同的方式确定出特定人声学数据库中最佳匹配于该待识别语音信号的识别结果:
对于库1结构的特定人声学数据库,将提取的待识别语音信号的声学特征与基本单元进行比较,寻找出基本单元中与待识别语音信号的声学特征最接近的声学特征所对应的期望识别结果,该最接近的声学特征所对应的期望识别结果便是从特定人声学数据库中确定出的最佳匹配的识别结果。
对于库2结构的特定人声学数据库,将提取的待识别语音信号的声学特征与各声学模型进行模式比较,确定出最佳匹配于所述声学特征的声学模型序列,该确定出的声学模型序列所对应的结果便是从特定人声学数据库中确定出的最佳匹配的识别结果。
对于库3结构的特定人声学数据库,由于库3既包括有基本单元,又包括有声学模型,根据与基本单元或声学模型匹配的顺序的不同,其可采用以下两种方式进行确定:
方法一:如图7所示,先与基本单元比较,再与声学模型比较——先将待识别语音信号的声学特征与基本单元进行比较,寻找出基本单元中与待识别语音信号的声学特征最接近的声学特征。若该最接近的声学特征与待识别语音信号的声学特征之间的相似度满足预设条件时,如预设条件是相似度为90%,实际相似度达到95%,则该最接近的声学特征所对应的期望识别结果便是从特定人声学数据库中确定出的最佳匹配的识别结果,此时不再与声学模型进行模式匹配;若该最接近的声学特征与待识别语音信号的声学特征之间的相似度不满足预设条件时,如预设条件是相似度为90%,而实际相似度却只有50%,则继续将待识别语音信号的声学特征与声学模型进行模式比较,确定出最佳匹配于所述声学特征的声学模型序列,并以该确定出的声学模型序列所对应的结果为库3确定出的最佳匹配的识别结果。
由于方法一是先与基本单元进行比较,而基本单元是以期望识别结果与待识别语音信号和/或声学特征通过整体映射方式而形成的,因此,对于特定人已训练过的语音信号,可以快速的识别出来,并保证识别准确率。对于某些需要识别固定语句的使用场所,如车载导航命令控制等,则适合采用该种方式确定出最佳匹配识别结果。对于不确定场所使用时,为提高识别效率及通用性,则可以采用以下方式进行确定:
方法二:如图8所示,同时与基本单元和声学模型进行比较——将待识别语音信号的声学特征与基本单元和声学模型进行比较,寻找出基本单元中与待识别语音信号的声学特征最接近的声学特征所对应的期望识别结果和/或确定出最佳匹配于所述声学特征的声学模型序列,其后根据预设条件确定出最佳匹配的识别结果。所述预设条件可以根据需要而设置,其可以是以匹配时间进行判断,也可以是以准确率进行判断,抑或是根据匹配时间和准确率结合进行判断,或者是综合从基本单元中匹配出的期望识别结果和从声学模型中匹配出的声学模型序列而形成新的最终识别结果。例如,可以将通过两种模式匹配而最先确定出满足相应准确率的识别结果作为此次最佳匹配的识别结果,具体的例子如:与基本单元进行模式匹配的预设条件是相似度为90%,与声学模型进行模式匹配的预设条件是最大概率为80%,若在进行两种模式匹配时,最先从基本单元中寻找出相似度大于90%的声学特征,则将该声学特征对应的期望识别结果作为从库3中确定出的最佳匹配的识别结果;若在进行两种模式匹配时,最先从声学模型中确定出最大概率大于80%的声学模型序列,则将该声学模型序列所对应的结果作为最佳匹配的识别结果。又如,可以将通过两种模式匹配而确定出的最高准确率的识别结果作为此次最佳匹配的识别结果,具体的例子如:与基本单元进行模式匹配而确定的最相似的声学特征与待识别语音信号的声学特征的相似度为60%,而与声学模型进行模式匹配而确定的最佳匹配的声学模型序列的最大概率为75%,则将该声学模型序列所对应的结果作为从库3中确定出的最佳匹配的识别结果。
由于方法二是同时与基本单元和声学模型进行匹配比较,因此其识别效率高,可快速确定出基本满足需求的最佳匹配的识别结果,其适合于大部分使用场所进行使用,其通用性较好。
终上所述,通过上述模式一、模式二、模式三便可通过将提取的待识别语音信号的声学特征与特定人声学数据库和非特定人声学数据库进行模式匹配而确定出最佳匹配于该待识别语音信号的识别结果。在实际应用时,可根据实际需要而选取某种特定的模式进行实施。例如,由于模式一是先与特定人声学数据库进行匹配比较后,再与非特定人声学数据库进行匹配比较,因此,当需识别的语音场景为包含大量非标准口音的特定人语音信号时,则可以采用这种模式进行识别,先通过与特定人声学数据库进行匹配比较而将大部分非标准的语音信号识别出来,再通过非特定人声学数据库进行广泛的识别,从而保证整体识别效率和准确率。这种模式,其尤其适合需要输入某些固定用语的场景,如车载导航命令控制、系统命令控制等。又如,由于模式二是先与非特定人声学数据库进行模式匹配后,再与特定人声学数据库进行模式匹配,因此,当需识别的语音场景主要为标准口音的语音信号,而仅包括少量非标准口语的语音信号时,则可以采用这种模式进行识别,先通过与非特定人声学数据库进行模式匹配而将大部分可识别的语音识别出来,再通过特定人声学数据库进行特定语音的识别,从而保证整体识别效率和准确率。这种模式,其尤其适合需要输入的语音是无规则限制的场景,例如语音对话场景。又如,由于模式三是同时与特定人声学数据库及非特定人声学数据库进行模式匹配的,因此其具有很强的适用性,可普遍适用于大部分使用场景,其既能保证语音识别准确率,又能保证语音识别效率。
通过模式一、模式二、模式三而最终确定出的最佳匹配于该待识别语音信号的识别结果可能符合用户期望,也可能不符合用户期望。当该识别结果不符合用户期望时,其可以进行以下步骤:
S31、提供输入入口使用户输入与该待识别语音信号相对应的期望识别结果;
S32、将该期望识别结果与所述待识别语音信号和/或声学特征建立映射关系以更新所述特定人声学数据库。
此外,为使特定人声学数据库识别更准确,本发明还提供自学习和自反馈方法以完善所述特定人声学数据库。具体的,当语音识别结束后,获取基于该识别结果的反馈,然后根据该反馈而更新所述特定人声学数据库。所述反馈包括用户主动输入的反馈,和系统根据用户的输入行为进行自动判断而产生的反馈。所述用户的输入行为包括输入次数、输入时间间隔、输入语音的语气语调、输入语音的声音强弱、输入语音的语速、前后输入行为对应的输入内容之间的关联关系等。例如,当识别结束后,可以提供输入入口以供用户输入对该识别结果的评价,通过该评价而更新所述特定人声学数据库。例如,识别结束后,可提供输入入口以供用户输入期望识别结果,当用户输入期望识别结果后,则自动认定上一次的识别结果错误,然后将此次输入的期望识别结果更新至所述特定人声学数据库中,并将上一次错误的识别结果与相应的声学特征之间的映射关系在特定人声学数据库中进行修正,使当前输入的期望识别结果与相应的声学特征建立正确的映射关系。例如,识别结束后,若用户在一定时间内未进行重复或相似操作,则认定上一次识别结果准确,此时便可根据操作时间间隔而自动更新所述特定人声学数据库。例如,识别结束后,若用户又针对相同或十分相似的语音内容进行多次识别,则认定前面多次的识别结果均不正确,最后一次的识别结果正确。通过获取到基于识别结果的反馈,便可完善所述特定人声学数据库,从而可进一步提高特定人语音识别的准确率和效率。
本发明中所述的预设条件,其应根据实际需要而设定,其也可参考公知技术,其不局限于本实施例中所例举的具体的预设条件。
尽管通过以上实施例对本发明进行了揭示,但是本发明的范围并不局限于此,在不偏离本发明构思的条件下,以上各构件可用所属技术领域人员了解的相似或等同元件来替换。
Claims (30)
1.一种语音识别方法,其特征在于,
识别前,包括以下步骤:
S01、预先接收用户输入的语音信号和用户定义的与该输入的语音信号相对应的期望识别结果;
S02、从输入的语音信号中提取出可表征该语音信号的声学特征;
S03、将用户输入的语音信号和/或提取出的声学特征与所述期望识别结果建立映射关系,以建立或更新特定人声学数据库;
识别时,其包括以下步骤:
S1、接收用户输入的待识别语音信号,并从输入的待识别语音信号中提取出可表征该待识别语音信号的声学特征;
S2、获取特定人声学数据库,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出;若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则获取非特定人声学数据库,将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出;
或,获取非特定人声学数据库,将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出;若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则获取特定人声学数据库,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出;
或,获取非特定人声学数据库和特定人声学数据库,将提取的待识别语音信号的声学特征与非特定人声学数据库和特定人声学数据库进行模式匹配,寻找非特定人声学数据库和特定人声学数据库中最佳匹配于该待识别语音信号的识别结果或满足预设条件的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
2.如权利要求1所述的语音识别方法,其特征在于,识别后,若输出的最终识别结果不符合用户的期望,则:
S31、提供输入入口供用户输入与该待识别语音信号相对应的期望识别结果;
S32、将该期望识别结果与所述待识别语音信号和/或声学特征建立映射关系以更新所述特定人声学数据库。
3.如权利要求1或2所述的语音识别方法,其特征在于,按以下规则建立或更新所述特定人声学数据库:
将期望识别结果与相应的语音信号和/或该语音信号的声学特征整体建立映射,使一项语音信号和/或该语音信号的声学特征对应一项期望识别结果;
将所述语音信号和/或该语音信号的声学特征与对应的期望识别结果更新至所述特定人声学数据库中。
4.如权利要求1或2所述的语音识别方法,其特征在于,按以下规则更新所述特定人声学数据库:
将期望识别结果以语音单元进行划分,为每个含有语音单元的发音按照声学建模方式建立声学模型;
将建立的各个声学模型及相应的语音单元更新至所述特定人声学数据库中。
5.如权利要求1或2所述的语音识别方法,其特征在于,按以下规则更新所述特定人声学数据库:
将期望识别结果与相应的语音信号和/或该语音信号的声学特征整体建立映射,使一项语音信号和/或该语音信号的声学特征对应一项期望识别结果;
并将期望识别结果以语音单元进行划分,为每个含有语音单元的发音按照声学建模方式建立声学模型;
将所述语音信号和/或该语音信号的声学特征与对应的期望识别结果及建立的各个声学模型与相应的语音单元更新至所述特定人声学数据库中。
6.如权利要求3所述的语音识别方法,其特征在于,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,将待识别语音信号的声学特征与特定人声学数据库中的声学特征进行比较,确定出最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果,并将该期望识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
7.如权利要求4所述的语音识别方法,其特征在于,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,将待识别语音信号的声学特征与特定人声学数据库中的声学模型进行比较,确定出最佳匹配于待识别语音信号的声学特征的声学模型序列,并将该声学模型序列所对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
8.如权利要求5所述的语音识别方法,其特征在于,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时:
将提取的待识别语音信号的声学特征与特定人声学数据库中的声学特征数据进行比较,寻找最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果;
若该最佳匹配的期望识别结果满足预设条件,则将该最佳匹配的期望识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果;
若无最佳匹配的期望识别结果数据,或该最佳匹配的期望识别结果数据不满足预设条件,则将提取的待识别语音信号的声学特征与特定人声学数据库中的声学模型进行模式匹配,确定出最佳匹配于该声学特征的声学模型序列,并将该声学模型序列所对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
9.如权利要求5所述的语音识别方法,其特征在于,将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时:
将提取的待识别语音信号的声学特征与特定人声学数据库中的声学特征数据及声学模型进行比较,寻找最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果及最佳匹配于该声学特征的声学模型序列;
根据预设条件确定出最佳匹配的识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
10.如权利要求4所述的语音识别方法,其特征在于,所述语音单元包括音素、音节、词、短语、句子中的一种或多种。
11.如权利要求1所述的语音识别方法,其特征在于,输出最终识别结果后,则:
获取基于该识别结果的反馈;
根据该反馈而更新所述特定人声学数据库。
12.如权利要求11所述的语音识别方法,其特征在于,所述反馈包括用户主动输入的反馈、系统根据用户的输入行为进行自动判断而产生的反馈中的一种或多种。
13.如权利要求12所述的语音识别方法,其特征在于,所述用户的输入行为包括输入次数、输入时间间隔、输入语音的语气语调、输入语音的声音强弱、输入语音的语速、前后输入行为对应的输入内容之间的关联关系。
14.一种语音识别系统,其特征在于,其包括:
接收模块,其用于接收由用户输入的待识别的语音信号;
处理模块,其用于根据接收模块接收到的待识别的语音信号提取出相应的声学特征;
非特定人声学数据库,其为根据采集的大量的不同用户输入的语音信号进行声学训练而得到的通用声学数据库;
特定人声学数据库,其为通过对特定语音信号与用户输入的相应的期望识别结果和/或系统自动判断出的推测识别结果建立映射关系而形成的非通用声学数据库;
语音决策模块,其用于通过将提取的待识别语音信号的声学特征与特定人声学数据库和非特定人声学数据库进行模式匹配而确定出最佳匹配于该待识别语音信号的识别结果。
15.如权利要求14所述的语音识别系统,其特征在于,所述语音决策模块用于:
将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;
若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出;
若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
16.如权利要求14所述的语音识别系统,其特征在于,所述语音决策模块用于:
将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果;
若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出;
若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配,寻找最佳匹配于该待识别语音信号的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
17.如权利要求14所述的语音识别系统,其特征在于,所述语音决策模块用于:
将提取的待识别语音信号的声学特征与非特定人声学数据库和特定人声学数据库进行模式匹配,寻找非特定人声学数据库和特定人声学数据库中最佳匹配于该待识别语音信号的识别结果或满足预设条件的识别结果,并将该识别结果作为该待识别语音信号的最终识别结果进行输出。
18.如权利要求14~17任一条所述的语音识别系统,其特征在于,所述特定人声学数据库包括有若干个基本单元,所述基本单元包括特定用户输入的语音信号和/或根据该语音信号提取出的声学特征及相应的期望识别结果。
19.如权利要求14~17任一条所述的语音识别系统,其特征在于,所述特定人声学数据库包括若干个声学模型,所述声学模型是通过将特定的语音信号的期望识别结果以语音单元进行划分而为每个含有语音单元的发音进行声学建模而形成。
20.如权利要求14~17任一条所述的语音识别系统,其特征在于,所述特定人声学数据库包括若干个基本单元和若干个声学模型,所述基本单元包括特定用户输入的语音信号和/或根据该语音信号提取出的声学特征及相应的期望识别结果;所述声学模型通过将特定的语音信号的期望识别结果以语音单元进行划分而为每个含有语音单元的发音进行声学建模而形成。
21.如权利要求18所述的语音识别系统,其特征在于,所述语音决策模块将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,其将待识别语音信号的声学特征与基本单元进行比较,寻找基本单元中最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果,并将该期望识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
22.如权利要求19所述的语音识别系统,其特征在于,所述语音决策模块将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时,其将待识别语音信号的声学特征与声学模型进行比较,寻找最佳匹配于该待识别语音信号的声学特征的声学模型序列,并将该声学模型序列对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
23.如权利要求20所述的语音识别系统,其特征在于,所述语音决策模块将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时:
所述语音决策模块将待识别语音信号的声学特征与基本单元进行比较,寻找基本单元中最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果;
若该最佳匹配的识别结果满足预设条件,则将该最佳匹配的识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果;
若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件,则将待识别语音信号的声学特征与声学模型进行模式比较,寻找最佳匹配于该待识别语音信号的声学特征的声学模型序列,并将该声学模型序列对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
24.如权利要求20所述的语音识别系统,其特征在于,所述语音决策模块将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时:
所述语音决策模块将待识别语音信号的声学特征与基本单元及声学模型进行比较,寻找基本单元中最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果,及最佳匹配于该待识别语音信号的声学特征的声学模型序列;
根据预设条件确定出最佳匹配的识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。
25.如权利要求19所述的语音识别系统,其特征在于,所述语音单元包括音素、音节、词、短语、句子中的一种或多种。
26.如权利要求20所述的语音识别系统,其特征在于,所述语音单元包括音素、音节、词、短语、句子中的一种或多种。
27.如权利要求15所述的语音识别系统,其特征在于,其包括训练模块,其用于:
接收来自处理模块的声学特征信号的输入;
接收来自处理模块的与待识别的语音信号相对应的期望识别结果的输入;
将所述待识别语音信号和/或声学特征与期望识别结果建立映射关系而更新所述特定人声学数据库。
28.如权利要求27所述的语音识别系统,其特征在于,其包括反馈模块,其用于:
在语音决策模块确定出最终识别结果后获取基于该识别结果的反馈;
产生更新所述特定人声学数据库的信号至所述训练模块。
29.如权利要求28所述的语音识别系统,其特征在于,所述反馈包括用户主动输入的反馈,和系统根据用户的输入行为进行自动判断而产生的反馈。
30.如权利要求29所述的语音识别系统,其特征在于,所述用户的输入行为包括输入次数、输入时间间隔、输入语音的语气语调、输入语音的声音强弱、输入语音的语速、前后输入行为对应的输入内容之间的关联关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710317318.6A CN108806691B (zh) | 2017-05-04 | 2017-05-04 | 语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710317318.6A CN108806691B (zh) | 2017-05-04 | 2017-05-04 | 语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108806691A CN108806691A (zh) | 2018-11-13 |
CN108806691B true CN108806691B (zh) | 2020-10-16 |
Family
ID=64094602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710317318.6A Active CN108806691B (zh) | 2017-05-04 | 2017-05-04 | 语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108806691B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109646215A (zh) * | 2018-12-25 | 2019-04-19 | 李婧茹 | 一种多功能可调式护理床 |
CN110211609A (zh) * | 2019-06-03 | 2019-09-06 | 四川长虹电器股份有限公司 | 一种提升语音识别准确率的方法 |
CN111540359A (zh) * | 2020-05-07 | 2020-08-14 | 上海语识信息技术有限公司 | 一种语音识别方法、装置和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1421846A (zh) * | 2001-11-28 | 2003-06-04 | 财团法人工业技术研究院 | 语音识别系统 |
CN101320561A (zh) * | 2007-06-05 | 2008-12-10 | 赛微科技股份有限公司 | 提升个人语音识别率的方法及模块 |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN107316637A (zh) * | 2017-05-31 | 2017-11-03 | 广东欧珀移动通信有限公司 | 语音识别方法及相关产品 |
-
2017
- 2017-05-04 CN CN201710317318.6A patent/CN108806691B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1421846A (zh) * | 2001-11-28 | 2003-06-04 | 财团法人工业技术研究院 | 语音识别系统 |
CN101320561A (zh) * | 2007-06-05 | 2008-12-10 | 赛微科技股份有限公司 | 提升个人语音识别率的方法及模块 |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN107316637A (zh) * | 2017-05-31 | 2017-11-03 | 广东欧珀移动通信有限公司 | 语音识别方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN108806691A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US10332508B1 (en) | Confidence checking for speech processing and query answering | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4709663B2 (ja) | ユーザ適応型の音声認識方法及び音声認識装置 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
EP4285358B1 (en) | Instantaneous learning in text-to-speech during dialog | |
US20240029732A1 (en) | Speech-processing system | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
JP4950024B2 (ja) | 会話システムおよび会話ソフトウェア | |
CN108806691B (zh) | 语音识别方法及系统 | |
US20180012602A1 (en) | System and methods for pronunciation analysis-based speaker verification | |
US11564194B1 (en) | Device communication | |
KR20160015005A (ko) | 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치 | |
JP5344396B2 (ja) | 言語学習装置、言語学習プログラム及び言語学習方法 | |
Phoophuangpairoj et al. | Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs | |
Prukkanon et al. | F0 contour approximation model for a one-stream tonal word recognition system | |
Flemotomos et al. | Role annotated speech recognition for conversational interactions | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
Khalifa et al. | Statistical modeling for speech recognition | |
JP4297349B2 (ja) | 音声認識システム | |
JP3231365B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231001 Address after: 518000 Virtual University Park, No. 2 Yuexing Third Road, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province, China. College Industrialization Complex Building A605-606-L Patentee after: RUUUUN Co.,Ltd. Address before: Unit 102, Unit 1, Building 4, Yuhai Xinyuan, No. 3003 Qianhai Road, Nanshan District, Shenzhen City, Guangdong Province, 518000 Patentee before: YOUAI TECHNOLOGY (SHENZHEN) CO.,LTD. |