CN101958118A - 有效地实施语音识别字典的系统和方法 - Google Patents
有效地实施语音识别字典的系统和方法 Download PDFInfo
- Publication number
- CN101958118A CN101958118A CN2010102607735A CN201010260773A CN101958118A CN 101958118 A CN101958118 A CN 101958118A CN 2010102607735 A CN2010102607735 A CN 2010102607735A CN 201010260773 A CN201010260773 A CN 201010260773A CN 101958118 A CN101958118 A CN 101958118A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- phoneme
- phone set
- optimization
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明包括有效地实施语音识别字典的系统和方法,可以包括被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇词典的音素串进行比较的识别器。该优化的普通话汉语音素集可以通过利用音位变体和音位变化技术有效地实施。此外,前述的词汇字典可以通过利用统一的字典优化技术实施以提供稳健且精确的语音识别。此外,词汇字典可以实施为优化的字典以在语音识别过程中精确地识别北方普通话汉语语音或南方普通话汉语语音。
Description
本申请是申请日为2004年3月31日、申请号为200410033229.1、发明名称为“有效地实施普通话汉语语音识别字典的系统和方法”的发明专利申请的分案申请。
技术领域
一般地说本发明涉及电子语音识别系统,更具体地说涉及有效地实施普通话汉语(Mandarin Chinese)语音识别字典的系统和方法。
背景技术描述
实施系统用户与电子设备进行稳健且有效的人机通信是系统设计者和制造商们非常重视的考虑因素。电子设备的语音控制操作是用于多种系统用户的理想接口。例如,语音控制操作允许用户同时执行其它的任务。例如,一个人在驾驶机车的同时,通过语音控制可以操作电子管理器。对于那些具有身体障碍或其它特殊要求的用户来说电子系统的免提操作是比较理想的。
电子设备的免提操作可以通过各种语音启动的电子系统实现。语音启动的电子系统由此有利地允许用户在其使用常规的输入设备不方便或者可能有危险的情况下与电子设备进行人机通信。电子娱乐系统也可以利用语音识别技术来允许用户通过向某一系统说话而与其交互。
然而,有效地实施这种系统对系统设计者来说可是一种巨大的挑战。例如,增加系统的功能和性能的进一步需求可能要求更大的系统处理能力和要求其它的硬件资源。由于增加了生产成本和操作的无效率,在处理或硬件要求方面的增加也相应地导致了不利的影响。
此外,增强系统执行各种高级操作的系统能力虽然可以给系统用户提供其它的优点,但也导致了对各种系统部件的控制和管理的增加。例如,有效地识别在普通话汉语语言中的字和词的增强的电子系统得益于有效的实施方案,因为要求大量且复杂的数字数据。因此,对于所有的前述原因,实施系统用户与电子设备人机通信的稳健且有效的方法一直是系统设计者和制造者重要的考虑因素。
发明内容
根据本发明,公开了一种有效地实施普通话汉语语音识别字典的系统和方法。在一个实施例中,识别器可以被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇词典的音素串进行比较。
优化的普通话汉语音素集可以以语音学技术实施以单独包括辅音音素和元音音素。由于系统效率的缘故,优化的普通话汉语音素集优选以小型化的方式实施以仅包括在语音识别过程中精确地表示普通话汉语语音所要求的最小数量的辅音音素和元音音素。
根据本发明的某些实施例,通过利用将多个音位变体(allophone)或发音变化映射到优化的音素集中的相同对应音位的音位变体变化技术(allophone variation technique)可以有效地实施优化的普通话汉语音素集。在某些实施例中,音位变体变化技术可以将音位变体映射到包括辅音类别、半元音类别和元音类别的音素集中。
此外,通过利用各种不同的字典优化技术可以实施前述的词汇字典以提供稳健且精确的语音识别。区域变化(regional variation)技术可以将输入语音数据的区域变化映射到在词汇字典中的统一的对应条目,由此改善语音识别精度。输入语音数据的每个区域变化根据地理区域的不同具有重要的发音变化。在某些实施例中,发音的区域变化包括北方普通话汉语和南方普通话汉语的普通话汉语发音变化。
此外,在某些实施例中,前述的词汇字典可以实施为对应于特定的口语语言的不同的具体的区域发音变化的统一的字典。然后在语音识别过程中该字典可以精确地识别北方普通话汉语语音或南方普通话汉语语音。因此本发明提供了一种有效地实施普通话汉语语音识别字典的系统和方法。
附图说明
附图1所示为根据本发明的计算机系统的一个实施例的方块图;
附图2所示为根据本发明附图1的存储器的一个实施例的方块图;
附图3所示为根据本发明附图2的语音检测器的一个实施例的方块图;
附图4所示为根据本发明附图2的隐马尔可夫模型(Hidden Markov Model)的一个实施例的附图;
附图5所示为根据本发明附图2的字典的一个实施例的附图;
附图6所示为根据本发明的一个实施例附图5的字典条目的附图;和
附图7所示为根据本发明的一个实施例说明区域变化技术的附图。
具体实施方式
本发明涉及语音识别系统的改进。提供下面的描述以便在本领域的普通技术人员能够实现并使用本发明,并且这些描述根据专利申请及其要求提供。对优选实施例做出各种改进对于本领域普通技术人员来说是显而易见的,因此在此的一般原理可应用于其它的实施例。因此并不希望将本发明限于所示的实施例,而是应该给予与在此所描述的原理和特征相一致的最宽泛的范围。
本发明包括有效地实施普通话汉语语音识别字典的系统和方法,可以包括被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇字典的音素串进行比较的识别器。优化的普通话汉语音素集可以通过利用音位变体变化技术有效地实施。
此外,通过利用各种不同的字典优化技术可以实施前述的词汇字典以提供稳健且精确的语音识别。此外,可以将该词汇字典实施为字典集,从该字典集中可以选择适当的字典以在语音识别的过程中精确地识别北方普通话汉语语音或南方普通话汉语语音。
现在参考附图1,所示为根据本发明的计算机系统110的一个实施例的方块图。附图1的实施例包括声音传感器112、放大器116、模拟至数字转换器120、中央处理单元(CPU)128、存储器130和输入/输出接口132。在变型实施例中,除了结合附图1的实施例讨论的那些元件或功能之外或作为它们的替换,计算机系统110容易包括各种其它的元件或功能。
声音传感器112检测声音能量并将所检测到的声音能量转换为模拟语音信号,通过线114将该模拟语音信号提供给放大器116。放大器116放大所接收的模拟语音信号并经线118将经放大的模拟语音信号提供给模拟至数字转换器120。然后模拟至数字转换器120将经放大的模拟语音信号转换为对应的数字语音数据。然后模拟至数字转换器120通过线122将数字语音数据提供给系统总线124。
CPU 128然后访问在系统总线124上的数字语音数据并根据包含在存储器130中的软件指令响应地分析并处理该数字语音数据以执行语音检测。CPU 128的操作和在存储器130中的软件指令将在下文结合附图2-3进一步讨论。在处理了语音数据之后,CPU 128然后将语音检测分析的结果通过输入/输出接口132提供给其它的设备(未示)。在变型实施例中,本发明容易以除了在附图1中所示的计算机系统110之外的各种设备实施。
现在参考附图2,所示为根据本发明的附图1的存储器130的一个实施例的方块图。可替换的是,存储器130可以包括各种存储装置结构,包括随机存取存储器(RAM)和存储装置比如软盘或硬盘驱动器。在附图2的实施例中,存储器130包括但不限于语音识别引擎210、隐马尔可夫模型(HMM)212、词汇字典214和语言模型216。在变型实施例中,除了结合附图2的实施例讨论的那些元件或功能之外或作为它们的替换,存储器130容易包括各种其它的元件或功能。
在附图2的实施例中,语音识别引擎210包括由CPU 128执行以分析并识别语音数据的一系列软件模块,下文将参考附图3进一步描述这些模块。在变型实施例中,语音识别引擎210容易以各种其它的软件和/或软件结构实施。HMM 212和字典214可以由语音识别引擎210使用以实施本发明的语音识别功能。HMM 212的一种实施例将在下文结合附图4进一步讨论,字典214的一种实施例将在下文结合附图5进一步讨论。
现在参考附图3,所示根据本发明的附图2的语音识别引擎210的一个实施例的方块图。语音识别引擎210包括但不限于特征提取器310、端点检测器312和识别器314。在变型实施例中,除了结合附图3的实施例讨论的那些元件或功能之外或作为它们的替换,语音识别引擎210容易包括各种其它的元件或功能。
在附图3的实施例中,模拟至数字转换器120(附图1)通过系统总线124给特征提取器310提供数字语音数据。特征提取器310响应地产生特征矢量,通过路径320将该特征矢量提供给识别器314。特征提取器310进一步通过路径322响应地产生语音能量给端点检测器312。端点检测器312分析该语音能量并响应地确定由语音能量所代表的话语的端点。该端点指示该话语在时间上的开始和结束。端点检测器312然后通过路径324将该端点提供给识别器314。
识别器314优选被构造成识别在字典214(附图2)中提供的预定的词汇中的命令。前述的在字典214中的词汇命令可以对应于任何所需的命令、指令或计算机系统110的其它通信。然后将所识别的词汇命令通过通路332输出给系统110。
在实际中,来自字典214的每个命令都可以与表示该字的对应的音素串(单个音素的串)关联。隐马尔可夫模型(HMM)212(附图2)可以包括来自可有效地用于表示在字典214中的命令的预先确定的音素集中的每个音素的经训练的随机表示。识别器314然后将来自线320的输入特征矢量与来自字典214的每个音素串的适当的HMM 212进行比较以确定哪个命令产生了最高的识别分值。由此将对应于最高的识别分值的命令标识为所识别的命令。
现在参考附图4,所示为根据本发明的附图2的HMM 212的一个实施例的方块图。在附图4的实施例中,HMM 212优选包括模型1(412(a))至模型N(412(c))。在变型实施例中,除了结合附图4的实施例讨论的那些元件或功能之外或作为它们的替换,HMM 212容易包括各种其它的元件或功能。
在附图4的实施例中,HMM 212容易实施以包括任何所需数量的模型412,这些模型可以包括任何所要求的类型的信息。在附图5的实施例中,来自HMM 212的每个模型412可以对应于来自预先确定的音素集的不同的特定音素以用于识别器314(附图3)。
现在参考附图5,所示为根据本发明的一个实施例的附图2的字典214的方块图。在附图5的实施例中,字典214优选包括条目1(512(a))至条目N(512(d))。在变型实施例中,除了结合附图5的实施例讨论的那些元件或功能之外或作为它们的替换,字典214容易包括各种其它的元件或功能。
在附图5的实施例中,字典214容易实施以包括任何所需数量的条目512,这些条目可以包括任何所要求的信息。在附图5的实施例中,如上文参考附图3所讨论,来自字典214的每个条目512也可以包括来自预先确定的音素集的单个音素的对应的音素串。前述的音素串的单个音素优选形成字典214中的对应的字的发音的序列表示。字典条目512的一个实施例下文结合附图6进一步讨论。
现在参考附图6,所示为根据本发明的一个实施例的实例性附图5的字典条目512的附图。在变型实施例中,除了结合附图6的实施例讨论的那些元件或功能之外或作为它们的替换,本发明使用具有其它各种元件或功能的字典条目容易执行语音识别。
在附图6的实施例中,字典条目512可以包括将识别器314(附图3)设计成所识别的字典中的特定的命令610。在不同的实施例中,命令610可以是任何类型的说明或语言,包括句子、词组、命令、提问或根据适当的表示方案表示的字。此外,字典条目512可以包括表示命令610的序列听觉特征的音素串612。与命令610关联的音素串612可以包括来自与识别器314一起使用的预先确定的音素集的音素序列。在附图6的实施例中,前述的音素串可以包括音素串1(612(a))至音素串N(612(b))。每个可替换的音素串612可以表示由区域变化或发音变化引起的相同命令610的可替换的发音。下文参考附图7进一步讨论实施字典条目512的一种技术。
由于普通话汉语通常以汉字而不是罗马字母书写,因此通过利用标准的普通话汉语罗马化方案(一般称为“pinyin(拼音)”)可以表示音素集。还应该注意,在音素集中拼音“ü”表示为“yu”以便有利于计算机键盘使用。在变型的实施例中,本发明可以利用以各种不同的其它类型的罗马化方案表示的优化的普通话汉语音素集。
因为使用相对较小数量的音素,因此音素集可以提供用于精确地识别普通话汉语语音的有效和小型化的音素表示。在音素集中单个音素的数量减小极大地节省了在电子系统110中的处理资源和存储器。此外,总的音素的数量的减小实质上降低了与训练隐马尔可夫模型(HMM)212相关的负担。然而,在不同的变型的实施例中,可以实施本发明以包括各种不同的附加或不同的音素。
常规的普通话汉语语音识别系统通常利用以子音节方法实施的音素集,在这种子音节方法中每个音节表示为韵(rime)或半音节。相反,本发明的优化的普通话汉语音素集有利地利用语音学技术,在这种语音学技术中将音节进一步划分为由适当的辅音音素和元音音素的组合表示的语音学单元以给语音表示处理提供更大的粒度。此外,音素集表示普通话汉语的各种声音而不利用作为不同的音素的一部分的对应的音调信息。除了提供更大的灵活性之外,前述的语音学技术还具有在音素集610中要求的总的音素更少的附加优点。
根据对应的音素的特征可以将前述的普通话汉语音素集和对应的音位变体组织成各种语言类别。为了说明,下文在表1中给出一种这样的组织,表1包括在顶部的类别,下面有四列。在表1的左侧的两列是具有音位变体的音位变体列,该列映射成在表1的右侧上的两个音位列中的对应的音位。在表1中等效的音位变体在相同的水平行上示出(或者对于附加的音位变体音位映射在下面的不中断的水平行上)作为表1的对应的音位。
在表1的更左边上的音位变体列以前述的Pinyin罗马化格式表示。此外,在自左边的第二列中,表1也包括以根据由国际语音协会(International Phonetic Association(IPA))开发的系统的第二种罗马化方案格式表示的等效的音位变体列。关于国际语音协会的进一步的信息可以参见环球网WWW.arts.gla.ac.uk/IPA/fullchart.html。在变型的实施例中,音位变体也可以以除了在下面的表1中所示的方式之外的不同的方式组织。
此外,在表1的更右边上的音位变体列以前述的Pinyin罗马化格式表示。此外,在自右边的第二列中,表1也包括以前述的国际语音协会(IPA)的罗马化方案格式表示的等效音位变体列。在变型的实施例中,普通话汉语音素集的音位变体也可以以以除了在下面的表1中所示的方式之外的不同的方式组织。
表1:
辅音:
*注意:“begin(开始)”和“end(结尾)”描述了音位出现在Pinyin中的哪儿。例如,在Pinyin“ban”中,“b”是b(begin)和“n”是n(end)。
半元音:
元音:
现在参考附图7,所示为根据本发明的一个实施例说明区域变化技术的附图810。在变型的实施例中,除了结合附图7的实施例讨论的那些技术或功能之外或作为它们的替换,本发明容易利用其它的各种技术或功能。
在许多语言中,根据多种不同的因素比如地理区域可能存在发音变化。例如,根据讲话者是来自北方地区(北方普通话汉语)还是中国南方(南方普通话汉语)口语普通话汉语可能具有明显的发音变化。前述的明显的发音变化可能被确定超过预先确定的变化阈值。为了提供稳健且精确的普通话汉语语音识别系统,附图的图810所示为可用于改善用于在发音方面存在明显的区域变化的识别精度的区域变化技术。
在附图7的实施例中,为了说明本发明的不同原理,图810所示为映射到在由语音识别引擎210所使用的词汇字典214(附图2)中的统一的字典条目512中的普通话汉语区域变化1(814)。此外,图810所示为映射到在由语音识别引擎210所使用的词汇字典214中的相同的字典条目512中的普通话汉语区域变化2(816)。
此外,图810所示为映射到在由语音识别引擎210所使用的词汇字典214中的相同的字典条目512中的普通话汉语区域变化3(818)。在附图7的实施例中,区域变化表示与语音识别引擎210一起使用的特定的字典条目512的不同的发音变化。
在某些实施例中,根据本发明,语音识别引擎210也访问专门设计用于对于特定的环境优化语音识别精度的词汇字典。例如,在某些实施例中,普通话汉语语音识别字典可以包括对应于不同的区域北方普通话汉语方言的北方普通话汉语条目512。
此外,在某些实施例中,普通话汉语语音识别字典214也可以包括对应于区域南方普通话汉语土话的南方普通话汉语条目512。前述的普通话汉语语音识别字典也可以包括专门设计成有利于识别精度或强调节省处理资源同时执行语音识别过程的条目512。
在本发明的某些实施例中,各种字典优化技术可以用于提供更加稳健且精确的普通话汉语语音识别过程。在一个实施例中,本发明可以合并包括任何适当的自由音位变体和音位变化。某些普通话汉语字或声音可以具有不是由于区域变化引起的可替换的发音。例如nei4、zhe4、shei2、han4、huo0可以具有如在下表II中所示的可替换的发音。
表II:
普通的-可替换的
na4~nei4
zhe4~zhei4
shui2~shei2
he2~han2
he2~huo2
根据本发明的某些实施例,在下表III中示出了前述的普通话汉语字的对应的字典条目512;
表III;
na4 n a
na4 n ei (可替换的发音)
zhe4 s^`e
zhe4 s^`ei (可替换的发音)
shui2 s w ei
shui2 s ei (可替换的发音)
he2 x e
he2 x a n (可替换的发音)
he2 x e
he2 x w o (可替换的发音)
在某些实施例中,词汇字典214可以以不同的改进方式实施以处理有问题的南方和北方普通话汉语方言变化。例如,与在中国北方的相同的字或声音的发音相比,某些普通话汉语字或声音在中国南方不同地发音。对于某些字,最后的r(r^`)可能在中国北方发音,而对应的最后的r可能不在中国南方使用。
如下的表IV提供了包括在中国北方发音中的最后的r的某些普通话汉语字或发音的列表。
表IV:
南方——北方
shi4~shir4
bian1~bianr1
pian4~pianr4
ge1~ger1
dian3~dianr3
tian1~tianr1
gou3~gour3
ban4~banr4
qiu2~qiur2
wan2~wanr2
zhao1~zhaor1
根据本发明的某些实施例,用于与前述的北方-南方普通话汉语配对的相应的字典条目512在下表V中示出。本发明可以将北方-南方普通话汉语配对合并到单个对应的字或意思中。
表V:
shir4 s^i
shir4 s^i r (北方发音)
bianr1 p j a n
bianr1 p j a n r (北方发音)
ger1 k e
ger1 k e r (北方发音)
dianr3 cl t j a n
dianr3 cl t j a n r (北方发音)
tianr1 cl th j a n
tianr1 cl th j a n r (北方发音)
gour3 cl k ow
gour3 cl k ow r (北方发音)
banr4 cl p a n
banr4 cl p a n r (北方发音)
wanr2 w a n
wanr2 w a n r (北方发音)
zhaor1 s^`aw
zhaor1 s^`aw r (北方发音)
在本发明的某些实施例中,在实施词汇字典214时可以使用某些塞擦音(affricate)技术。例如,在中国南方,塞擦音s^`容易以更接近音位t^的音位发音。词汇字典214因此包括可替换的南方普通话汉语发音并将其与t^音素合并,以含盖北方和南方的普通话汉语发音。例如,字典214可以包括北方塞擦音变化“lan2_zhu4 sil 1a n cl s^`u sil”和南方塞擦音变化“lan2_zhu4 sil 1 a n cl t^u sil”。
此外,在中国南方,塞擦音s^容易以更接近音位s的音位发音。词汇字典214因此包括可替换的南方普通话汉语发音并将其与s音素合并,以含盖北方和南方的普通话汉语发音。例如,字典214可以包括北方塞擦音变化“shang4 s ^a N”和南方塞擦音变化“shang4 s a N”。因此,如上文所讨论,在本发明的某些实施例中,各种不同的字典优化技术可以用于提供更加稳健且精确的普通话语音识别过程。
参考优选的实施例已经解释了本发明。根据本发明的公开其它的实施例对本领域的普通技术人员来说是显然的。例如,使用除了在上述的优选实施例中描述的结构和技术之外的结构和技术容易实施本发明。此外,本发明也可以与除了上文作为优选实施例描述的系统之外的系统一起有效地使用。因此,优选实施例的这些和其它变型希望都被仅由附加的权利要求所限定的本发明所涵盖。
Claims (23)
1.一种用于执行语音识别过程的系统,包括:
识别器,该识别器被构造成将输入语音数据与来自根据优化的音素集实施的词汇字典的音素串进行比较,所述优化的音素集利用音位变体变化技术以小型化的方式来实施,所述词汇字典利用一种或多种字典优化技术来实施;和
处理器,该处理器被构造成控制所述识别器,以便由此执行所述语音识别过程;
其中所述优化的音素集表示音调语言的各种不同的声音而不利用作为在所述优化的音素集中的不同音素部分的对应音调信息。
2.权利要求1的系统,其中所述识别器和所述处理器作为消费电子设备的部分来实施。
3.权利要求1的系统,其中在执行所述语音识别过程的同时,所述优化的音素集节省处理资源和存储器资源。
4.权利要求1的系统,其中每个所述音素串包括来自所述优化的音素集的不同的音素序列,每个所述音素串对应于来自所述词汇字典的不同的字。
5.权利要求4的系统,其中所述识别器比较所述输入语音数据和来自所述词汇字典的所述音素串的隐式马尔可夫模型,以便由此在所述语音识别过程期间选择所识别的字。
6.权利要求1的系统,其中所述音位变体变化技术将多个音位变体或音位映射到对应的字典条目。
7.权利要求6的系统,其中所述多个音位变体或音位包括所述字典条目的发音变化。
8.权利要求6的系统,其中所述优化的音素集以语音学技术来实施,以便单独提供辅音音素和元音音素,所述优化的音素集以小型化的方式来实施,以便仅包括最低要求数量的所述辅音音素和所述元音音素。
9.权利要求1的系统,其中区域变化技术将所述输入语音数据的区域变化映射到所述词汇字典中的对应的条目。
10.权利要求9的系统,其中所述输入语音数据的每个所述区域变化根据地理区域而呈现明显的发音变化,所述明显的发音变化被确定超过预先确定的可接受的变化阈值。
11.权利要求1的系统,其中所述词汇字典包括且合并具有不应归于区域变化的可替换发音的自由音位或音位变体变化的单独条目。
12.一种用于执行语音识别过程的方法,包括如下的步骤:
将识别器构造成比较输入语音数据和来自根据优化的音素集实施的词汇字典的音素串,所述优化的音素集利用音位的和音位变体的变化技术以小型化的方式来实施,所述词汇字典利用一种或多种字典优化技术来实施;和
利用处理器来控制所述识别器,以便由此执行所述语音识别过程;
其中所述优化的音素集表示音调语言的各种不同的声音而不利用作为所述优化音素集中的不同音素部分的对应音调信息。
13.权利要求12的方法,其中所述识别器和所述处理器作为消费电子设备的部分来实施。
14.权利要求12的方法,其中在执行所述语音识别过程的同时,所述优化的音素集节省处理资源和存储器资源。
15.权利要求12的方法,其中每个所述音素串包括来自所述优化音素集的不同的音素序列,每个所述音素串对应于来自所述词汇字典的不同的字。
16.权利要求15的方法,其中所述识别器比较所述输入语音数据和来自所述词汇字典的所述音素串的隐式马尔可夫模型,以便由此在所述语音识别过程期间选择所识别的字。
17.权利要求12的方法,其中所述音位变体变化技术将多个音位变体或音位映射到对应的字典条目。
18.权利要求17的方法,其中所述多个音位变体或音位包括所述对应的字典条目的发音变化。
19.权利要求17的方法,其中所述优化的音素集以语音学技术来实施,以便单独提供辅音音素和元音音素,所述优化的音素集以小型化的方式来实施,以便仅包括最低要求数量的所述辅音音素和所述元音音素。
20.权利要求12的方法,其中区域变化技术将所述输入语音数据的区域变化映射到所述词汇字典中的对应的条目。
21.权利要求20的方法,其中所述输入语音数据的每个所述区域变化根据地理区域而呈现明显的发音变化,所述明显的发音变化被确定超过预先确定的可接受的变化阈值。
22.权利要求12的方法,其中所述词汇字典包括且合并具有不应归于区域变化的可替换发音的自由音位或音位变体变化的单独条目。
23.一种用于执行语音识别过程的系统,包括:
用于比较输入语音数据和来自根据优化的音素集实施的词汇字典的音素串的装置,所述优化的音素集利用音位的和音位变体的变化技术以小型化的方式来实施,所述词汇字典利用一种或多种字典优化技术来实施;和
用于控制所述的用于比较的装置以便由此执行所述语音识别过程的装置;
其中所述优化的音素集表示音调语言的各种不同的声音而不利用作为所述优化音素集中的不同音素部分的对应音调信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/403,747 US7353174B2 (en) | 2003-03-31 | 2003-03-31 | System and method for effectively implementing a Mandarin Chinese speech recognition dictionary |
US10/403747 | 2003-03-31 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004100332291A Division CN1538384B (zh) | 2003-03-31 | 2004-03-31 | 有效地实施普通话汉语语音识别字典的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101958118A true CN101958118A (zh) | 2011-01-26 |
Family
ID=32990019
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004100332291A Expired - Fee Related CN1538384B (zh) | 2003-03-31 | 2004-03-31 | 有效地实施普通话汉语语音识别字典的系统和方法 |
CN2010102607735A Pending CN101958118A (zh) | 2003-03-31 | 2004-03-31 | 有效地实施语音识别字典的系统和方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004100332291A Expired - Fee Related CN1538384B (zh) | 2003-03-31 | 2004-03-31 | 有效地实施普通话汉语语音识别字典的系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7353174B2 (zh) |
CN (2) | CN1538384B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913841A (zh) * | 2016-06-30 | 2016-08-31 | 北京小米移动软件有限公司 | 语音识别方法、装置及终端 |
CN107112007A (zh) * | 2014-12-24 | 2017-08-29 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
CN112489634A (zh) * | 2020-11-17 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 语言的声学模型训练方法、装置、电子设备及计算机介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
US9966064B2 (en) | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
CN103839546A (zh) * | 2014-03-26 | 2014-06-04 | 合肥新涛信息科技有限公司 | 一种基于江淮语系的语音识别系统 |
CN107767858B (zh) * | 2017-09-08 | 2021-05-04 | 科大讯飞股份有限公司 | 发音词典生成方法及装置、存储介质、电子设备 |
CN111862961A (zh) * | 2019-04-29 | 2020-10-30 | 京东数字科技控股有限公司 | 识别语音的方法和装置 |
CN110827803A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 方言发音词典的构建方法、装置、设备及可读存储介质 |
CN112382275B (zh) * | 2020-11-04 | 2023-08-15 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4370521A (en) * | 1980-12-19 | 1983-01-25 | Bell Telephone Laboratories, Incorporated | Endpoint detector |
EP0071716B1 (en) * | 1981-08-03 | 1987-08-26 | Texas Instruments Incorporated | Allophone vocoder |
JPH0758499B2 (ja) * | 1987-09-08 | 1995-06-21 | 沖電気工業株式会社 | 文字認識装置 |
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
US5758319A (en) * | 1996-06-05 | 1998-05-26 | Knittle; Curtis D. | Method and system for limiting the number of words searched by a voice recognition system |
US6510410B1 (en) * | 2000-07-28 | 2003-01-21 | International Business Machines Corporation | Method and apparatus for recognizing tone languages using pitch information |
-
2003
- 2003-03-31 US US10/403,747 patent/US7353174B2/en not_active Expired - Fee Related
-
2004
- 2004-03-31 CN CN2004100332291A patent/CN1538384B/zh not_active Expired - Fee Related
- 2004-03-31 CN CN2010102607735A patent/CN101958118A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107112007A (zh) * | 2014-12-24 | 2017-08-29 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
CN107112007B (zh) * | 2014-12-24 | 2020-08-07 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
CN105913841A (zh) * | 2016-06-30 | 2016-08-31 | 北京小米移动软件有限公司 | 语音识别方法、装置及终端 |
CN105913841B (zh) * | 2016-06-30 | 2020-04-03 | 北京小米移动软件有限公司 | 语音识别方法、装置及终端 |
CN112489634A (zh) * | 2020-11-17 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 语言的声学模型训练方法、装置、电子设备及计算机介质 |
Also Published As
Publication number | Publication date |
---|---|
CN1538384A (zh) | 2004-10-20 |
CN1538384B (zh) | 2010-11-24 |
US20040193417A1 (en) | 2004-09-30 |
US7353174B2 (en) | 2008-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
EP1089256A2 (en) | Speech recognition models adaptation from previous results feedback | |
US20080147404A1 (en) | System and methods for accent classification and adaptation | |
Saini et al. | Hindi automatic speech recognition using htk | |
JPH09500223A (ja) | 多言語音声認識システム | |
US7502731B2 (en) | System and method for performing speech recognition by utilizing a multi-language dictionary | |
Kumar et al. | A comprehensive view of automatic speech recognition system-a systematic literature review | |
CN1538384B (zh) | 有效地实施普通话汉语语音识别字典的系统和方法 | |
Kipyatkova et al. | Lexicon size and language model order optimization for Russian LVCSR | |
Ghai et al. | Continuous speech recognition for Punjabi language | |
Hon et al. | Towards large vocabulary Mandarin Chinese speech recognition | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
US6963832B2 (en) | Meaning token dictionary for automatic speech recognition | |
Ronzhin et al. | Survey of russian speech recognition systems | |
Kipyatkova et al. | Analysis of long-distance word dependencies and pronunciation variability at conversational Russian speech recognition | |
CN100380442C (zh) | 利用优化音素集进行普通话语音识别的系统和方法 | |
Asm | Speech analysis for alphabets in Bangla language: automatic speech recognition | |
Alhumsi et al. | The challenges of developing a living Arabic phonetic dictionary for speech recognition system: A literature review | |
Oprea et al. | An artificial neural network-based isolated word speech recognition system for the Romanian language | |
Pranjol et al. | Bengali speech recognition: An overview | |
ABEBE | Designing Automatic Speech Recognition For Ge’ez Language | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
Pisarn et al. | An HMM-based method for Thai spelling speech recognition | |
Thubthong et al. | Stress and tone recognition of polysyllabic words in Thai speech | |
Xu et al. | Speaker-independent dictation of Chinese speech with 32K vocabulary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20110126 |