CN101785050B

CN101785050B - 语音识别用对照规则学习系统以及语音识别用对照规则学习方法

Info

Publication number: CN101785050B
Application number: CN2007801000793A
Authority: CN
Inventors: 阿部贤司
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-07-31
Filing date: 2007-07-31
Publication date: 2012-06-27
Anticipated expiration: 2027-07-31
Also published as: WO2009016729A1; JPWO2009016729A1; JP5141687B2; US20100100379A1; CN101785050A

Abstract

语音识别用规则学习装置(1)与语音识别装置(20)连接，语音识别装置(20)在对照中使用表示声音的第1类型字符串与用于形成识别结果的第2类型字符串之间的转换规则，语音识别用规则学习装置(1)具有：字符串记录部(3)，其记录第1类型字符串和与其对应的第2类型字符串；提取部(12)，其从记录在单词字典(23)中的单词中提取将多个第2类型要素连接起来而构成的第2类型学习字符串候选；以及规则学习部(9)，其从第2类型学习字符串候选中提取与字符串记录部(3)中的第2类型字符串的至少一部分一致的字符串，作为第2类型学习字符串，从字符串记录部(3)的第1类型字符串中提取第1类型学习字符串，将第1类型学习字符串与第2类型学习字符串之间的对应关系追加到转换规则中。由此，能够在不增加无用的转换规则的情况下，针对语音识别装置自动地追加转换单位变化的新规则。

Description

语音识别用对照规则学习系统以及语音识别用对照规则学习方法

技术领域

本发明涉及在语音识别的对照过程中，自动学习例如在将与输入语音中的各声音对应的符号串转换成形成识别词汇的字符串(以下记为识别字符串)时使用的转换规则的装置。

背景技术

在语音识别装置的对照过程中，例如包含这样的处理：根据与基于输入语音的声学特征而提取出的各声音对应的符号串(例如音素串)，来推测识别字符串(例如音节串)。此时，需要将音素串与音节串对应起来的转换规则(有时也称为对照规则或规则)。这种转换规则被预先记录在语音识别装置中。

以往，例如在定义音素串与音节串之间的转换规则时，一般是以多个音素与1个音节相对应的数据为转换规则的基本单位(转换单位)。例如，在2个音素/k/、/a/与1个音节“か”对应的情况下，代表该情况的转换规则被表示为“か→ka”。

但是，当语音识别装置按照1个音节这样的短小单位进行对照时，根据音节串生成识别词汇时的解的候选数量增大，可能因误检测或剪枝而发生正解候选的缺失。另外，与1个音节对应的音素串有时因与该音节邻接的前后音节而变化，但在按照1个音节单位定义的转换规则中，不能表现出这种变化。

因此，例如，通过在转换规则中追加将音素串与由多个音节构成的音节串对应起来的规则，加长音节串的转换单位，能够抑制正解候选的缺失或能够表现出上述变化。例如，在3个音素/k/、/a/、/i/与2个音节“かい”对应的情况下，代表该情况的转换规则被表示为“かい→kai”。此外，作为加长转换规则的转换单位的另一例，还公开了不将HMM的模型单位只限定为音素，而是自动地生成长度不定的声学模型的例子(例如参照日本特开平8-123477号公报)。

但是，当加长了转换单位时，有转换规则变得庞大的趋势。例如，当想要在音节串与音素串之间的转换规则中追加转换单位为3音节的转换规则时，由于3音节的组合数量庞大，因此，如果期望覆盖所有这些组合，则所要记录的转换规则的数量庞大。其结果是，用于记录转换规则的存储器大小和使用转换规则进行处理的时间变得庞大。

发明内容

因此，本发明的目的在于，针对在语音识别中使用的转换规则，在不增加无用的转换规则的情况下，针对语音识别装置自动地在追加转换单位发生变化的新转换规则，提高语音识别的识别精度。

本发明的语音识别用规则学习装置与语音识别装置连接，该语音识别装置使用声学模型和单词字典对输入的语音数据执行对照处理，由此生成识别结果，该语音识别装置在所述对照处理中使用表示声音的第1类型字符串与用于形成识别结果的第2类型字符串之间的转换规则。所述语音识别用规则学习装置具有：字符串记录部，其将所述语音识别装置在生成识别结果的过程中生成的第1类型字符串和与该第1类型字符串对应的第2类型字符串对应起来进行记录；提取部，其从与记录在所述单词字典中的单词对应的第2类型字符串中，提取将多个第2类型要素连接起来而构成的字符串，作为第2类型学习字符串候选，所述第2类型要素是第2类型字符串的最小单位；以及规则学习部，其将所述提取部提取出的第2类型学习字符串候选中的、与记录在所述字符串记录部中的第2类型字符串的至少一部分一致的字符串，作为第2类型学习字符串，提取与该第2类型字符串对应地记录在所述字符串记录部中的所述第1类型字符串中的、与所述第2类型学习字符串对应的部分，作为第1类型学习字符串，将表示该第1类型学习字符串与第2类型学习字符串之间的对应关系的数据，包含在所述语音识别装置使用的转换规则中。

在上述结构的语音识别用规则学习装置中，提取部提取与单词字典的单词对应的由多个第2类型要素构成的第2类型字符串，作为第2类型学习字符串候选。规则学习部提取所提取出的第2类型字符串候选中的、与对应于从语音识别装置取得的第1类型字符串的第2类型字符串的至少一部分一致的字符串，作为第2类型学习字符串。然后，规则学习部将所述第1类型的字符串中的与第2类型学习字符串对应的部分，作为第1类型学习字符串，将表示该第1类型学习字符串与第2类型学习字符串之间的对应关系的数据包含在转换规则中。由此，从可能成为语音识别装置的识别对象的单词字典的单词中，提取由多个连续的第2类型要素构成的第2类型学习字符串，追加了表示该第2类型学习字符串与第1类型学习字符串之间的对应关系的转换规则。其结果是，能够学习以多个连续的第2类型要素为转换单位且被语音识别装置使用的可能性高的转换规则。因此，能够在不增加无用的转换规则(规则)的情况下，学习以多个第2类型要素为转换单位的新转换规则。其结果，能够提高使用转换规则进行第1类型字符串与第2类型字符串之间的转换处理的语音识别装置的识别精度。

本发明的语音识别用规则学习装置还可以具有：基本规则记录部，其预先记录基本规则，该基本规则是表示与作为第2类型字符串的结构单位的第2类型要素分别对应的理想的第1类型字符串的数据；以及无用规则判定部，其使用所述基本规则，生成与所述第2类型学习字符串对应的第1类型字符串，作为第1类型基准字符串，计算表示该第1类型基准字符串与所述第1类型学习字符串之间的类似度的值，且在该值处于规定的容许范围内的情况下，判断为将所述第1类型学习字符串包含在所述转换规则中。

基本规则是针对作为第2类型的字符串的结构单位的每个第2类型要素，确定对应的理想的第1类型字符串的数据。无用规则判定部通过使用该基本规则，能够将构成第2类型学习字符串的各个第2类型要素分别置换成对应的第1类型的字符串，生成第1类型基准字符串。因此，与第1类型学习字符串相比，第1类型基准字符串具有误转换的可能性低的倾向。当表示这样的第1类型基准字符串与第1类型学习字符串的类似度的值处于容许范围内时，无用规则判定部判断为将表示第1类型学习字符串与第2类型学习字符串之间的对应关系的数据包含在转换规则中。因此，无用规则判定部能够以不将发生误转换的可能性高的数据包含在转换规则中的方式进行判断。其结果，能够抑制无用的转换规则的增加以及误转换的发生。

本发明的语音识别用规则学习装置可采用下述方式：所述无用规则判定部根据所述第1类型基准字符串与所述第1类型学习字符串之间的字符串长度差异、以及所述第1类型基准字符串与所述第1类型学习字符串相一致的字符的比例中的至少1个，来计算表示类似度的值。

由此，根据第1类型基准字符串与第1类型学习字符串之间的字符串长度差异或一致的字符的比例，来判断该第1类型学习字符串的转换规则是否必要。因此，例如可以在所述第1类型基准字符串与所述第1类型学习字符串之间的一致的字符很少或字符串长度差异很大等的情况下，无用规则判定部判断为与该第1类型学习字符串相关的转换规则是无用的。

本发明的语音识别用规则学习装置还可具有无用规则判定部，在所述规则学习部提取的所述第1类型学习字符串以及所述第2类型学习字符串中的至少一方在所述语音识别装置中的出现频度处于规定的容许范围内的情况下，该无用规则判定部判断为将表示该第1类型学习字符串与所述第2类型学习字符串之间的对应关系的数据包含在所述转换规则中。

由此，将表示语音识别装置中的出现频度低的第1类型学习字符串与第2类型学习字符串之间的对应关系的数据包含在转换规则中的情况得到抑制，因此抑制了无用的转换规则的增加。另外，所述出现频度可通过每当语音识别装置检测到出现时进行记录来得到。这种出现频度既可以由语音识别装置记录，也可以记录在语音识别规则学习装置中。

本发明的语音识别用规则学习装置还可以具有：阈值记录部，其记录表示所述规定的容许范围的容许范围数据；以及设定部，其从用户接受表示容许范围的数据的输入，根据该输入来对记录在所述阈值记录部中的所述容许范围数据进行更新。

由此，用户能够调整作为无用规则判定基准的、第1类型学习字符串与第1类型基准字符串之间的类似度的容许范围。

本发明的语音识别装置具有：语音识别部，其使用声学模型和单词字典对输入的语音数据执行对照处理，由此来生成识别结果；规则记录部，其记录所述语音识别部在所述对照处理中使用的、表示声音的第1类型字符串与用于形成识别结果的第2类型字符串之间的转换规则；字符串记录部，其将所述语音识别部在生成识别结果的过程中生成的第1类型字符串和与该第1类型字符串对应的第2类型字符串对应起来进行记录；提取部，其从与记录在所述单词字典中的单词对应的第2类型字符串中，提取将多个第2类型要素连接起来而构成的字符串，作为第2类型学习字符串候选，所述第2类型要素是第2类型字符串的最小单位；以及规则学习部，其将所述提取部提取出的第2类型学习字符串候选中的、与记录在所述字符串记录部中的第2类型字符串的至少一部分一致的字符串，作为第2类型学习字符串，提取与该第2类型字符串对应地记录在所述字符串记录部中的所述第1类型字符串中的、与所述第2类型学习字符串对应的部分，作为第1类型学习字符串，将表示该第1类型学习字符串与第2类型学习字符串之间的对应关系的数据，包含在所述语音识别装置使用的转换规则中。

本发明的语音识别用规则学习方法使语音识别装置学习在对照处理中使用的、表示声音的第1类型字符串与用于形成识别结果的第2类型字符串之间的转换规则，所述语音识别装置使用声学模型和单词字典对输入的语音数据执行所述对照处理，由此来生成识别结果。所述语音识别用规则学习方法具有由计算机执行的步骤，该计算机具有字符串记录部，该字符串记录部将所述语音识别装置在生成识别结果的过程中生成的第1类型字符串和与该第1类型字符串对应的第2类型字符串对应起来进行记录，所述由计算机执行的步骤包括：所述计算机具有的提取部，从与记录在所述单词字典中的单词对应的第2类型字符串中，提取将多个第2类型要素连接起来而构成的字符串，作为第2类型学习字符串候选，所述第2类型要素是第2类型字符串的最小单位；以及所述计算机具有的规则学习部，将所述提取部提取出的第2类型学习字符串候选中的、与记录在所述字符串记录部中的第2类型字符串的至少一部分一致的字符串，作为第2类型学习字符串，提取与该第2类型字符串对应地记录在所述字符串记录部中的所述第1类型字符串中的、与所述第2类型学习字符串对应的部分，作为第1类型学习字符串，将表示该第1类型学习字符串与第2类型学习字符串之间的对应关系的数据，包含在所述语音识别装置使用的转换规则中。

本发明的语音识别用规则学习程序使与语音识别装置连接或内置在语音识别装置中的计算机执行处理，所述语音识别装置使用声学模型和单词字典对输入的语音数据执行对照处理，由此生成识别结果，该语音识别装置在所述对照处理中使用表示声音的第1类型字符串与用于形成识别结果的第2类型字符串之间的转换规则。所述语音识别用规则学习程序使计算机执行以下处理：访问字符串记录部的处理，该字符串记录部将所述语音识别装置在生成识别结果的过程中生成的第1类型字符串和与该第1类型字符串对应的第2类型字符串对应起来进行记录；提取处理，从与记录在所述单词字典中的单词对应的第2类型字符串中，提取将多个第2类型要素连接起来而构成的字符串，作为第2类型学习字符串候选，所述第2类型要素是第2类型字符串的最小单位；以及规则学习处理，将所述提取处理中提取出的第2类型学习字符串候选中的、与记录在所述字符串记录部中的第2类型字符串的至少一部分一致的字符串，作为第2类型学习字符串，提取与该第2类型字符串对应地记录在所述字符串记录部中的所述第1类型字符串中的、与所述第2类型学习字符串对应的部分，作为第1类型学习字符串，将表示该第1类型学习字符串与第2类型学习字符串之间的对应关系的数据，包含在所述语音识别装置使用的转换规则中。

根据本发明，针对在语音识别中使用的转换规则，在不增加无用的转换规则的情况下，针对语音识别装置自动地在追加转换单位发生变化的新转换规则，提高语音识别的识别精度。

附图说明

图1是示出规则学习装置和语音识别装置的结构的功能框图。

图2是示出语音识别装置的语音识别引擎的结构的功能框图。

图3是示出存储在识别词汇记录部中的数据内容的一例的图。

图4是示出记录在基本规则记录部中的数据内容的一例的图。

图5是示出记录在学习规则记录部中的数据内容的一例的图。

图6是示出记录在序列A-序列B记录部中的数据内容的一例的图。

图7是示出记录在候选记录部中的数据内容的一例的图。

图8是示出将初始学习用的数据记录在序列A-序列B记录部3中的处理的流程图。

图9是示出规则学习部使用记录在序列A-序列B记录部中的数据进行初始学习的处理的流程图。

图10是概念性地示出音节串Sx与音素串Px的各区间的对应关系的图。

图11是示出由提取部和规则学习部执行的再学习处理的流程图。

图12是概念性地示出音节串Si与音素串Pi的各区间的对应关系的图。

图13是示出由基准字符串生成部和无用规则判定部执行的无用规则删除处理的一个示例的流程图。

图14是示出记录在学习规则记录部中的转换规则的数据内容的一例的图。

图15是示出记录在序列A-序列B记录部中的数据内容的一例的图。

图16是概念性地示出序列A的发音符号串的各区间与序列B的单词串的各区间的对应关系的图。

图17是示出记录在学习规则记录部中的数据内容的一例的图。

图18是示出存储在识别词汇记录部中的数据内容的一例的图。

图19是示出从识别词汇记录部的单词中提取的序列B模式的例子的图。

图20是概念性地示出序列A的发音符号串的各区间与序列B的单词串的各区间的对应关系的图。

图21是示出记录在基本规则记录部4中的数据内容的一例的图。

具体实施方式

[语音识别装置和规则学习装置的概要结构]

图1是示出本实施方式的规则学习装置和与其连接的语音识别装置的结构的功能框图。图1所示的语音识别装置20是输入语音数据、进行语音识别而输出识别结果的装置。因此，具有语音识别引擎21、声学模型记录部22以及识别词汇(单词字典)记录部23。

语音识别引擎21在语音识别处理中，除了要参照声学模型记录部22以及识别词汇(单词字典)记录部23以外，还要参照规则学习装置1的基本规则记录部4和学习规则记录部5。在基本规则记录部4以及学习规则记录部5中，记录有表示转换规则的数据，该转换规则在语音识别处理过程中用于表示声音的第1类型字符串(以下称为序列A)与第2类型字符串(以下称为序列B)之间的转换，所述第1类型字符串是根据语音数据的声学特征而生成的，所述第2类型字符串用于获得识别结果。

语音识别引擎21使用该转换规则，对在语音识别处理中生成的序列A与序列B进行转换。在本实施方式中，对序列A是根据语音数据的声学特征而提取出的表示声音的符号串、序列B是形成识别词汇的识别字符串的情况进行说明。具体而言，设序列A为音素串、序列B为音节串。另外，如下文所述，序列A和序列B的方式不限于此。

规则学习装置1是用于自动学习在语音识别装置20中使用的上述序列A与序列B之间的转换规则的装置。概要而言，规则学习装置1从语音识别引擎21接收与序列A以及序列B相关的信息，然后进一步参照识别词汇记录部23中的数据，由此生成新的转换规则，将其记录在学习规则记录部5中。

规则学习装置1具有：基准字符串生成部6、规则学习部9、提取部12、系统监视部13、识别词汇监视部16、设定部18、初始学习用语音数据记录部2、序列A-序列B记录部3、基本规则记录部4、学习规则记录部5、基准字符串记录部7、候选记录部11、监视信息记录部14、识别词汇信息记录部15以及阈值记录部17。

另外，语音识别装置20以及规则学习装置1的结构不限于图1所示的结构。例如，记录表示转换规则的数据的基本规则记录部4以及学习规则记录部5也可以不设置在规则学习装置1中，而是设置在语音识别装置20中。

另外，语音识别装置20以及规则学习装置1例如由个人计算机、服务器设备等通用计算机构成。可由1台通用计算机来实现语音识别装置20和规则学习装置1这双方的功能。另外，也可以是这样的结构：将语音识别装置20和规则学习装置1的各个功能部分散地设置在经由网络而连接的多个通用计算机中。并且，语音识别装置20和规则学习装置1可以由装配在车载信息终端、移动电话、游戏机、PDA、家电产品等电子设备中的计算机构成。

规则学习装置1的基准字符串生成部6、规则学习部9、提取部12、系统监视部13、识别词汇监视部16以及设定部18这些功能部是通过计算机的CPU根据实现这些功能的程序而动作来具体实现的。因此，用于实现上述各功能部的功能的程序或记录有该程序的记录介质也是本发明的一个实施方式。另外，初始学习用语音数据记录部2、序列A-序列B记录部3、基本规则记录部4、学习规则记录部5、基准字符串记录部7、候选记录部11、监视信息记录部14、识别词汇信息记录部15以及阈值记录部17是由计算机的内置记录装置或可通过该计算机访问的记录装置来具体实现的。

[语音识别装置的结构]

图2是用于说明语音识别装置20的语音识别引擎21的详细结构的功能框图。在图2所示的功能模块中，对与图1相同的功能模块标注了相同的标号。另外，在图2所示的规则学习装置1中，省略了一部分功能模块的记载。语音识别引擎21具有语音分析部24、语音对照部25以及音素串转换部27。

首先，对记录语音识别引擎21所使用的数据的识别词汇记录部23、声学模型记录部22、基本规则记录部4以及学习规则记录部5进行说明。

声学模型记录部22用于记录声学模型，该声学模型是对哪个音素容易成为怎样的特征量进行建模而得到的。被记录的声学模型例如为当前主流的音素HMM(Hidden Markov Model：隐马尔可夫模型)。

识别词汇记录部23存储有多个识别词汇的读音。图3是示出存储在识别词汇记录部23中的数据内容的一例的图。在图3所示的例子中，在识别词汇记录部23中，存储有针对各个识别词汇的标记和读音。这里，作为一例，读音由音节串来表示。

例如，语音识别装置20的用户通过使语音识别装置20读取记录有识别词汇的标记和读音的记录介质，来将上述识别词汇的标记和读音存储到识别词汇记录部23中。另外，用户可通过同样的操作将新识别词汇的标记和读音存储到识别词汇记录部23中，或对识别词汇的标记或读音进行更新。

在基本规则记录部4以及学习规则记录部5中记录有表示作为序列A的一例的音素串与作为序列B的一例的音节串之间的转换规则的数据。转换规则例如被记录为表示音素串与音节串之间的对应关系的数据。

在基本规则记录部4中记录有预先由人制定的理想的转换规则。基本规则记录部4的转换规则例如是假定了未考虑发声的起伏和多样性的理想语音数据的转换规则。与此相对，在学习规则记录部5中存储有经规则学习装置1如后所述地自动学习而得到的转换规则。该转换规则是将发声的起伏和多样性考虑在内的转换规则。

图4是示出记录在基本规则记录部中的数据内容的一例的图。在图4所示的例子中，按照作为音节串的结构单位的每1个音节(作为序列B的结构单位的要素)，记录有与其分别对应的理想的音素串。另外，记录在基本规则记录部4中的数据内容不限于图4所示的数据。例如，也可以包含按照2个音节以上的单位来定义理想的转换规则的数据。

图5是示出记录在学习规则记录部5中的数据内容的一例的图。在图5所示的例子中，按照1个音节或2个音节，记录有与它们分别对应的通过学习得到的音素串。另外，在学习规则记录部5中，不限于记录1个音节或2个音节，也可以针对2个音节以上的音节串来记录音素串。关于转换规则的学习，将在后面叙述。

并且，在识别词汇记录部23中，例如还可以记录有上下文无关语法(CFG：Context Free Grammar)、有限状态语法(FSG：Finite StateGrammar)、或单词串接的概率模型(N-gram)等语法数据。

接着，分别对语音分析部24、语音对照部25以及音素串转换部27进行说明。语音分析部24将输入的语音数据转换成每帧的特征量。对于特征量，大多使用MFCC、LPC倒谱或功率、它们的一次或二次回归系数、以及通过主成分分析或判别分析对它们的值进行维数压缩而得到的量等多维矢量，这里没有特别限定。转换得到的特征量与各帧固有的信息(帧固有信息)一起被记录在内部存储器中。另外，帧固有信息例如是表示各帧为从开头起的第几个帧的帧编号，或者是表示各帧的开始时刻、结束时刻、功率等的数据。

音素串转换部27根据存储在基本规则记录部4以及学习规则记录部5中的转换规则，将存储在识别词汇记录部23中的识别词汇的读音转变成音素串。在本实施方式中，音素串转换部27根据转换规则，例如将存储在识别词汇记录部23中的所有识别词汇的读音转换成音素串。并且，音素串转换部27也可以将1个识别词汇转换成多种音素串。

例如，当使用图4所示的基本规则记录部4中的转换规则以及图5所示的学习规则记录部5中的转换规则双方进行转换时，对于音节“か”，存在“か”→“ka”以及“か”→“kas”这2种转换规则，因此，音素串转换部27能够将包含“か”的识别词汇转换成2种音素串。

语音对照部25通过将声学模型记录部22中的声学模型与由语音分析部24转换得到的特征量进行对照，针对语音区间中包含的每个帧，计算音素分数。语音对照部25进一步将各帧的音素分数与由音素串转换部27转换得到的各识别词汇的音素串进行对照，由此来计算各识别词汇的分数。语音对照部25根据各识别词汇的分数，确定将作为识别结果输出的识别词汇。

另外，例如在识别词汇记录部23中记录有语法数据的情况下，语音对照部25也可使用语法数据，将识别词汇串(识别语句)作为识别结果而输出。

语音对照部25将上述确定的识别词汇作为识别结果而输出，并且将识别结果中所包含的识别词汇的读音(音节串)及与其对应的音素串记录在序列A-序列B记录部3中。关于记录在序列A-序列B记录部3中的数据，将在后文中叙述。

另外，本实施方式所能应用的语音识别装置不限于上述结构。不限于音素串与音节串之间的转换，只要是具有进行表示声音的序列A与用于形成识别结果的序列B之间的转换的功能的语音识别装置，均可应用于本实施方式。

[规则学习装置1的结构]

接着，参照图1对规则学习装置1的结构进行说明。系统监视部12监视语音识别装置20和规则学习装置1的工作状况，控制规则学习装置1的动作。系统监视部13例如根据记录在监视信息记录部14以及识别词汇信息记录部15中的数据，确定规则学习装置1所应执行的处理，向各功能部指示执行所确定的处理。

在监视信息记录部14中记录有表示语音识别装置20以及规则学习装置1的工作状况的监视数据。下表1是表示监视数据的内容的一例的表。

[表1]

监视项目	值
		初始学习完毕标志	0
语音输入等待状态标志	0
		转换规则的增加量	121
最近的再学习时间	2007/1/1 19:08:07
		...	...

在上表1中，“初始学习完毕标志”是表示初期学习处理是否完毕的数据。例如，在规则学习装置1的初始设定中，初始学习完毕标志为“0”，如果初始学习完毕，则系统监视部13将其更新为“1”。“语音输出等待状态标志”在语音识别装置20处于语音输入等待状态时，被设定为“1”，在除此之外的情况下，被设定为“0”。该语音输入等待状态标志例如可通过系统监视部13从语音识别装置接收表示状态的信号并根据该信号来进行设定。“转换规则的增加量”是在学习规则记录部5中追加的转换规则的数量的总和。“最近的再学习时间”是系统监视部13发出再学习处理指示的最近的时间。另外，监视数据不限于上表1所示的内容。

在识别词汇信息记录部15中记录有这样的数据，该数据表示记录在语音识别装置20的识别词汇记录部23中的识别词汇的更新状况。例如，在识别词汇信息记录部15中记录有表示有无(“ON”或“OFF”)更新识别词汇的更新模式信息。识别词汇监视部16对识别词汇记录部23的识别词汇的更新状况进行监视，并在识别词汇发生了变更或新登记了识别词汇时，将更新模式信息设定为“ON”。

例如，在将用于使计算机作为语音识别装置和规则学习装置发挥功能的程序，刚刚安装在该计算机上时，上表1中的“初始学习完毕标志”为“0”。也可以是，当“初始学习完毕标志”＝“0”、且“语音输入等待状态”＝“1”时，系统监视部13判断为需要初始学习，向规则学习部9指示转换规则的初始学习。如后文所述，在初始学习时，需要向语音识别装置20输入初始学习用语音数据，因此，需要使语音识别装置20处于输入等待状态。

另外，例如也可以是，当识别词汇信息记录部15的上述更新模式信息为“ON”、且从上表1的“最近的再学习时间”起经过了规定时间时，系统监视部13判断为需要转换规则的再学习，向规则学习部9以及提取部12指示转换规则的再学习。

另外，例如可以在上表1的“转换规则的增加量”达到一定量以上的情况下，系统监视部13向无用规则判定部8以及基准字符串生成部6指示无用规则判定。在该情况下，例如，系统监视部13可以通过在每次执行无用规则判定时将“转换规则的增加量”复位，来在每次转换规则增加了一定量时执行无用规则判定。

这样，系统监视部13能够根据上述监视数据，判断是否需要执行转换规则的初始学习以及无用规则删除判定等。另外，系统监视部13能够根据监视数据以及更新模式信息来判断是否需要转换规则的再学习等。另外，存储在监视信息记录部14中的监视数据不限于上表1的例子。

在初始学习用语音数据记录部2中，将预先知道识别结果的语音数据与识别结果的字符串(这里作为一例设为音节串)对应起来进行记录，作为指导数据。该指导数据例如是通过对语音识别装置20的用户朗读规定字符串时的语音进行录音，并将其与该规定字符串对应地进行记录而得到的。在初始学习用语音数据记录部2中，记录有各种字符串与其朗读语音的组，作为指导数据。

系统监视部13在判断为需要执行转换规则的初始学习时，首先向语音识别装置20输入初期学习用语音数据记录部2的指导数据中的语音数据X，并从语音识别装置20接收由语音识别装置20计算出的与语音数据X对应的音素串。与语音数据X对应的音素串被记录在序列A-序列B记录部3中。并且，系统监视部13从初始学习用语音数据记录部2中取出与语音数据X对应的字符串(音节串)，并将其与记录在序列A-序列B记录部3中的音素串对应起来进行记录。由此，与初始学习用的语音数据X对应的音素串和音节串的组被记录在序列A-序列B记录部3中。

然后，系统监视部13向规则学习部9发出初始学习的指示。规则学习部9在进行初始学习时，使用记录在该序列A-序列B记录部3中的音素串与音节串的组、以及记录在基本规则记录部4中的转换规则，来对转换规则进行初始学习，将其记录在学习规则记录部5中。在初始学习中，例如学习与每1个音节对应的音素串，将每1个音节及与其对应的音素串对应地进行记录。关于规则学习部9进行的初始学习，将在后文中详细叙述。

另外，也可以将语音识别装置20根据初始学习用的语音数据之外的任意的输入语音数据而生成的音素串及与其对应的音节串记录在序列A-序列B记录部3中。即，规则学习装置1可以从语音识别装置20接收该语音识别装置20在识别输入语音数据的过程中生成的音素串和音节串的组，并将其记录在序列A-序列B记录部3中。

图6是示出记录在序列A-序列B记录部3中的数据内容的一例的图。在图6所示的例子中，作为序列A和序列B的例子，将音素串与音节串对应起来进行记录。

系统监视部13在判断为需要再学习时，向提取部12以及规则学习部9发出再学习的指示。提取部12从识别词汇记录部23中取得更新后的识别词汇或新登记的识别词汇的读音(音节串)。然后，提取部12从取得的音节串中提取与所学习的转换规则的转换单位对应的长度的音节串模式，将其记录在候选记录部11中。该音节串模式作为学习字符串候选。例如，在学习转换单位为1个音节以上的转换规则时，提取1个音节以上的长度的音节串模式。作为这种情况的例子，从识别词汇“あかし”中提取出“あ”、“か”、“し”、“あか”、“かし”以及“あかし”，作为学习字符串候选。图7是示出记录在候选记录部11中的数据内容的一例的图。

另外，由提取部12执行的学习字符串候选的提取方法不限于此。例如，在只学习转换单位为2个音节的转换规则的情况下，可以只提取2个音节的音节串模式。另外，作为另一例，提取部12可以提取音节数量为一定范围内的音节串模式(例如，2个音节以上且4个音节以下的音节串模式)。在规则学习装置1中，还可以预先记录表示提取哪种音节串模式的信息。另外，规则学习装置1也可以从用户接受表示提取哪种音节串模式的信息。

在再学习时，规则学习部9将序列A-序列B记录部3中的音素串和音节串的组与记录在候选记录部11中的学习字符串候选进行对照，由此来确定要在学习规则记录部5中追加的转换规则(这里作为一例，是指音素串与音节串之间的对应关系)。

具体而言，规则学习部9检索在记录在序列A-序列B记录部中的音节串中，是否存在与提取部12所提取的学习字符串候选一致的部分。如果存在一致的部分，则将该一致的部分的音节串确定为学习字符串。例如，在图6所示的序列B(音节串)的“あかさたな”中包含有图7所示的学习字符串候选“あか”、“あ”以及“か”。因此，规则学习部9可以将“あか”、“あ”以及“か”设为学习字符串。或者，规则学习部9也可以只将这些字符串中的字符串长度最长的“あか”作为学习字符串。

然后，规则学习部9确定记录在序列A-序列B记录部中的音素串中的、与学习字符串对应的部分的音素串，即学习音素串。具体而言，规则学习部9将序列B(音节串)的“あかさたな”划分成学习字符串“あか”和学习字符串以外的区间“さたな”，然后进一步将学习字符串以外的区间“さたな”划分成各自为1个音节的区间“さ”“た”“な”。规则学习部9还将序列A(音素串)随机地划分成与序列B(音节串)的区间数量相同数量的区间。

然后，规则学习部9使用规定的评价函数来评价各区间的音素串与音节串的对应程度，并且，以使得该评价变好的方式重复进行改变序列A(音素串)的划分的处理。由此，能够得到与序列B(音节串)的划分良好对应的最佳的序列A(音素串)的划分。作为这种优化方法，例如可以使用模拟退火(Simulated Annealing)法、遗传算法等公知的方法。由此，例如能够将与学习字符串“あか”对应的音素串的部分(即学习音素串)确定为“akas”。另外，学习音素串的求法不限于该例。

规则学习部9将学习字符串“あか”与学习音素串“akas”对应起来而记录在学习规则记录部5中。由此，追加了以2个音节为转换单位的转换规则。即，进行了变更音节串单位的学习。规则学习部9只要从提取部12所提取的学习字符串候选中的例如字符串长度为2个音节的学习字符串候选中确定出学习字符串，即可追加转换单位为2个音节的转换规则。这样，规则学习部9能够控制所追加的转换规则的转换单位。

然后，在系统监视部13判断为需要进行无用规则判定的情况下，基准字符串生成部6根据基本规则记录部4中的基本规则，生成与记录在学习规则记录部5中的转换规则的学习字符串SG对应的音素串。将所生成的音素串设为基准音素串K。无用规则判定部8将该基准音素串K和与学习规则记录部5中的该学习字符串SG对应的音素串(学习音素串PG)进行比较。根据二者的类似度，判断与该学习字符串SG和学习音素串PG相关的转换规则是否无用。这里，例如在学习音素串PG与基准音素串K之间的类似度超过了预定的容许范围的情况下，判断为无用。该类似度例如是学习音素串PG与基准音素串K之间的音素串的长度差、一致的音素数量或距离等。无用规则判定部8将被判断为无用的转换规则从学习规则记录部5中删除。

表示作为无用规则判定部8的判断基础的所述容许范围的容许范围数据被预先记录在阈值记录部17中。该容许范围数据可由规则学习装置1的管理者通过设定部18来更新。即，设定部18从管理者接受表示容许范围数据的输入，根据该输入来更新记录在阈值记录部17中的容许范围数据。容许范围数据例如包含表示上述类似度的值的阈值等。

[规则学习装置1的动作：初始学习]

接着，对规则学习装置1的初始学习时的动作例进行说明。图8是示出系统监视部13将初始学习用的数据记录在序列A-序列B记录部3中的处理的流程图。图9是示出规则学习部9使用记录在序列A-序列B记录部3中的数据进行初始学习的处理的流程图。

在图8所示的处理中，首先，系统监视部13向语音识别装置20输入预先记录在初始学习用语音数据记录部2中的指导数据Y中包含的语音数据X(Op1)。这里，在指导数据Y中包含有语音数据X及与其对应的音节串Sx。语音数据X例如是用户朗读“あかさたな”等规定的字符串(音节串)时的语音。

语音识别装置20的语音识别引擎21对输入的语音数据X进行语音识别处理，生成识别结果。系统监视部13从语音识别装置20取得在该语音识别处理的过程中生成的、与该识别结果对应的音素串Px，将其作为序列A而记录在序列A-序列B记录部3中(Op2)。

另外，系统监视部13将指导数据Y中包含的音节串Sx作为序列B，与音素串Px对应起来而记录在序列A-序列B记录部3中(Op3)。由此，与语音数据X对应的音素串Px和音节串Sx的组被记录在序列A-序列B记录部3中。

系统监视部13针对各个预先记录在初始学习用语音数据记录部2中的各种指导数据(字符串以及语音数据的组)，重复进行图8所示的Op1～Op3的处理，由此能够记录与各字符串对应的音素串与音节串的组。

这样，当音素串与音节串的组被记录在序列A-序列B记录部3中时，规则学习部9执行图9所示的初始学习处理。在图9中，规则学习部9 首先取得记录在序列A-序列B记录部3中的所有序列A与序列B的组(在本实施方式中为音素串与音节串的组)(Op11)。这里，将所取得的组的各个组中的序列A和序列B称为音素串Px和音节串Sx，下面进行说明。然后，规则学习部9将各组中的序列B划分成作为序列B的结构单位的每个要素的区间b1～bn(Op12)。即，将各组中的音节串Sx划分成作为音节串Sx的结构单位的各个音节的区间。例如，当音节串Sx为“あかさたな”时，音节串Sx被划分为“あ”“か”“さ”“た”以及“な”这5个区间。

接着，规则学习部9以与音节串Sx(序列B)的各区间对应的方式将各组中的序列A即音素串Px划分为n个区间(Op13)。此时，规则学习部9例如使用上述优化方法，搜索最佳的音节串Px的划分位置。

举出一例来说，例如在音素串Px为“akasatonaa”的情况下，规则学习部9首先随机地将“akasatonaa”划分为n个区间。例如将该随机区间设为“ak”、“as”、“at”、“o”、“naa”，则确定出音素串Px与音节串Sx的各区间的对应关系，即“あ→ak”、“か→as”、“さ→at”、“た→o”、“な→naa”。这样，规则学习部9针对所有音素串与音节串的组，求出各区间的对应关系。

规则学习部9参照这样求出的所有组中的所有对应关系，针对各区间的音节，计算对应的音节串的种类数量(模式数量)。例如，如果音素串“ak”与某个区间的音节“あ”对应、音素串“a”与另一个区间的相同的音节“あ”对应、音素串“akas”与又一个区间的音节“あ”对应，则有“a”、“ak”以及“akas”这3种音素串与音节“あ”对应。在该情况下，这些区间的音节“あ”的种类数量是3。

然后，规则学习部9针对各组而求出种类数量的合计，将其作为评价函数的值，使用优化方法，以该值变小的方式搜索恰当的划分位置。即，规则学习部9重复下述处理，即：利用用于实现优化方法的规定计算式，计算各组的音素串的新划分位置而改变区间，求出评价函数的值。然后，将评价函数的值收敛于最小值时各组的音素串的划分作为与音节串的划分最对应的最佳划分。由此，确定出各组的分别与序列B的各要素b1～bn对应的序列A的区间。

例如，针对音节串Sx与音素串Px的组，确定分别与构成音节串Sx的各音节的区间“あ”“か”“さ”“た”以及“な”对应的音素串Px的区间。作为一例，与5个区间“あ”“か”“さ”“た”以及“な”对应地，将音素串Px“akasatonaa”划分为“a”“kas”“a”“to”以及“naa”这些区间。

图10是概念性地示出该音节串Sx与音素串Px的各区间的对应关系的图。在图10中，用虚线表示音素串Px的区间划分。各区间的对应关系为“あ→a”、“か→kas”、“さ→a”、“た→to”以及“な→naa”。

规则学习部9将针对各个区间的音节串与音素串的对应关系(序列A与序列B的对应关系)即转换规则记录在学习规则记录部5中(Op14)。例如，分别记录上述“あ→a”、“か→kas”、“さ→a”、“た→to”以及“な→naa”的对应关系(转换规则)。这里，“あ→a”表示音节“あ”与音素“a”对应。例如，如图5所示地来记录“あ→a”、“か→kas”以及“さ→a”。

另外，在本例的初始学习中，所学习的转换规则的转换单位为1个音节。但是，在以1个音节为转换单位的转换规则中，不能描述音素串跨越地对应多个音节的规则。另外，当在语音识别装置20中使用1个音节单位的转换规则进行对照处理时，根据音节串来形成识别词汇时的解的候选数量大，可能因误检测或剪枝而发生正解候选的缺失。

因此，例如还考虑到在上述初始学习中，生成转换单位为2个音节以上的转换规则。即，还可以针对记录在序列A-序列B记录部3中的音节串所包含的所有2个音节的组，生成并追加转换规则。但是，所有的2个音节的组合数量庞大，因此，记录在学习规则记录部5中的转换规则的数据大小以及使用转换规则进行处理所花费的时间过分地增加，很可能给语音识别装置20的工作带来影响。

因此，本实施方式的规则学习部9在初期学习中，如上所述，是学习以1个音节为转换单位的转换规则。然后，如下所述，在再学习处理中，规则学习部9学习以2个音节为转换单位、且被语音识别装置20使用的可能性高的转换规则。

[规则学习装置1的动作：再学习]

图11是示出由提取部12和规则学习部9执行的再学习处理的流程图。图11所示的处理例如是在如下情况下进行的动作，即：在识别词汇记录部23中新登记了识别词汇时，提取部12以及规则学习部9接收来自系统监视部13的指示而执行再学习处理。

提取部12取得记录在识别词汇记录部23中的识别词汇中新登记的识别词汇的音节串。然后，提取部12提取所取得的识别词汇音节串中包含的1个音节以上的音节串模式(序列B模式)(Op21)。设提取部12所取得的识别词汇的音节长度为n，则提取出音节长度＝1的音节、音节长度＝2的音节串模式、音节长度＝3的音节串模式、...音节长度＝n的音节串模式。

例如，在识别词汇的音节串为“おきしま”的情况下，提取出“お”“き”“し”“ま”“おき”“きし”“しま”“おきし”“きしま”“おきしま”这10个模式的音节串模式。这些被提取出的音节串模式成为学习字符串候选。

接着，规则学习部9取得记录在序列A-序列B记录部3中的所有的音素串P与音节串S的组(设为N组)(Op22)。规则学习部9将各组的音节串S与在Op11中提取出的音节串模式进行比较，搜索一致的部分，将一致的部分划分为1个区间。具体而言，规则学习部9在将变量i初始化为i＝1之后(Op23)，重复Op24以及Op25的处理，直至结束了针对所有组(i＝1～N)的处理为止(直至在Op26中判断为“是”为止)。

在Op24中，规则学习部9针对第i组的音节串Si，以从开头起最长一致的方式检索在Op11中提取出的音节串模式。即，从音节串Si的开头起，搜索与音节串Si一致的最长的音节串模式。例如，对音节串Si为“おきなわの”、从识别词汇“おきしま”、“はえなわ”中提取出的音节串模式为下表2的情况进行说明。

[表2]

Figure 140454DEST_PATH_GPA00001010741300041

此时，音节串Si的“おきなわの”中的“おき”和“なわ”部分与上表2中的音节串模式“おき”和“なわ”为从开头起最长的一致。

这里，作为一例，规则学习部9是以从开头起最长一致的方式进行检索，但检索方法不限于此。例如，规则学习部9还可以将检索对象的音节串长度限定为规定值，或采用从结尾起最长一致的方式，或者将对音节串长度的限定与从结尾起的一致进行组合。这里，例如，如果将检索对象的音节串长度限定为2个音节，则所学习的转换规则的音节串长度为2个音节。因此，可以只学习转换单位为2个音节的转换规则。

在Op25中，规则学习部9将音节串Si中与音节串模式一致的部分划分为1个区间。另外，与音节串模式一致的部分以外的部分是按照1个音节进行划分的。例如，音节串Si“おきなわの”被划分成“おき”、“なわ”、“の”。

规则学习部9通过重复这种Op24、Op25的处理，能够针对在Op21中取得的所有组的音节串Si(i＝1～N)，将与音节串模式一致的部分划分为1个区间。然后，规则学习部9以与各组的音节串Si的各区间对应的方式来划分各组的音素串Pi(Op27)。该Op27的处理可与图9的Op13的处理同样地进行。由此，能够求出各组的与音节串Si的与音节串模式一致的部分对应的音素串。

图12是概念性地示出该音节串Si与音素串Pi的各区间的对应关系的图。在图12中，用虚线表示音素串Pi的区间划分。各区间的对应关系为“おき→oki”、“なわ→naa”以及“の→no”。

规则学习部9将针对音节串Si与音节串模式一致的部分的各个区间的、音节串与音素串的对应关系(即转换规则)，记录在学习规则记录部5中(Op28)。例如，分别记录上述“おき→oki”以及“なわ→naa”的对应关系(转换规则)。这里，与音节串Si一致的音节串模式“おき”“なわ”成为学习音节串，音素串Pi的各个对应的区间“oki”“naa”成为学习音素串。例如，如图5所示地来记录“なわ→naa”。

通过上面的图11所示的再学习处理，能够只针对识别词汇中包含的字符串(音节串)，学习转换单位为1个音节以上的转换规则。即，规则学习装置1根据在识别词汇记录部23中更新或登记的识别词汇，动态地改变音素串(序列A)与音节串(序列B)之间的转换单位。由此，能够学习增大了转换单位的转换规则，并且能够抑制所学习的转换规则的量变得庞大，能够高效地学习使用可能高的转换规则。

另外，在上述再学习中，不必使用初始学习用语音数据记录部2中的指导数据。因此，在再学习时，规则学习装置1只要仅仅取得记录在语音识别装置20的识别词汇记录部23中的识别词汇即可。因此，在语音识别装置20中，例如即使在任务突然发生变更等这样的未能准备指导数据的状况下，也能够在随任务变更而更新了识别词汇的时刻，立即进行再学习加以应对。即，即使不存在指导数据，规则学习装置1也能够进行转换规则的再学习。

例如假设，在语音识别装置20的任务为道路交通信息的语音向导的情况下，还加入了渔业信息的语音向导任务。在该情况下，在识别词汇记录部23中追加了与渔业有关的识别词汇(例如“冲岛”“延绳”等)，但可能发生未能够准备这些识别词汇的指导数据的状况等。这样，即使未提供新的指导数据，规则学习装置1也能够自动地对与所追加的识别词汇对应的转换规则进行学习，并将该转换规则追加到规则学习部9中。其结果，语音识别装置20能够立即应对渔业信息向导的任务。

另外，图11所示的再学习处理只是一例，不限于此。例如，规则学习部9还能够预先记录过去学习的转换规则，并将其与再学习的转换规则合并在一起。例如，规则学习部9过去已学习的转换规则为以下3个：

あい→ai

いう→yuu

うえ→uwe，

新的再学习的转换规则为以下2个：

いう→yuu

えお→eho。

在该情况下，规则学习部9能够将过去的学习结果与新的再学习结果合并，生成下述的转换规则的数据集。即，对于“いう→yuu”，由于过去的学习结果与新的再学习结果相同，因此规则学习部9可以删除其中任意一个。

[规则学习装置1的动作：无用规则判定]

接着，对无用规则删除处理进行说明。图13是示出由基准字符串生成部6和无用规则判定部8执行的无用规则删除处理的一例的流程图。在图13中，首先，基准字符串生成部6取得记录在学习规则记录部5中的按照转换规则表示的学习音节串SG及与其对应的学习音素串PG的组(Op31)。这里，作为一例，以从图5所示的学习规则记录部5的数据中取得学习音节串SG＝“あか”、学习音素串PG＝“akas”的组为例进行说明。

基准字符串生成部6使用记录在基本规则记录部4中的转换规则生成与学习音节串SG对应的基准音素串(基准字符串)K(Op32)。例如图4所示，作为转换规则，在基准规则记录部4中存储有与每1个音节对应的音素串。因此，基准字符串生成部6根据基准规则记录部4中的转换规则，将学习音节串SG的各音节逐个置换成音素串，生成基准音素串。

例如，在学习音节串SG＝“あか”的情况下，使用图4所示的转换规则“あ→a”和“か→ka”，生成基准音素串“aka”。所生成的基准音素串K被记录在基准字符串记录部7中。

无用规则判定部8将记录在基准字符串记录部7中的基准音素串K“aka”与学习音素串PG“akas””进行比较，计算表示二者的类似度的距离d(Op33)。距离d例如可使用DP对照法等来计算。

在Op33中计算出的基准音素串K与学习音素串PG之间的距离d大于记录在阈值记录部17中的阈值DH的情况下(Op34中为“是”)，无用规则判定部8判断为与学习音素串PG相关的转换规则是无用的，将其从学习规则记录部5中删除(Op35)。

针对记录在学习规则记录部5中的所有转换规则(即，所有学习音节串与学习音素串的组)，重复以上Op31～Op35的处理。由此，将关于与基准音素串K之间的距离远(类似度低)的学习音素串PG的转换规则作为无用规则，从学习规则记录部5中删除。因此，能够去除可能导致误转换的某些转换规则，并且能够减少记录在学习规则记录部5中的数据量。

这里，例举被判定为无用规则的例子，在学习音素串SG＝“なわ”、基准音素串K＝“nawa”、学习音素串PG＝“moga”的情况下，由于PG与K之间的音素内容的差异大，因此被判断为是无用的。另外，在学习音素串PG＝“nawanoue”的情况下，由于音素串长度的差异大，因此也被判断为是无用的。

另外，在Op33中计算的类似度不限于基于上述DP对照法的距离d。这里，对在Op33中计算的类似度的变形例进行说明。例如，无用规则判定部8也可以根据在基准音素串K与学习音素串PG中有多少个一致的因素来计算类似度。具体而言，无用规则判定部8可以计算学习音素串PG中包含与基准音素串K的音素相同音素的比例W，并根据该比例W来求出类似度。作为一例，可这样进行计算：类似度＝W×常数A(A＞0)。

另外，作为类似度的另一例，例如，无用规则判定部8可以根据基准音素串K与学习音素串PG之间的音素串长度差U求出类似度。作为一例，可这样进行计算：类似度＝U×常数B(B＜0)。或者，也可以同时考虑差U和上述比例W，并这样地进行计算：类似度＝U×常数B+W×常数A。

另外，无用规则判定部8在上述类似度计算中对学习音素串与基准音素串的各音素进行比较时，可使用预先准备的表示语音识别中的错误(例如插入、置换或缺失)倾向的数据来计算类似度。由此，能够出计算考虑了插入、置换或缺失等的倾向的类似度。这里，语音识别中的错误是指未遵循理想转换规则的转换。

例如，假设如图10所示那样，按照“a→あ”、“kas→か”、“a→さ”、“to→た”以及“naa→な”进行了转换。在理想转换规则为“あ→a”、“か→ka”、“さ→sa”、“た→ta”、“な→na”的情况下，“か→kas”的转换处于在理想转换结果“ka”中插入了“s”的状态。另外，“た→to”的转换处于将理想转换结果“a”置换为“o”的状态。另外，“さ→a”的转换处于相对于理想转换结果缺失了“s”的状态。表示语音识别装置20中的这种插入、置换、缺失等错误的倾向的数据例如作为下表3的内容数据而被记录在规则学习装置1或语音识别装置20中。

[表3]

音节	理想音素串	错误音节串	频度
				か	ka	kas	2
さ	sa	a	4
				た	ta	to	31

例如，在与其对应的基准音素串中的字符为“ta”、学习音素串中的某个音素为“to”的情况下，如果在上表3所示的倾向中“ta”与“to”的置换错误的频度为阈值以上，则无用规则判定部8可以把“ta”与“to”当作相同字符来处理。或者，无用规则判定部8也可以在计算类似度时，进行用于提高“ta”与“to”之间的类似度的加权，或将类似度值(点数)相加等。

以上，对类似度计算的变形例进行了说明，但类似度计算不限于上述示例。另外，在本实施方式中，无用规则判定部8是通过将基准音素串与学习音素串进行比较来判定转换规则是否必要，但也可以不使用基准音素串来进行判定。例如，无用规则判定部8也可以根据学习音素串和学习音节串中的至少任意一方的出现频度来判定是否必要。

在该情况下，记录在学习规则记录部5中的转换规则的数据例如为图14所示的内容。图14所示的数据是在图5所示的数据内容中进一步追加了表示各学习音节串的出现频度的数据后的内容。无用规则判定部8通过依次参照这种表示出现频度的数据，可将出现频度低于规定阈值的学习音节串判定为是无用的，并将其删除。

另外，关于图14所示的出现频度，例如，语音识别装置20的语音识别引擎21每当在语音识别处理中生成了音节串时，将该音节串通知给规则学习装置1，规则学习装置1在学习规则记录部5中，对所通知的音节串的出现频度进行更新。

另外，表示出现频度的数据的记录方法不限于上述示例。例如，也可以是这样的结构：语音识别装置20预先记录各音节串的出现频度，无用规则判定部8在无用规则判定时参照记录在语音识别装置20中的出现频度。

另外，除了基于上述出现频度的无用规则判定以外，还可进行基于学习音节串和学习音素串中的至少任意一方的长度的无用规则判定。例如，无用规则判定部8可以依次参照图4所示的记录在学习规则记录部5中的学习音节串的音节串长度，当音节串长度为规定阈值以上的音节串长度时，判定为是无用的，删除该学习音节串的转换规则。

另外，表示上述说明中的类似度、出现频度、或者音节串或音素串的长度的容许范围的阈值可以是给出上限及下限双方的值，还可以是只给出任意一方的值。这些阈值作为容许范围数据而被记录在阈值记录部17中。管理者可以通过设定部18来调整这些阈值。由此，能够动态地变更无用规则判定时的判断基准。

另外，在本实施方式中，关于无用规则判定部8，说明了在初始学习及再学习之后进行删除无用的转换规则的处理的例子，但例如也可以在规则学习部9的再学习处理时，进行上述判定，且不将无用的转换规则记录在学习规则记录部5中。

[序列A和序列B的其它例]

以上，在本实施方式中，对序列A为音素串、序列B为音节串的情况进行了说明，下面对序列A及序列B的其它可取的方式进行说明。序列A例如是与声音对应的符号串等表示声音的字符串。序列A的标记及语言是任意的。例如，在序列A中包含下表4所示的音素符号、发音符号、分配给声音的ID编号串。

[表4]

序列B例如是用于构成语音识别的识别结果的字符串，可以是构成识别结果的字符串本身，也可以是构成识别结果之前的阶段的中间字符串。另外，序列B可以是记录在识别词汇记录部23中的识别词汇本身，也可以是对识别词汇进行转换而唯一得到的字符串。序列B的标记及语言也是任意的。例如，在序列B中，包含如下表5所示的汉字串、平假名串、片假名串、拉丁字母、分配给字符(串)的ID编号串等。

[表5]

汉字	亜、阿、愛、藍......
		平假名	あ、い、う、え......
片假名	ア、イ、ウ、エ......
		拉丁字母或罗马字母	A、B、C、......、a、b、c......
ID编号串	001、002、003、......

另外，在本实施方式中，说明了在序列A和序列B这样的2个序列之间进行转换处理的情况，但也可以在2个以上的序列之间进行转换处理。例如，语音识别装置20也可以像音素符号→音素ID→音节串(平假名)这样地进行多个阶段的转换处理。下面示出这样的转换处理的一例。

/a//k//a/→[01][06][01]→[あか]

在该情况下，规则学习装置1可以把音素符号与音素ID之间的转换规则以及音素ID与音节串之间的转换规则中的任意一方或双方作为学习对象。

[英语的数据例]

本实施方式已说明了学习日语的语音识别装置中使用的转换规则的情况，但本发明不限于日语，可以应用于任何语言。这里，说明把上述实施方式应用于英语时的数据例。这里，作为一例，对序列A为发音符号串、序列B为单词串的情况进行说明。在该例中，单词串中包含的各个单词是作为序列B的最小单位的要素。

图15是示出记录在序列A-序列B记录部3中的数据内容的一例的图。在图15所示的例子中，作为序列A记录有发音符号串，作为序列B记录有单词串。如上所述，规则学习部9使用作为序列A记录在序列A-序列B记录部3中的发音符号串和序列B的单词串，进行初始学习以及再学习处理。

规则学习部9例如在初始学习中，学习以1个单词为转换单位的转换规则，在再学习时，学习以1个以上的单词为转换单位的转换规则。

图16是概念性地示出在初始学习中由规则学习部9求出的、序列A的发音符号串的各区间与序列B的单词串的各区间的对应关系的图。与上述图9所示的处理相同，序列B的单词串被划分成各个单词，序列A的发音符号串与其对应地进行划分。由此，求出与各单词(序列A的各要素)对应的发音符号串(序列B)，并将其记录在学习规则记录部5中。

图17是示出记录在学习规则记录部5中的数据内容的一例的图。在图17中，例如，单词“would”以及“you”的转换规则是在初始学习中记录的转换规则。在再学习中，进一步记录了“would you”的转换规则。即，通过与图11所示的处理相同的再学习处理，学习了单词串“would you”的转换规则。下面，说明把图11的处理应用于英语时的例子。

在图11的Op22中，提取部12从在识别词汇记录部22中更新的识别词汇中提取序列B模式。图18是示出存储在识别词汇记录部22中的数据内容的一例的图。在图18所示的例子中，用单词(序列B)表示识别词汇。提取部12从识别词汇记录部22中提取可连接的单词组合模式，即序列B模式。在该提取中，使用预先记录的语法规则。语法规则例如是规定单词与单词如何连接的规则的集合。例如，可以使用上述CFG、FSG或N-gram等语法数据。

图19是示出从识别词汇记录部22的单词“would”、“you”以及“have”中提取出的序列B模式的例子的图。在图19所示的例子中，提取出了“would”、“you”、“have”、“would you”、“you have”以及“have you”。规则学习部9将这样的序列B模式与序列A-序列B记录部3中的单词串(序列B：例如，would you like...)进行比较，检索从开头起最长一致的部分(Op24)。规则学习部9将与该序列B模式一致的部分(在该例中为“would you”)作为1个区间来划分单词串(序列B)(Op25)，与序列B模式一致的部分以外的部分按照1个单词为1个区间的方式进行划分。然后，规则学习部9计算与该序列B的各区间对应的发音符号串(序列A)的区间(Op27)。

图20是概念性地示出序列A的发音符号串的各区间与序列B的单词串的各区间(“would you”以及“like”等)之间的对应关系的图。图20所示的单词串“would you”的对应关系作为转换规则例如如图17所示地记录在学习规则记录部5中。即，与学习单词串“would you”相关的转换规则被追加记录在学习规则记录部5中。以上是再学习时的数据内容的例子。

然后，针对这样学习得到的转换规则，通过图13所示的无用规则判定处理来删除无用的转换规则。此时，在Op32中，使用预先记录在基本规则记录部4中的理想转换规则(一般字典)。图21是示出记录在基本规则记录部4中的数据内容的一例的图。在图21所示的示例中，按照每个单词，记录了与其对应的发音符号串。由此，基准字符串生成部6能够按照每个单词，将记录在学习规则记录部5中的学习单词串转换成发音符号串，生成基准符号串(基准字符串)。下表6示出了基准符号串及与其进行比较的学习发音符号串的例子。

[表6]

在上表6中，例如第1行的学习发音符号串的转换规则未被判定为是无用的，而第2行的学习发音符号串完全不存在与基准符号串一致的发音符号，因此无用规则判定部8例如计算出较低的类似度，将与其有关的转换规则判定为是无用的。对于第3行的学习发音符号串，基准符号串与学习发音符号串之间的符号串长度差为“4”。如果阈值例如为“3”，则与该学习发音符号串相关的转换规则被判定为是无用的。

以上，说明了学习在英语语音识别中使用的转换规则的数据例。但不限于英语，本实施方式的规则学习装置1可同样地适用于其它语言。

根据上述实施方式，能够在不使用新的指导数据(语音数据)的情况下，再学习并构建任务专用的必要最小限度的转换规则。由此，实现了语音识别装置20的识别精度提高、资源节省及高速化。

工业上的可利用性

本发明作为自动学习在语音识别装置中使用的转换规则的规则学习装置，十分有用。

Claims

1.一种语音识别用规则学习装置，其与语音识别装置连接，该语音识别装置使用声学模型和单词字典对输入的语音数据执行对照处理，由此生成识别结果，该语音识别装置在所述对照处理中使用表示声音的第1类型字符串与用于形成识别结果的第2类型字符串之间的转换规则，该语音识别用规则学习装置具有：

字符串记录部，其将所述语音识别装置在生成识别结果的过程中生成的第1类型字符串和与该生成的第1类型字符串对应的第2类型字符串对应起来进行记录；

提取部，其从与记录在所述单词字典中的单词对应的第2类型字符串中，提取将多个第2类型要素连接起来而构成的字符串，作为第2类型学习字符串候选，所述第2类型要素是第2类型字符串的最小单位；以及

规则学习部，其将所述提取部提取出的第2类型学习字符串候选中的、与记录在所述字符串记录部中的第2类型字符串的至少一部分一致的字符串，作为第2类型学习字符串，提取与所述的至少一部分和该第2类型学习字符串一致的第2类型字符串对应地记录在所述字符串记录部中的所述第1类型字符串中的、与所述第2类型学习字符串对应的部分，作为第1类型学习字符串，将表示该第1类型学习字符串与第2类型学习字符串之间的对应关系的数据包含在所述语音识别装置使用的转换规则中。

2.根据权利要求1所述的语音识别用规则学习装置，该语音识别用规则学习装置还具有：

基本规则记录部，其预先记录基本规则，该基本规则是表示与作为第2类型字符串的结构单位的第2类型要素分别对应的理想的第1类型字符串的数据；以及

无用规则判定部，其使用所述基本规则，生成与所述第2类型学习字符串对应的第1类型字符串，作为第1类型基准字符串，计算表示该第1类型基准字符串与所述第1类型学习字符串之间的类似度的值，且在该值处于规定的容许范围内的情况下，判断为将所述第1类型学习字符串包含在所述转换规则中。

3.根据权利要求2所述的语音识别用规则学习装置，其特征在于，

所述无用规则判定部根据所述第1类型基准字符串与所述第1类型学习字符串之间的字符串长度差异、以及所述第1类型基准字符串与所述第1类型学习字符串相一致的字符的比例中的至少1个，来计算表示类似度的值。

4.根据权利要求1所述的语音识别用规则学习装置，该语音识别用规则学习装置还具有无用规则判定部，在所述规则学习部提取的所述第1类型学习字符串以及所述第2类型学习字符串中的至少一方在所述语音识别装置中的出现频度处于规定的容许范围内的情况下，该无用规则判定部判断为将表示该第1类型学习字符串与所述第2类型学习字符串之间的对应关系的数据包含在所述转换规则中。

5.根据权利要求2至4中的任意一项所述的语音识别用规则学习装置，该语音识别用规则学习装置还具有：

阈值记录部，其记录表示所述规定的容许范围的容许范围数据；以及

设定部，其从用户接受表示容许范围的数据的输入，根据该输入来对记录在所述阈值记录部中的所述容许范围数据进行更新。

6.一种语音识别装置，该语音识别装置具有：

语音识别部，其使用声学模型和单词字典对输入的语音数据执行对照处理，由此来生成识别结果；

规则记录部，其记录所述语音识别部在所述对照处理中使用的、表示声音的第1类型字符串与用于形成识别结果的第2类型字符串之间的转换规则；

字符串记录部，其将所述语音识别部在生成识别结果的过程中生成的第1类型字符串和与该生成的第1类型字符串对应的第2类型字符串对应起来进行记录；

7.一种语音识别用规则学习方法，其使语音识别装置学习在对照处理中使用的、表示声音的第1类型字符串与用于形成识别结果的第2类型字符串之间的转换规则，所述语音识别装置使用声学模型和单词字典对输入的语音数据执行所述对照处理，由此来生成识别结果，

该语音识别用规则学习方法具有如下步骤：

字符串记录步骤，将所述语音识别装置在生成识别结果的过程中生成的第1类型字符串和与该生成的第1类型字符串对应的第2类型字符串对应起来进行记录；

提取步骤，从与记录在所述单词字典中的单词对应的第2类型字符串中，提取将多个第2类型要素连接起来而构成的字符串，作为第2类型学习字符串候选，所述第2类型要素是第2类型字符串的最小单位；以及

规则学习步骤，将所述提取步骤提取出的第2类型学习字符串候选中的、与在所述字符串记录步骤中记录的第2类型字符串的至少一部分一致的字符串，作为第2类型学习字符串，提取与所述的至少一部分和该第2类型学习字符串一致的第2类型字符串对应地记录的所述第1类型字符串中的、与所述第2类型学习字符串对应的部分，作为第1类型学习字符串，将表示该第1类型学习字符串与第2类型学习字符串之间的对应关系的数据包含在所述语音识别装置使用的转换规则中。