CN103635962B

CN103635962B - 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置

Info

Publication number: CN103635962B
Application number: CN201280032327.6A
Authority: CN
Inventors: 冈本明浩
Original assignee: Asahi Kasei Kogyo KK
Current assignee: Asahi Kasei Corp
Priority date: 2011-08-19
Filing date: 2012-08-09
Publication date: 2015-09-23
Anticipated expiration: 2032-08-09
Also published as: JP5613335B2; WO2013027360A1; US9601107B2; US20140129222A1; EP2747077A4; EP2747077A1; JPWO2013027360A1; CN103635962A

Abstract

在由第一声音识别部(3)对声音数据进行声音识别处理的结果是判断为不能识别声音时，将与输入到第一声音识别部(3)的声音数据相同的声音数据发送至第二服务器装置(60)和第一服务器装置(70)。生成由第二服务器装置(60)对上述声音数据的声音识别结果的文字列和第一服务器装置(70)的声学模型标识符序列生成部(27)根据上述声音数据生成的声学模型标识符序列所构成的识别用数据，将该识别用数据登记到第一声音识别部(3)的第一识别字典(3b)。

Description

声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置

技术领域

本发明涉及一种通过声音进行命令输入等的声音识别系统、自动追加登记在该声音识别系统中使用的识别字典的识别用数据的识别字典登记系统以及自动生成构成该识别用数据的声学模型标识符序列的声学模型标识符序列生成装置。

背景技术

以往，提出了一种具备通过声音进行命令输入的声音识别功能的终端等。

在这种终端中需要较大规模的硬件来实现声音识别功能的精度提高。其另一方面，在便携式终端等的情况下，可搭载的硬件受到限制。因此，在便携式终端等中有可能无法实现具有所需精度的声音识别功能。

为了避免这一情况，由专利文献1提出了以下声音识别系统。由专利文献1提出的声音识别系统是由服务器和客户端构成的声音识别系统。

在该声音识别系统中，首先，使用第一识别字典对由客户端(便携式终端)获取到的声音数据进行一次声音识别。在无法进行一次声音识别的情况下，客户端将该声音数据传送到服务器。

接着，服务器使用存储了比第一识别字典多的词汇的第二识别字典来进行声音数据的二次声音识别，与此同时，在服务器中，制作用于登记到第一识别字典的识别用数据，发送至客户端。客户端将接收到的识别用数据登记到第一识别字典。

通过使用上述声音识别系统，能够实现具有所需精度的声音识别功能。另外，能够仅将使用频率高的识别用数据追加到硬件，因此即使是便携式终端等硬件受到限制的装置，也能够制作识别精度高的识别字典。

专利文献1:日本特开2004-12653号公报

发明内容

发明要解决的问题

另外，通常，从获取到的声音数据中提取出某一特征量，使用该特征量来计算识别字典所包含的多个识别用数据各自的可能性，由此进行声音识别。因此，识别字典所包含的识别用数据必须是与提取出的特征量对应的数据。

在由专利文献1提出的声音识别系统中，在服务器中的识别用数据与客户端中的识别用数据中所使用的特征量的种类一致，因此能够将服务器所生成的识别用数据登记到客户端的识别字典，在客户端中能够利用追加登记了识别用数据的识别字典来进行声音识别。

然而，在服务器与客户端中所使用的特征量的种类不同的情况下，即使将服务器所制作的识别用数据登记到客户端的识别字典，在客户端中也无法利用新追加的识别用数据。

因此，需要进行控制服务器等处理，以制作与客户端所使用的特征量对应的识别用数据。然而，在进行二次声音识别的服务器不处在客户端的系统建立者自己的管理下的情况下，使服务器与客户端的特征量的种类一致当然不用说，在服务器侧生成能够在客户端系统利用的声音识别数据也很困难。

因此，本发明是关注上述以往的未解决的问题而完成的，目的在于提供一种即使在使用不处在系统建立者自己的控制下的声音识别装置来进行声音识别的情况下也能够将利用了其声音识别结果的识别用数据追加登记到客户端侧的声音识别装置的识别字典的声音识别系统、识别字典登记系统以及自动生成构成该识别用数据的声学模型标识符序列的声学模型标识符序列生成装置。

用于解决问题的方案

本发明的一个方式的声音识别系统的特征在于，具备第一声音识别装置、第二声音识别装置以及声学模型标识符序列生成装置，其中，上述第一声音识别装置具有：声音输入部，其获取声音，输出获取到的声音的声音数据；第一识别字典，其存储由文字列相关信息和对应于该文字列相关信息的基于第一种特征量的声学模型标识符序列组合而成的识别用数据；第一声音识别处理部，其从由上述声音输入部输出的一个声音数据中提取上述第一种特征量，使用该第一种特征量和上述第一识别字典来进行上述一个声音数据的声音识别处理；以及识别用数据登记部，上述第二声音识别装置具有：第二识别字典，其存储由文字列相关信息和对应于该文字列相关信息且基于与上述第一种特征量不同的第二种特征量的声学模型标识符序列组合而成的识别用数据；以及第二声音识别处理部，其从上述一个声音数据中提取上述第二种特征量，使用该第二种特征量和上述第二识别字典来进行上述一个声音数据的声音识别处理，将与该一个声音数据对应的文字列相关信息发送至外部，上述声学模型标识符序列生成装置具有声学模型标识符序列生成部，该声学模型标识符序列生成部从上述一个声音数据中提取上述第一种特征量，生成与该一个声音数据对应的基于上述第一种特征量的声学模型标识符序列，发送该声学模型标识符序列，上述第一声音识别装置的上述识别用数据登记部接收上述声学模型标识符序列生成部所发送的、与上述一个声音数据对应的基于上述第一种特征量的声学模型标识符序列和上述第二声音识别处理部所发送的与上述一个声音数据对应的上述文字列相关信息，上述第一声音识别装置的上述识别用数据登记部将由接收到的基于上述第一种特征量的声学模型标识符序列和上述文字列相关信息组合而成的、用于存储到上述第一识别字典的识别用数据登记到上述第一识别字典。

在上述结构中，可以是，还具备噪声数据存储部，该噪声数据存储部存储有噪声数据，上述声学模型标识符序列生成部从上述噪声数据叠加到上述一个声音数据而得到的第二声音数据中提取上述第一种特征量，根据提取出的上述第一种特征量，生成与上述一个声音数据对应的基于上述第一种特征量的声学模型标识符序列。

可以是，上述声学模型标识符序列生成部对上述一个声音数据叠加上述噪声数据，使得上述第二声音数据所包含的人的声音的能量与噪声能量之比成为预先设定的比率。

可以是，上述第二声音识别处理部在由上述第一声音识别处理部对上述一个声音数据进行的声音识别处理中判断为不能识别声音时，对由上述第一声音识别处理部判断为不能识别声音的上述一个声音数据进行声音识别处理。

可以是，上述第二声音识别处理部对与上述一个声音数据对应的文字列相关信息进行多个候选输出，上述第一声音识别装置具有选择部，该选择部从上述第二声音识别处理部所输出的、与上述一个声音数据对应的文字列相关信息的多个候选中选择一个候选，上述识别用数据登记部生成由上述声学模型标识符序列生成部所发送的与上述一个声音数据对应的基于上述第一种特征量的声学模型标识符序列和上述选择部所选择的上述第二声音识别处理部发送的与上述一个声音数据对应的上述文字列相关信息组合而成的、用于存储到上述第一识别字典的识别用数据，将该识别用数据登记到上述第一识别字典。

可以是，上述声学模型标识符序列生成装置被搭载于与上述第一声音识别装置不同的壳体内。

可以是，上述声学模型标识符序列生成装置被搭载于能够与上述第一声音识别装置进行通信的服务器装置。

可以是，上述声学模型标识符序列生成装置被搭载于与上述第一声音识别装置相同的壳体内。

可以是，上述第一声音识别处理部被搭载于终端装置，上述第二声音识别处理部被搭载于能够与上述终端装置进行通信的服务器装置。

本发明的其它方式的识别字典登记系统的特征在于，具备第一声音识别装置和声学模型标识符序列生成装置，其中，上述第一声音识别装置具有：第一识别字典，其存储由文字列相关信息和对应于该文字列相关信息的基于第一种特征量的声学模型标识符序列组合而成的识别用数据；第一声音识别处理部，其获取从声音输入部输出的一个声音数据，该声音输入部获取声音并输出获取到的声音的声音数据，该第一声音识别处理部从该一个声音数据中提取上述第一种特征量，使用该第一种特征量和上述第一识别字典来进行上述一个声音数据的声音识别处理；以及识别用数据登记部，上述声学模型标识符序列生成装置具有声学模型标识符序列生成部，该声学模型标识符序列生成部从上述一个声音数据中提取上述第一种特征量，根据提取出的上述第一种特征量来生成与上述一个声音数据对应的基于上述第一种特征量的声学模型标识符序列，发送该声学模型标识符序列，上述第一声音识别装置的上述识别用数据登记部将由从第二声音识别装置输出的与上述一个声音数据对应的文字列相关信息和上述声学模型标识符序列生成装置所发送的基于上述第一种特征量的声学模型标识符序列组合而成的、用于存储到上述第一识别字典的识别用数据登记到上述第一识别字典，上述第二声音识别装置具有：第二识别字典，其存储由文字列相关信息和对应于该文字列相关信息且基于与上述第一种特征量不同的第二种特征量的声学模型标识符序列组合而成的识别用数据；以及第二声音识别处理部，其从上述一个声音数据中提取上述第二种特征量，使用该第二种特征量和上述第二识别字典来进行声音识别处理，将与上述一个声音数据对应的文字列相关信息发送至外部。

本发明的其它方式的声学模型标识符序列生成装置具备声学模型标识符序列生成部，该声学模型标识符序列生成部从由获取声音的声音输入部输出的声音数据中提取第一种特征量，生成与该声音数据对应的基于第一种特征量的声学模型标识符序列，发送该声学模型标识符序列，该声学模型标识符序列生成装置的特征在于，上述声学模型标识符序列生成部对第一声音识别装置所具有的识别用数据登记部发送上述声学模型标识符序列，上述第一声音识别装置具备：第一识别字典，其存储由文字列相关信息和对应于该文字列相关信息的基于上述第一种特征量的声学模型标识符序列组合而成的识别用数据；第一声音识别处理部，其从该声音数据中提取上述第一种特征量，使用该第一种特征量和上述第一识别字典来进行该声音数据的声音识别处理；以及上述识别用数据登记部，上述识别用数据登记部将由从第二声音识别装置输出的与上述声音数据对应的文字列相关信息和上述声学模型标识符序列生成装置所发送的与上述声音数据对应的基于上述第一种特征量的声学模型标识符序列组合而成的、用于存储到上述第一识别字典的识别用数据登记到上述第一识别字典，上述第二声音识别装置具备：第二识别字典，其存储由文字列相关信息和对应于该文字列相关信息且基于与上述第一种特征量不同的第二种特征量的声学模型标识符序列组合而成的识别用数据；以及第二声音识别处理部，其从上述声音数据中提取上述第二种特征量，使用该第二种特征量和上述第二识别字典来进行声音识别处理，将与上述声音数据对应的文字列相关信息发送至外部。

发明的效果

根据本发明，能够提供一种能够将利用了使用不处于系统建立者自己的控制下的声音识别装置进行声音识别而得到的声音识别结果的识别用数据自动追加登记到客户端侧的声音识别装置的识别字典的声音识别系统、识别字典登记系统以及自动生成构成该识别用数据的声学模型标识符序列的声学模型标识符序列生成装置。

附图说明

图1是表示本发明中的声音识别系统的一例的概要结构图。

图2是表示动作控制处理的处理过程的一例的流程图。

图3是表示显示控制处理的处理过程的一例的流程图。

具体实施方式

下面，参照附图说明本发明的实施方式。

图1是表示示出本发明的一个实施方式的声音识别系统100的一例的概要结构图。此外，该声音识别系统100构成具备识别字典登记系统110和第二服务器装置(第二声音识别装置)60的声音识别系统。

该声音识别系统100构成为包括用户终端50(第一声音识别装置)、第一服务器装置(声学模型标识符序列生成装置)70以及第二服务器装置(第二声音识别装置)60，用户终端50构成为与第一服务器装置70和第二服务器装置60各自之间能够以有线或者无线方式进行通信。

识别字典登记系统110具有从声音识别系统100中去除第二服务器装置(第二声音识别装置)60的结构，由用户终端(第一声音识别装置)50和第一服务器装置(声学模型标识符序列生成装置)70构成。

用户终端50具备声音输入部2、第一声音识别部3、动作控制部5、临时保存用存储部6、识别用数据登记部7、显示控制部8、显示装置9以及操作输入部10。

声音输入部2由麦克风等声音收集装置构成。该声音输入部2将发声声音变换为与该声音对应的模拟的电信号，将该电信号通过未图示的A/D变换器变换为数字信号，将该数字信号作为声音数据输出到动作控制部5。此外，如果声音数据为表示声音的数据则没有特别限定。

第一声音识别部3构成为包括第一声音识别处理部3a和第一识别字典3b。

第一声音识别处理部3a经由动作控制部5从声音输入部2输入声音数据，对该声音数据进行声音识别。第一声音识别处理部3a从由数字信号构成的声音数据中提取用于进行声音识别的特征量(第一种特征量)的时间序列数据。并且，第一声音识别处理部3a使用第一识别字典3b所存储的识别用数据各自的声学模型标识符序列和声学模型(按每个标识符定义特征量的数据群)，通过维特比算法(Viterbi algorithm)来分析上述特征量的时间序列数据而选出最近似正确的识别用数据。而且，获取构成所选出的该识别用数据的文字列作为成为所输入的声音数据的识别结果的文字列。

第一声音识别处理部3a在针对声音数据进行声音识别的结果是能够从第一识别字典3b获取对应的文字列的情况下，将表示声音识别成功的识别成功通知输出到动作控制部5，并且与识别成功通知一起将作为声音识别结果获取到的文字列输出到显示控制部8。相反，在无法从第一识别字典3b获取对应的文字列的情况下，将表示无法进行声音识别的不能识别通知输出到动作控制部5和显示控制部8。

在此，在第一识别字典3b中，将文字列和作为对应于该文字列的声学模型标识符序列的声学模型标识符序列对应起来作为识别用数据进行存储。

通过以下过程预先进行识别用数据向第一识别字典3b的登记。即，与要登记的文字列相应地，用户向声音输入部2发声，由此获取与要登记的文字列对应的声音数据。对该声音数据，基于应用了Hidden Markov Model(隐马尔可夫模型)的维特比算法来进行声音识别处理。由此，使用并列配置预先保持的全部发音标记(例如日语“五十音”)各自的声学模型、到发声结束为止以无限循环对其进行评价的识别字典，依次求出与从所输入的声音数据中提取出的特征量的时间序列数据对应的声学模型列(声学模型各自的标识符序列)，将其设为与要登记的文字列对应的声学模型标识符的序列。

例如，与“Thanks”这种文字相应地从用户发出的声音数据中获得“a”“Ri”“Ga”“To”这种声学模型列，将获得的声学模型列变换为对应的声学模型标识符序列。例如，在本实施例中，当将“a”的与声学模型对应的标识符设为“0-1”、将“Ri”的与声学模型对应的标识符设为“13-9”、将“Ga”的与声学模型对应的标识符设为“7-1”、将“To”的与声学模型对应的标识符设为“20-15”时，与“‘a’‘Ri’‘Ga’‘To’”这种声学模型列对应的声学模型标识符序列成为“‘0-1’‘13-9’‘7-1’‘20-15’”。

使该声学模型标识符序列与通过操作输入部10输入的输出用文字列“Thanks”对应，将其作为识别用数据登记到第一识别字典3b。

而且，在第一声音识别处理部3a中，从所输入的声音数据中提取特征量(第一种特征量)的时间序列数据，通过应用了Hidden Markov Model的维特比算法的声音识别处理，从第一识别字典3b获得与该特征量的时间序列数据对应的文字列。

此时，第一声音识别处理部3a通过基于维特比算法的近似正确(似然性)来评价从声音数据提取出的时间序列的特征量的时间序列数据与第一识别字典3b所登记的识别用数据之间何种程度相关，从该似然性成为阈值以上的识别用数据中获得与声音数据对应的文字列。

在此，当不设置阈值而简单地始终选择似然性最高的识别用数据作为识别处理结果时，即使在进行了与已经登记到识别字典的词汇完全无关的发声的情况下，也输出识别字典所包含的某个似然性最高的识别用数据。因而，设为以下结构：设置阈值，仅将似然性为阈值以上且具有某种程度相关的识别用数据作为识别处理结果，对于没有相关的，输出不存在具有相关的识别用数据这种识别结果。此外，并非必须设定阈值，使用用于吸收完全无关的发声的专用的识别用数据(Garbage Model：垃圾模型)并与其似然性进行比较的方法，也能够输出不具有相关的识别用数据这种识别结果。

从声音输入部2对动作控制部5输入声音数据，动作控制部5根据与第一声音识别部3中对该声音数据的声音识别结果来进行使第二服务器装置(第二声音识别装置)60执行声音识别处理的动作控制处理。此外，在该第二服务器装置60中，与第一声音识别部3中的声音识别处理无关地执行独自的声音识别处理，将与所输入的声音数据对应的文字列作为声音识别结果而输出。

具体地说，如图2的流程图所示，动作控制部5首先在步骤S1中判断从声音输入部2是否输入了声音数据，在输入了声音数据时，将该声音数据存储到临时保存用存储部6(步骤S2)。另外，对第一声音识别部3指示执行声音识别，并且将从声音输入部2输入的声音数据输出到第一声音识别部3(步骤S3)。

动作控制部5在从第一声音识别部3作为声音识别结果而输入了不能识别通知时，从步骤S4过渡到步骤S5，读取临时保存用存储部6所存储的声音数据，将读取出的声音数据输出到第一服务器装置70和第二服务器装置60。也就是说，对于与在第一声音识别部3中声音识别失败的声音数据相同的声音数据，对第二服务器装置60指示执行声音识别。

另一方面，在步骤S4中，在从第一声音识别部3作为声音识别结果而输入识别成功通知时，不需要进行第二服务器装置60中的声音识别，因此直接返回到步骤S1。

识别用数据登记部7接收第一服务器装置70所制作的声学模型标识符序列，并且接收第二服务器装置60中的作为声音识别结果得到的文字列，将这些组合而生成识别用数据，将该识别用数据登记到第一识别字典3b。

显示控制部8进行显示控制处理，将第一声音识别部3或者第二服务器装置60中的声音识别结果输出到显示装置9。

具体地说，如图3所示，从第一声音识别部3输入识别结果，在作为该识别结果而输入识别成功通知时，从步骤S11过渡到步骤S12，与识别结果一起将从第一声音识别部3输入的声音识别结果的文字列输出到显示装置9。

另一方面，在从第一声音识别部3作为识别结果接收到不能识别通知时，过渡到步骤S13，从第二服务器装置60输入第二服务器装置60中的声音识别结果，将该声音识别结果输出到显示装置9(步骤S14)。

接着，过渡到步骤S15，在作为第二服务器装置60中的声音识别结果而设定多个候选时过渡到步骤S16，读取显示于显示装置9的多个候选中的通过操作输入部10(选择部)选择的候选，将该候选输出到识别用数据登记部7处，返回到步骤S11。另外，在操作输入部10中指示取消时直接返回到步骤S11。

另一方面，在步骤S15中，在作为第二服务器装置60中的声音识别结果没有设定多个候选时，即作为第二服务器装置60中的声音识别结果而仅输入一个文字列时，过渡到步骤S17。然后，用户终端50接收第二服务器装置60的声音识别结果，将接收到的声音识别结果输出到识别用数据登记部7处，返回到步骤S11。

返回到图1，第二服务器装置60具备第二声音识别处理部14a和第二识别字典14b。

第二声音识别处理部14a从用户终端50的动作控制部5输入通过声音输入部2进行声音收集得到的声音数据，使用第二识别字典14b的识别用数据对该声音数据进行声音识别。该第二服务器装置60的第二声音识别处理部14a对于所输入的声音数据和识别用数据，根据认为相关的程度(似然性)输出一个至多个声音识别结果的候选。

然后，第二声音识别处理部14a将作为声音识别处理结果得到的一个至多个识别结果候选输出到用户终端50。

在第二识别字典14b中，将文字列以及对应于该文字列的声学模型标识符序列对应起来作为识别用数据进行存储。但是，声学模型(声学模型的发音标记的种类、数量、特征量的种类、数量、分析方法)、与标识符的对应也可以与第一声音识别部3的第一识别字典3b不同。

即，在第一声音识别部3中，当设为“a”的与声学模型对应的标识符为“0-1”时，在第二服务器装置(第二声音识别装置)60中，并不必须将“a”的与声学模型对应的标识符设为“0-1”，也不需要将声学模型的单位设为收发话器。

除此以外，第二声音识别处理部14a中的处理方法也可以与第一声音识别处理部3a的处理方法不同。即，第一声音识别处理部3a从声音数据中提取用于进行声音识别的特征量(第一种特征量)的时间序列数据，但是第二声音识别处理部14a也可以不需要从声音数据中提取第一种特征量，而提取与第一种特征量不同的第二种特征量(特征量的时间序列数据)，使用与在第一声音识别处理部3a中使用的维特比算法不同的分析方法来对其进行处理。

这样，只要第二服务器装置60对获取到的声音数据进行声音识别，将作为其识别结果的文字列输出到声音数据的发送源的用户终端50即可，不问其处理方法。

第一服务器装置(声学模型标识符序列生成装置)70具备声学模型标识符序列生成部27和噪声数据存储部27a。

当从用户终端50输入声音数据时，声学模型标识符序列生成部27进行用于将声音数据登记到第一声音识别部3的第一识别字典3b的声学模型标识符序列的生成。

具体地说，当从用户终端50输入声音数据时，对所输入的声音数据进行噪声数据的叠加处理。

该噪声数据的叠加处理是用于提高抗噪性的处理，使预先存储于噪声数据存储部27a的噪声数据叠加到所输入的声音数据而生成噪声叠加声音数据。此时，判断所输入的声音数据的SN比，将噪声数据叠加到声音数据使得噪声叠加声音数据的SN比成为预先设定的SN比。

接着，对噪声叠加声音数据获得与由上述第一声音识别处理部3a提取出的特征量(第一种特征量)相同种类的特征量的时间序列数据，并且，输出使用与第一声音识别处理部3a所存储的声学模型相同种类的声学模型获得的声学模型标识符序列。

即，通过应用了Hidden Markov Model的维特比算法的声音识别处理，使用并列配置预先保持的全部发音标记(例如日语“五十音”)各自的声学模型、到发声结束为止以无限循环对其进行评价的识别字典，求出与从噪声叠加声音数据中提取出的特征量的时间序列数据对应的声学模型列(声学模型各自的标识符的序列)，将其设为与要登记的文字列对应的声学模型标识符序列。

接着，将所生成的声学模型标识符序列输出到声音数据的发送源的用户终端50。

接着，说明上述实施方式的动作。

当用户对声音输入部2例如发出与文字列“Thanks”对应的“a Ri Ga To”时，发声声音在声音输入部2中被进行声音收集，进行规定的处理而被变换为由数字信号构成的声音数据。将该声音数据经由动作控制部5输入到第一声音识别部3(图2步骤S3)，在此进行声音识别。

如果在第一声音识别部3的第一识别字典3b中登记有由文字列“Thanks”和对应于“a Ri Ga To”的声学模型标识符序列构成的识别用数据，则作为声音识别结果而将文字列“Thanks”输出到显示控制部8，将文字列“Thanks”显示在显示装置9。

另一方面，在第一声音识别部3的第一识别字典3b中没有登记由文字列“Thanks”和对应于“a Ri Ga To”的声学模型标识符序列构成的识别用数据的情况下，在第一声音识别部3中，作为无符合数据而将不能识别通知输出到动作控制部5。

因此，在动作控制部5中，读取出在输入声音数据时存储于临时保存用存储部6的“a Ri Ga To”的声音数据，将该声音数据输出到第二服务器装置60并且输出到第一服务器装置70(图2步骤S5)。

在第二服务器装置60中，当输入声音数据时，对该声音数据进行声音识别处理，将该声音识别结果(例如与“a Ri Ga To”的声音数据对应的文字列“Thanks”)输出到声音数据的发送源的用户终端50。在用户终端50的显示控制部8中，将所输入的声音识别结果输出到显示装置9。

此时，在作为声音识别结果而存在多个候选的情况下，用户在操作输入部10中进行操作来选择任一个候选。将该选择信息经由显示控制部8输出到识别用数据登记部7。在作为识别结果而候选为单一的情况下，从显示控制部8自动输出到识别用数据登记部7。

另一方面，在第一服务器装置70中，当输入声音数据时，对该“a Ri Ga To”的声音数据进行噪声数据叠加处理，从作为其结果得到的噪声叠加声音数据中获得特征量的时间序列数据，生成使用与第一识别处理部3a相同种类的声学模型获得的声学模型标识符序列。

然后，将该声学模型标识符序列输出到声音数据的发送源的用户终端50。

用户终端50的识别用数据登记部7使从第一服务器装置70输入的对应于“a Ri Ga To”的声音数据的声学模型标识符序列与从显示控制部8输入的作为声音识别结果的文字列“Thanks”对应起来，将其生成为登记用的识别用数据，将所生成的识别用数据登记到第一声音识别部3的第一识别字典3b。

因而，接着，在经由声音输入部2输入发声为“a Ri Ga To”的声音数据时，由于在第一识别字典3b中登记有与“Thanks”对应的识别用数据，因此通过由第一声音识别部3进行声音识别，能够得到声音识别结果。

因此，即使是没有登记在第一识别字典3b的文字列，对于利用第二服务器装置60得到过一次声音识别结果的文字列，自动登记到第一识别字典3b，因此下一次起通过第一声音识别部3中的声音识别能够得到声音识别结果。另外，此时，由于在第一识别字典3b中自动登记识别用数据，因此用户仅进行声音识别操作就能够在第一识别字典3b中登记新的词汇。

另外，此时，第二服务器装置60可以通过任意的方法进行声音识别处理，即，第二服务器装置60也可以不在系统建立者自己的控制下进行。

作为第二服务器装置60，通过使用存储了用户终端50中没有的词汇的声音识别装置，针对用户的一个发声能够使更多的选项显示在显示控制部8，从而能够提高可用性。第二服务器装置60不需要是一台服务器装置，也可以并列使用多个服务器装置。通过对第二服务器装置60使用多个服务器装置，能够将更多的选项显示在显示控制部8。

另外，登记在第一识别字典3b的识别用数据除了预先登记的识别用数据以外，还由与用户进行了一次声音识别的文字列对应的识别用数据构成。因而，在第一识别字典3b中追加存储了用户所需的识别用数据，即，能够将登记词汇数及其内容设为适合于用户的内容。其结果是能够提高识别率。

另外，在第一识别字典3b中新登记的识别用数据使用根据用户的发声声音生成的声学模型标识符序列。因而，与使用预先登记的识别用数据的方式相比，通过得到反映了用户的发声声音的识别用数据能够提高识别率。

此外，声学模型标识符序列生成装置(第一服务器装置)70可以被搭载于与第一声音识别装置(用户终端)50相同的壳体，也可以被搭载于能够与第一声音识别装置(用户终端)50进行通信的服务器装置。

通过将声学模型标识符序列生成装置(第一服务器装置)70搭载于能够与第一声音识别装置(用户终端)50进行通信的服务器装置，在第一声音识别装置(用户终端)50为用户终端的情况下，不产生用户终端的大幅变更就能够容易地提高用户终端的声音识别功能的精度。

特别是，在用户终端50为便携式电话机等便携式终端的情况下，可搭载的硬件受到限制，但是通过设为与第二服务器装置60之间仅在需要时进行通信来获得声音识别结果并且将该声音识别结果登记到自终端的识别字典3b的结构，能够进一步提高可用性。

另外，在上述实施方式中，说明了在不能够进行第一声音识别部3中的声音识别时进行第二服务器装置60中的声音识别的情况，但是并不限定于此，也可以构成为第一声音识别部3和第二服务器装置60两者同时开始对所输入的声音数据进行声音识别。

通过设为这种结构，能够克服第二服务器装置60的处理开始会延迟与第一声音识别部3中进行声音识别的处理时间相应的时间这一问题。

另外，在上述实施方式中，说明了仅登记从叠加噪声得到的声音数据生成的声学模型标识符序列的情况，但是也可以并列地登记从没有叠加噪声的声音数据生成的声学模型标识符序列，也可以设定多个SN比而并列地登记各个声学模型标识符序列。该SN比可以取用户终端50的动作环境中的平均也可以取最大值。还考虑根据用户所保有的汽车的隔音性能、引擎噪声来预先设定SN比、噪声音质的方法。

另外，说明了将噪声数据存储部27a搭载于服务器装置70的情况，但是并不限定于此，例如，噪声数据存储部27a可以处于用户终端、即客户端侧，也可以被搭载于其它服务器装置内。

附图标记说明

2：声音输入部；3：第一声音识别部；3a：第一声音识别处理部；3b：第一识别字典；5：动作控制部；6：临时保存用存储部；7：识别用数据登记部；8：显示控制部；9：显示装置；10：操作输入部；14：第二声音识别部；14a：第二声音识别处理部；14b：第二识别字典；27：声学模型标识符序列生成部；27a：噪声数据存储部；50：用户终端(第一声音识别装置)；60：第二服务器装置(第二声音识别装置)；70：第一服务器装置(声学模型标识符序列生成装置)；100：声音识别系统；110：识别字典登记系统。

Claims

1.一种声音识别系统，其特征在于，具备第一声音识别装置、第二声音识别装置以及声学模型标识符序列生成装置，

其中，上述第一声音识别装置具有：

声音输入部，其获取声音，输出获取到的声音的声音数据；

第一识别字典，其存储由文字列相关信息和对应于该文字列相关信息的基于第一种特征量的声学模型标识符序列组合而成的识别用数据；

第一声音识别处理部，其从由上述声音输入部输出的一个声音数据中提取上述第一种特征量，使用该第一种特征量和上述第一识别字典来进行上述一个声音数据的声音识别处理；以及

识别用数据登记部，

上述第二声音识别装置具有：

第二识别字典，其存储由文字列相关信息和对应于该文字列相关信息且基于与上述第一种特征量不同的第二种特征量的声学模型标识符序列组合而成的识别用数据；以及

第二声音识别处理部，其从上述一个声音数据中提取上述第二种特征量，使用该第二种特征量和上述第二识别字典来进行上述一个声音数据的声音识别处理，将与该一个声音数据对应的文字列相关信息发送至外部，

上述声学模型标识符序列生成装置具有声学模型标识符序列生成部，该声学模型标识符序列生成部从上述一个声音数据中提取上述第一种特征量，生成与该一个声音数据对应的基于上述第一种特征量的声学模型标识符序列，发送该声学模型标识符序列，

上述第一声音识别装置的上述识别用数据登记部接收上述声学模型标识符序列生成部所发送的、与上述一个声音数据对应的基于上述第一种特征量的声学模型标识符序列和上述第二声音识别处理部所发送的与上述一个声音数据对应的上述文字列相关信息，

上述第一声音识别装置的上述识别用数据登记部将由接收到的基于上述第一种特征量的声学模型标识符序列和上述文字列相关信息组合而成的、用于存储到上述第一识别字典的识别用数据登记到上述第一识别字典。

2.根据权利要求1所述的声音识别系统，其特征在于，

还具备噪声数据存储部，该噪声数据存储部存储有噪声数据，

上述声学模型标识符序列生成部从上述噪声数据叠加到上述一个声音数据而得到的第二声音数据中提取上述第一种特征量，根据提取出的上述第一种特征量，生成与上述一个声音数据对应的基于上述第一种特征量的声学模型标识符序列。

3.根据权利要求2所述的声音识别系统，其特征在于，

上述声学模型标识符序列生成部对上述一个声音数据叠加上述噪声数据，使得上述第二声音数据所包含的人的声音的能量与噪声能量之比成为预先设定的比率。

4.根据权利要求1～3中的任一项所述的声音识别系统，其特征在于，

上述第二声音识别处理部在由上述第一声音识别处理部对上述一个声音数据进行的声音识别处理中判断为不能识别声音时，对由上述第一声音识别处理部判断为不能识别声音的上述一个声音数据进行声音识别处理。

5.根据权利要求1～3中的任一项所述的声音识别系统，其特征在于，

上述第二声音识别处理部对与上述一个声音数据对应的文字列相关信息进行多个候选输出，

上述第一声音识别装置具有选择部，该选择部从上述第二声音识别处理部所输出的、与上述一个声音数据对应的文字列相关信息的多个候选中选择一个候选，

上述识别用数据登记部生成由上述声学模型标识符序列生成部所发送的与上述一个声音数据对应的基于上述第一种特征量的声学模型标识符序列和上述选择部所选择的上述第二声音识别处理部发送的与上述一个声音数据对应的上述文字列相关信息组合而成的、用于存储到上述第一识别字典的识别用数据，将该识别用数据登记到上述第一识别字典。

6.根据权利要求1～3中的任一项所述的声音识别系统，其特征在于，

上述声学模型标识符序列生成装置被搭载于与上述第一声音识别装置不同的壳体内。

7.根据权利要求6所述的声音识别系统，其特征在于，

上述声学模型标识符序列生成装置被搭载于能够与上述第一声音识别装置进行通信的服务器装置。

8.根据权利要求1～3中的任一项所述的声音识别系统，其特征在于，

上述声学模型标识符序列生成装置被搭载于与上述第一声音识别装置相同的壳体内。

9.根据权利要求1～3中的任一项所述的声音识别系统，其特征在于，

上述第一声音识别处理部被搭载于终端装置，上述第二声音识别处理部被搭载于能够与上述终端装置进行通信的服务器装置。

10.一种识别字典登记系统，其特征在于，具备第一声音识别装置和声学模型标识符序列生成装置，

其中，上述第一声音识别装置具有：

第一声音识别处理部，其获取从声音输入部输出的一个声音数据，该声音输入部获取声音并输出获取到的声音的声音数据，该第一声音识别处理部从该一个声音数据中提取上述第一种特征量，使用该第一种特征量和上述第一识别字典来进行上述一个声音数据的声音识别处理；以及

识别用数据登记部，

上述声学模型标识符序列生成装置具有声学模型标识符序列生成部，该声学模型标识符序列生成部从上述一个声音数据中提取上述第一种特征量，根据提取出的上述第一种特征量来生成与上述一个声音数据对应的基于上述第一种特征量的声学模型标识符序列，发送该声学模型标识符序列，

上述第一声音识别装置的上述识别用数据登记部将由从第二声音识别装置输出的与上述一个声音数据对应的文字列相关信息和上述声学模型标识符序列生成装置所发送的基于上述第一种特征量的声学模型标识符序列组合而成的、用于存储到上述第一识别字典的识别用数据登记到上述第一识别字典，

上述第二声音识别装置具有：

第二声音识别处理部，其从上述一个声音数据中提取上述第二种特征量，使用该第二种特征量和上述第二识别字典来进行声音识别处理，将与上述一个声音数据对应的文字列相关信息发送至外部。

11.一种声学模型标识符序列生成装置，其具备声学模型标识符序列生成部，该声学模型标识符序列生成部从由获取声音的声音输入部输出的声音数据中提取第一种特征量，生成与该声音数据对应的基于第一种特征量的声学模型标识符序列，发送该声学模型标识符序列，

该声学模型标识符序列生成装置的特征在于，上述声学模型标识符序列生成部对第一声音识别装置所具有的识别用数据登记部发送上述声学模型标识符序列，

上述第一声音识别装置具备：

第一识别字典，其存储由文字列相关信息和对应于该文字列相关信息的基于上述第一种特征量的声学模型标识符序列组合而成的识别用数据；

第一声音识别处理部，其从该声音数据中提取上述第一种特征量，使用该第一种特征量和上述第一识别字典来进行该声音数据的声音识别处理；以及

上述识别用数据登记部，

上述识别用数据登记部将由从第二声音识别装置输出的与上述声音数据对应的文字列相关信息和上述声学模型标识符序列生成装置所发送的与上述声音数据对应的基于上述第一种特征量的声学模型标识符序列组合而成的、用于存储到上述第一识别字典的识别用数据登记到上述第一识别字典，

上述第二声音识别装置具备：

第二声音识别处理部，其从上述声音数据中提取上述第二种特征量，使用该第二种特征量和上述第二识别字典来进行声音识别处理，将与上述声音数据对应的文字列相关信息发送至外部。