CN103038816B

CN103038816B - 声音识别装置

Info

Publication number: CN103038816B
Application number: CN201080068341.2A
Authority: CN
Inventors: 加藤阳一; 石井纯; 坂下博纪
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-10-01
Filing date: 2010-10-01
Publication date: 2015-02-25
Anticipated expiration: 2030-10-01
Also published as: DE112010005918T5; US20130080146A1; JP5259020B2; US9239829B2; CN103038816A; JPWO2012042578A1; DE112010005918B4; WO2012042578A1

Abstract

本发明的声音识别装置包括：使用与设定语言对应的声音识别引擎，参照在声音识别词典中所登记的识别对象语，来对输入声音进行声音识别的声音识别部(23a)；登记有表示单词的读音信息在多种语言之间的对应关系的读音信息转换规则(L)的读音信息转换数据库；基于读音信息转换数据库的读音信息转换规则(L)，在语言之间转换单词的读音信息的读音信息转换部(27a)；以及声音识别控制部(24a)，该声音识别控制部(24a)进行控制，使得在由声音识别部(23a)对识别对象语信息(E)进行参照的识别对象词汇中包含有与设定语言不同的其它语言的单词的情况下，由读音信息转换部(27a)将其它语言的读音信息转换成设定语言的读音信息，声音识别部(23a)参照将转换后的设定语言的读音信息包含在内的该单词的识别对象语信息来进行声音识别。

Description

声音识别装置

技术领域

本发明涉及进行与多种语言对应的声音识别的声音识别装置。

背景技术

专利文献1所记载的现有声音识别装置选择性地使用与该装置所处的当前地点的信息相应的声音识别数据库，从而实现高精度的声音识别。例如，若当前地点是关西地区，则选择关西方言的声音及语言模型，并用其进行声音识别。此外，若当前地点是车站，则例如选择含大量旅行相关单词的识别词典，并用其进行声音识别。

专利文献2公开了以下系统，在该与多种语言对应的声音识别系统中，准备多种语言专用的识别词典，在该词典上预先登记有某一语言的发音信息、以及根据该语言的标记或音标所生成的其它语言的发音信息。通过参照该识别词典，能识别多种语言。

现有技术文献

专利文献

专利文献1：日本专利特开2009-175630号公报

专利文献2：日本专利特开2004-271895号公报

发明内容

但是，在专利文献1所代表的现有声音识别装置中，为了实现高精度的声音识别，必须在系统中存放有大量音响模型及识别词典，需要大容量的存储单元。此外，专利文献1不能支持多种语言的声音识别。

另一方面，专利文献2所代表的现有声音识别装置能支持多种语言，但需要在声音识别前预先生成并存放其它语言的发音信息，存在对于未预先准备发音信息的语言、不能进行声音识别的问题。

本发明是为了解决上述问题而完成的，其目的在于获得不需要大容量存储单元且能以实时处理来进行对应于多种语言的声音识别的声音识别装置。

本发明所涉及的声音识别装置包括：声音识别部，该声音识别部使用与作为识别对象而预先设定的语言即设定语言对应的声音识别引擎，参照识别对象语信息，对输入声音进行声音识别，该识别对象语信息具有声音识别词典中登记的识别对象词汇所包含的各识别对象语的标记信息和读音信息；读音信息转换数据库，该读音信息转换数据库中登记有表示单词的读音信息在多种语言之间的对应关系的读音信息转换规则；读音信息转换部，该读音信息转换部基于读音信息转换数据库的读音信息转换规则，在语言之间转换单词的读音信息；以及控制部，该控制部进行控制，使得在由声音识别部对识别对象语信息进行参照的识别对象词汇中包含有与设定语言不同的语言即其它语言的单词的情况下，由读音信息转换部将其它语言的读音信息转换成设定语言的读音信息，声音识别部参照将转换后的设定语言的读音信息包含在内的该单词的识别对象语信息来进行声音识别。

根据本发明，具有以下效果：即，不需要大容量存储单元，且能以实时处理来进行对应于多种语言的声音识别。

附图说明

图1是表示本发明的实施方式1的声音识别装置的结构的框图。

图2是表示声音识别词典的一示例的图。

图3是表示实施方式1的声音识别装置的动作流程的流程图。

图4是表示本发明的实施方式2的声音识别装置的结构的框图。

图5是表示读音信息转换数据库的一示例的图。

图6是表示实施方式2的声音识别装置的动作流程的流程图。

图7是用于说明将与设定语言不同的语言的单词的读音信息转换成设定语言的读音信息的处理的图。

图8是表示本发明的实施方式3的声音识别装置的结构的框图。

图9是表示读音信息转换数据库的一示例的图。

图10是表示实施方式3的声音识别装置的动作流程的流程图。

图11是表示本发明的实施方式4的声音识别装置的结构的框图。

图12是表示实施方式4的声音识别装置的动作流程的流程图。

图13是表示本发明的实施方式5的声音识别装置的结构的框图。

图14是表示标记转换数据库的一示例的图。图15是表示实施方式5的声音识别装置的动作流程的流程图。

图16是用于说明将特殊文字的标记信息转换成设定语言的标记信息的处理的图。

具体实施方式

以下，为了更详细地对本发明进行说明，根据附图对用于实施本发明的实施方式进行说明。

实施方式1

图1是表示本发明的实施方式1的声音识别装置的结构的框图。实施方式1的声音识别装置中，与设定为声音识别对象的设定语言不同的语言(下面适当记载为其它语言)的单词包含在识别对象词汇中时，临时启动该其它语言的声音识别引擎并进行声音识别。此外，其结构如图1所示那样包括：识别语言设定部1、声音识别处理部2、发声按钮3、麦克风4、以及监视器5。

识别语言设定部1是用户设定识别对象语言的结构部，提供语言设定用人机界面，其例如使用监视器5、输入装置等可成为与装置外部之间的界面的硬件。若用户对识别对象语言进行设定，则从识别语言设定部1将表示该语言的设定语言信息A通知到识别引擎选定部21及声音识别控制部24。

发声按钮3是将用户开始发声这一情况通知给声音识别装置的按钮，若用户按下该按钮，则将表示开始发声的发声开始通知D输出到声音识别控制部24。此外，由显示在监视器5的画面上的软件按钮或设置在监视器5画面框周边的硬件按钮等来实现发声按钮3。

麦克风4是将用户发出的声音转换成电信号的声音信号H并发送到声音识别部23的结构部。监视器5是其显示处理受显示控制部26的控制、且将声音识别处理部2中获得的信息显示在画面上的显示装置。例如，通过将所识别的话语的标记信息J显示在监视器5的画面上，从而向用户呈现识别结果。

声音识别处理部2是识别用户发出的声音并将识别结果呈现给用户的机构部，包括：识别引擎选定部21、声音识别引擎存储部22、声音识别部23、声音识别控制部24、声音识别词典存储部25及显示控制部26。

识别引擎选定部(选定部)21是如下的结构部，其基于从识别语言设定部1所通知的设定语言信息A，从存储在声音识别引擎存储部22中的所有声音识别引擎(声音识别引擎B)中选定设定语言的声音识别引擎，当向其通知了其它语言信息F的情况下，选定其它语言信息F所表示的语言的声音识别引擎。将由识别引擎选定部21所选定的声音识别引擎作为声音识别处理时执行的声音识别引擎C而设定到声音识别部23。

声音识别词典存储部25是将登记有表示识别对象词汇的标记、读音及语言的识别对象语信息(识别对象语信息E)的声音识别词典进行存储的存储部。

声音识别引擎存储部(存储部)22是将分别对应于多种语言的声音识别引擎进行存储的存储部。另外，所谓声音识别引擎是指用于通过参照识别对象词汇的识别对象语信息来对用户发出的声音进行识别处理、并输出表示识别结果的识别结果信息I(识别出的话语的文本数据等)的程序模块。

声音识别部23是如下结构部：即，通过执行由识别引擎选定部21设定的声音识别引擎C，从而参照如下所述那样由声音识别控制部24所选择的识别对象语信息G，对用户经由麦克风4所输入的声音信号H进行识别处理。将声音识别部23的识别结果信息I发送到显示控制部26。显示控制部26是输入有声音识别部23的识别结果信息I、并将其作为识别词汇的标记信息J而输出到监视器5的结构部。监视器5在画面上显示识别词汇的标记信息J。

声音识别控制部(控制部)24是如下结构部：即，若输入有发声开始通知D，则参照声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E，从识别对象语信息E中选定在本次识别处理中使用的识别对象词汇的识别对象语信息G并输出至声音识别部23。此外，在判断为本次识别处理中使用的识别对象词汇中含有与设定语言不同的语言的单词的情况下，声音识别控制部24将表示与设定语言不同的该语言的其它语言信息F输出到识别引擎选定部21。通过这样，声音识别控制部24进行控制，使得声音识别部23使用与设定语言不同的语言所对应的声音识别引擎，参照与该设定语言不同的语言的识别对象词汇，来进行声音识别。

图2是表示声音识别词典的一示例的图。如图2所示，声音识别词典存储部25中所存储的声音识别词典中登记有识别对象语的标记、读音、及语言。另外，在实施方式1中使用如图2所示那样一并登记有多种语言(英国英语、德语、日语)的单词的识别对象语信息E的声音识别词典。

另外，通过使计算机执行根据本发明宗旨的声音识别用程序，从而能在该计算机上将识别引擎选定部21、声音识别引擎存储部22、声音识别部23、声音识别控制部24、声音识别词典存储部25及显示控制部26作为硬件和软件协作的具体单元来实现。

接下来，对动作进行说明。

图3是表示实施方式1的声音识别装置所进行的动作流程的流程图，特别地，详细示出声音识别处理部2所进行的处理。

首先，用户使用识别语言设定部1来设定识别对象语言。由此，将表示用户所设定的语言的设定语言信息A从识别语言设定部1通知到识别引擎选定部21。识别引擎选定部21参照在声音识别引擎存储部22中所存储的声音识别引擎B，从声音识别引擎B中选定设定语言信息A所表示的语言的声音识别引擎C(步骤ST101)。此后，识别引擎选定部21对声音识别部23设定声音识别引擎C(步骤ST102)。

例如，用户将德语设定为识别对象语言的情况下，经由识别语言设定部1所提供的人机界面来设定德语。由此，从识别语言设定部1向识别引擎选定部21通知表示德语的设定语言信息A，识别引擎选定部21基于设定语言信息A，从声音识别引擎B中选定与德语对应的声音识别引擎并设定于声音识别部23。

接着，声音识别控制部24对是否有因用户按下发声按钮3而产生的发声开始通知D进行判定(步骤ST103)。此处，若没有发声开始通知D(步骤ST103；否)，则结束处理。

若存在发声开始通知D(步骤ST103；是)，则声音识别控制部24参照声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E，从识别对象语信息E中选定并获取本次识别处理中所使用的识别对象词汇的识别对象语信息G(步骤ST104)。

另外，作为识别对象词汇的选定基准，例如可举出刚刚作出的识别结果。

即，声音识别控制部24基于从声音识别部23获取的识别结果信息I，从识别对象语信息E选定本次识别处理中所使用的识别对象词汇的识别对象语信息。若利用对“地名”进行声音识别的情况来进行说明，则在从刚刚作出的声音识别处理的识别结果信息I识别出称作“大不列颠(GreatBritain)”的国名的情况下，声音识别控制部24从识别对象语信息E中获取属于“Great Britain”的地名的所有词汇的识别对象语信息。

由此，无论识别对象词汇中所包含的单词的语言是否是设定语言，声音识别控制部24都按照选定在声音识别的情况下被使用的可能性较高的词汇的基准，从识别对象语信息E中选定在识别处理中使用的所有识别对象词汇，并获取它们的识别对象语信息(识别对象语信息G)。

接着，声音识别控制部24参照识别对象语信息G中包含的语言信息(例如，图2所示英国英语、德语等)，对在识别对象语信息G的词汇中是否存在与设定语言信息A不同的语言信息(其它语言)的单词进行判定(步骤ST105)。此处，若包含有其它语言的单词(步骤ST105；是)，则声音识别控制部24基于上述语言信息，将表示包含有作为其它语言的哪种语言的单词的其它语言信息F通知给识别引擎选定部21(步骤ST106)。

识别引擎选定部21基于从声音识别控制部24通知的其它语言信息F，参照声音识别引擎存储部22中存储的声音识别引擎B，从声音识别引擎B中选定其它语言信息F所表示的语言的声音识别引擎(步骤ST107)，将该声音识别引擎也作为声音识别引擎C设定到声音识别部23(步骤ST108)。

例如，若英语为设定语言、且识别对象词汇中包含有德语单词，则选择德语的声音识别引擎并进行设定。

另外，识别对象词汇中包含有德语、法语等多个其它语言的单词的情况下，还可选定与这些语言对应的多个声音识别引擎并设定到声音识别部23。

另一方面，若不包含其它语言的单词(步骤ST105；否)，则转移到步骤ST109的处理，不执行步骤ST106到步骤ST108的处理。

在步骤ST109中，声音识别部23从声音识别控制部24获取在步骤ST104中选择的识别对象语信息G。

此后，若获取到从麦克风4输入的、来自用户的声音信号H(步骤ST110)，则声音识别部23执行声音识别引擎C，并参照识别对象语信息G，利用下述参考文献1的第5章所示方法对用户说出了哪个单词进行声音识别(步骤ST111)。

(参考文献1)古井贞熙著、“声音信息处理”、森北出版、1998

在识别对象词汇中包含有设定语言的单词、及与设定语言不同的语言(其它语言)的单词的情况下，临时启动与其它语言对应的声音识别引擎C，将一声音发声同时输入到多种语言的声音识别引擎C中以进行识别处理(参考文献1所示识别处理)，获取每个语言引擎的识别结果。将对应所有语言的识别结果按照得分(表示识别结果的准确度)高的顺序进行排列，作为最终识别结果。另外，识别对象词汇中只有其它语言的单词的情况下，声音识别部23停止执行对应于设定语言的声音识别引擎C，临时启动对应于其它语言的声音识别引擎C，利用该其它语言的识别对象词汇进行识别处理。

若识别处理结束，则声音识别部23将该处理的识别结果信息I输出到显示控制部26(步骤ST112)。在显示控制部26中，将识别结果信息I中所包含的标记信息J作为识别结果而通过监视器5呈现给用户(步骤ST113)，且系统结束处理(步骤ST114)。

如上所述，根据本实施方式1，包括：声音识别引擎存储部22，该声音识别引擎存储部22将分别对应于多种语言的多个声音识别引擎进行存储；识别引擎选定部21，该识别引擎选定部21从声音识别引擎存储部22中所存储的多个声音识别引擎中选定与设定语言对应的声音识别引擎；声音识别部23，该声音识别部23使用由识别引擎选定部21所选定的声音识别引擎，参照识别对象语信息，对输入声音进行声音识别，该识别对象语信息具有声音识别词典中登记的识别对象词汇所包含的各识别对象语的标记信息和读音信息；以及声音识别控制部24，该声音识别控制部24进行控制，使得在由声音识别部23进行参照的识别对象词汇中包含有与设定语言不同的语言(其它语言)的单词的情况下，由识别引擎选定部21从声音识别引擎存储部22中所存储的多个声音识别引擎中选定与其它语言对应的声音识别引擎，且声音识别部23利用该声音识别引擎进行参照上述其它语言的单词的声音识别。

由此，当存在与预先设定的语言不同的语言的单词的情况下，临时启动与该语言对应的声音识别引擎以进行声音识别，从而不需要大容量的存储单元，且能以实时处理来进行对应于多种语言的声音识别。

实施方式2

在实施方式2中，当声音识别词典中包含有与设定语言不同的语言(其它语言)的单词的情况下，从利用该单词的其它语言所标注的该单词的读音信息转换成设定语言的读音信息，利用转换后的读音信息，利用设定语言的声音识别引擎来识别该单词。

图4是表示本发明的实施方式2的声音识别装置的结构的框图。在图4中，识别语言设定部1、发声按钮3、麦克风4、及监视器5的结构与上述实施方式1中所说明的图1的结构相同。实施方式2的声音识别处理部2A包括：识别引擎选定部21a、声音识别引擎存储部22、声音识别部23a、声音识别控制部24a、声音识别词典存储部25、显示控制部26、读音信息转换部27a、及读音信息转换数据库存储部28a。

另外，在声音识别处理部2A中，声音识别引擎存储部22、声音识别词典存储部25、及显示控制部26的结构与上述实施方式1中所说明的图1的结构相同。

识别引擎选定部(选定部)21a是基于从识别语言设定部1通知的设定语言信息A、从声音识别引擎存储部22中所存储的所有声音识别引擎(声音识别引擎B)中选定设定语言的声音识别引擎C的结构部。

声音识别控制部24a是如下结构部：即，若输入有发声开始通知D，则从声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E中选定在本次识别处理中使用的识别对象词汇的识别对象语信息G并输出至声音识别部23a。

此外，若本次识别处理中使用的识别对象词汇中包含有与设定语言不同的语言的单词，则声音识别控制部24a从识别对象语信息E中选定该其它语言的单词的识别对象语信息，将其作为其它语言识别对象语信息K输出至读音信息转换部27a。由此，声音识别控制部24a进行控制，使得声音识别部23a参照由读音信息转换部27a进行读音信息转换后的识别对象词汇来进行声音识别。

读音信息转换数据库存储部28a是将读音信息转换数据库进行存储的存储部。读音信息转换数据库中存放有表示词汇的读音信息在多种语言之间的对应关系的读音信息转换规则L。

读音信息转换部27a是如下结构部：即，根据从读音信息转换数据库存储部28a读出的读音信息转换规则L，将从声音识别控制部24a输入的其它语言识别对象语信息K中所包含的该其它语言的单词的读音信息转换成设定语言的读音信息。将转换成设定语言的读音信息之后的识别对象语信息作为读音转换后的识别对象语信息M输出至声音识别部23a。

图5是表示读音信息转换数据库的一示例的图，表示从英语读音到日语读音的读音信息转换规则L。例如，若设定语言为日语、且在识别对象词汇中含有英语“能量(ENERGY)”，则根据图5的读音信息转换规则L，将单词“ENERGY”的读音转换成日语读音“enaii”。

声音识别部23a是如下结构部：即，执行由识别引擎选定部21a所选定的声音识别引擎C，从而参照声音识别控制部24a所选择的识别对象语信息G及由读音信息转换部27a进行读音信息转换后的识别对象语信息M，来对由用户通过麦克风4输入的声音信号H进行声音识别处理。对于作为声音识别部23a所进行的识别处理的结果而获得的识别结果信息I，将其从声音识别部23a发送到显示控制部26。

另外，通过使计算机执行根据本发明宗旨的声音识别用程序，从而能在该计算机上将识别引擎选定部21a、声音识别引擎存储部22、声音识别部23a、声音识别控制部24a、声音识别词典存储部25、显示控制部26、读音信息转换部27a、及读音信息转换数据库存储部28a作为硬件和软件协作的具体单元来实现。

接下来，对动作进行说明。

图6是表示实施方式2的声音识别装置的动作流程的流程图，特别地，详细示出声音识别处理部2A所进行的处理。在图6中，从步骤ST101到步骤ST105为止的处理与实施方式1中所说明的图3的处理内容相同。

若识别对象词汇中包含有其它语言的单词(步骤ST105；是)，则声音识别控制部24a参照声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E来获取该其它语言识别对象语信息K并输出到读音信息转换部27a(步骤ST201a)。

若将从声音识别控制部24a输入的其它语言识别对象语信息K的单词作为关键词来参照读音信息转换数据库存储部28a，确定设定语言与其它语言之间的读音转换规则L，则读音信息转换部27a根据该读音信息转换规则L，将从其它语言识别对象语信息K提取出的识别对象语的读音信息转换成设定语言的读音信息(步骤ST202a)。

图7是用于说明将与设定语言不同的语言的单词的读音信息转换成设定语言的读音信息的处理的图，示出了设定语言为日语、识别对象词汇为英语“ENERGY”的情形。在英语(其它语言)单词“ENERGY”的读音为图7中以符号A标注的读音的情况下，根据图5所示读音信息转换规则L，从英语中的读音信息A转换成日语读音信息“enaii”。

另一方面，若识别对象词汇中不包含其它语言的单词(步骤ST105；否)，则转移到步骤ST203a的处理，不执行步骤ST201a到步骤ST202a的处理。

在步骤ST203a中，声音识别部23a从声音识别控制部24a获取在步骤ST104所选择的识别对象语信息G，并且获取由读音信息转换部27a进行读音转换后的识别对象语信息M。

接着，若获取到从麦克风4输入的、来自用户的声音信号H(步骤ST110)，则声音识别部23a执行声音识别引擎C，参照识别对象语信息G和识别对象语信息M，利用上述参考文献1的第5章所示方法对用户说出了哪个单词进行声音识别(步骤ST111)。

即使在识别对象词汇中包含有与设定语言不同的语言(其它语言)的单词的情况下，声音识别部23a也执行与设定语言对应的声音识别引擎C，并参照转换成设定语言的读音信息后的识别对象语信息M来进行识别处理。

若识别处理结束，则声音识别部23a将该处理的识别结果信息I输出到显示控制部26(步骤ST112)。在显示控制部26中，将识别结果信息I中所包含的标记信息J作为识别结果而通过监视器5呈现给用户(步骤ST113)，且系统结束处理(步骤ST114)。

如上所述，根据本实施方式2，包括：声音识别部23a，该声音识别部23a使用与预先设定为识别对象的语言即设定语言对应的声音识别引擎，参照在声音识别词典中所登记的识别对象语，对输入声音进行声音识别；读音信息转换数据库，该读音信息转换数据库中登记有表示单词的读音信息在多种语言之间的对应关系的读音信息转换规则L；读音信息转换部27a，该读音信息转换部27a基于读音信息转换数据库的读音信息转换规则L，在语言之间转换单词的读音信息；以及声音识别控制部24a，该声音识别控制部24a进行控制，使得在由声音识别部23a对识别对象语信息E进行参照的识别对象词汇中包含有与预先设定的语言不同的语言即其它语言的单词的情况下，由读音信息转换部27a将其它语言的读音信息转换成设定语言的读音信息，声音识别部23a参照将转换后的设定语言的读音信息包含在内的该单词的识别对象语信息来进行声音识别。

由此，通过从与设定语言不同的其它语言的单词的读音信息来生成该设定语言的读音信息，从而无需切换设定语言，就能识别出其它语言的单词。在该情况下，用户通过用与不同于设定语言的上述其它语言的发音相近的发音来说出该单词，从而能进行声音识别。此外，由于能以实时处理来生成该读音信息，因此，具有无需将与该其它语言的单词对应的设定语言的读音信息预先存放到声音识别词典中的优点。

实施方式3

在实施方式3中，在声音识别词典中包含有与设定语言不同的语言(其它语言)的单词的情况下，根据该单词的其它语言的单词标记信息生成设定语言的读音信息，利用所生成的读音信息，用设定语言的声音识别引擎来识别出该单词。

图8是表示根据本发明的实施方式3的声音识别装置的结构的框图。在图8中，识别语言设定部1、发声按钮3、麦克风4、及监视器5的结构与上述实施方式1中所说明的图1的结构相同。实施方式3的声音识别处理部2B包括：识别引擎选定部21a、声音识别引擎存储部22、声音识别部23b、声音识别控制部24b、声音识别词典存储部25、显示控制部26、读音信息生成部27b、及读音信息生成数据库存储部28b。

另外，在声音识别处理部2B中，识别引擎选定部21a、声音识别引擎存储部22、声音识别词典存储部25及显示控制部26的结构与上述实施方式1中所说明的图1及上述实施方式2中所说明的图4的结构相同。

声音识别控制部24b是如下结构部：即，若输入有发声开始通知D，则从声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E中选定在本次识别处理中使用的识别对象词汇的识别对象语信息G并输出至声音识别部23b。

此外，若本次识别处理中使用的识别对象词汇中包含有与设定语言不同的语言的单词，则声音识别控制部24b从识别对象语信息E中选定该其它语言的单词的识别对象语信息，将其作为其它语言识别对象语信息K输出至读音信息生成部27b。由此，声音识别控制部24b进行控制，使得声音识别部23b参照由读音信息生成部27b生成读音信息后的该单词的识别对象语信息来进行声音识别。

读音信息生成数据库存储部28b是将读音信息生成数据库进行存储的存储部。在读音信息生成数据库中存放有读音信息生成规则N，该读音信息生成规则N表示词汇在多种语言之间的、一语言中的标记信息与另一语言中的读音信息之间的对应关系。

读音信息生成部27b是如下结构部：即，参照从声音识别控制部24b输入的其它语言识别对象语信息K中所包含的该其它语言的单词的标记信息，基于从读音信息生成数据库存储部28b读出的读音信息生成规则N，来生成该单词的设定语言的读音信息。将生成设定语言的读音信息之后的识别对象语信息作为读音生成后的识别对象语信息O输出至声音识别部23b。

图9是表示读音信息转换数据库的一示例的图，示出了登记有英语标记信息和对应的日语读音信息的读音信息生成规则N。例如，若设定语言为日语、且在识别对象词汇中含有英语“能量(ENERGY)”，则按照图9的读音信息生成规则N，从标记信息“ENERGY”生成日语读音“enerugii”。从而，无需在识别对象词汇中一并包含日语“エネルギー(能量)”和英语“ENERGY”。

声音识别部23b是如下结构部：即，执行由识别引擎选定部21a所选定的声音识别引擎C，从而参照声音识别控制部24b所选择的识别对象语信息G及由读音信息生成部27b生成读音信息后的识别对象语信息O，来对由用户通过麦克风4输入的声音信号H进行声音识别处理。对于作为声音识别部23b所进行的识别处理的结果而获得的识别结果信息I，将其从声音识别部23b发送到显示控制部26。

另外，通过使计算机执行根据本发明宗旨的声音识别用程序，从而能在该计算机上将识别引擎选定部21a、声音识别引擎存储部22、声音识别部23b、声音识别控制部24b、声音识别词典存储部25、显示控制部26、读音信息生成部27b、及读音信息生成数据库存储部28b作为硬件和软件协作的具体单元来实现。

接下来，对动作进行说明。

图10是表示实施方式3的声音识别装置的动作流程的流程图，特别地，详细示出声音识别处理部2B所进行的处理。在图10中，从步骤ST101到步骤ST105为止的处理与实施方式1中所说明的图3的处理内容相同。

若识别对象词汇中包含有其它语言的单词(步骤ST105；是)，则声音识别控制部24b参照声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E来获取该其它语言的单词的其它语言识别对象语信息K并输出到读音信息生成部27b(步骤ST201b)。

若将从声音识别控制部24b输入的其它语言识别对象语信息K的单词作为关键词来参照读音信息生成数据库存储部28b，确定设定语言与其它语言之间的读音信息生成规则N，则读音信息生成部27b参照从其它语言识别对象语信息K提取出的单词的标记信息，基于该读音信息生成规则N，来生成设定语言的读音信息(步骤ST202b)。

例如，若设定语言为日语、且其它语言的单词为英语“ENERGY”，则通过利用图9所示读音信息生成规则N，根据英语(其它语言)单词“ENERGY”的标记信息来生成日语读音信息“enerugii”。

另一方面，若识别对象词汇中不包含其它语言的单词(步骤ST105；否)，则转移到步骤ST203b的处理，不执行步骤ST201b到步骤ST202b的处理。

在步骤ST203b中，声音识别部23b从声音识别控制部24b获取在步骤ST104所选择的识别对象语信息G，并且获取由读音信息生成部27b生成读音后的识别对象语信息O。

接着，若获取到从麦克风4输入的、来自用户的声音信号H(步骤ST110)，则声音识别部23b执行声音识别引擎C，参照识别对象语信息G和识别对象语信息O，利用上述参考文献1的第5章所示方法对用户说出了哪个单词进行声音识别(步骤ST111)。

即使在识别对象词汇中包含有与设定语言不同的语言(其它语言)的单词的情况下，声音识别部23b也执行与设定语言对应的声音识别引擎C，并参照生成设定语言的读音信息后的识别对象语信息O来进行识别处理。

若识别处理结束，则声音识别部23b将该处理的识别结果信息I输出到显示控制部26(步骤ST112)。在显示控制部26中，将识别结果信息I中所包含的标记信息J作为识别结果而通过监视器5呈现给用户(步骤ST113)，且系统结束处理(步骤ST114)。

如上所述，根据本实施方式3，包括：声音识别部23b，该声音识别部23b使用对应于设定语言的声音识别引擎，参照识别对象语信息，对输入声音进行声音识别，该识别对象语信息具有声音识别词典中登记的识别对象词汇所包含的各识别对象语的标记信息和读音信息；以及读音信息生成数据库，该读音信息生成数据库登记有读音信息生成规则N，该读音信息生成规则N表示词汇在多种语言之间的、一语言中的标记信息与另一语言中的读音信息之间的对应关系；读音信息生成部27b，该读音信息生成部27b基于读音信息生成规则N，根据词汇在一语言中的标记信息来生成在另一语言中的读音信息；以及声音识别控制部24b，该声音识别控制部24b进行控制，使得在由声音识别部23b对识别对象语信息E进行参照的识别对象词汇中包含有与设定语言不同的其它语言的单词的情况下，由读音信息生成部27b根据该其它语言的标记信息来生成设定语言的读音信息，声音识别部23b参照生成该读音信息后的该单词的识别对象语信息来进行声音识别。

由此，通过根据与设定语言不同的其它语言的单词的标记信息来生成对应于设定语言的读音信息，从而无需切换设定语言就能对其它语言的单词进行声音识别。在该情况下，用户通过用与设定语言的发音相近的发音来说出该单词，从而能进行声音识别。此外，由于能以实时处理来生成该读音信息，因此，具有无需将与该其它语言的单词对应的设定语言的读音信息预先存放到声音识别词典中的优点。

实施方式4

在实施方式4中，在声音识别词典中包含有与设定语言不同的语言(其它语言)的单词的情况下，根据该单词的以其它语言标注的读音信息和标记信息两者，来生成设定语言的读音信息，利用所生成的读音信息，用设定语言的声音识别引擎来识别出该单词。

图11是表示本发明的实施方式4的声音识别装置的结构的框图。在图11中，识别语言设定部1、发声按钮3、麦克风4、及监视器5的结构与上述实施方式1中所说明的图1的结构相同。实施方式4的声音识别处理部2C包括：识别引擎选定部21a、声音识别引擎存储部22、声音识别部23c、声音识别控制部24c、声音识别词典存储部25、显示控制部26、读音信息转换部27a、读音信息生成部27b、读音信息转换数据库28a及读音信息生成数据库存储部28b。

另外，在声音识别处理部2C中，识别引擎选定部21a、声音识别引擎存储部22、声音识别词典存储部25及显示控制部26的结构与上述实施方式1中所说明的图1及上述实施方式2中所说明的图4的结构相同。

声音识别控制部24c是如下结构部：即，若输入有发声开始通知D，则从声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E中选定在本次识别处理中使用的识别对象词汇的识别对象语信息G并输出至声音识别部23c。

此外，若本次识别处理中使用的识别对象词汇中包含有与设定语言不同的语言的单词，则声音识别控制部24c从识别对象语信息E中选定该其它语言的单词的识别对象语信息，将其作为其它语言识别对象语信息K分别输出至读音信息转换部27a和读音信息生成部27b。由此，声音识别控制部24c进行控制，使得声音识别部23c参照由读音信息转换部27a进行读音信息转换后的识别对象语及由读音信息生成部27b生成读音信息后的识别对象词汇来进行声音识别。

读音信息转换部27a是如下结构部：即，根据从读音信息转换数据库存储部28a读出的读音信息转换规则L，将从声音识别控制部24c输入的其它语言识别对象语信息K中所包含的该其它语言的单词的读音信息转换成设定语言的读音信息。将转换成设定语言的读音信息之后的识别对象语信息作为读音转换后的识别对象语信息M输出至声音识别部23c。

读音信息转换数据库存储部28a是将例如图5所示读音信息转换数据库进行存储的存储部。读音信息转换数据库中存放有表示单词的读音信息在多种语言之间的对应关系的读音信息转换规则L。

读音信息生成部27b是如下结构部：即，参照从声音识别控制部24c输入的其它语言识别对象语信息K中所包含的该其它语言的单词的标记信息，并基于从读音信息生成数据库存储部28b读出的读音信息生成规则N，来生成该单词的设定语言的读音信息。将生成设定语言的读音信息之后的识别对象语信息作为生成读音后的识别对象语信息O输出至声音识别部23c。

读音信息生成数据库存储部28b是将例如图9所示读音信息生成数据库进行存储的存储部。在读音信息生成数据库中存放有读音信息生成规则N，该读音信息生成规则N表示单词在多种语言之间的、一语言中的标记信息与另一语言中的读音信息之间的对应关系。

声音识别部23c是如下结构部：即，执行由识别引擎选定部21a所选定的声音识别引擎C，从而参照声音识别控制部24c所选择的识别对象语信息G、由读音信息转换部27a进行读音信息转换后的识别对象语信息M及由读音信息生成部27b生成读音后的识别对象语信息O，来对由用户通过麦克风4输入的声音信号H进行声音识别处理。对于作为声音识别部23c所进行的识别处理的结果而获得的识别结果信息I，将其从声音识别部23c发送到显示控制部26。

另外，通过使计算机执行根据本发明宗旨的声音识别用程序，从而能在该计算机上将识别引擎选定部21a、声音识别引擎存储部22、声音识别部23c、声音识别控制部24c、声音识别词典存储部25、显示控制部26、读音信息转换部27a、读音信息生成部27b、读音信息转换数据库存储部28a、及读音信息生成数据库存储部28b作为硬件和软件协作的具体单元来实现。

接下来，对动作进行说明。

图12是表示实施方式4的声音识别装置的动作流程的流程图，特别地，详细示出声音识别处理部2C所进行的处理。在图12中，从步骤ST101到步骤ST105为止的处理与在实施方式1中所说明的图3的处理内容相同。

若识别对象词汇中包含有其它语言的单词(步骤ST105；是)，则声音识别控制部24c参照声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E来获取该其它语言的单词的其它语言识别对象语信息K并输出到读音信息转换部27a(步骤ST201a)。

若将从声音识别控制部24c输入的其它语言识别对象语信息K的单词作为关键词来参照读音信息转换数据库存储部28a，确定设定语言与其它语言之间的读音转换规则L，则读音信息转换部27a根据该读音信息转换规则L，将从其它语言识别对象语信息K提取出的识别对象语的读音信息转换成设定语言的读音信息(步骤ST202a)。

接着，声音识别控制部24c将参照声音识别词典存储部25中存储的声音识别词典的识别对象语信息E而获取的该其它语言识别对象语信息K输出至读音信息生成部27b(步骤ST210b)。

若将从声音识别控制部24c输入的其它语言识别对象语信息K的单词作为关键词来参照读音信息生成数据库存储部28b，确定设定语言与其它语言之间的读音信息生成规则N，则读音信息生成部27b参照从其它语言识别对象语信息K提取出的识别对象语的标记信息，基于该读音信息生成规则N，来生成设定语言的读音信息(步骤ST202b)。

另一方面，若识别对象词汇中不包含其它语言的单词(步骤ST105；否)，则转移到步骤ST203的处理，不执行步骤ST201a到步骤ST202a的处理、以及步骤ST201b到步骤ST202b的处理。

在步骤ST203中，声音识别部23c从声音识别控制部24c获取在步骤ST104中选择的识别对象语信息G，并且分别获取由读音信息转换部27a进行读音转换后的识别对象语信息M以及由读音信息生成部27b生成读音后的识别对象语信息O。

接着，若获取到从麦克风4输入的、来自用户的声音信号H(步骤ST110)，则声音识别部23c执行声音识别引擎C，参照识别对象语信息G、识别对象语信息M及识别对象语信息O，利用上述参考文献1的第5章所示方法对用户说出了哪个单词进行声音识别(步骤ST111)。

即使在识别对象词汇中包含有与设定语言不同的语言(其它语言)的单词的情况下，声音识别部23c也执行与设定语言对应的声音识别引擎C，并利用转换成设定语言的读音信息后的识别对象语信息M及生成设定语言的读音信息之后的识别对象语信息O，来进行识别处理。

若识别处理结束，则声音识别部23c将该处理的识别结果信息I输出到显示控制部26(步骤ST112)。在显示控制部26中，将识别结果信息I中所包含的标记信息J作为识别结果而通过监视器5呈现给用户(步骤ST113)，且系统结束处理(步骤ST114)。

如上所述，根据本实施方式4，包括：读音信息转换数据库，该读音信息转换数据库中登记有读音信息转换规则L；读音信息转换部27a，该读音信息转换部27a基于读音信息转换规则L，在语言之间转换单词的读音信息；读音信息生成数据库，该读音信息生成数据库中登记有读音信息生成规则N；以及读音信息生成部27b，该读音信息生成部27b基于读音信息生成规则N，根据单词在一语言中的标记信息来生成在另一语言中的读音信息，声音识别控制部24c进行控制，使得在由声音识别部23c进行参照的识别对象词汇中包含有与设定语言不同的语言(其它语言)的单词的情况下，由读音信息生成部27a根据该其它语言的标记信息生成设定语言的读音信息，并且由读音信息转换部27b将其它语言的读音信息转换成设定语言的读音信息，声音识别部23c参照将所生成的设定语言的读音信息包含在内的该单词的识别对象语信息来进行声音识别。

由此，通过根据与设定语言不同的其它语言的单词的标记和读音信息两者来生成对应于设定语言的2种读音信息，从而不管用户用与不同于设定语言的上述其它语言的发音相近的发音还是用与设定语言的发音相近的发音来进行发声，都能进行声音识别。此外，由于能以实时处理来生成这些读音信息，因此，具有无需将与不同于设定语言的上述其它语言的单词对应的、在设定语言中的读音信息预先存放到声音识别词典中的优点。

实施方式5

在实施方式5中，在识别对象词汇中包含有与设定语言不同的语言(其它语言)的单词、而且该单词中包含有该其它语言所特有的特殊文字标记的情况下，将该单词转换成设定语言的标记之后，基于该标记生成设定语言的读音信息，利用该读音信息，用设定语言的声音识别引擎来识别出该单词。

图13是表示本发明的实施方式5的声音识别装置的结构的框图。在图13中，识别语言设定部1、发声按钮3、麦克风4、及监视器5的结构与上述实施方式1中所说明的图1的结构相同。实施方式5的声音识别处理部2D包括：识别引擎选定部21a、声音识别引擎存储部22、声音识别部23c、声音识别控制部24d、声音识别词典存储部25、显示控制部26、读音信息转换部27a、读音信息生成部27b、读音信息转换数据库28a、读音信息生成数据库存储部28b、标记转换部29及标记转换数据库存储部30。另外，在声音识别处理部2D中，识别引擎选定部21a、声音识别引擎存储部22、声音识别词典存储部25及显示控制部26的结构与上述实施方式1中所说明的图1及上述实施方式2中所说明的图4的结构相同。此外，声音识别部23c的结构与上述实施方式4中所说明的图11的结构相同。

声音识别控制部24d是如下结构部：即，若输入有发声开始通知D，则从声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E中选定在本次识别处理中使用的识别对象词汇的识别对象语信息G并输出至声音识别部23c。

此外，若本次识别处理中使用的识别对象词汇中包含有与设定语言不同的语言的单词，则声音识别控制部24d从识别对象语信息E中选定该其它语言的单词的识别对象语信息，将其作为其它语言识别对象语信息K输出至读音信息转换部27a。

进一步地，在从识别对象语信息E中选定的该其它语言的单词所包含的标记信息中含有该其它语言所特有的特殊文字标记的情况下，声音识别控制部24d将从识别对象语信息E中选定的其它语言的单词的识别对象语信息中的、含该特殊文字的识别对象语信息作为识别对象语信息P输出至标记转换部29，并且将不含该特殊文字的识别对象语信息作为识别对象语信息S输出至读音信息生成部27b。

由此，声音识别控制部24d进行控制，使得声音识别部23c参照由读音信息转换部27a进行读音信息转换、且由读音信息生成部27b生成读音信息后的其它语言的单词的识别对象语信息，来进行声音识别。

读音信息转换部27a是如下结构部：即，根据从读音信息转换数据库存储部28a读出的读音信息转换规则L，将从声音识别控制部24d输入的其它语言识别对象语信息K中所包含的该其它语言的单词的读音信息转换成设定语言的读音信息。将转换成设定语言的读音信息之后的识别对象语信息作为读音转换后的识别对象语信息M输出至声音识别部23c。

读音信息生成部27b是如下结构部：即，参照从声音识别控制部24d输入的不含特殊文字的其它语言识别对象语信息S及由标记转换部29进行标记转换后的其它语言的单词的识别对象语信息R中所包含的该其它语言的单词的标记信息，并基于从读音信息生成数据库存储部28b读出的读音信息生成规则N，来生成该识别对象语的设定语言的读音信息。将生成设定语言的读音信息之后的识别对象语信息作为生成读音后的识别对象语信息O输出至声音识别部23c。

读音信息生成数据库存储部28b是将例如图9所示读音信息生成数据库进行存储的存储部。与上述实施方式3和4不同，在读音信息生成数据库中存放有读音信息生成规则N，该读音信息生成规则N除了包含单词在多种语言间的、一语言中的标记信息和另一语言中的读音信息之间的对应关系以外，还包含在同一语言中的标记信息和读音信息之间的对应关系。

标记转换部29是如下结构部：即，参照从声音识别控制部24d输入的含特殊文字的其它语言识别对象语信息P，基于从标记转换数据库存储部30读出的标记转换规则Q，将其它语言所特有的特殊文字的标记信息转换成设定语言的标记信息。将由标记转换部29进行标记转换后的其它语言识别对象语信息作为其它语言识别对象语信息R而输出至读音信息生成部27b。

标记转换数据库存储部30是将标记转换数据库进行存储的存储部。标记转换数据库中存放有标记转换规则Q，该标记转换规则Q表示多种语言间的、一语言中所特有的特殊文字的标记信息与另一语言的标记信息之间的对应关系。

图14是表示标记转换数据库的一示例的图，示出了登记有德语所特有的特殊文字的标记信息和对应的英语标记信息的标记转换规则Q。例如，在德语(其它语言)单词中含有元音文字标记的情况下，根据图14的标记转换规则Q，将其转换成对应的英语标记信息。另外，在图14中，示出了英语中的发音适当的英语标记。转换后的语言不限于英语、以字母来标记的语言，若生成了该语言用的转换规则，也可以是日语、汉语等任意语言。

另外，通过使计算机执行根据本发明宗旨的声音识别用程序，从而能在该计算机上将识别引擎选定部21a、声音识别引擎存储部22、声音识别部23c、声音识别控制部24d、声音识别词典存储部25、显示控制部26、读音信息转换部27a、读音信息生成部27b、读音信息转换数据库存储部28a、读音信息生成数据库存储部28b、标记转换部29、及标记转换数据库存储部30作为硬件和软件协作的具体单元来实现。

接下来，对动作进行说明。

图15是表示实施方式5的声音识别装置的动作流程的流程图，特别地，详细示出声音识别处理部2C所进行的处理。在图15中，从步骤ST101到步骤ST105为止的处理与上述实施方式1中所说明的图3的处理内容相同。

若识别对象词汇中包含有其它语言的单词(步骤ST105；是)，则声音识别控制部24d参照声音识别词典存储部25中所存储的声音识别词典的识别对象语信息E来获取该其它语言的单词的其它语言识别对象语信息K并输出到读音信息转换部27a(步骤ST201a)。

若将从声音识别控制部24d输入的其它语言识别对象语信息K的单词作为关键词来参照读音信息转换数据库存储部28a，确定设定语言与其它语言之间的读音信息转换规则L，则读音信息转换部27a根据该读音信息转换规则L，将从其它语言识别对象语信息K提取出的单词的读音信息转换成设定语言的读音信息(步骤ST202a)。

接着，声音识别控制部24d参照其它语言识别对象语信息K的标记信息，对其它语言识别对象语信息K中是否包含具有该其它语言所特有的特殊文字标记的单词进行判定(步骤ST501)。此处，在包含具有特殊文字标记的单词的情况下(步骤ST501；是)，声音识别控制部24d将含该特殊文字的其它语言识别对象语信息P输出至标记转换部29(步骤ST502)。

标记转换部29将从其它语言识别对象语信息P提取出的该特殊文字的标记信息作为关键词来参照标记转换数据库存储部30，确定表示该特殊文字的标记信息与设定语言的标记信息之间的对应关系的标记转换规则Q，基于从标记转换数据库存储部30读出的该标记转换规则Q，将该特殊文字的标记信息转换成设定语言的标记信息(步骤ST503)。之后，标记转换部29将标记转换后的其它语言识别对象语信息R输出至信息生成部27b(步骤ST504)。

图16是用于说明将特殊文字的标记信息转换成设定语言的标记信息的处理的图，示出了设定语言为英语、识别对象词汇中含有的其它语言为德语的情形。在德语(其它语言)单词的标记为图16中以符号B标注的标记的情况下，根据图14所示标记转换规则Q，从德语中的标记信息A转换成英语标记信息“STRASSE”。

接着，声音识别控制部24d从其它语言识别对象语信息K获取不含上述特殊文字的其它语言识别对象语信息S并输出至读音信息生成部27b(步骤ST201b)。

若将由标记转换部29进行标记转换后的其它语言识别对象语信息R及从声音识别控制部24d输入的不含特殊文字的其它语言识别对象语信息S的单词作为关键词来参照读音信息生成数据库存储部28b，确定设定语言与其它语言之间的读音信息生成规则N，则读音信息生成部27b参照从其它语言识别对象语信息R及其它语言识别对象语信息S提取出的该单词的标记信息，基于该读音信息生成规则N，来生成设定语言的读音信息(步骤ST202b)。

另外，对于进行标记转换后的其它语言识别对象语信息R，将其它语言所特有的特殊文字的标记信息转换成设有语言的标记信息。在该情况下，读音信息生成部27b基于读音信息生成规则N中的、设定语言的标记信息与读音信息之间的对应关系，来生成读音信息。例如，在图16所示例子的情况下，由于德语中的标记信息A转换成了英语标记信息“STRASSE”，因此，根据表示英语的标记信息与读音信息之间的对应关系的读音信息生成规则N，生成对应于英语标记信息“STRASSE”的读音信息。

另一方面，若识别对象词汇中不包含其它语言的单词(步骤ST105；否)，则转移到步骤ST203的处理，不执行步骤ST201a到步骤ST202a的处理、步骤ST501到步骤ST504的处理、以及步骤ST201b到步骤ST202b的处理。

此外，若不包含具有特殊文字的标记的单词(步骤ST501；否)，则转移到步骤ST201b的处理，不执行步骤ST502到步骤ST504的处理。

在步骤ST203中，声音识别部23c从声音识别控制部24d获取在步骤ST104中选择的识别对象语信息G，并且分别获取由读音信息转换部27a进行读音转换后的识别对象语信息M以及由读音信息生成部27b生成读音后的识别对象语信息O。

接着，若获取到从麦克风4输入的、来自用户的声音信号H(步骤ST110)，则声音识别部23c执行声音识别引擎C，参照识别对象语信息G，并利用上述参考文献1的第5章所示方法对用户说出了哪个单词进行声音识别(步骤ST111)。

如上所述，根据本实施方式5，除了图2所示结构以外，还包括：读音信息生成数据库，该读音信息生成数据库登记有读音信息生成规则N，该读音信息生成规则N表示单词在多种语言之间的、一语言中的标记信息与另一语言中的读音信息之间的对应关系、及单词在同一语言中的标记信息与读音信息之间的对应关系；读音信息生成部27b，该读音信息生成部27b基于读音信息生成规则N，根据单词的标记信息来生成读音信息；标记转换数据库，该标记转换数据库中登记有标记转换规则Q，该标记转换规则Q表示多种语言间的、一语言中所特有的特殊文字的标记信息与另一语言的标记信息之间的对应关系；以及标记转换部29，该标记转换部29基于标记转换规则Q，在语言之间转换单词的标记信息，声音识别控制部24d进行控制，使得在由声音识别部23c进行参照的识别对象词汇中包含属于与设定语言不同的其它语言、且具有该其它语言所特有的特殊文字的标记信息的单词的情况下，由标记转换部29根据该特殊文字的标记信息转换成设定语言的标记信息，由读音信息生成部27b基于读音信息生成规则N中的、设定语言的标记信息与读音信息之间的对应关系，根据由标记转换部29进行转换后的单词的标记信息来生成设定语言的读音信息，声音识别部23c参照生成该读音信息后的单词来进行声音识别。

由此，将与设定语言不同的其它语言的单词的、该其它语言所特有的特殊文字的标记信息转换成设定语言的标记信息，根据包含转换后的标记信息的单词的标记信息和读音信息两者来生成对应于设定语言的2种读音信息，从而不管用户用与不同于设定语言的上述其它语言(识别对象国)的发音相近的发音还是用与设定语言的发音相近的发音来进行发声，都能进行声音识别。此外，由于能以实时处理来生成这些读音信息，因此，具有无需将与不同于设定语言的上述其它语言的单词对应的、在设定语言中的读音信息预先存放到声音识别词典中的优点。

例如，将实施方式5应用到车载导航装置的声音识别装置中，且该车辆在不以设定语言为母语的A国中行驶，在对A国的“地名”进行声音识别的情况下，若该地名中存在A国语言所特有的标记，则用户不知道其读音就无法说出该地名。在该情况下，在实施方式5中，声音识别控制部24d从声音识别词典获取该地名的识别对象词汇的识别对象语信息并输出至标记转换部29，标记转换部29基于标记转换规则Q，从该地名在A国中的标记信息转换成设定语言的标记信息。读音信息生成部27b根据该转换后的设定语言的标记信息，来生成设定语言的读音信息。由此，用户通过用设定语言的发音来说出A国的该地名，从而能对该地名进行声音识别。

另外，本发明申请在其发明范围内可以进行各实施方式的自由组合，或者对各实施方式的任意结构要素进行变形，或者在各实施方式中省略任意结构要素。

工业上的实用性

本发明所涉及的声音识别装置不需要大容量的存储单元，且能以实时处理来进行对应于多种语言的声音识别，因此，适合应用到需要识别多种语言的地名的车载用导航系统中的声音识别装置中。

Claims

1.一种声音识别装置，其特征在于，包括：

声音识别部，该声音识别部使用与作为识别对象而预先设定的语言即设定语言对应的声音识别引擎，参照识别对象语信息，对正在输入的输入声音进行声音识别，该识别对象语信息具有声音识别词典中预先登记的识别对象词汇所包含的各识别对象语的标记信息和读音信息；

读音信息转换数据库，该读音信息转换数据库中登记有表示单词的读音信息在多种语言之间的对应关系的读音信息转换规则；

读音信息转换部，该读音信息转换部基于所述读音信息转换数据库的读音信息转换规则，在语言之间转换单词的读音信息；以及

控制部，该控制部进行控制，使得在由所述声音识别部对识别对象语信息进行参照的识别对象词汇中包含有与所述设定语言不同的语言即其它语言的单词的情况下，由所述读音信息转换部将所述其它语言的读音信息转换成所述设定语言的读音信息，所述声音识别部参照将正在输入的所述输入声音的转换后的所述设定语言的读音信息以及所述声音识别词典中预先登记的所述识别对象词汇的所述识别对象语信息来进行声音识别。

2.一种声音识别装置，其特征在于，包括：

读音信息生成数据库，该读音信息生成数据库登记有读音信息生成规则，该读音信息生成规则表示单词在多种语言间的、一语言中的标记信息与另一语言中的读音信息之间的对应关系；

读音信息生成部，该读音信息生成部基于所述读音信息生成数据库的读音信息生成规则，根据单词在一语言中的标记信息来生成在另一语言中的读音信息；以及

控制部，该控制部进行控制，使得在由所述声音识别部对识别对象语信息进行参照的识别对象词汇中包含有与所述设定语言不同的语言即其它语言的单词的情况下，由所述读音信息生成部根据所述其它语言的标记信息来生成所述设定语言的读音信息，所述声音识别部参照将根据正在输入的所述输入声音而生成的所述设定语言的读音信息以及所述声音识别词典中预先登记的所述识别对象词汇的所述识别对象语信息来进行声音识别。

3.一种声音识别装置，其特征在于，包括：

读音信息生成部，该读音信息生成部基于所述读音信息生成数据库的读音信息生成规则，根据单词在一语言中的标记信息来生成在另一语言中的读音信息；

读音信息转换数据库，该读音信息转换数据库中登记有表示单词的读音信息在多种语言之间的对应关系的读音信息转换规则

控制部，该控制部进行控制，使得在由所述声音识别部参照识别对象语信息而得到的识别对象词汇中包含有与所述设定语言不同的语言即其它语言的单词的情况下，由所述读音信息生成部根据所述其它语言的标记信息来生成所述设定语言的读音信息，并且由所述读音信息转换部将该单词的其它语言的读音信息转换成所述设定语言的读音信息，所述声音识别部参照根据正在输入的所述输入声音而生成的所述设定语言的读音信息、将正在输入的所述输入声音的转换后的所述设定语言的读音信息、以及所述声音识别词典中预先登记的所述识别对象词汇的所述识别对象语信息来进行声音识别。

4.如权利要求1所述的声音识别装置，其特征在于，包括：

读音信息生成数据库，该读音信息生成数据库登记有读音信息生成规则，该读音信息生成规则表示单词在多种语言间的、一语言中的标记信息与另一语言中的读音信息之间的对应关系、及单词在同一语言中的标记信息与读音信息之间的对应关系；

读音信息生成部，该读音信息生成部基于所述读音信息生成数据库的读音信息生成规则，根据单词的标记信息来生成读音信息；

标记转换数据库，该标记转换数据库中登记有标记转换规则，该标记转换规则表示多种语言间的、一语言中所特有的特殊文字的标记信息与另一语言的标记信息之间的对应关系；以及

标记转换部，该标记转换部基于所述标记转换数据库的标记转换规则，在语言之间转换单词的标记信息，

所述控制部进行控制，使得

在由所述声音识别部进行参照的识别对象词汇中包含所述其它语言的单词、且该单词具有其它语言所特有的特殊文字的标记信息的情况下，由所述标记转换部将该特殊文字的标记信息转换成所述设定语言的标记信息，由所述读音信息生成部基于所述读音信息生成规则中的所述设定语言的标记信息与读音信息之间的对应关系，根据由所述标记转换部进行转换后的所述设定语言的标记信息来生成所述设定语言的读音信息，所述声音识别部参照将根据正在输入的所述输入声音而生成的所述设定语言的读音信息以及所述声音识别词典中预先登记的所述识别对象词汇的所述识别对象语信息来进行声音识别。

5.一种声音识别装置，其特征在于，包括：

存储部，该存储部将分别对应于多种语言的多个声音识别引擎进行存储；

选定部，该选定部从所述存储部所存储的所述多个声音识别引擎中选定与作为识别对象而预先设定的语言即设定语言对应的声音识别引擎；

声音识别部，该声音识别部使用所述选定部所选定的声音识别引擎，参照识别对象语信息，对输入声音进行声音识别，该识别对象语信息具有声音识别词典中登记的识别对象词汇所包含的各识别对象语的标记信息和读音信息；以及

控制部，该控制部进行控制，使得在由所述声音识别部进行参照的识别对象词汇中包含有与所述设定语言不同的语言即其它语言的单词的情况下，由所述选定部从所述存储部所存储的所述多个声音识别引擎中暂时性地选定对应于所述设定语言的声音识别引擎以及对应于所述其它语言的声音识别引擎，所述声音识别部使用对应于所述设定语言的声音识别引擎以及该其它语言的声音识别引擎，参照所述其它语言的识别对象语信息，来进行声音识别。