CN104681026A

CN104681026A - 语音识别终端及系统、服务器及其控制方法、非易失性存储介质

Info

Publication number: CN104681026A
Application number: CN201410698396.1A
Authority: CN
Inventors: 平田真章; 户岛朗; 岩野裕利
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-11-27
Filing date: 2014-11-26
Publication date: 2015-06-03
Anticipated expiration: 2034-11-26
Also published as: US9626964B2; CN104681026B; US20150149175A1; JP6054283B2; JP2015102795A

Abstract

本发明提供一种语音识别终端及系统、服务器及其控制方法、非易失性存储介质。语音识别终端设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述语音识别终端具备：语音输入接受部，接受来自用户的语音输入；语音识别部，对语音输入接受部接受的语音输入进行语音识别；应答处理执行部，基于对语音输入接受部接受的语音输入的语音识别结果，执行对用户的应答处理；以及通信部，对服务器发送语音输入接受部接受的语音输入，接收服务器的语音识别结果。应答处理执行部基于语音识别部的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理。

Description

语音识别终端及系统、服务器及其控制方法、非易失性存储介质

技术领域

本发明涉及提供虚拟交流的语音识别终端、服务器、服务器的控制方法、语音识别系统、存储了语音识别终端的控制程序的非易失性存储介质、以及存储了服务器的控制程序的非易失性存储介质。

背景技术

作为语音识别装置，利用客户端-服务器型的语音识别系统，该系统使用由便携式终端等构成的客户端装置(也称为终端装置)、以及通过网络连接的服务器装置执行语音识别处理。

该语音识别系统中采用的方式是：在终端装置中的语音识别较为困难等情况下，将该语音识别结果输出到服务器装置，由服务器装置侧进行语音识别，从终端装置输出该结果。

发明内容

另一方面，在上述语音识别系统中，因为基于终端装置中的语音识别结果执行服务器装置中的语音识别处理，所以从服务器装置得到的语音识别结果需要花费时间，对于利用终端装置的用户而言，来自终端装置的应答输出时间变长，存在着无法顺利进行交流的问题。

按照本发明的一种方式的语音识别终端，设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述语音识别终端具备：语音输入接受部，接受来自用户的语音输入；语音识别部，对语音输入接受部接受的语音输入进行语音识别；应答处理执行部，基于对语音输入接受部接受的语音输入的语音识别结果，执行对用户的应答处理；以及通信部，对服务器发送语音输入接受部接受的语音输入，接收服务器的语音识别结果。应答处理执行部基于语音识别部的语音识别结果与从服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对用户的应答处理。

优选的是，应答处理执行部基于语音识别部的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理。

优选的是，应答处理执行部不执行基于后得到的语音识别结果的对用户的应答处理。

优选的是，语音识别对语音进行识别并计算表示该识别的准确度的可靠度，应答处理执行部，关于语音识别部的语音识别结果中包含的可靠度，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。

尤其是，应答处理执行部，关于语音识别部的语音识别结果中包含的可靠度，在先得到的语音识别结果中包含的可靠度为指定可靠度以下的情况下，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。

优选的是，还包括动作模式切换部，基于对输入到语音输入接受部的语音输入的语音识别结果，切换服务器模式和普通模式，在服务器模式下，语音识别终端按照服务器的指示进行动作，在普通模式下，语音识别终端选择性地利用服务器的指示进行动作。

尤其是，应答处理执行部在服务器模式的情况下，使语音识别部的语音识别结果无效。

按照本发明的一种方式的服务器，设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述服务器具备：语音输入接收部，经由语音识别终端接收来自用户的语音输入；语音识别部，对语音输入接收部接收的语音输入进行语音识别；以及应答处理执行指示部，基于对语音输入接收部接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理，其中，应答处理执行指示部指示语音识别终端从普通模式切换为服务器模式，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。

优选的是，应答处理执行指示部，作为对语音输入接收部接受的语音输入的语音识别结果，判断是否是来自用户的指定信息的询问的请求，在判断为是指定信息的询问的请求的情况下，判断是否登记有用于取得该指定信息的数据，基于判断结果，在未登记用于取得该指定信息的数据的情况下，指示执行促使用户输入数据的应答处理。

按照本发明的一种方式的服务器的控制方法中，服务器设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述控制方法包括：经由语音识别终端接收来自用户的语音输入的步骤；对接收的语音输入进行语音识别的步骤；以及基于对接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理的步骤，其中，指示执行应答处理的步骤包括：指示从普通模式切换为服务器模式的步骤，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。

按照本发明的一种方式的语音识别系统具备：服务器，能够进行识别语音的语音识别；以及语音识别终端，设置为能够与服务器通信。语音识别终端包括：语音输入接受部，接受来自用户的语音输入；语音识别部，对语音输入接受部接受的语音输入进行语音识别；应答处理执行部，基于对语音输入接受部接受的语音输入的语音识别结果，执行对用户的应答处理；以及通信部，对服务器发送语音输入接受部接受的语音输入，接收服务器的语音识别结果。应答处理执行部基于语音识别部的语音识别结果与从服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对用户的应答处理。

按照本发明的一种方式的非易失性存储介质存储在语音识别终端的计算机中执行的控制程序，该语音识别终端设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述控制程序使所述计算机执行如下步骤：接受来自用户的语音输入的步骤；对接受的语音输入进行语音识别的步骤；基于对接受的语音输入的语音识别结果，执行对用户的应答处理的步骤；以及对服务器发送接受的语音输入，接收服务器的语音识别结果的步骤。执行应答处理的步骤包括：根据基于进行语音识别的步骤的语音识别结果与从服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对用户的应答处理的步骤。

按照本发明的一种方式的非易失性存储介质存储在服务器的计算机中执行的控制程序，该服务器设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述控制程序使计算机执行如下步骤：经由语音识别终端接收来自用户的语音输入的步骤；对接收的语音输入进行语音识别的步骤；以及基于对接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理的步骤。指示执行应答处理的步骤包括：指示从普通模式切换为服务器模式的步骤，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。

按照本发明的一种方式的语音识别终端的控制方法，该语音识别终端设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述控制方法包括：接受来自用户的语音输入；对接受的语音输入进行语音识别；基于对接受的语音输入的语音识别结果，执行对用户的应答处理；以及对服务器发送接受的语音输入，接收服务器的语音识别结果。执行应答处理包括：基于对接受的语音输入的语音识别结果与从服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对用户的应答处理。

优选的是，执行应答处理包括：基于对接受的语音输入的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理。

优选的是，执行应答处理包括：不执行基于后得到的语音识别结果的对用户的应答处理。

优选的是，进行语音识别包括：对语音进行识别并计算表示该识别的准确度的可靠度，并且执行应答处理包括：关于对接受的语音输入的语音识别结果中包含的可靠度，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。

优选的是，执行应答处理包括：关于对接受的语音输入的语音识别结果中包含的可靠度，在先得到的语音识别结果中包含的可靠度在指定可靠度以下的情况下，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。

优选的是，还包括：基于对接受的语音输入的语音识别结果，切换服务器模式和普通模式，在服务器模式下，语音识别终端按照服务器的指示进行动作，在普通模式下，语音识别终端选择性地利用服务器的指示进行动作。

优选的是，执行应答处理包括：在服务器模式的情况下，使对接受的语音输入的语音识别结果无效。

根据结合附图进行理解的与本发明有关的如下详细说明，本发明的上述及其他目的、特征、方式以及优点变得更为明确。

附图说明

图1是说明基于本实施方式的语音识别系统1的图。

图2是说明本实施方式的语音识别系统1的主要结构的图。

图3是说明基于本实施方式的发话内容数据库的图。

图4是表示基于实施方式1的语音识别系统1中的应答处理流程的时序图。

图5是执行基于本实施方式1的清洁机器人10的语音识别处理的流程图。

图6是执行基于本实施方式2的清洁机器人10的语音识别处理的流程图。

图7是说明基于本实施方式2的可靠度判定处理的流程图。

图8是说明基于本实施方式3的发话内容数据库232的图。

图9是说明基于本实施方式3的多个动作模式的图。

图10是说明基于本实施方式3的普通辞典的图。

图11是说明基于本实施方式3的词语接龙辞典的图。

图12是说明基于本实施方式3的状态存储部233中存储的信息的图。

图13是表示基于实施方式3的语音识别系统1中的词语接龙游戏开始的应答处理流程的时序图。

图14是表示基于实施方式3的语音识别系统1中的词语接龙游戏结束的应答处理(其一)的流程的时序图。

图15是表示基于实施方式3的语音识别系统1中的词语接龙游戏结束的应答处理(其二)的流程的时序图。

图16是表示基于实施方式3的语音识别系统1中的词语接龙游戏结束的应答处理(其三)的流程的时序图。

图17是执行基于本实施方式3的服务器20的语音识别处理的流程图。

图18是说明基于本实施方式4的邮政编码辞典和是/不是辞典的图。

图19是表示基于实施方式4的语音识别系统1中的取得天气信息(其一)的应答处理流程的时序图。

图20是表示基于实施方式4的语音识别系统1中的取得天气信息(其二)的应答处理流程的时序图。

图21是执行基于本实施方式4的服务器20的语音识别处理的流程图。

图22是基于本实施方式4的决定回答短句的处理的子流程图。

图23是说明基于本实施方式5的服务器的结构的图。

具体实施方式

以下，参考附图说明本实施方式。在实施方式的说明中提到个数和量等时，除了特别记载的情况以外，本发明的范围不一定限定于该个数和该量等。在实施方式的说明中，对同一部件和相应部件标注同一参考编号，有时不反复进行重复说明。只要没有特别限制，从最初起便预定适当组合并使用实施方式所示的结构。

实施方式1

语音识别系统1的结构

图1是说明基于本实施方式的语音识别系统1的图。

参考图1，基于本实施方式的语音识别系统1由清洁机器人(语音识别终端)10、网络5、以及服务器20构成。

清洁机器人10设置为能够经由网络5与服务器20通信。此外，本例中说明经由网络5与服务器20通信的情况，但也可以采用清洁机器人10与服务器20直接通信的方式。

在语音识别系统1中，清洁机器人10接受人类(用户)发出的语音输入时，清洁机器人10或服务器20进行语音识别，从清洁机器人10输出表示对输入了的语音的应答内容的语音(以后也记为“应答语音”)。

由此，本实施方式的语音识别系统1实现用户与清洁机器人10的虚拟会话。

此外，本实施方式中，作为语音识别终端的一例，举例说明识别语音并对用户输出应答语音的清洁机器人10，但本发明不限于此。例如，作为语音识别终端，还能够采用具有语音识别功能的玩偶、清洁机器人10以外的家电(例如电视机、微波炉等)等。

另外，本实施方式中，举例说明服务器20由一个服务器实现的结构，但本发明不限于此，也可以采用由其它服务器实现服务器20具备的各部件(各功能)中的至少一部分的结构。

语音识别系统1的主要结构

图2是说明本实施方式的语音识别系统1的主要结构的图。

参考图2，首先说明清洁机器人10的结构。

基于本实施方式的清洁机器人10包括通信部101、控制部102、麦克风103、扬声器104、清洁部105、驱动部106、显示部108、以及存储部109。

通信部101与外部进行通信。具体而言，通信部101经由例如因特网等网络5与服务器20进行通信。此外，可以进行无线或有线中的任一种通信。

麦克风103从外部接受声音输入。此外，本实施方式中，表示麦克风103接受输入的声音的声音数据中，主要说明接受人类所发语音的频带中包含的声音数据(以后也称为语音数据)的输入的情况，但也可以包括包含语音数据频带以外的频带的声音数据。麦克风103将表示输入的声音的语音数据输出到控制部102。

扬声器104输出应答语音，该应答语音表示从控制部102输出的应答内容。以后，将清洁机器人10经由扬声器104进行的应答语音输出也记为“发话”。此外，关于应答内容的详细情况在后面进行描述。

清洁部105基于来自控制部102的指示，实现作为清洁机的功能。

驱动部106基于来自控制部102的指示移动清洁机器人10。

通过清洁部105以及驱动部106的共同动作，清洁机器人10能够自动进行房间的清洁。

显示部108按照来自控制部102的指示，实现各种显示功能。

存储部109是RAM(Random Access Memory，随机存取存储器)以及闪速存储器等存储装置，存储有用于实现清洁机器人10的各种功能的程序等。另外，存储部109作为一例具有发话内容数据库120，该数据库120是与语音应答的输出有关的信息。

控制部102主要由CPU(Central Processing Unit，中央处理单元)构成，通过由该CPU执行存储部109中存储的程序，来实现各部件的功能。

控制部102统一控制清洁机器人10的各个部件。具体而言，控制部102通过控制清洁部105以及驱动部106，控制清洁机器人10的清洁动作。另外，控制部102将表示通过麦克风103从外部取得的声音的语音数据，经由通信部101发送到服务器20。

另外，控制部102对于已发送给服务器20的语音数据，经由通信部101接收通过服务器20的语音识别得到的语音识别结果数据。并且，控制部102按照接收了的语音识别结果数据，能够从扬声器104输出表示应答内容的语音应答。

对控制部102的主要功能结构进行说明。控制部102包括语音识别部111、应答处理执行部112、动作模式切换部113、以及语音输入接受部114。

语音输入接受部114检测(提取)语音数据。更详细而言，语音输入接受部114在自外部接收了的声音数据中提取人类所发语音的频带，由此检测语音数据。

作为语音输入接受部114的从声音数据中检测语音数据的方法，例如能够举出通过从声音数据中提取人类所发语音的频带(例如100Hz以上且1kHz以下的频带)来检测语音数据的方法。在此情况下，语音输入接受部114为了从声音数据中提取人类所发语音的频带，例如可以具备带通滤波器、或者组合了高通滤波器以及低通滤波器的滤波器等。

语音输入接受部114将从声音数据中检测出的语音数据输出到语音识别部111，同时经由通信部101发送到服务器20。

语音识别部111作为识别内容，识别由语音输入接受部114接受了的语音数据所表示的语音的内容(语音内容)。并且，语音识别部111将从语音数据中识别的语音内容的识别结果输出到应答处理执行部112。

此外，语音识别部111还能够计算表示识别的准确度(表示正确性的程度)的可靠度，该识别是作为语音内容的识别结果(语音识别结果)得到的识别，具体情况后述。

此外，在假设识别准确度的最小值为“0”，最大值为“1”的情况下，例如，可靠度高的情况可以是“0.6”以上的情况，但本发明并不限定于这些值。

此外，作为语音识别部111中的语音识别结果的可靠度的判定方法，例如能够使用如下判定方法：判定预先准备的、表示指定的多个语句(短句，phrase)的语音波形模型(声学模型)与语音数据所表示的波形的一致度，将最高的一致度作为可靠度。此外，本判定方法不限于此，例如还能够使用模式匹配等。

应答处理执行部112基于语音识别部111的语音内容的识别结果，决定应答内容。具体而言，应答处理执行部112参考存储部109中存储的发话内容数据库120，决定对语音数据所表示的语音内容的应答内容。应答处理执行部112基于语音识别部111的语音内容识别结果决定应答内容后，基于所决定的应答内容，作为一例，经由扬声器104对用户发话。另外，应答处理执行部112能够基于经由通信部101从服务器20发送的作为语音识别的识别结果的语音识别结果数据，作为一例，经由扬声器104对用户发话。

动作模式切换部113执行清洁机器人10具有的多个动作模式的切换。关于动作模式的切换，在后面进行描述。

接着，说明基于本实施方式的服务器20的结构。基于本实施方式的服务器20包括通信部201、控制部202、以及存储部203。

通信部201与外部进行通信。具体而言，通信部201经由例如因特网等网络5与清洁机器人10进行通信。此外，可以进行无线或有线中的任一种通信。

存储部203是RAM(Random Access Memory，随机存取存储器)以及闪速存储器等存储装置，存储有用于实现服务器20的各种功能的程序等。另外，存储部203作为一例具有：发话内容数据库232，该数据库232是与语音应答的输出有关的信息；以及状态存储部233，存储清洁机器人10的状态。

控制部202主要由CPU(Central Processing Unit，中央处理单元)构成，通过由该CPU执行存储部203中存储的程序，来实现各部件的功能。

控制部202统一控制服务器20的各个部件。具体而言，控制部202对于经由通信部201从清洁机器人10接收了的语音数据，将进行了语音识别的结果作为语音识别结果数据，经由通信部201输出到清洁机器人10。

接着，对服务器20的控制部202的主要功能结构进行说明。控制部202具有语音输入接收部221、语音识别部222、以及应答处理执行指示部224。

语音输入接收部221经由通信部201接收从清洁机器人10发送的语音数据。

语音识别部222作为识别内容，识别由语音输入接收部221接收了的语音数据所表示的语音的内容(语音内容)。并且，语音识别部222将从语音数据中识别的语音内容的识别结果输出到应答处理执行指示部224。

此外，语音识别部222还能够计算表示识别的准确度(表示正确性的程度)的可靠度，该识别是作为语音内容的识别结果(语音识别结果)得到的识别，具体情况后述。

此外，在假设可靠度的最小值为“0”，最大值为“1“的情况下，例如，可靠度高的情况可以是“0.6”以上的情况，但本发明并不限定于这些值。

此外，作为语音识别部222中的语音识别结果的可靠度的判定方法，例如能够使用如下判定方法：判定预先准备的、表示指定的多个语句(短句)的语音波形模型(声学模型)与语音数据所表示的波形的一致度，将最高的一致度作为可靠度。此外，本判定方法不限于此，例如还能够使用模式匹配等。

应答处理执行指示部224基于语音识别部222的语音内容的识别结果，决定应答内容。具体而言，应答处理执行指示部224参考存储部203中存储的发话内容数据库232，决定对语音数据所表示的语音内容的应答内容。此外，关于存储部203中存储的数据库的详细情况在后面进行描述。

应答处理执行指示部224基于语音识别部222的语音内容识别结果决定应答内容后，包含表示作为语音识别结果数据决定的应答内容的应答内容数据，经由通信部201发送给清洁机器人10，上述语音识别结果数据是语音识别的识别结果。

另外，应答处理执行指示部224根据需要执行清洁机器人10具有的多个动作模式的切换指示。关于动作模式的切换指示，在后面进行描述。

发话内容数据库

图3是说明基于本实施方式的发话内容数据库的图。

参考图3，作为一例，该发话内容数据库120存储在基于本实施方式的清洁机器人10所具备的存储部109中。

具体而言，发话内容数据库120中，识别内容(识别短句)与应答内容(回答短句)关联登记。

在此，回答短句与识别短句关联存储，作为识别短句，例如有“好累”、“困了”、“我回来了”、“今天挨骂了”、“今天和别人吵架了”、“我出门了”。例如，示出回答短句“真是够呛啊”与识别短句“好累”关联登记的情况。

另外，作为识别短句，也可以登记控制命令。本例中，作为一例，与“打扫卫生”对应，关联存储了回答短句“开始清洁”。在此，“开始清洁”是指针对清洁机器人10的、指示开始清洁功能的命令。据此，清洁机器人10开始由清洁部105执行的清洁。

此外，在对于相同的识别短句有多个回答短句的情况下，从多个回答短句中随机选择回答短句。此外，也可以附加优先级以进行选择。通过设置该多个回答短句，不会成为模式化的应答内容，能够实现与用户之间的顺利的交流。

本例中，清洁机器人10和服务器20中均设置发话内容数据库120、232。并且，在各个装置中并行执行语音识别处理，较快得出语音识别结果的装置优先执行应答处理。此外，本例中，作为一例，服务器20的发话内容数据库232中至少包含了清洁机器人10的发话内容数据库120的信息。

应答处理

如图4所示，用户对清洁机器人10发话(也称为用户发话)(时序sq0)。

清洁机器人10对于用户发话，接受语音的输入(时序sq1)。具体而言，语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq2)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq3)。具体而言，语音输入接收部221经由通信部201接收语音数据，并输出到语音识别部222。并且，语音识别部222对语音内容进行识别。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq4)。具体而言，语音识别部222将语音内容的识别结果输出到应答处理执行指示部224。应答处理执行指示部224决定对语音内容的应答内容，并将包含了表示应答内容的应答内容数据的语音识别结果数据，经由通信部201发送给清洁机器人10。

另一方面，清洁机器人10在时序sq1之后执行语音数据的语音识别(时序sq5)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10执行语音应答处理(时序sq6)。

具体而言，应答处理执行部112基于从语音识别部111输出的语音内容识别结果、或者从服务器20发送的语音识别结果数据，经由扬声器104对用户应答(发话)。

也就是说，本实施方式1中，清洁机器人10执行基于语音识别部111的语音内容识别结果的应答处理、或者基于服务器20的语音识别部222的语音内容识别结果即语音识别结果数据的应答处理，本例中，优先执行较早的应答处理。

具体而言，清洁机器人10在语音识别部111的语音内容识别结果早于从服务器20发送的语音识别结果数据得到的情况下，优先选择该语音识别部111的语音内容识别结果，执行应答处理。另一方面，在从服务器20发送的语音识别结果数据早于语音识别部111的语音内容识别结果得到的情况下，优先选择该语音识别结果数据，执行应答处理。此外，对于较晚的识别结果，不执行应答处理，由此能够避免重复的应答处理。

根据上述结构，本实施方式1中，在清洁机器人10和服务器20中并行执行语音识别，处理较快的一方优先，使用最早的处理结果执行应答处理。这样，在清洁机器人10中的语音识别结果之后，服务器中不执行语音识别处理，将各装置中分别进行了语音识别的最早的语音识别结果用于应答处理，因此能够缩短来自清洁机器人10的应答输出时间，在对用户不产生负担的情况下进行顺利的交流。

流程图

参考图5，该流程图是执行存储部109中存储的程序以使控制部102的各部件发挥功能而执行的处理。

首先，控制部102判断是否有语音输入(步骤S1)。具体而言，语音输入接受部114判断是否经由麦克风103检测出了语音数据。

在步骤S1中，控制部102待机到有语音输入为止(步骤S1中“否”)，在判定为有语音输入的情况下(步骤S1中“是”)，将输出标志设定为关闭(off)(步骤S2)。具体而言，语音输入接受部114在判断为检测出语音数据的情况下，重置表示已执行输出处理的标志值。例如，在标志值为“1”的情况下，设定为初始值“0”。该输出标志是用于避免来自清洁机器人10的重复应答处理的数据，可以存储在存储部109的指定区域中。

接着，控制部102将语音数据发送到服务器20(步骤S3)。具体而言，语音输入接受部114经由通信部101将检测出的语音数据发送到服务器20。

接着，控制部102执行语音识别(步骤S4)。具体而言，语音识别部111对于由语音输入接受部114检测出的语音数据，对语音内容进行识别。并且，语音识别部111在语音识别完成的情况下，将语音识别结果输出到应答处理执行部112。

接着，控制部102判断语音识别是否完成(步骤S5)。具体而言，应答处理执行部112判断是否从语音识别部111收到了语音识别结果的输出。

在步骤S5中控制部102判断为语音识别处理完成的情况下(步骤S5中“是”)，判断是否有识别短句(步骤S6)。具体而言，应答处理执行部112判断是否有依据从语音识别部111收到的语音识别结果的识别短句。也就是说，参考发话内容数据库120(图3)，判断是否登记了与识别内容对应的识别短句。

在步骤S6中控制部102判断为有识别短句的情况下(步骤S6中“是”)，决定回答短句(步骤S7)。具体而言，应答处理执行部112参考发话内容数据库120(图2)，决定与识别短句对应的回答短句。

接着，控制部102执行输出处理(步骤S8)。具体而言，应答处理执行部112作为一例，指示扬声器104发出回答短句的应答内容。

接着，控制部102将输出标志设定为打开(on)(步骤S9)。具体而言，应答处理执行部112作为一例，将存储部109的指定区域中存储的输出标志设定为“1”。

另一方面，在步骤S6中控制部102判断为无识别短句的情况下(步骤S6中“否”)，跳过步骤S7～S9，进入步骤S10。

接着，控制部102判断是否接收了语音识别结果数据(步骤S10)。具体而言，应答处理执行部112判断是否经由通信部101从服务器20接收了语音识别结果数据。

在步骤S10中，控制部102待机到接收语音识别结果数据为止(步骤S10中“否”)，在判定为接收了语音识别结果数据的情况下(步骤S10中“是”)，接着判断输出标志是否为打开(“1”)(步骤S11)。

具体而言，应答处理执行部112在判断为接收了来自服务器20的语音识别结果数据的情况下，确认存储在指定区域中的输出标志，判断输出标志是否设定为“1”。

在步骤S11中控制部102判断为输出标志为打开(“1”)的情况下(步骤S11中“是”)，执行取消处理(步骤S14)。具体而言，应答处理执行部112在输出标志设定为“1”的情况下将来自服务器20的语音识别结果数据作为无效进行处理。

并且，控制部102结束处理(结束)。也就是说，根据该取消处理，由于输出标志已经设定为“1”，输出处理已完成，因此能够不执行重复的应答处理。

另一方面，在步骤S11中控制部102判断为输出标志不是打开(“1”)的情况下(步骤S11中“否”)，执行输出处理(步骤S12)。具体而言，应答处理执行部112在输出标志未设定为“1”，即设定为“0”的情况下，基于语音识别结果数据中包含的应答内容数据，作为一例，指示扬声器104发出回答短句的应答内容。

并且，接着，控制部102将输出标志设定为打开(“1”)(步骤S13)。具体而言，应答处理执行部112作为一例，将存储部109的指定区域中存储的输出标志设定为“1”。

并且，控制部102结束处理(结束)。

另一方面，在步骤S5中，控制部102判断为语音识别处理未完成的情况下(步骤S5中“否”)，判断是否接收了语音识别结果数据(步骤S15)。具体而言，应答处理执行部112判断是否经由通信部101接收了来自服务器20的语音识别结果数据。

在步骤S15中控制部102判断为接收了语音识别结果数据的情况下(步骤S15中“是”)，执行输出处理(步骤S16)。具体而言，应答处理执行部112基于语音识别结果数据中包含的应答内容数据，作为一例，指示扬声器104发出回答短句的应答内容。

并且，接着，控制部102将输出标志设定为打开(“1”)(步骤S17)。具体而言，应答处理执行部112作为一例，将存储部109的指定区域中存储的输出标志设定为“1”。

接着，控制部102判断语音识别是否完成(步骤S18)。具体而言，应答处理执行部112判断是否从语音识别部111收到了语音识别结果的输出。

在步骤S18中，控制部102待机到语音识别完成为止(步骤S18中“否”)，在判断为语音识别完成的情况下(步骤S18中“是”)，执行取消处理(步骤S19)。具体而言，应答处理执行部112将来自语音识别部111的语音识别结果的输出作为无效进行处理。

另一方面，在步骤S15中，控制部102判断为未接收语音识别结果数据的情况下(步骤S15中“否”)，返回步骤S5，判断语音识别处理是否完成(步骤S5)。以后的处理与上述说明的相同。

利用该处理，清洁机器人10能够在语音识别部111的语音内容识别结果早于从服务器20发送的语音识别结果数据得到的情况下，优先选择该语音识别部111的语音内容识别结果，执行应答处理，在从服务器20发送的语音识别结果数据早于语音识别部111的语音内容识别结果得到的情况下，优先选择该语音识别结果数据，执行应答处理。

此外，本例中，作为应答处理的一例，说明了清洁机器人10基于语音识别结果发话的情况，但并不限于发话(语音应答)，也可以执行其它应答处理，例如执行显示或行驶动作等其它应答处理。

此外，本例中，在判断为无识别语句的情况下(步骤S6中“否”)，说明清洁机器人10不进行任何输出地进入步骤S10的情况，但在其它方式下，在接收来自服务器20的语音识别结果数据之前的期间内，清洁机器人10例如可以发出“嗯……”等过渡性的语音，或者执行其它应答处理。另外，设想在基于来自服务器20的语音识别结果数据执行应答处理的情况下，与基于清洁机器人10的语音内容识别结果的应答处理相比，更加花费时间。这样，通过使清洁机器人10发出“嗯……”等语音或者执行其它应答处理，能够减轻给用户带来的不适感，使用户对清洁机器人10产生亲近感。也就是说，能够实现更加顺利的交流。例如，在步骤S10中等待接收来自服务器20的语音识别结果数据的情况下(步骤S10中“否”)，清洁机器人10可以每隔一定时间执行一次这种发出过渡性语音等的应答处理。这种应答处理既可以是预先确定的应答，也可以是从一些模式中选择的应答，另外，该选择可以是随机选择。

从应答速度方面考虑，这种发出过渡性语音等的应答处理优选由清洁机器人10执行，但也可以采用根据服务器20的指示执行的方式。具体而言可以采用如下结构，即在图13的时序图的时序sq12中，服务器20接收了来自清洁机器人10的语音数据时，由服务器20指示清洁机器人10执行该发出过渡性语音等的应答处理。此外，对于以下方式也同样能够适用。

实施方式2

上述实施方式1中，说明了基于语音识别部111的语音内容识别结果和从服务器20发送的语音识别结果数据中的较早的任一识别结果来执行应答处理的方式。另一方面，关于由清洁机器人10和服务器20执行的语音识别，还考虑从服务器20得到的语音识别结果在精度方面较为合适的情况。

本实施方式2中，说明基于可靠度执行合适的应答处理的情况，该可靠度表示作为语音识别结果得到的识别的准确度(准确性的程度)。作为一例，可靠度能够用值“0～1”表示，越接近“1”，则可靠度越高。

参考图6，该流程图是执行存储部109中存储的程序以使控制部102的各部件发挥功能而执行的处理。

与图5的流程图相比，不同之处在于代替步骤S14而设置了步骤S20。其它地方相同，因而不重复进行其详细说明。

在步骤S11中控制部102判断为输出标志为打开的情况下(步骤S11中“是”)，执行可靠度判定处理(步骤S20)。具体而言，应答处理执行部112在输出标志设定为打开(“1”)的情况下，执行判定语音识别的识别准确度(可靠度)的处理。

图7是说明基于本实施方式2的可靠度判定处理的流程图。参考图7，该处理是应答处理执行部112进行的处理。

首先，应答处理执行部112判定输出了的语音识别结果中包含的可靠度是否大于阈值α(步骤S21)。作为一例，阈值α采用“0.6”。此外，该阈值为一例，当然也可以设定为其它值。

接着，在步骤S21中应答处理执行部112判断为输出了的语音识别结果中包含的可靠度大于阈值α的情况下(步骤S21中“是”)，执行取消处理(步骤S22)。

并且，应答处理执行部112结束处理(结束)。具体而言，应答处理执行部112在输出标志设定为“1”，并且输出了的语音识别结果中包含的可靠度大于阈值α的情况下，将来自服务器20的语音识别结果数据作为无效进行处理。

另一方面，在步骤S21中应答处理执行部112判定为输出了的语音识别结果中包含的可靠度不大于阈值α即在阈值α以下的情况下(步骤S21中“否”)，判定输出了的语音识别结果中包含的可靠度是否在语音识别结果数据中包含的可靠度以上(步骤S23)。

在步骤S23中应答处理执行部112判断为输出了的语音识别结果中包含的可靠度在语音识别结果数据中包含的可靠度以上的情况下(步骤S23中“是”)，执行取消处理(步骤S22)。

并且，应答处理执行部112结束处理(结束)。具体而言，应答处理执行部112在输出标志设定为“1”，并且输出了的语音识别结果中包含的可靠度在阈值α以下，另外将输出了的语音识别结果中包含的可靠度与语音识别结果数据中包含的可靠度相比，输出了的语音识别结果中包含的可靠度在语音识别结果数据中包含的可靠度以上的情况下，将来自服务器20的语音识别结果数据作为无效进行处理。

另一方面，在步骤S23中应答处理执行部112判断为输出了的语音识别结果中包含的可靠度不足语音识别结果数据中包含的可靠度的情况下(步骤S23中“否”)，执行再次输出处理(步骤S24)。具体而言，基于语音识别结果数据中包含的应答内容数据，作为一例，指示扬声器104发出回答短句的应答内容。此外，扬声器104此时可以发出“再说一次”这一表示再次应答的话语，并且发出应答内容。

并且，应答处理执行部112结束处理(结束)。

利用该处理，清洁机器人10在输出了的语音识别结果的可靠度低的情况下，在随后接收的语音识别结果数据的可靠度较高的情况下，执行再次输出处理。据此，关于由清洁机器人10和服务器20执行的语音识别，在从服务器20得到的语音识别结果较为合适的情况下，执行再次输出处理，由此能够在不给用户带来负担的情况下执行顺利的交流。

此外，本例中说明了在输出了的语音识别结果的可靠度低的情况下，在随后接收的语音识别结果数据的可靠度较高的情况下执行再次输出处理的情况，但也可以采用如下结构：例如删除图7的步骤S21，在随后接收的语音识别结果数据的可靠度比输出了的语音识别结果的可靠度高的情况下执行再次输出处理。

实施方式3

在上述实施方式1及2中，说明了清洁机器人10和服务器20分别并行执行语音识别，处理较快的一方优先，使用优先的结果执行应答处理的情况。

另一方面，根据语音识别的内容不同，还考虑由服务器20进行的处理较为合适的情况。

本实施方式中，说明在清洁机器人10具有的动作模式有普通模式和服务器模式时切换该模式的情况。

本例中的普通模式是指，清洁机器人10和服务器20分别并行执行语音识别，处理较快的一方优先，使用优先的结果执行应答处理的模式。换言之，是选择性地利用由服务器20提供的结果即指示来执行应答处理的模式。

另一方面，服务器模式是指，使服务器20的语音识别优先，使用服务器20的语音识别结果执行应答处理的模式。换言之，是按照由服务器20提供的结果即指示来执行应答处理的模式。

普通模式是利用清洁机器人10预先具有的功能的模式，例如可举出利用清洁功能或普通的发话功能的情况。

服务器模式是通过利用服务器20的功能来扩展清洁机器人10具有的普通模式的功能的模式。

作为服务器模式具有的功能的一例，基于本实施方式3的清洁机器人10能够执行“词语接龙游戏”。

对用于执行该处理的服务器模式中利用的辞典等进行说明。

图8是说明基于本实施方式3的发话内容数据库232的图。

参考图8，这里示出存储有多个语音识别辞典的情况，上述多个语音识别辞典由语音识别的结果利用。具体而言，作为一例，示出普通辞典232A、词语接龙辞典232B、邮政编码辞典232C、是/不是辞典232D。

针对清洁机器人的状态，在多个动作模式下分别切换各辞典。

图9是说明基于本实施方式3的多个动作模式的图。

参考图9，这里示出设置有普通模式和服务器模式的情况。另外，服务器模式可以进一步分为服务器模式(词语接龙)、服务器模式(邮政编码)、以及服务器模式(是/不是)。

具体而言，在普通模式的情况下，清洁机器人使用普通辞典作为语音识别辞典。

普通辞典中，登记有使清洁机器人工作的一般短句，登记有与该短句对应的回答短句或控制短句等。

在服务器模式(词语接龙)的情况下，使用词语接龙辞典。

词语接龙辞典中，登记有用于进行词语接龙游戏的短句和控制短句。例如，在词语接龙的情况下，作为短句登记“SUGAR”、“RICE”，作为控制短句登记“词语接龙结束”等。

在服务器模式(邮政编码)的情况下，使用邮政编码辞典。例如，作为短句登记“1”、“2”、“3”，作为控制短句登记“设定结束”等。

在服务器模式(是/不是)的情况下，使用是/不是辞典。例如，作为短句登记“是”、“不是”，作为控制短句登记“设定结束等”。

对各辞典具体进行说明。

普通辞典

图10是说明基于本实施方式3的普通辞典的图。

参考图10，相互关联地登记有识别内容(识别短句)、应答内容(回答短句)、以及状态。

作为一例，这里与作为识别短句的“玩词语接龙吧”、“打扫卫生”、“今天的天气是什么”等相对应，关联存储了回答短句。

例如，示出与识别短句“玩词语接龙吧”相对应，关联登记了回答短句“开始词语接龙喽。SUGAR”和“服务器模式变更”的情况。并且，示出状态中关联登记服务器模式(词语接龙)的情况。

在此，“服务器模式变更”是指，指示将清洁机器人10的动作模式从普通模式变更为服务器模式的命令。

另外，状态为服务器模式(词语接龙)是指，将服务器20中的清洁机器人10的状态设定为服务器模式(词语接龙)。通过设定该清洁机器人10的状态，在接收了来自清洁机器人10的语音数据输入的情况下，能够变更为合适的语音识别辞典。

另外，示出回答短句“开始清洁”与识别短句“打扫卫生”关联登记的情况。

在此，“开始清洁”是指针对清洁机器人10的、指示开始清洁功能的命令。据此，清洁机器人10开始由清洁部105执行的清洁。

另外，对于识别短句“今天的天气是什么”，关联登记两种回答短句。具体而言，分为有邮政编码登记和无邮政编码登记的情况。在有邮政编码登记(有登记)的情况下，作为回答短句，回答根据所登记的邮政编码确定的天气信息。另一方面，示出在无邮政编码登记(无登记)的情况下，关联登记“首先设定邮政编码哦。例如说，一、零、三”和“服务器模式变更”的情况。并且，示出状态中关联登记服务器模式(邮政编码)的情况。

状态为服务器模式(邮政编码)是指，将服务器20中的清洁机器人10的状态设定为服务器模式(邮政编码)。这一点在后面会进行描述，通过设定该清洁机器人的状态，在接收了来自清洁机器人10的语音数据输入的情况下，能够变更为合适的语音识别辞典。

词语接龙辞典

图11是说明基于本实施方式3的词语接龙辞典的图。

参考图11，相互关联地登记有识别内容(识别短句)、应答内容(回答短句)、以及状态。

作为一例，这里与作为识别短句的“SUGAR”、“RICE”、“词语接龙结束”、“打扫卫生”等相对应，关联存储了回答短句。

例如，示出回答短句“SUGAR是吧。RICE”与识别短句“SUGAR”关联登记的情况。另外，示出回答短句“RICE是吧。EAST”与识别短句“RICE”关联登记的情况。

另外，示出回答短句“结束词语接龙啦。”和“普通模式变更”与识别短句“词语接龙结束”关联登记的情况。并且，示出状态中关联登记普通模式的情况。

在此，“普通模式变更”是指，指示将清洁机器人10的动作模式变更为普通模式的命令。

状态为普通模式是指，将服务器20中的清洁机器人10的状态设定为普通模式。通过设定该清洁机器人10的状态，在接收了来自清洁机器人10的语音数据输入的情况下，能够变更为合适的语音识别辞典。

另外，示出回答短句“要结束词语接龙啦”、“开始清洁”、以及“普通模式变更”与识别短句“打扫卫生”关联登记的情况。并且，示出状态中关联登记普通模式的情况。

清洁机器人状态

基于本实施方式3的服务器20在状态存储部233中存储与清洁机器人10的状态有关的信息。

参考图12，这里示出管理了多个清洁机器人10的情况。具体而言，对多个清洁机器人10分别分配标识编号。作为一例，示出作为清洁机器人ID分别分配登记ID1～ID4，登记了各个清洁机器人的“清洁机器人的状态”、“邮政编码”、“上次识别时刻”的信息的情况。

“清洁机器人的状态”是与控制清洁机器人的模式有关的信息。

“邮政编码”在后面进行描述，是为了确定清洁机器人的地理位置而登记的信息。

“上次识别时刻”是在指示了对语音识别的应答处理时进行更新的时间戳，是用于在有新的语音数据输入的情况下，在从上次识别时刻起经过指定期间的情况下设定为初始状态的信息。

例如，示出对于“ID1”的清洁机器人，作为“清洁机器人的状态”、“邮政编码”、“上次识别时刻”，分别设定“普通模式”、“未设定”、“2013/11/13 17：30：05”的情况。

同样，示出对于“ID2”的清洁机器人，作为“清洁机器人的状态”、“邮政编码”、“上次识别时刻”，分别设定“服务器模式(词语接龙)”、“261-0013”、“2013/11/13 16：00：10”的情况。

同样，示出对于“ID3”的清洁机器人，作为“清洁机器人的状态”、“邮政编码”、“上次识别时刻”，分别设定“服务器模式(邮政编码)”、“未设定”、“2013/11/13 17：40：15”的情况。

同样，示出对于“ID4”的清洁机器人，作为“清洁机器人的状态”、“邮政编码”、“上次识别时刻”，分别设定“服务器模式(是/不是)”、“未设定”、“2013/11/13 17：20：14”的情况。

下面，说明基于本实施方式3的语音识别系统1的应答处理流程。首先，说明进行词语接龙游戏的情况。

词语接龙游戏开始

如图13所示，首先，清洁机器人10被设定为普通模式(时序sq10A)。

接着，有用户发话“玩词语接龙吧”(时序sq10)。

接着，清洁机器人10接受来自用户的语音输入(时序sq1)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq12)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq13)。具体而言，语音识别部222取得识别短句“玩词语接龙吧”。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，服务器20执行模式判定(时序sq12A)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定语音识别辞典的处理。

例如，在图12中说明的“ID1”的清洁机器人的情况下，“清洁机器人的状态”为“普通模式”，因此服务器20将语音识别辞典设定为“普通辞典”。另外，在“ID2”的清洁机器人的情况下，“清洁机器人的状态”为“服务器模式(词语接龙)”，因此将语音识别辞典设定为“词语接龙辞典”。在“ID3”的清洁机器人的情况下，“清洁机器人的状态”为“服务器模式(邮政编码)”，因此将语音识别辞典设定为“邮政编码辞典”。另外，在“ID4”的清洁机器人的情况下，“清洁机器人的状态”为“服务器模式(是/不是)”，因此将语音识别辞典设定为“是/不是辞典”。

本例中，作为一例，在“ID1”的清洁机器人的情况下，即为“普通模式”的情况下，服务器20将语音识别辞典设定为“普通辞典”。

接着，服务器20决定回答短句(时序sq14)。

具体而言，应答处理执行指示部224决定对语音内容的应答内容，该语音内容是从语音识别部222得到的结果。

本例中，例如，在使用图10说明的普通辞典的情况下，与识别短句“玩词语接龙吧”相对应，作为应答内容，决定回答短句“开始词语接龙喽。SUGAR”和“服务器模式变更”。本例中，作为一例，“开始词语接龙喽。SUGAR”为语音文件。此外，也可以是文本形式的文件。其它例子中也是同样。

接着，服务器20设定为服务器模式(词语接龙)(时序sq15)。

具体而言，应答处理执行指示部224将与识别短句“玩词语接龙吧”相关联的“清洁机器人的状态”设定为服务器模式(词语接龙)。应答处理执行指示部224将状态存储部233的“ID1”的“清洁机器人的状态”变更为“服务器模式(词语接龙)”。据此，能够利用下次应答时利用的合适的语音识别辞典(词语接龙辞典)。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq16)。具体而言，应答处理执行指示部224作为语音识别结果数据，将语音“开始词语接龙喽。SUGAR”和服务器模式变更指示经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq11之后执行语音数据的语音识别(时序sq17)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，语音识别部111将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10识别失败(时序sq18)。示出本例中的清洁机器人10的发话内容数据库120中未设置与识别短句“玩词语接龙吧”对应的回答短句，因此识别失败的情况。

接着，清洁机器人10将清洁机器人的状态设定为服务器模式(时序sq19)。具体而言，动作模式切换部113基于从服务器20发送的语音识别结果数据(“服务器模式变更指示”)，将普通模式变更为服务器模式。

另外，清洁机器人10基于从服务器20发送的语音识别结果数据，执行语音应答处理(时序sq20)。具体而言，应答处理执行部112再生语音识别结果数据(“开始词语接龙喽。SUGAR”)的语音文件。也就是说，清洁机器人10利用扬声器104对用户应答(发出)语音(“开始词语接龙喽。SUGAR”)(时序sq21)。

接着，按照词语接龙的规则，假设有用户发话“RICE”(时序sq22)。

接着，清洁机器人10接受来自用户的语音输入(时序sq23)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq24)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq24A)。具体而言，语音识别部222取得识别短句“RICE”。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，服务器20执行模式判定(时序sq25)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定为与状态相应的辞典的处理。本例中，利用时序sq15，服务器20的状态存储部233的“ID1”的“清洁机器人的状态”变更为“服务器模式(词语接龙)”。据此，将语音识别辞典设定为“词语接龙辞典”。

接着，服务器20决定回答短句(时序sq26)。具体而言，应答处理执行指示部224决定对语音内容的应答内容。本例中，例如，在使用图11说明的词语接龙辞典的情况下，对应于识别短句“SUGAR”，作为应答内容，决定回答短句“SUGAR是吧。RICE”。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq26A)。具体而言，应答处理执行指示部224作为语音识别结果数据，将语音文件(“RICE是吧。EAST”)经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq24之后执行语音数据的语音识别(时序sq25A)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，语音识别部111将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10识别失败(时序sq25B)。示出本例中的清洁机器人10中未设置与识别短句“RICE”对应的回答短句，因此识别失败的情况。

接着，清洁机器人10基于从服务器20发送的语音识别结果数据，执行语音应答处理(时序sq27)。具体而言，应答处理执行部112再生语音识别结果数据(“RICE是吧。EAST”)的语音文件。也就是说，清洁机器人10利用扬声器104对用户应答(发出)语音(“RICE是吧。EAST”)(时序sq28)。

接着，按照词语接龙的规则，假设有用户发话“TURTLE”(时序sq29)。以后，能够按照同样的处理执行词语接龙游戏。

这样，利用该结构，在仅在“词语接龙游戏”服务器20中设置功能的情况下，将清洁机器人10的状态从普通模式切换为服务器模式以利用服务器20的功能，由此能够扩展清洁机器人10所具有的普通模式的功能。并且，通过使服务器20的语音识别优先，能够缩短从清洁机器人10输出的应答时间，能够在不给用户带来负担的情况下进行顺利的交流。

此外，本例中说明了对用户发出的语音内容进行语音识别，基于语音识别结果将清洁机器人10的状态从普通模式变更设定为服务器模式的情况，但不必特别基于语音识别结果变更状态，也可以利用其它方法进行。具体而言，对清洁机器人10的操作部(未图示)进行用于切换为服务器模式的操作输入，由此能够将清洁机器人10从普通模式变更为服务器模式，并且通过对服务器20通知该向服务器模式的切换，能够将图12说明的清洁机器人状态变更为服务器模式。另外，不对清洁机器人10输入向服务器模式的变更指示，而是对服务器20提供指定命令，由此也能够指示从普通模式到服务器模式的变更。并且，也可以从服务器20对清洁机器人10发送服务器模式变更指示，从而从普通模式切换为服务器模式。此外，对于以下方式也同样能够适用。

词语接龙游戏结束(其一)

如图14所示，首先，清洁机器人10被设定为服务器模式(时序sq30A)。

接着，有用户发话“词语接龙结束”(时序sq30)。

接着，清洁机器人10接受来自用户的语音输入(时序sq31)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq32)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq32A)。具体而言，语音识别部222取得“词语接龙结束”作为识别短句。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，服务器20执行模式判定(时序sq33)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定为与状态相应的辞典的处理。本例中，利用时序sq15，服务器20的状态存储部233的“ID1”的“清洁机器人的状态”设定为“服务器模式(词语接龙)”。据此，服务器20将语音识别辞典设定为“词语接龙辞典”。

接着，服务器20决定回答短句(时序sq34)。具体而言，应答处理执行指示部224决定对语音内容的应答内容，该语音内容是从语音识别部222得到的结果。

本例中，例如，在使用图11说明的词语接龙辞典的情况下，对应于识别短句“词语接龙结束”，作为应答内容，决定回答短句“结束词语接龙啦”和“普通模式变更”。

接着，服务器20将清洁机器人的状态设定为普通模式(时序sq35)。具体而言，应答处理执行指示部224将与识别短句“词语接龙结束”相关联的“清洁机器人的状态”设定为普通模式。具体而言，将状态存储部233的“ID1”的“清洁机器人的状态”变更为“普通模式”。据此，能够利用下次应答时利用的合适的语音识别辞典(普通辞典)。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq36)。具体而言，应答处理执行指示部224作为语音识别结果数据，将语音“词语接龙结束啦”和普通模式变更指示经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq32之后执行语音数据的语音识别(时序sq33A)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10使识别无效(时序sq33B)。示出本例中的清洁机器人10在服务器模式的情况下使来自服务器20的指示优先，使清洁机器人10的语音识别的识别结果无效的情况。

接着，清洁机器人10将清洁机器人的状态设定为普通模式(时序sq37)。具体而言，动作模式切换部113基于从服务器20发送的语音识别结果数据(“普通模式变更指示”)，将服务器模式变更为普通模式。

另外，清洁机器人10基于从服务器20发送的语音识别结果数据，执行语音应答处理(时序sq38)。具体而言，应答处理执行部112再生语音识别结果数据(“词语接龙结束啦”)的语音文件。也就是说，清洁机器人10利用扬声器104对用户应答(发出)语音(“词语接龙结束啦”)(时序sq39)。

据此，能够结束词语接龙游戏。

此外，本例中说明了对用户发出的语音内容进行语音识别，基于语音识别结果将清洁机器人10的状态从服务器模式变更设定为普通模式的情况，但不必特别基于语音识别结果变更状态，也可以利用其它方法进行。具体而言，对清洁机器人10的操作部(未图示)进行用于切换为普通模式的操作输入，由此能够将清洁机器人10从服务器模式变更为普通模式，并且通过对服务器20通知该向普通模式的切换，能够将图12说明的清洁机器人状态变更为普通模式。另外，不对清洁机器人10输入向普通模式的变更指示，而是对服务器20提供指定命令，由此也能够指示从服务器模式到普通模式的变更。并且，也可以从服务器20对清洁机器人10发送普通模式变更指示，从而从服务器模式切换为普通模式。此外，对于以下方式也同样能够适用。

词语接龙游戏结束(其二)

在此，说明从词语接龙游戏开始起连续指定时间(作为一例，5分钟)以上无语音识别的情况。并且，说明经过指定时间以上之后有用户发话的情况。

如图15所示，首先，清洁机器人10被设定为服务器模式(时序sq40)。

接着，从上次识别起经过了5分钟以上(时序sq40A)。

并且，由于从上次识别起经过了5分钟以上，所以清洁机器人10从服务器模式变更为普通模式(时序sq41)。

并且，用户对清洁机器人10发出用户发话“打扫卫生”(时序sq42)。

接着，清洁机器人10接受来自用户的语音输入(时序sq43)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq44)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq44A)。具体而言，语音识别部222取得“打扫卫生”作为识别短句。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，服务器20执行模式判定(时序sq45)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定为与状态相应的语音识别辞典的处理。

另一方面，本例中，处于从上次识别起经过了5分钟以上的状态。在该模式判定中，参考状态存储部233中存储的上次识别时刻。并且，比较本次语音识别时刻与上次识别时刻，判定是否经过了指定时间，在判定为经过了指定时间的情况下，重置为初始状态(普通模式)。

据此，服务器20将清洁机器人的状态设定为普通模式(时序sq46)。也就是说，作为语音识别辞典，设定为“普通辞典”。具体而言，应答处理执行指示部224将状态存储部233的“ID1”的“清洁机器人的状态”变更为“普通模式”。

接着，服务器20决定回答短句(时序sq48)。具体而言，应答处理执行指示部224决定对语音内容的应答内容，该语音内容是从语音识别部222得到的结果。

本例中，例如，在使用图10说明的普通辞典的情况下，对应于识别短句“打扫卫生”，作为应答内容，决定回答短句“开始清洁”。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq49)。具体而言，应答处理执行指示部224作为语音识别结果数据，将开始清洁指示命令经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq44之后执行语音数据的语音识别(时序sq51)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，语音识别部111将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10判定为清洁功能的执行(时序sq52)。

本例中，例如，在使用图3说明的发话内容数据库的情况下，对应于识别短句“打扫卫生”，作为应答内容，决定回答短句“开始清洁”。

接着，清洁机器人10开始清洁(时序sq53)。具体而言，应答处理执行部112按照回答短句“开始清洁”，指示清洁部105指示清洁功能的执行。

此外，清洁机器人10若已完成语音识别，则取消服务器20的语音识别结果数据。另外，若来自服务器20的语音识别结果数据早于清洁机器人10的语音识别，则基于来自服务器20的语音识别结果数据(开始清洁指示命令)开始清洁(时序sq50)。

这样，在从词语接龙游戏开始起连续指定时间(作为一例，5分钟)以上无语音识别的情况下，重置为普通模式，由此能够结束词语接龙游戏。

另外，在普通模式下，清洁机器人10在语音识别部111的语音内容识别结果早于从服务器20发送的语音识别结果数据得到的情况下，优先选择该语音识别部111的语音内容识别结果，执行应答处理(清洁功能)。另一方面，在从服务器20发送的语音识别结果数据早于语音识别部111的语音内容识别结果得到的情况下，优先选择该语音识别结果数据，执行应答处理(清洁功能)。此外，对于较晚的识别结果，不执行应答处理，由此能够避免重复的应答处理(清洁功能)。

词语接龙游戏结束(其三)

在此，说明在词语接龙游戏过程中结束词语接龙游戏的情况。

如图16所示，首先，清洁机器人10被设定为服务器模式(时序sq60)。

并且，从用户发出用户发话“打扫卫生”(时序sq61)。

接着，清洁机器人10接受来自用户的语音输入(时序sq62)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq63)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq63A)。具体而言，语音识别部222取得识别短句“打扫卫生”。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，服务器20执行模式判定(时序sq64)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定为与状态相应的语音识别辞典的处理。本例中，利用时序sq15，服务器20的状态存储部233的“ID1”的“清洁机器人的状态”设定为“服务器模式(词语接龙)”。据此，服务器20将语音识别辞典设定为“词语接龙辞典”。

接着，服务器20决定回答短句(时序sq65)。具体而言，应答处理执行指示部224决定对语音内容的应答内容，该语音内容是从语音识别部222得到的结果。

本例中，例如，在使用图11说明的词语接龙辞典的情况下，对应于识别短句“打扫卫生”，作为应答内容，决定回答短句“要结束词语接龙啦”、“开始清洁”、以及“普通模式变更”。

接着，服务器20将清洁机器人的状态设定为普通模式(时序sq66)。

另外，应答处理执行指示部224将与识别短句“打扫卫生”相关联的“清洁机器人的状态”变更为普通模式。据此，能够利用下次应答时利用的合适的语音识别辞典(普通辞典)。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq67)。具体而言，应答处理执行指示部224作为语音识别结果数据，将语音“要结束词语接龙啦”、开始清洁指示命令、以及普通模式变更指示经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq63之后执行语音数据的语音识别(时序sq64A)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，语音识别部111将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10使识别无效(时序sq64B)。示出本例中的清洁机器人10在服务器模式的情况下使来自服务器20的指示优先，使清洁机器人10的语音识别的识别结果无效的情况。

接着，清洁机器人10设定为普通模式(时序sq68)。具体而言，动作模式切换部113基于从服务器20发送的语音识别结果数据(“普通模式变更指示”)，将服务器模式变更为普通模式。

另外，清洁机器人10基于从服务器20发送的语音识别结果数据，执行语音应答处理(时序sq69)。具体而言，应答处理执行部112再生语音识别结果数据(“要结束词语接龙啦”)的语音文件。也就是说，利用扬声器104对用户应答(发出)语音(“要结束词语接龙啦”)(时序sq70)。

并且，清洁机器人10接着判定为清洁功能的执行(时序sq71)。应答处理执行部112基于语音识别结果数据(开始清洁指示命令)，判定为清洁功能的执行。

接着，清洁机器人10开始清洁(时序sq72)。具体而言，应答处理执行部112按照回答短句“开始清洁”，指示清洁部105指示清洁功能的执行。

这样，在词语接龙游戏开始后，按照指定的用户发话能够结束词语接龙游戏。

流程图

参考图17，该流程图是执行存储部203中存储的程序以使控制部202的各部件发挥功能而执行的处理。

首先，控制部202判定是否接收了语音数据(步骤S30)。具体而言，语音输入接收部221判定是否接收了语音数据。

在步骤S30中，控制部202待机到有语音数据的接收为止(步骤S30中“否”)，在判定为有语音数据的接收的情况下(步骤S30中“是”)，执行语音识别(步骤S31)。具体而言，语音识别部222按照由语音输入接收部221接收的语音数据，对语音内容进行识别。并且，将语音内容的识别结果输出到应答处理执行指示部224。

接着，控制部202执行模式判定(步骤S32)。具体而言，如图12所说明的，应答处理执行指示部224确认服务器20的存储部203中存储的状态存储部233的清洁机器人10的状态。另外，判定从上次识别起是否经过了指定时间，在判定为经过了指定时间的情况下，重置为初始状态(普通模式)。

并且，控制部202接着按照取得的模式(状态)设定语音识别辞典(步骤S33)。具体而言，应答处理执行指示部224设定用于决定应答内容的语音识别辞典。

接着，控制部202判断是否有识别短句(步骤S34)。具体而言，应答处理执行指示部224判断所设定的语音识别辞典中是否包含由语音识别部222识别的识别短句。

在步骤S34中控制部202判断为有识别短句的情况下(步骤S34中“是”)，决定回答短句(步骤S35)。具体而言，应答处理执行指示部224在判断为所设定的语音识别辞典中包含由语音识别部222识别的识别短句的情况下，决定与该识别短句对应的回答短句。

并且，控制部202接着设定模式(步骤S36)。具体而言，应答处理执行指示部224在设定了与识别短句对应的模式的情况下，根据需要更新状态存储部233的模式。

并且，控制部202接着执行输出处理(步骤S37)。具体而言，应答处理执行指示部224作为语音识别结果数据，将决定的回答短句经由通信部201发送到清洁机器人10。另外，更新状态存储部233的清洁机器人10的状态的上次识别时刻。

并且，控制部202结束处理(结束)。

另一方面，在步骤S34中控制部202判断为无识别短句的情况下(步骤S34中“否”)，跳过步骤S35～S37，结束处理(结束)。具体而言，应答处理执行指示部224在判断为所设定的语音识别辞典中不包含由语音识别部222识别的识别短句的情况下，认为识别失败，结束处理。

此外，本例中，作为切换为服务器模式的情况，说明了执行“词语接龙游戏”的情况，但并不特别限定于“词语接龙游戏”，只要是优先利用服务器20的功能的处理，可以适用于任意处理。

实施方式4

在上述实施方式3中，说明了针对清洁机器人10的状态，切换多个动作模式的情况。本实施方式4中说明进一步扩展的功能。

本例中，作为一例，说明取得天气信息，由清洁机器人10发话的情况。

具体而言，说明利用服务器模式(邮政编码)、服务器模式(是/不是)的语音识别辞典(邮政编码辞典、是/不是辞典)的情况。

邮政编码辞典

参考图18(A)，关于邮政编码辞典，相互关联地登记有识别内容(识别短句)、应答内容(回答短句)、以及状态。

作为一例，这里与作为识别短句的“二、六、一”、“设定结束”等相对应，关联存储了回答短句。

例如，示出回答短句“是XXX吗？请回答是或不是。”与识别短句“二、六、一”关联登记的情况。并且，示出状态中关联登记服务器模式(是/不是)的情况。此外，“XXX”表示与识别短句相同的内容。

状态为服务器模式(是/不是)是指，将服务器20中的清洁机器人10的状态设定为服务器模式(是/不是)。服务器20通过设定该清洁机器人10的状态，在接收了来自清洁机器人10的语音数据输入的情况下，能够变更为合适的语音识别辞典。

另外，示出回答短句“结束设定啦”与识别短句“设定结束”关联登记的情况。

另外，状态为普通模式是指，将服务器20中的清洁机器人10的状态设定为普通模式。

是/不是辞典

参考图18(B)，关于是/不是辞典，相互关联地登记有识别内容(识别短句)、应答内容(回答短句)、以及状态。

作为一例，这里与作为识别短句的“是”、“不是”、“设定结束”等相对应，关联存储了回答短句。

例如，示出回答短句“登记了YYY”、“天气信息”、以及“普通模式变更”与识别短句“是”关联登记的情况。并且，示出状态中关联登记普通模式的情况。此外，“YYY”表示与登记了的邮政编码的内容相同的内容。

另外，状态为普通模式是指，将服务器20中的清洁机器人10的状态设定为普通模式。通过设定该清洁机器人10的状态，在接收了来自清洁机器人10的语音数据输入的情况下，能够变更为合适的语音识别辞典。

另外，示出回答短句“再说一次吧”与识别短句“不是”关联登记的情况。

另外，状态为服务器模式(邮政编码)是指，将服务器20中的清洁机器人10的状态设定为服务器模式(邮政编码)。通过设定该清洁机器人10的状态，在接收了来自清洁机器人10的语音数据输入的情况下，能够变更为合适的语音识别辞典。

取得天气信息

如图19所示，首先，清洁机器人10被设定为普通模式(时序sq80)。

接着，从用户发出用户发话“今天的天气是什么”(时序sq81)。

接着，清洁机器人10接受来自用户的语音输入(时序sq82)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq83)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq83A)。具体而言，语音识别部222取得识别短句“今天的天气是什么”。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，服务器20执行模式判定(时序sq84)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定为与状态相应的语音识别辞典的处理。本例中，作为一例，在“ID1”的清洁机器人的情况下，即为“普通模式”的情况下，服务器20设定为“普通辞典”。

接着，服务器20确认无登记(时序sq86)。具体而言，应答处理执行指示部224决定对语音内容的应答内容，该语音内容是从语音识别部222得到的结果。

本例中，例如，在使用图10说明的普通辞典的情况下，对应于识别短句“今天的天气是什么”，设置两种方式作为回答短句。具体而言，分为有邮政编码登记的情况下的“有登记：天气信息”和无邮政编码登记的情况下的“无登记：首先设定邮政编码哦。例如说，一、零、三”。

这样，应答处理执行指示部224确认是否设定了状态存储部233中存储的清洁机器人10的邮政编码。并且，本例中，应答处理执行指示部224作为一例，确认“未设定”即无登记。

接着，服务器20决定回答短句(时序sq86A)。

具体而言，例如，在使用图10说明的普通辞典的情况下，应答处理执行指示部224对应于识别短句“今天的天气是什么”的无登记，作为应答内容，决定回答短句“首先设定邮政编码哦。例如说，一、零、三”和“服务器模式变更”。

接着，服务器20将清洁机器人的状态设定为服务器模式(邮政编码)(时序sq87)。具体而言，应答处理执行指示部224将与识别短句“今天的天气是什么”相关联的“清洁机器人的状态”设定为服务器模式(邮政编码)。作为一例，应答处理执行指示部224将状态存储部233的“ID1”的“清洁机器人的状态”变更为“服务器模式(邮政编码)”。据此，服务器20能够利用下次应答时利用的合适的语音识别辞典(邮政编码辞典)。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq90)。具体而言，应答处理执行指示部224作为语音识别结果数据，将语音“首先设定邮政编码哦。例如说，一、零、三”和服务器模式变更指示经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq83之后执行语音数据的语音识别(时序sq88)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，语音识别部111将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10识别失败(时序sq89)。示出本例中的清洁机器人10的发话内容数据库120中未设置与识别短句“今天的天气是什么”对应的回答短句，因此识别失败的情况。

接着，清洁机器人10将模式设定为服务器模式(时序sq91)。具体而言，动作模式切换部113基于从服务器20发送的语音识别结果数据(“服务器模式变更指示”)，将普通模式变更为服务器模式。

另外，清洁机器人10基于从服务器20发送的语音识别结果数据，执行语音应答处理(时序sq92)。具体而言，应答处理执行部112再生语音识别结果数据(“首先设定邮政编码哦。例如说，一、零、三”)的语音文件。也就是说，利用扬声器104对用户应答(发出)语音(“首先设定邮政编码哦。例如说，一、零、三”)(时序sq93)。

接着，按照邮政编码的设定方式，假设有用户发话“二、六、一”(时序sq94)。

接着，清洁机器人10接受来自用户的语音输入(时序sq95)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq96)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq96A)。具体而言，语音识别部222取得识别短句“二、六、一”。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，服务器20执行模式判定(时序sq97)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定为与状态相应的辞典的处理。本例中，利用时序sq87，服务器20的状态存储部233的“ID1”的“清洁机器人的状态”变更为“服务器模式(邮政编码)”。据此，服务器20将语音识别辞典设定为“邮政编码辞典”。

接着，服务器20决定回答短句(时序sq97A)。

本例中，例如，在使用图18(A)说明的邮政编码辞典的情况下，对应于识别短句“二、六、一”，服务器20作为应答内容，决定回答短句“是XXX吗？请回答是或不是”。

接着，服务器20设定为服务器模式(是/不是)(时序sq98)。

具体而言，应答处理执行指示部224将与识别短句“二、六、一”相关联的“清洁机器人的状态”变更为“服务器模式(是/不是)”。作为一例，应答处理执行指示部224将状态存储部233的“ID1”的“清洁机器人的状态”变更为“服务器模式(是/不是)”。据此，服务器20能够利用下次应答时利用的合适的语音识别辞典(是/不是辞典)。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq101)。具体而言，应答处理执行指示部224作为语音识别结果数据，将语音“是二、六、一吗？请回答是或不是”经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq96之后执行语音数据的语音识别(时序sq99)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，语音识别部111将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10使识别无效(时序sq100)。示出本例中的清洁机器人10在服务器模式的情况下使来自服务器20的指示优先，使清洁机器人10的语音识别的识别结果无效的情况。

接着，清洁机器人10基于从服务器20发送的语音识别结果数据，执行语音应答处理(时序sq102)。具体而言，应答处理执行部112再生语音识别结果数据(“是二、六、一吗？请回答是或不是”)的语音文件。也就是说，利用扬声器104对用户应答(发出)语音(“是二、六、一吗？请回答是或不是”)(时序sq103)。

接着，按照是、不是的回答规则，假设有用户发话“是”(时序sq104)。

接着，清洁机器人10接受来自用户的语音输入(时序sq105)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq106)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq106A)。具体而言，语音识别部222取得识别短句“是”。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，执行模式判定(时序sq107)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定为与状态相应的辞典的处理。本例中，利用时序sq98，服务器20的状态存储部233的“ID1”的“清洁机器人的状态”变更为“服务器模式(是/不是)”。据此，服务器20将语音识别辞典设定为“是/不是辞典”。

接着，服务器20进行设定登记(时序sq108)。具体而言，应答处理执行指示部224将语音内容作为邮政编码进行设定登记，该语音内容是从语音识别部222得到的结果。具体而言，服务器20关于状态存储部233中存储的清洁机器人的状态的“邮政编码”，登记得到的结果。

接着，服务器20取得天气信息(时序sq109)。具体而言，应答处理执行指示部224按照进行了设定登记的邮政编码，取得天气信息。在此，服务器20将进行了设定登记的邮政编码的信息发送到公知的能够取得天气信息的外部服务器，取得从该外部服务器发送的与邮政编码相关联的天气信息。

接着，服务器20决定回答短句(时序sq109A)。

具体而言，应答处理执行指示部224决定对语音内容的应答内容，该语音内容是从语音识别部222得到的结果。本例中，例如，在使用图18(B)说明的是/不是辞典的情况下，对应于识别短句“是”，作为应答内容，决定回答短句“登记了YYY”、“天气信息”、和“普通模式变更”。“YYY”是“二、六、一”。“天气信息”是“今天的天气是ZZZ哦”。“ZZZ”是从外部服务器取得的与天气有关的信息，例如是“晴”、“雨”、“阴”等。此外，也可以包含气温或降水概率等信息。

并且，服务器20设定为普通模式(时序sq110)。

具体而言，应答处理执行指示部224将与识别短句“是”相关联的“清洁机器人的状态”设定为普通模式。应答处理执行指示部224将状态存储部233的“ID1”的“清洁机器人的状态”变更为“普通模式”。据此，服务器20能够利用下次应答时利用的合适的语音识别辞典(普通辞典)。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq113)。具体而言，应答处理执行指示部224作为语音识别结果数据，将语音“登记了二、六、一。今天的天气是晴哦”和普通模式变更指示经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq106之后执行语音数据的语音识别(时序sq111)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，语音识别部111将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10使识别无效(时序sq112)。示出本例中的清洁机器人10在服务器模式的情况下使来自服务器20的指示优先，使清洁机器人10的语音识别的识别结果无效的情况。

接着，清洁机器人10设定为普通模式(时序sq114)。具体而言，动作模式切换部113基于从服务器20发送的语音识别结果数据(“普通模式变更指示”)，将服务器模式变更为普通模式。

接着，清洁机器人10基于从服务器20发送的语音识别结果数据，执行语音应答处理(时序sq115)。具体而言，应答处理执行部112再生语音识别结果数据(“登记了二、六、一。今天的天气是晴哦”)的语音文件。也就是说，清洁机器人10利用扬声器104对用户应答(发出)语音(“登记了二、六、一。今天的天气是晴哦”)(时序sq116)。

据此，能够设定邮政编码，取得与该邮政编码对应的天气信息并发话。

取得天气信息(其二)

如图20所示，首先，清洁机器人10被设定为普通模式(时序sq120)。

接着，有用户发话“今天的天气是什么”(时序sq121)。

接着，清洁机器人10接受来自用户的语音输入(时序sq122)。具体而言，清洁机器人10的语音输入接受部114经由麦克风103接受来自外部的声音输入。

接着，清洁机器人10将语音数据输出到服务器20(时序sq123)。具体而言，语音输入接受部114经由通信部101输出到服务器20。

接着，服务器20接收从清洁机器人10发送的语音数据，并执行语音识别(时序sq123A)。具体而言，语音识别部222取得识别短句“今天的天气是什么”。并且，语音识别部222将该结果输出到应答处理执行指示部224。

接着，服务器20执行模式判定(时序sq124)。具体而言，应答处理执行指示部224执行判断清洁机器人10的状态的模式判定。模式判定是根据状态存储部233中存储的清洁机器人10的状态来设定为与状态相应的语音识别辞典的处理。本例中，作为一例，在“ID1”的清洁机器人的情况下，即为“普通模式”的情况下，服务器20设定为“普通辞典”。

接着，服务器20确认有登记(时序sq126)。具体而言，应答处理执行指示部224决定对语音内容的应答内容，该语音内容是从语音识别部222得到的结果。

这样，应答处理执行指示部224确认是否设定了状态存储部233中存储的清洁机器人10的邮政编码。并且，本例中，应答处理执行指示部224作为一例，确认有登记。

接着，服务器20取得天气信息(时序sq127)。具体而言，应答处理执行指示部224按照进行了设定登记的邮政编码，取得天气信息。具体而言，服务器20将进行了设定登记的邮政编码的信息发送到公知的能够取得天气信息的外部服务器，取得从该外部服务器发送的与邮政编码相关联的天气信息。

接着，服务器20决定回答短句(时序sq127A)。

具体而言，应答处理执行指示部224决定对语音内容的应答内容，该语音内容是从语音识别部222得到的结果。本例中，例如，在使用图10说明的普通辞典的情况下，对应于识别短句“今天的天气是什么”，作为应答内容，决定“有登记”的回答短句“天气信息”。“天气信息”是“今天的天气是ZZZ哦”。“ZZZ”是从外部服务器取得的与天气有关的信息，例如是“晴”、“雨”、“阴”等。此外，也可以包含气温或降水概率等信息。

接着，服务器20将进行了语音识别的语音识别结果数据发送到清洁机器人10(时序sq130)。具体而言，应答处理执行指示部224作为语音识别结果数据，将语音“今天的天气是晴哦”经由通信部201发送到清洁机器人10。

另一方面，清洁机器人10在时序sq123之后执行语音数据的语音识别(时序sq128)。具体而言，语音识别部111按照由语音输入接受部114生成的语音数据，对语音内容进行识别。并且，将语音内容的识别结果输出到应答处理执行部112。

接着，清洁机器人10识别失败(时序sq129)。示出本例中的清洁机器人10的发话内容数据库120中未设置与识别短句“今天的天气是什么”对应的回答短句，因此识别失败的情况。

接着，清洁机器人10基于从服务器20发送的语音识别结果数据，执行语音应答处理(时序sq131)。具体而言，应答处理执行部112再生语音识别结果数据(“今天的天气是晴哦”)的语音文件。也就是说，清洁机器人10利用扬声器104对用户应答(发出)语音(“今天的天气是晴哦”)(时序sq132)。

据此，在设定了邮政编码的情况下，能够取得与该邮政编码对应的天气信息并发话。

流程图

参考图21，该流程图是执行存储部203中存储的程序以使控制部202的各部件发挥功能而执行的处理。

与图17的流程图相比，决定回答短句的处理不同(步骤S35#)。其它流程与图17相同，因而不重复进行其详细说明。

图22是基于本实施方式4的决定回答短句的处理的子流程图。

参考图22，应答处理执行指示部224判定识别短句是否为“今天的天气是什么”(步骤S40)。具体而言，判定由语音识别部222识别的识别内容是否为“今天的天气是什么”。

在步骤S40中应答处理执行指示部224判定为识别短句是“今天的天气是什么”的情况下(步骤S40中“是”)，判定是否有邮政编码的登记(步骤S41)。

在步骤S41中应答处理执行指示部224判定为有邮政编码的登记的情况下(步骤S41中“是”)，执行天气信息取得处理(步骤S42)。

并且，在步骤S43中，应答处理执行指示部224作为回答短句，决定为“今天的天气是ZZZ哦”。并且，结束处理(返回)。

另一方面，在步骤S41中应答处理执行指示部224判定为无邮政编码的登记的情况下(步骤S41中“否”)，作为回答短句，决定为“首先设定邮政编码哦。例如说，一、零、三”。并且，结束处理(返回)。

另外，应答处理执行指示部224在判定为识别短句不是“今天的天气是什么”的情况下(步骤S40中“否”)，判定识别短句是否为“是”(步骤S45)。

在步骤S45中应答处理执行指示部224判定为识别短句是“是”的情况下(步骤S45中“是”)，登记信息(步骤S46)。具体而言，将通过用户发话得到的邮政编码的相关信息登记到在状态存储部233中存储的清洁机器人10的邮政编码栏中。

并且，应答处理执行指示部224接着执行天气信息取得处理(步骤S47)。具体而言，按照进行了设定登记的邮政编码，取得天气信息。在此，将进行了设定登记的邮政编码的信息发送到公知的能够取得天气信息的外部服务器，取得从该外部服务器发送的与邮政编码相关联的天气信息。

并且，在步骤S48中，应答处理执行指示部224作为回答短句，决定为“登记了YYY。今天的天气是ZZZ哦”。并且，结束处理(返回)。

另一方面，在步骤S45中应答处理执行指示部224判定为识别短句不是“是”的情况下(步骤S45中“否”)，决定为其它回答短句(步骤S49)。具体而言，应答处理执行指示部224决定与识别短句对应的回答短句。

并且，应答处理执行指示部224结束处理。

此外，本例中，作为服务器模式，说明了访问外部服务器取得天气信息并从清洁机器人10发话的情况，但能够取得的信息并不特别限定于“天气信息”，只要是能够从其它外部服务器取得的信息，能够适用于任意信息。例如，也可以使清洁机器人10说出最近的新闻或话题，或者取得对用户提问的回答信息并使清洁机器人10发出该回答信息。

实施方式5

图23是说明基于本实施方式5的服务器的结构的图。

参考图23，本例中示出设置有多个服务器的情况。

本例中，作为一例，示出设置有服务器20A和服务器20B的情况。

在上述结构中，说明了由同一服务器执行语音识别和决定对语音识别的回答短句的处理的情况，但另一方面，也可以由各自独立的服务器执行该处理。

具体而言可以采用如下结构，即在服务器20A中执行对语音数据的语音识别，在服务器20B中将作为回答短句的语音识别结果数据输出到清洁机器人10。

例如，清洁机器人10将语音数据发送到服务器20A(1)。服务器20A执行语音数据的语音识别。并且，服务器20A对清洁机器人10发送识别短句(2)。

清洁机器人10从服务器20A接收识别短句，将该识别短句发送到其它服务器20B(3)。

服务器20B从清洁机器人10接收识别短句，决定与该识别短句对应的回答短句。并且，服务器20B对清洁机器人发送语音识别结果数据(4)。

此外，本例中，说明了服务器20A对清洁机器人10发送执行了语音数据的语音识别得到的识别短句的情况，但并不限定于识别短句，只要是表示语音识别结果的信息，可以是任意信息。例如，可以是访问服务器20B中存储的回答短句所需的访问信息(URL(Uniform Resource Locator，统一资源定位符)等)。例如可以采用如下结构，即清洁机器人10从服务器20A接收该访问信息(URL)，通过访问服务器20B，从服务器20B取得回答短句。另外，不限于访问信息，在服务器20B中存储的回答短句以文件形式保存的情况下，作为来自服务器20A的表示语音识别结果的信息，可以是指定文件名的信息。例如，清洁机器人10从服务器20A接收该文件名，通过对服务器20B指定文件名并要求信息，能够从服务器20B取得与回答短句相关的文件。

另外，同样，作为来自服务器20A的表示语音识别结果的信息，可以发送将识别短句文本化后得到的文本信息。清洁机器人10既可以从该文本信息中提取识别短句，访问服务器20B取得回答短句，也可以将该文本信息发送到服务器20B，由服务器20B解析包含识别短句的文本信息，基于解析结果决定回答短句并发送到清洁机器人10。

另外，作为从服务器20B发送到清洁机器人10的语音识别结果数据，说明了发送回答短句的结构。具体而言，说明了发送与回答短句对应的语音文件，清洁机器人10按照该语音文件发话的情况，但并不限定于语音文件，也可以发送包含回答短句的文本信息，由清洁机器人10解析(所谓的朗读功能等)该文本信息并发话。

另外，本例中，说明了在清洁机器人10内决定对清洁机器人10中的语音识别结果的回答短句的情况，也可以由清洁机器人10进行语音识别后，从服务器20B取得回答短句。在此情况下，通过在存储部109中设置URL对应表能够实现，该URL对应表中，将进行访问的访问信息(URL)与服务器20B对识别短句的回答短句相对应。

另外，也可以利用清洁机器人10内保存的信息，取得对语音识别结果的回答短句。

例如，在能够临时存储信息的高速缓冲存储器中包含了以前利用的对识别短句的回答短句的信息的情况下，通过利用该高速缓冲存储器中存储的回答短句的信息，例如能够在不访问服务器20B的情况下取得回答短句，从清洁机器人10发话。据此，能够利用高速缓冲存储器中存储的信息尽早发话。

另外，在清洁机器人10内保存有与回答短句对应的语音文件的情况下，服务器20A可以作为表示语音识别结果的信息，指定该清洁机器人10内保存的语音文件。根据该处理，能够在不访问服务器20B的情况下，利用清洁机器人10内保存的语音文件尽早发话。此外，在该语音文件未保存在清洁机器人10内的情况下，可以对服务器20B要求该指定的语音文件，从服务器20B取得语音文件并发话。

本实施方式5的服务器的结构能够适用于上述实施方式1～4中的任一者。

实施方式6

清洁机器人10及服务器20的控制模块既可以通过形成于集成电路(IC芯片)等的逻辑电路(硬件)来实现，也可以使用CPU(CentralProcessing Unit，中央处理单元)通过软件来实现。

在后者的情况下，清洁机器人10及服务器20具备：执行实现各功能的软件(即程序)的命令的CPU、以计算机(或CPU)可读取的方式记录了上述程序及各种数据的ROM(Read Only Memory，只读存储器)或存储装置(将它们称为“记录介质”)、以及展开上述程序的RAM(RandomAccess Memory，随机存取存储器)等。并且，通过由计算机(或CPU)从上述记录介质中读取并执行上述程序，实现本发明的目的。作为上述记录介质，能够使用“非易失性的有形介质”，例如磁带、磁盘、卡、半导体存储器、可编程逻辑电路等。另外，上述程序也可以经由能够传输该程序的任意传输介质(通信网络或广播电波等)提供给上述计算机。此外，还能以利用电子传输具体实现上述程序的、载波中埋入的数据信号的方式实现本发明。

总结

本发明的方式1的语音识别终端(清洁机器人10)设置为能够与服务器20通信，该服务器20能够进行识别语音的语音识别，所述语音识别终端具备：语音输入接受部114，接受来自用户的语音输入；语音识别部111，对语音输入接受部114接受的语音输入进行语音识别；应答处理执行部112，基于对语音输入接受部114接受的语音输入的语音识别结果，执行对用户的应答处理；以及通信部101，对服务器发送语音输入接受部114接受的语音输入，接收服务器的语音识别结果。应答处理执行部112基于语音识别部111的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理。

根据上述结构，应答处理执行部112基于语音识别部111的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理，因此能够缩短来自语音识别终端的应答时间，在不给用户带来负担的情况下执行顺利的交流。

本发明的方式2的语音识别终端(清洁机器人10)的应答处理执行部112可以不执行基于后得到的语音识别结果的对用户的应答处理。

在本发明的方式3的语音识别终端(清洁机器人10)中，语音识别可以对语音进行识别并计算表示该识别的准确度的可靠度，应答处理执行部112关于语音识别部111的语音识别结果中包含的可靠度，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对所述用户的应答处理。

本发明的方式4的语音识别终端(清洁机器人10)的应答处理执行部112可以关于语音识别部111的语音识别结果中包含的可靠度，在先得到的语音识别结果中包含的可靠度在指定可靠度以下的情况下，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。

本发明的方式5的语音识别终端(清洁机器人10)还可以包括动作模式切换部113，基于对输入到语音输入接受部114的语音输入的语音识别结果，切换服务器模式和普通模式，在服务器模式下，语音识别终端按照服务器的指示进行动作，在普通模式下，语音识别终端选择性地利用服务器的指示进行动作。

本发明的方式6的语音识别终端(清洁机器人10)的应答处理执行部112可以在服务器模式的情况下使语音识别部的语音识别结果无效。

本发明的方式7的服务器20设置为能够与语音识别终端(清洁机器人10)通信，该语音识别终端能够进行识别语音的语音识别，所述服务器具备：语音输入接收部221，经由语音识别终端接收来自用户的语音输入；语音识别部222，对语音输入接收部221接收的语音输入进行语音识别；以及应答处理执行指示部224，基于对语音输入接收部221接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理，其中，应答处理执行指示部224指示语音识别终端从普通模式切换为服务器模式，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。

根据上述结构，应答处理执行指示部224指示从普通模式切换为服务器模式，因此根据语音识别的内容，在由服务器20处理较为合适的情况下，利用该切换处理，能够缩短来自语音识别终端的应答时间，在不给用户带来负担的情况下执行顺利的交流。

本发明的方式8的服务器20的应答处理执行指示部224作为对语音输入接收部221接受的语音输入的语音识别结果，判断是否是来自用户的指定信息的询问请求，在判断为是指定信息的询问请求的情况下，判断是否登记有用于取得该指定信息的数据，基于判断结果，在未登记用于取得该指定信息的数据的情况下，指示执行促使用户输入数据的应答处理。

本发明的方式9的服务器20的控制方法中，服务器20设置为能够与语音识别终端(清洁机器人10)通信，该语音识别终端能够进行识别语音的语音识别，所述控制方法包括：经由语音识别终端接收来自用户的语音输入的步骤(步骤S30)；对接收的语音输入进行语音识别的步骤(步骤S31)；以及基于对接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理的步骤(步骤S35～S37)，其中，指示执行应答处理的步骤包括：指示从普通模式切换为服务器模式的步骤，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。

根据上述结构，指示从普通模式切换为服务器模式，因此根据语音识别的内容，在由服务器20处理较为合适的情况下，利用该切换处理，能够缩短来自语音识别终端的应答时间，在不给用户带来负担的情况下执行顺利的交流。

本发明的方式10的语音识别系统1具备：服务器20，能够进行识别语音的语音识别；以及语音识别终端(清洁机器人10)，设置为能够与服务器20通信。语音识别终端包括：语音输入接受部114，接受来自用户的语音输入；语音识别部111，对语音输入接受部114接受的语音输入进行语音识别；应答处理执行部112，基于对语音输入接受部114接受的语音输入的语音识别结果，执行对用户的应答处理；以及通信部101，对服务器发送语音输入接受部114接受的语音输入，接收服务器的语音识别结果。应答处理执行部112基于语音识别部111的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理。

本发明的方式11的控制程序是在语音识别终端的计算机中执行的控制程序，该语音识别终端设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述控制程序使计算机执行如下处理：接受来自用户的语音输入的步骤(步骤S1)；对接受的语音输入进行语音识别的步骤(步骤S4)；基于对接受的语音输入的语音识别结果，执行对用户的应答处理的步骤(步骤S5～S8，S15，S16)；以及对服务器发送接受的语音输入，接收服务器的语音识别结果的步骤(步骤S3)，其中，执行应答处理的步骤是：根据基于进行语音识别的步骤的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理。

根据上述结构，在执行应答处理的步骤中，基于语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理，因此能够缩短来自语音识别终端的应答时间，在不给用户带来负担的情况下执行顺利的交流。

本发明的方式12的控制程序是在服务器的计算机中执行的控制程序，该服务器设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述控制程序使计算机执行如下步骤：经由语音识别终端接收来自用户的语音输入的步骤(步骤S30)；对接收的语音输入进行语音识别的步骤(步骤S31)；以及基于对接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理的步骤(步骤S35～S37)，其中，指示执行应答处理的步骤包括：指示从普通模式切换为服务器模式的步骤，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。

以上对本发明的实施方式进行了说明，应当理解，本发明的实施方式在各方面均为例示，并非进行限制。本发明的范围由权利要求书表示，意在包括与权利要求书等同的意义以及范围内的所有变形。

Claims

1.一种语音识别终端，设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述语音识别终端具备：

语音输入接受部，接受来自用户的语音输入；

语音识别部，对所述语音输入接受部接受的语音输入进行语音识别；

应答处理执行部，基于对所述语音输入接受部接受的语音输入的语音识别结果，执行对所述用户的应答处理；以及

通信部，对所述服务器发送所述语音输入接受部接受的语音输入，接收所述服务器的语音识别结果，

所述应答处理执行部基于所述语音识别部的语音识别结果与从所述服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对所述用户的应答处理。

2.根据权利要求1所述的语音识别终端，其中，

所述应答处理执行部基于所述语音识别部的语音识别结果与从所述服务器接收的语音识别结果中先得到的语音识别结果，执行对所述用户的应答处理。

3.根据权利要求1所述的语音识别终端，其中，

所述应答处理执行部不执行基于后得到的语音识别结果的对所述用户的应答处理。

4.根据权利要求1所述的语音识别终端，其中，

所述语音识别部识别所述语音并计算表示该识别的准确度的可靠度，

所述应答处理执行部，关于所述语音识别部的语音识别结果中包含的可靠度，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对所述用户的应答处理。

5.根据权利要求4所述的语音识别终端，其中，

所述应答处理执行部，关于所述语音识别部的语音识别结果中包含的可靠度，在先得到的语音识别结果中包含的可靠度为指定可靠度以下的情况下，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对所述用户的应答处理。

6.一种服务器，设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述服务器具备：

语音输入接收部，经由所述语音识别终端接收来自用户的语音输入；

语音识别部，对所述语音输入接收部接收的语音输入进行语音识别；以及

应答处理执行指示部，基于对所述语音输入接收部接收的语音输入的语音识别结果，指示所述语音识别终端执行对所述用户的应答处理，

所述应答处理执行指示部指示所述语音识别终端从普通模式切换为服务器模式，所述普通模式下，所述语音识别终端选择性地利用所述服务器的指示进行动作，所述服务器模式下，指示所述语音识别终端按照所述服务器的指示进行动作。

7.一种服务器的控制方法，该服务器设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述控制方法包括：

经由所述语音识别终端接收来自用户的语音输入；

对接收的语音输入进行语音识别；以及

基于对接收的语音输入的语音识别结果，指示所述语音识别终端执行对所述用户的应答处理，

指示执行所述应答处理，包括指示从普通模式切换为服务器模式，所述普通模式下，所述语音识别终端选择性地利用所述服务器的指示进行动作，所述服务器模式下，指示所述语音识别终端按照所述服务器的指示进行动作。

8.一种语音识别系统，具备：

服务器，能够进行识别语音的语音识别；以及

语音识别终端，设置为能够与所述服务器通信，

所述语音识别终端包括：

语音输入接受部，接受来自用户的语音输入；

9.一种非易失性存储介质，存储在语音识别终端的计算机中执行的控制程序，该语音识别终端设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，

所述控制程序使所述计算机执行如下步骤：

接受来自用户的语音输入的步骤；

对接受的语音输入进行语音识别的步骤；

基于对接受的语音输入的语音识别结果，执行对所述用户的应答处理的步骤；以及

对所述服务器发送所接受的语音输入，接收所述服务器的语音识别结果的步骤，

执行所述应答处理的步骤包括：根据基于进行所述语音识别的步骤的语音识别结果与从所述服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对所述用户的应答处理的步骤。

10.一种非易失性存储介质，存储在服务器的计算机中执行的控制程序，该服务器设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，

所述控制程序使所述计算机执行如下步骤：

经由所述语音识别终端接收来自用户的语音输入的步骤；

对接收的语音输入进行语音识别的步骤；以及

基于对接收的语音输入的语音识别结果，指示所述语音识别终端执行对所述用户的应答处理的步骤，

指示执行所述应答处理的步骤包括：指示从普通模式切换为服务器模式的步骤，所述普通模式下，所述语音识别终端选择性地利用所述服务器的指示进行动作，所述服务器模式下，指示所述语音识别终端按照所述服务器的指示进行动作。