CN106297782A

CN106297782A - 一种人机交互方法及系统

Info

Publication number: CN106297782A
Application number: CN201610607542.4A
Authority: CN
Inventors: 包陈河; 雷宇
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2017-01-04

Abstract

本发明提供了一种人机交互方法及系统。该人机交互方法包括：接收用户的语音指令，经识别后得到文字结果；对所述文字结果进行语义识别，得到第一语义识别结果，并根据所述第一语义识别结果与本地应用进行匹配；若匹配失败，则将所述文字结果发送至服务端；接收所述服务端对所述文字结果的第二语义识别结果，根据所述第二语义识别结果在本地应用中筛选，得到相应的目标应用以响应所述语音指令；其中，所述第二语义识别结果是所述服务端通过语义模型对所述文字结果进行语义识别得到的。本发明实施例避免了现有的人机交互方法对于变化多样的表达方式的语音无法识别的缺陷，能准确识别语音指令，适用变化多样的表达方式的语音。

Description

一种人机交互方法及系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种人机交互方法及系统。

背景技术

人工智能(Artificial Intelligence，AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语义识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。人机交互(Human-ComputerInteraction,HCI)是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。

在智能机器人与用户交互、响应用户指令的过程中，需要对用户的指令进行语义识别。现有的人机交互过程中能对诸如“播放歌曲xxx”,“打开程序xxx”等固定表达模式的语义进行识别，然而现有的人机交互方法普遍存在的问题是语义识别解析慢，经常识别错误。对于变化多样的表达方式的自然语言(例如，将“播放歌曲xxx”换一种语言表达方式“给我唱一首xxx歌吧”)无法准确识别语义，导致智能机器人无法对自然语言形式的语音指令做出及时、正确的响应，仅是将语音指令输入到浏览器进行搜索，得到与当前语音指令相关的网页信息，将网页信息返回后对用户进行响应，而不能直接识别当前的语音指令的准确语义后，并给出相应的响应，导致智能机器人本地和服务器端的应用一致性较差。

发明内容

本发明所要解决的技术问题是：如何准确识别变化多样的语言表达方式，实现人机交互。

为解决上述技术问题，本发明提出了一种人机交互方法，该人机交互方法包括：

接收用户的语音指令，经识别后得到文字结果；

对所述文字结果进行语义识别，得到第一语义识别结果，并根据所述第一语义识别结果与本地应用进行匹配；

若匹配失败，则将所述文字结果发送至服务端；

接收所述服务端对所述文字结果的第二语义识别结果，根据所述第二语义识别结果在本地应用中筛选，得到相应的目标应用以响应所述语音指令；其中，所述第二语义识别结果是所述服务端通过语义模型对所述文字结果进行语义识别得到的。

可选地，该人机交互方法还包括：

若匹配成功，则根据所述第一语义识别结果在本地应用中筛选，调用相应的目标应用以响应所述语音指令。

可选地，所述根据所述第一语义识别结果与本地应用进行匹配，包括：

若本地应用中存在匹配度大于既定阈值的目标应用，且所述目标应用可响应所述第一语义识别结果，则匹配成功；

否则，所述第一语义识别结果与本地应用匹配失败。

可选地，所述根据所述第二语义识别结果在本地应用中筛选，包括：

准备与所述第二语义识别结果相匹配的目标应用所需资源和空间，启动与所述第二语义识别结果相匹配的目标应用相关的应用组件，以响应所述语音指令。

可选地，所述准备与所述第二语义识别结果相匹配的目标应用所需资源和空间，包括：

判断与所述第二语义识别结果相匹配的目标应用所需资源和空间是否被占用；

若被占用，则与所述第二语义识别结果相匹配的目标应用向占用该资源和空间的应用发送请求指令，以使占用应用释放该资源和空间。

可选地，所述方法还包括：

扫描本地应用，从所述本地应用中筛选出目标应用组；

相应地，所述根据所述第二语义识别结果在本地应用中筛选，包括：

根据所述第二语义识别结果调用目标应用组中的相应的目标应用以响应所述语音指令；

其中，所述目标应用组中的应用具有请求资源和空间的通信功能。

可选地，所述方法还包括：

接收用户的动作指令；

本地对所述动作指令进行识别获得动作识别结果；

根据所述动作识别结果调用相应的目标应用以响应所述动作指令。

本发明还提出了一种人机交互系统，该人机交互系统包括：

语音指令接收单元，用于接收用户的语音指令，经识别后得到文字结果；

第一语义识别结果获取单元，用于对所述文字结果进行语义识别，得到第一语义识别结果，并根据所述第一语义识别结果与本地应用进行匹配；

语音指令发送单元，用于当所述第一语义识别结果与本地应用匹配失败时，则将所述语音指令发送至服务端；

第一语音指令响应单元，用于接收所述服务端对所述文字结果的第二语义识别结果，根据所述第二语义识别结果在本地应用中筛选，得到相应的目标应用以响应所述语音指令；其中，所述第二语义识别结果是所述服务端通过语义模型对所述文字结果进行识别得到的。

可选地，该人机交互系统还包括：

第二语音指令响应单元，用于当所述第一语义识别结果与本地应用匹配成功时，则根据所述第一语义识别结果在本地应用中筛选，调用相应的目标应用以响应所述语音指令。

可选地，所述第一语义识别结果获取单元进一步用于：

当本地应用中存在响应第一语义识别结果的目标应用，且所述目标应用可响应所述第一语义识别结果时，则判断所述第一语义识别结果与本地应用匹配成功；否则，判断所述第一语义识别结果与本地应用匹配失败。

可选地，所述第一语音指令响应单元包括：

资源空间准备模块，用于准备与所述第二语义识别结果相匹配的目标应用所需资源和空间；

组件启动模块，用于启动与所述第二语义识别结果相匹配的目标应用相关的应用组件，以响应所述语音指令。

可选地，所述资源空间准备模块进一步用于：

可选地，该人机交互系统还包括：

本地应用扫描单元，用于扫描本地应用，从所述本地应用中筛选出目标应用组；

相应地，所述第一语音指令响应单元用于：

可选地，该人机交互系统还包括：

动作指令接收单元，用于接收用户的动作指令；

动作识别结果获取单元，用于通过本地对所述动作指令进行识别获得动作识别结果；

动作指令响应单元，用于根据所述动作识别结果调用相应的目标应用以响应所述动作指令。

本发明提供的人机交互方法及系统，通过本地对用户发送的语音指令经识别获得的文字结果进行语义识别，当得到的语义识别结果与本地应用匹配失败时，将文字结果发送至服务端，由服务端对文字结果进行语义识别，本地根据服务端发送的识别结果调用相应的目标应用以响应语音指令，避免了现有的人机交互方法对于变化多样的表达方式的语音无法识别的缺陷，能准确识别语音指令，适用变化多样的表达方式的语音，保证了本地和服务器端的应用一致性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的人机交互方法的流程示意图；

图2是本发明一个实施例适用的多个场景关系示意图；

图3是本发明另一个实施例的人机交互方法的流程示意图；

图4是本发明另一个实施例的人机交互方法的流程示意图；

图5是本发明一个实施例的人机交互系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1是本发明一个实施例的人机交互方法的流程示意图。如图1所示，该实施例的人机交互方法包括：

S11：接收用户的语音指令，经识别后得到文字结果；

在实际应用中，用户可根据需求向智能机器人输入各种语音指令，例如“给我唱首光辉岁月”或“播放歌曲光辉岁月”。具体地，智能机器人可通过麦克风接收用户的语音指令；智能机器人对接收到的语音指令进行识别得到对应的文字结果。

S12：对所述文字结果进行语义识别，得到第一语义识别结果，并根据所述第一语义识别结果与本地应用进行匹配；

需要说明的是，智能机器人在接收到用户的语音指令后需要进行语义解析识别，确定具体的应用场景。举例来说，智能机器人在接收到“给我唱首光辉岁月”的语音指令后，对语音指令进行解析识别，确定应用场景为音乐子场景。

可理解的是，现有的语音识别方法可对预设的固定表达模式的语音指令，例如“播放歌曲光辉岁月”进行识别，但对不符合预设的表达模式的“给我唱首光辉岁月”的语音指令则无法进行识别。本发明实施例应用科大讯飞语义模型的基础上进行扩展，能准确识别各种表达模式的语音指令。

S13：若匹配失败，则将所述语音指令发送至服务端；

可理解的是，现有的人机交互方法中当对语音指令对应的文字结果进行识别，得到的语义识别结果与本地应用匹配失败时，通常将语音指令输入到浏览器进行搜索，得到的是与当前语音指令相关的信息；而本发明实施例中将文字结果发送至AI服务端进行语义识别，增强了本地对语音指令识别的能力。

S14：接收所述服务端对所述文字结果的第二语义识别结果，根据所述第二语义识别结果在本地应用中筛选，得到相应的目标应用以响应所述语音指令；其中，所述第二语义识别结果是所述服务端利用语义模型对上述文字结果进行识别得到的；

在实际应用中，AI服务端利用科大讯飞语义模型从所述文字结果中确定识别结果，例如“给我唱首光辉岁月”的对应的识别结果为播放歌曲光辉岁月；本地接收到AI服务端返回的识别结果后调用音乐播放器播放歌曲光辉岁月。AI服务端比本地具有更丰富的语义识别数据库，可更准确地对变化多样的表达方式的语音进行识别。

本发明实施例的人机交互方法，通过本地对用户发送的语音指令经识别获得的文字结果进行语义识别，当得到的语义识别结果与本地应用匹配失败时，将文字结果发送至服务端，由服务端对文字结果进行语义识别，本地根据服务端发送的识别结果调用相应的目标应用以响应语音指令，避免了现有的人机交互方法对于变化多样的表达方式的语音无法识别的缺陷，能准确识别语音指令，适用多种多样的应用场景，保证了本地和服务器端的应用一致性。

在本发明实施例的一种优选的实施方式中，与图1中的方法类似，为了在网络情况不佳的情况下也能正确的分析响应用户指令，该方法还包括：

本发明实施例的人机交互方法在网络情况不佳的情况下，利用本地的语义识别模块对所述语音指令进行识别，无需访问AI服务端，可对用户的语音指令进行快速响应。

随着人工智能的发展，智能机器人需要适用各种应用场景以满足用户的各种需求，即调用相应的目标应用以响应用户的语音指令。图2是本发明一个实施例适用的多个场景关系示意图，如图2所示，本发明实施例可以适用多个应用场景。例如，多个应用场景包括天气场景、娱乐场景和餐饮场景；娱乐场景可分为多个子场景：音乐子场景和电影子场景。

进一步地，步骤S12包括：

若本地应用中存在匹配度大于既定阈值的目标应用，且所述目标应用可响应所述第一语义识别结果，则匹配成功；否则，所述第一语义识别结果与本地应用匹配失败。

需要说明的是，本地对语音指令进行识别，经识别后得到文字结果；获得所述文字结果的特征向量，将获取的文字结果的特征向量与预先设置的各个场景的特征向量进行匹配；若匹配值大于预设值，则本地存在响应第一语义识别结果的目标应用；若所述目标应用可响应所述第一语义识别结果，则判断所述第一语义识别结果与本地应用匹配成功。优选地，若存在多个预先设置的多个场景的特征向量与获取的文字结果的特征向量相匹配，则调用匹配度最高的场景对应的应用以响应所述语音指令。若获取的文字结果的特征向量与预先设置的各个场景的特征向量的匹配值均小于预设值，则本地不存在响应第一语义识别结果的目标应用，判断所述第一语义识别结果与本地应用匹配失败。

举例来说，当用户输入“请给我唱首光辉岁月吧”的自然语言形式的语音指令时，本地对该语音指令进行识别，获得对应的文字结果，对文字结果进行语义识别获取的识别结果为(给我<执行主体>，唱<活动>，光辉岁月<音乐>)；将获取的识别结果(给我<执行主体>，唱<活动>，光辉岁月<音乐>)与预先设置的天气场景、娱乐场景和餐饮场景的特征向量进行匹配，由于本地不存在响应第一语义识别结果的目标应用，即不存在音乐子场景，仅能与娱乐场景中的视频子场景的特征向量(播放，视频)进行匹配，则语义识别结果(给我<执行主体>，唱<活动>，光辉岁月<音乐>)与特征向量(播放，视频)的匹配度小于预设值，判断第一语义识别结果与本地应用匹配失败。

具体地，所述根据所述第二语义识别结果在本地应用中筛选，包括：

准备与所述第二语义识别结果相匹配的目标应用所需资源和空间，启动与所述第二语义识别结果相匹配的目标应用相关的应用组件，以响应所述语音指令。在实际应用中，若由于本地不存在响应第一语义识别结果的目标应用而导致第一语义识别结果与本地应用匹配失败时，本地需要先向服务端请求下载与第二语义识别结果相匹配的目标应用，然后准备该目标应用所需资源和空间，启动该目标应用的相关组件。

以音乐播放器为例，其基本组件包括活动Activity和服务Service；其中，目标应用中的Activity代表用户界面，其上的控件也可以监听并处理用户的操作做出响应；目标应用中的Service代表没有用户界面的监控类程序。当对文字结果的识别结果为(播放，歌曲)时，则启动音乐播放器的Activity和Service。

进一步地，所述准备与所述第二语义识别结果相匹配的目标应用所需资源和空间包括：

本发明实施例为了避免本地的各个应用程序之间无序争夺资源和空间，在目标应用准备资源和空间时，判断该目标应用所需资源和空间是否被占用，若被占用，则该目标应用向占用该资源和空间的应用发送请求指令，以使占用应用进行资源和空间的释放。

在实际应用中，资源指的是音效资源、图片渲染资源等硬件资源，空间指的是内存等存储空间。

举例来说，当经过语义识别确定响应语音指令的目标应用为音乐播放器时，要准备音乐播放器所需的资源和空间。当判断音乐播放器所需的音效资源被视频播放器占用，则音乐播放器向视频播放器发送请求，以使视频播放器释放音效资源，避免了音乐播放器和视频播放器无序争夺资源导致应用意外关闭。

该方法还包括：

扫描本地应用，从所述本地应用中筛选出目标应用组；

需要说明的是，本地装载了多个应用，其中一个子场景可能对应多个可进行响应的应用。举例来说，对于音乐子场景对应QQ音乐、酷狗音乐两个音乐播放器；其中QQ音乐具有请求资源和空间的通信功能，而酷狗音乐无此功能。通过扫描本地应用，将QQ音乐加入目标应用组。

本发明实施例的人机交互系统，在系统启动后，通过扫描本地应用筛选获得具有请求资源和空间通信功能的目标应用，在后续的响应过程中，根据语义识别结果只从目标应用组中进行匹配，实现了对应用的动态管理，提高了系统的响应速度。

目标应用的请求资源和空间的通信功能是通过在目标应用的服务器端进行注册进行标识的。具体地，目标应用在服务器注册添加应用的包名和签名等信息，通过制定类型集声明支持的响应类型如：android.roobo.intent.ROOBO_MUSIC代表支持播放音乐。

在目标应用配置文件中加入自定义权限，如：

<uses-permission android:name＝"com.roobo.os.I_AM_ROOBO"/>

就会被系统识别为具有请求资源和空间的通信功能。

在用户对应用进行安装和卸载的操作时，为了降低系统的消耗，也会先判断当前操作的应用是否具有请求资源和空间的通信功能。举例来说，当用户卸载酷狗音乐时，由于酷狗音乐不具有请求资源和空间的通信功能，其不在目标应用组中，则无需对目标应用组进行更新扫描。只有在当前操作的应用具有有请求资源和空间的通信功能时，才会对目标应用组进行更新扫描。

另外，为了降低系统功耗，本发明实施例的人机交互系统在没有用户交互时处于沉静状态，仅仅开启基本监听服务，当接收到用户特定的指令(例如“请开机”)激活整个系统。

进一步地，为了对用户的动作进行响应，本实施例的人机交互方法还包括：接收用户的动作指令；本地对所述动作指令进行识别获得动作识别结果；根据所述动作识别结果调用相应的目标应用以响应所述动作指令。

举例来说，当用户用手摆出相框的形状时，智能机器人通过摄像头采集用户的动作，本地对用户的动作进行识别，获得的动作识别结果是拍照；本地便调用拍照软件为用户拍照。

实施例2

本发明实施例的人机交互方法与实施例1中的类似，不同的是，本实施例确定第一语义识别结果与本地应用的匹配关系的方式是，当本地存在响应第一语义识别结果的目标应用，但由于无法准确确定文字结果的含义或者所述目标应用由于缺少数据而对第一语义识别结果无法响应时，判断所述第一语义识别结果与本地应用匹配失败。

如图3所示，该实施例的人机交互方法包括：

S31：接收用户的语音指令，经识别后得到文字结果；

S32：对所述文字结果进行语义识别，得到第一语义识别结果，并根据所述第一语义识别结果与本地应用进行匹配；若本地应用中存在响应第一语义识别结果的目标应用，且所述目标应用可响应所述第一语义识别结果，则匹配成功；否则，所述第一语义识别结果与本地应用匹配失败；

S33：若匹配失败，则将所述语音指令发送至服务端；

S34：接收所述服务端对所述文字结果的第二语义识别结果，根据所述第二语义识别结果在本地应用中筛选，得到相应的目标应用以响应所述语音指令；其中，所述第二语义识别结果是所述服务端利用语义模型对上述文字结果进行识别得到的；

需要说明的是，本地对语音指令进行识别，经识别后得到文字结果；获得所述文字结果的特征向量，将获取的文字结果的特征向量与预先设置的各个场景的特征向量进行匹配；若匹配值大于预设值，则本地存在响应第一语义识别结果的目标应用；若所述目标应用无法响应所述第一语义识别结果，则判断所述第一语义识别结果与本地应用匹配失败。进一步地，当本地存在响应第一语义识别结果的目标应用，但由于无法准确确定文字结果的含义或者所述目标应用由于缺少数据而对第一语义识别结果无法响应时，判断所述第一语义识别结果与本地应用匹配失败。

举例来说，当用户输入“请给我唱首光辉岁月吧”的自然语言形式的语音指令时，本地对该语音指令进行识别，获得对应的文字结果，如果用户通过本地设备看过“光辉岁月”的电影(2013年曾志伟主演剧情片)，则对文字结果进行语义识别获取的识别结果为(给我<执行主体>，唱<活动>，光辉岁月<电影>)；将获取的识别结果(给我<执行主体>，唱<活动>，光辉岁月<电影>)与预先设置的天气场景、娱乐场景和餐饮场景的特征向量进行匹配，娱乐场景中的音乐子场景的特征向量为(播放，歌曲)，则语义识别结果(给我<执行主体>，唱<活动>，光辉岁月<电影>)与(播放，歌曲)的匹配度小于预设值，判断第一语义识别结果与本地应用匹配失败。本地由于无法准确确定文字结果的含义(本地无法获知“光辉岁月”是歌曲)，将“请给我唱首光辉岁月吧”的语音指令对应的文字结果发送至服务端，接收服务端对所述文字结果的第二语义识别结果，第二语义识别结果中根据服务器端知识库的检索，将“光辉岁月”识别为beyond的歌曲，则第二语义识别结果为(给我<执行主体>，唱<活动>，光辉岁月<歌曲>)；根据第二语义识别结果在本地的音乐子场景的应用中匹配，即播放对应的音频以响应该语音指令。

在其他实施例中，当用户输入“请给我唱首光辉岁月吧”的自然语言形式的语音指令时，本地对该语音指令进行识别，获得对应的文字结果，对文字结果进行语义识别获取的识别结果为(给我<执行主体>，唱<活动>，光辉岁月<歌曲>)；将获取的识别结果(给我<执行主体>，唱<活动>，光辉岁月<歌曲>)与预先设置的天气场景、娱乐场景和餐饮场景的特征向量进行匹配，娱乐场景中的音乐子场景的特征向量为(播放，歌曲)，则语义识别结果(给我<执行主体>，唱<活动>，光辉岁月<歌曲>)与(播放，歌曲)的匹配度大于预设值，判断本地存在响应第一语义识别结果(给我<执行主体>，唱<活动>，光辉岁月<歌曲>)的目标应用，即本地应调用音乐播放器播放歌曲“光辉岁月”。然而，当本地没有存储光辉岁月的歌曲时，无法对第一语义识别结果(给我<执行主体>，唱<活动>，光辉岁月<歌曲>)进行响应，则判断第一语义识别结果与本地应用匹配失败。此时，将“请给我唱首光辉岁月吧”的语音指令对应的文字结果发送至服务端，接收服务端对所述文字结果的第二语义识别结果，同样为(给我<执行主体>，唱<活动>，光辉岁月<歌曲>)，其中还包括“光辉岁月”的歌曲在服务端的存储位置；本地根据第二语义识别结果在本地应用中筛选，得到相应的目标应用，同时根据服务端的存储位置向服务器请求下载光辉岁月的歌曲后进行播放，以响应该语音指令。

实施例3

图4是本发明另一个实施例的人机交互方法的流程示意图。如图4所示，本发明实施例的人机交互方法包括：

S41：接收用户的语音指令，经识别后得到文字结果；

S42：对所述文字结果进行语义识别，得到第一语义识别结果，并根据所述第一语义识别结果与本地应用进行匹配；

S43：若本地应用中存在响应第一语义识别结果的目标应用，且所述目标应用可响应所述第一语义识别结果，则匹配成功；否则，所述第一语义识别结果与本地应用匹配失败；

S44：若匹配失败，则将所述语音指令发送至服务端；

S45：接收所述服务端对所述语音指令的第二语义识别结果，根据所述第二语义识别结果调用相应的目标应用，以响应所述语音指令；

S46：若匹配成功，则根据所述第一语义识别结果在本地应用中筛选，调用相应的目标应用以响应所述语音指令。

在实际应用中，以用户输入“给我唱首歌吧”的语音指令为例进行说明，扫描本地应用，检查应用的请求资源和空间的通信功能以确定可响应的目标应用组；本地对该语音指令识别，获得文字结果，对所述文字结果进行语义识别，得到的语义识别结果与本地应用匹配失败时，将该文字结果以古典密码算法加密后传递给云端的AI服务端。AI服务端分析完成后会返回给本地识别结果，包括应该响应的类型。如本次响应类型为：

State:1

type:android.roobo.intent.ROOBO_MUSIC

size:153145

fileType:mp3

url:http://roobo.com/music/891014

本地根据AI服务端发送识别结果调用相应的目标应用以响应“给我唱首歌吧”的语音指令。

需要说明的是，“State”为识别的标识，当State为1代表识别成功，当State为0代表识别失败。“type”代表响应的应用，本例中“ROOBO_MUSIC”代表应该调用音乐播放器。“size”“fileType”“url”分别代表文件的大小、类型和存储地址。

实施例4

图5是本发明一个实施例的人机交互系统的结构示意图。如图5所示，本发明实施例的人机交互系统包括：语音指令接收单元51、第一语义识别结果获取单元52、语音指令发送单元53和第一语音指令响应单元54；具体地：

语音指令接收单元51，用于接收用户的语音指令，经识别后得到文字结果；

第一语义识别结果获取单元52，用于对所述文字结果进行语义识别，得到第一语义识别结果，并根据所述第一语义识别结果与本地应用进行匹配；

语音指令发送单元53，用于当所述第一语义识别结果与本地应用匹配失败时，则将所述语音指令发送至服务端；

第一语音指令响应单元54，用于接收所述服务端对所述文字结果的第二语义识别结果，根据所述第二语义识别结果在本地应用中筛选，得到相应的目标应用以响应所述语音指令；其中，所述第二语义识别结果是所述服务端通过语义模型对所述文字结果进行识别得到的。

在一种可选的实施方式中，还包括第二语音指令响应单元，用于当所述第一语义识别结果与本地应用匹配成功时，则根据所述第一语义识别结果在本地应用中筛选，调用相应的目标应用以响应所述语音指令。

第一语义识别结果获取单元52进一步用于：

当本地应用中存在响应第一语义识别结果的目标应用，且所述目标应用可响应所述第一语义识别结果时，则判断所述第一语义识别结果与本地应用匹配成功；否则，判断所述第一语义识别结果与本地应用匹配失败。进一步地，第一语音指令响应单元54包括：

具体地，所述资源空间准备模块用于：

本实施例的人机交互系统还包括：

相应地，第一语音指令响应单元54用于：

本实施例的人机交互系统还包括：

动作指令接收单元，用于接收用户的动作指令；

本实施例的人机交互系统可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

本发明提供的人机交互方法及系统，通过本地对用户发送的语音指令经识别获得的文字结果进行语义识别，当得到的语义识别结果与本地应用匹配失败时，将文字结果发送至服务端，由服务端对文字结果进行语义识别，本地根据服务端发送的识别结果调用相应的目标应用以响应语音指令，避免了现有的人机交互方法对于变化多样的表达方式的语音无法识别的缺陷，能准确识别语音指令，适用多种多样的应用场景，保证了本地和服务器端的应用一致性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种人机交互方法，其特征在于，包括：

接收用户的语音指令，经识别后得到文字结果；

若匹配失败，则将所述文字结果发送至服务端；

2.根据权利要求1所述的人机交互方法，其特征在于，还包括：

3.根据权利要求1所述的人机交互方法，其特征在于，所述根据所述第一语义识别结果与本地应用进行匹配，包括：

否则，所述第一语义识别结果与本地应用匹配失败。

4.根据权利要求1所述的人机交互方法，其特征在于，所述根据所述第二语义识别结果在本地应用中筛选，包括：

5.根据权利要求4所述的人机交互方法，其特征在于，所述准备与所述第二语义识别结果相匹配的目标应用所需资源和空间，包括：

6.根据权利要求1所述的人机交互方法，其特征在于，所述方法还包括：

扫描本地应用，从所述本地应用中筛选出目标应用组；

7.根据权利要求1所述的人机交互方法，其特征在于，所述方法还包括：

接收用户的动作指令；

本地对所述动作指令进行识别获得动作识别结果；

8.一种人机交互系统，其特征在于，包括：

语音指令发送单元，用于当所述第一语义识别结果与本地应用匹配失败时，则将所述文字结果发送至服务端；

9.根据权利要求8所述的人机交互系统，其特征在于，还包括：

10.根据权利要求8所述的人机交互系统，其特征在于，所述第一语义识别结果获取单元进一步用于：

11.根据权利要求8所述的人机交互系统，其特征在于，所述第一语音指令响应单元包括：

12.根据权利要求11所述的人机交互系统，其特征在于，所述资源空间准备模块进一步用于：

13.根据权利要求8所述的人机交互系统，其特征在于，还包括：

相应地，所述第一语音指令响应单元用于：

14.根据权利要求8所述的人机交互系统，其特征在于，还包括：

动作指令接收单元，用于接收用户的动作指令；