CN102339129B

CN102339129B - 一种基于语音和手势的多通道人机交互方法

Info

Publication number: CN102339129B
Application number: CN 201110278390
Authority: CN
Inventors: 赵沁平; 陈小武; 蒋恺; 许楠
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-09-19
Filing date: 2011-09-19
Publication date: 2013-12-25
Anticipated expiration: 2031-09-19
Also published as: CN102339129A

Abstract

本发明公开了一种基于语音和手势的多通道人机交互方法，从语音信息中提取语音指称对象约束信息，从手势信息中提取手势指称对象约束信息，其中，手势指称对象约束信息包括当前指点手势所限定的指点区域内的任一点到达指点手势的指点中心的距离统计量以及指点手势所维持的时间统计量。在进行手势指称对象约束信息的分析时，获取距离统计量和时间统计量，降低三维交互中的指点模糊性。在对指称对象进行确定的过程中，是将虚拟环境中的模型对象划分为四类，并依据指称对象所出现在某一类型中的可能性来将指称对象与某一类型模型对象进行对比，也有助于缩小指称对象的寻找范围，降低指点模糊性的影响。

Description

一种基于语音和手势的多通道人机交互方法

技术领域

本发明涉及人机交互领域，尤其涉及一种基于语音和手势的多通道人机交互方法。

背景技术

多通道人机交互能够有效地扩大人与计算机之间信息交换的带宽，从而达到提高交互效率的目的；并可发挥人机之间彼此不同的认知潜力，降低用户的认知负荷。用户可以通过各种不同的交互通道以及它们之间的相互组合、协作来完成交互任务，这正好弥补了单一交互模式给用户带来的限制和负担。多通道人机交互中，指称归结定义为：求出多个通道输入信息的共同所指对象。其中，指称主要包括自然语言中的代词、定位副词、指示词和限定名词，例如“它”、“这儿”、“这个”、“那间房屋”等；指称对象是用户所指称的客观实体，例如三维空间中的模型等。在传统的单通道用户界面中，指称技术是单一的，并且通常是精确的，目标与目标之间的边界是清晰的。而在多通道用户界面中，指称技术是复合的并且通常是模糊的，边界是不清晰的。

目前多通道的研究已不局限于整合语音和传统鼠标键盘，基于语音和笔，语音和唇动，语音和三维手势的多通道系统得到了较大的关注。其中的典型代表包括基于Agent结构、支持语音和笔的多通道协作系统QuickSet，整合了“魔术棒”(一种新的六自由度设备)和语音的XWand系统等。W3C国际组织已经成立了“多通道交互”工作小组，开发W3C新的一类支持移动设备的多通道协议标准，包括多通道交互框架、多通道交互需求、多通道交互用例、可扩展多通道注释语言需求、数字墨水需求、可扩展多通道注释标记语言等。这些标准的制定反映了多通道技术已开始成熟。

关于多通道人机交互中指称归结问题的研究，Kehler运用认知科学和计算语言学的相关原理，研究并验证了多通道环境下指称与认知状态的对应关系，提出一种对认知状态编码并结合一组简单判断规则获取指称对象的方法，并在一个基于笔和语音的二维旅游地图应用中达到了很高的准确率。Kehler方法在处理单一指称结合精确指点手势时很有效，但这些规则假设所有对象都能被确定地选中，不能支持模糊的手势。

哥伦比亚大学、俄勒冈科学和健康大学等合作研究增强现实与虚拟现实环境下三维多通道交互，提出用感知形状的方法解决指称归结的问题。感知形状是由用户控制的几何体，用户通过它与增强现实或虚拟现实环境交互，在交互过程中感知形状产生各种统计信息辅助目标选择。该方法主要解决了指称归结中指点模糊性问题，但并没有关注未指明信息的推断和多通道对齐。德国比勒费尔德大学的Pfeiffer等提出多通道指称归结应该注意指称类型、语句的复杂性、一致背景、不确定性等方面，并设计了一种面向沉浸式虚拟环境的指称归结引擎。该引擎是一个三层结构的专家系统：核心层、领域层、应用层。核心层是一个约束满足管理器；领域层提供对知识库的访问；应用层是外界程序与指称归结引擎的接口，负责将语音输入中的指称转化为对指称归结引擎的查询。该指称归结引擎将指称归结问题看作约束满足问题，主要关注从复杂的自然语言中提取有效的约束。但该方法对欠约束的情况以及指点模糊性还缺乏相应的处理。

发明内容

本发明设计开发了一种基于语音和手势的多通道人机交互方法。

本发明的一个目的在于，解决基于语音和手势的多通道人机交互方法中的指点模糊性问题。虚拟环境中进行三维交互时，手势(从识别指点开始到指点结束)不仅表达了空间信息，也承载了时间方面的信息。对象在指点区域内停留时间越长，可以认为被选中的可能性越大。因此，在进行手势指称对象约束信息的分析时，不仅要获取距离统计量，而且要获取时间统计量，从而降低三维交互中的指点模糊性。并且，在对指称对象进行确定的过程中，是将虚拟环境中的模型对象划分为四类，并将指称对象与某一类型模型对象进行对比，这种方法也有助于缩小指称对象的寻找范围，降低指点模糊性的影响。

本发明的另一个目的在于，解决基于语音和手势的多通道人机交互方法中的未指明信息推断的问题。虚拟环境中的模型对象被划分为四类，其中，聚焦对象为在上一次人机交互过程中所被确定的指称对象，也就是说，如果此次人机交互中语音输入的语句中出现了指示性代词“它”，则可认为此次人机交互的指称对象就是聚焦对象，从而解决了未指明信息推断的问题。

本发明的又一个目的在于，提供一种基于语音和手势的多通道人机交互方法。通过构建多通道分层整合模型，在多通道分层整合模型中建立四层：物理层、词法层、语法层和语义层，并最终将人机交互所需的命令信息及指称对象填充入任务槽，上述整合过程的目标以及整合成功与否的判据都是以人机交互的任务结构的完整性为基础，最终目的就是生成可提交系统执行的任务结构，保证人机交互的有效进行。

本发明提供的技术方案为：

一种基于语音和手势的多通道人机交互方法，其特征在于，包括以下步骤：

步骤一、构建语音通道和手势通道，并分别通过语音通道和手势通道对人机交互的指称对象进行语音信息和手势信息的输入；

步骤二、从上述语音信息中提取语音指称对象约束信息，从上述手势信息中提取手势指称对象约束信息，其中，所述手势指称对象约束信息包括当前指点手势所限定的指点区域内的任一点到达指点手势的指点中心的距离统计量以及上述指点手势所维持的时间统计量；

步骤三、将上述语音指称对象约束信息及手势指称对象约束信息与虚拟环境中模型对象的特征信息进行对比，确定出人机交互的指称对象，从上述语音指称对象约束信息中提取对指称对象的命令信息，将命令信息作用于指称对象，完成一次人机交互。

优选的是，所述的基于语音和手势的多通道人机交互方法中，所述虚拟环境中的模型对象被划分为指点对象、聚焦对象、激活对象以及沉寂对象四类，所述指点对象为位于当前指点手势所限定的指点区域内的对象，所述聚焦对象为在上一次人机交互过程中所被确定的指称对象，所述激活对象为位于可视范围内的除指点对象和激活对象以外的模型对象，所述沉寂对象为位于不可视范围内的除指点对象和激活对象以外的模型对象，在步骤三中，将上述语音指称对象约束信息及手势指称对象约束信息按顺序逐一与上述指点对象、聚焦对象、激活对象、沉寂对象的特征信息进行对比，确定出人机交互的指称对象。

优选的是，所述的基于语音和手势的多通道人机交互方法中，在所述步骤二中，

从上述语音信息中提取语音指称对象约束信息和从上述手势信息中提取手势指称对象约束信息是通过以下方式实现的：

构建多通道分层整合模型，所述多通道分层整合模型包括有四层，分别为物理层、词法层、语法层和语义层，其中，所述物理层接收分别由语音通道和手势通道输入的语音信息和手势信息，所述词法层包括有语音识别解析模块和手势识别解析模块，所述语音识别解析模块将物理层的语音信息解析为语音指称对象约束信息，所述手势识别解析模块将物理层的手势信息解析为手势指称对象约束信息。

优选的是，所述的基于语音和手势的多通道人机交互方法中，所述步骤三中，

将上述语音指称对象约束信息及手势指称对象约束信息与虚拟环境中模型对象的特征信息进行对比，确定出人机交互的指称对象，所述指称对象的确定是在所述语法层上实现的，

从上述语音指称对象约束信息中提取对指称对象的命令信息是通过以下方式实现的：

所述语法层从语音指称对象约束信息中提取命令信息，

将命令信息作用于指称对象是通过以下方式实现的：

所述语义层将语法层所提取的命令信息作用于指称对象。

优选的是，所述的基于语音和手势的多通道人机交互方法中，所述多通道分层整合模型还包括有任务槽，所述任务槽包括命令表项以及指称对象表项，

其中所述语义层将语法层所提取的命令信息作用于指称对象是通过以下方式进行的：

所述语义层将语法层所提取的命令信息填入命令表项，将指称对象填入指称对象表项，所述任务槽被填充完整，所述多通道分层整合模型生产系统可执行命令。

优选的是，所述的基于语音和手势的多通道人机交互方法中，在所述任务槽未填充完整的情况下，设置等待时间，所述任务槽在等待时间内被填充完整，则继续此次人机交互，所述任务槽在等待时间内未被填充完整，则放弃此次人机交互。

优选的是，所述的基于语音和手势的多通道人机交互方法中，所述命令表项包括有动作表项和参数表项，所述语音指称对象约束信息中提取对指称对象的命令信息时，所述命令信息包括动作信息和参数信息。

优选的是，所述的基于语音和手势的多通道人机交互方法中，所述步骤一中，在语音通道接收到第一个语句时，开始一次人机交互过程。

优选的是，所述的基于语音和手势的多通道人机交互方法中，所述步骤一中，在语音通道接收到一个语句时，设置超时时间以接收手势通道的手势信息的输入，如手势信息的输入超出所设超时时间，则放弃此次人机交互过程。

本发明所述的基于语音和手势的多通道人机交互方法，具有以下有益效果：

(1)解决基于语音和手势的多通道人机交互方法中的指点模糊性问题。虚拟环境中进行三维交互时，手势(从识别指点开始到指点结束)不仅表达了空间信息，也承载了时间方面的信息。对象在指点区域内停留时间越长，可以认为被选中的可能性越大。因此，在进行手势指称对象约束信息的分析时，不仅要获取距离统计量，而且要获取时间统计量，从而降低三维交互中的指点模糊性。并且，在对指称对象进行确定的过程中，是将虚拟环境中的模型对象划分为四类，并将指称对象与某一类型模型对象进行对比，这种方法也有助于缩小指称对象的寻找范围，降低指点模糊性的影响。

(2)解决基于语音和手势的多通道人机交互方法中的未指明信息推断的问题。虚拟环境中的模型对象被划分为四类，其中，聚焦对象为在上一次人机交互过程中所被确定的指称对象，也就是说，如果此次人机交互中语音输入的语句中出现了指示性代词“它”，则可认为此次人机交互的指称对象就是聚焦对象，从而解决了未指明信息推断的问题。

(3)提供一种基于语音和手势的多通道人机交互方法。通过构建多通道分层整合模型，在多通道分层整合模型中建立四层：物理层、词法层、语法层和语义层，并最终将人机交互所需的命令信息及指称对象填充入任务槽，上述整合过程的目标以及整合成功与否的判据都是以人机交互的任务结构的完整性为基础，最终目的就是生成可提交系统执行的任务结构，保证人机交互的有效进行，提高了人机交互的可靠性。

附图说明

图1为本发明所述的基于语音和手势的多通道人机交互方法的人机交互过程的示意图。

图2为本发明所述的基于语音和手势的多通道人机交互方法的指称归结的总体架构图。

图3为本发明所述的基于语音和手势的多通道人机交互方法的总体流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1、图2和图3所示，本发明提供一种基于语音和手势的多通道人机交互方法，包括以下步骤：

如图1所示，上述基于语音和手势的多通道人机交互方法，首先支持语音和手势两个交互通道。其中语音识别模块采用微软语音识别引擎，将用户的语音命令映射为带时间戳的文本信息，由语音解析模块从中提取出语音指称对象约束信息。手势通道使用数据手套获取关节及位置信息以供手势识别，手势解析模块接受指点手势，并产生指点对象向量。多通道整合模块整合来自语音和手势通道的信息，在整合过程中实现对指称的归结，最后产生系统可执行命令或相应提示。

本发明采用多通道分层整合模型实现多通道整合。整合过程是任务引导的，整合的目标以及整合成功与否的判据都是以交互任务结构的完整性为基础，最终目的就是生成可提交系统执行的任务结构，其中包括任务的动作、任务作用的对象以及相应参数等信息。因此，本发明中定义了任务槽，任务槽属于多通道分层整合模型的一部分。任务槽的结构分为三个部分，分别是动作表项、指称对象表项和参数表项，也可以称之为动作槽、指称对象槽和参数槽。实际上，动作表项和参数表项都属于命令表项。其中指称对象槽中的指称对象可以不止一个，目前参数槽只能填充位置信息。不同的命令会对应有具有不同结构的任务槽，例如选择命令的任务槽只有动作和指称对象两个表项。整合的过程就变成了对任务槽的填充过程，一旦任务槽填满，就形成了系统可执行的完整任务。

举例来说，如仅进行了语音输入“旋转它”，而未作出指点手势，也就是无法确定指称对象。则任务槽在填充时，将在动作槽内填入“旋转”，而指称对象槽为空。此时，由于设置有等待时间，如果任务槽在等待时间内被填充完整，也就是在等待时间内作出了指点手势，从而确定了指称对象，则继续进行此次人机交互。多通道分层整合模型会生成系统可执行命令，如果任务槽在等待时间内未被填充完整，则放弃此次人机交互。

本发明定义的多通道分层整合模型，顾名思义，是基于分层的思想，将通道信息从具体的设备信息到最终要填充至任务槽的语义抽象成物理层、词法层、语法层和语义层等四层。物理层信息是从交互设备输入的原始信息，它的形式具有多样性，与具体的交互设备直接相关。比如从语音输入的是字符串信息，而从数据手套输入的是传感器信息。词法层是关键的一层，它对来自设备层的原始信息进行统一化处理，把意义相同而形式不同的输入统一为相同的信息表示，从而向语法层提供与设备无关的信息。在词法层中，语音通道的语音信息经过语音识别模块和语音解析模块进行抽象，生成语音指称对象约束信息；同时，手势通道的手势信息经过手势识别模块和手势解析模块的抽象后，生成手势指称对象约束信息。语法层主要将来自词法层的信息按照人机交互的语法规范进行分解，分解为符合任务槽各个表项的形式，为后续的语义融合做准备。指称归结主要在语法层进行。并且，语法层还从语音指称对象约束信息中提取命令信息。在语义层，就是利用任务引导机制，进行任务槽的填充和完善，虽然任务与具体的应用有关，但任务槽的填充和完善却独立于应用。

实际上，人机交互过程可以分为两种策略，“急性子”和“慢性子”两种。急性子整合只要多通道输入支持一定程度的整合就开始处理，此过程可以看作是事件驱动的。而慢性子的整合则要到具有了全部输入或者比较完整的输入之后才开始处理。举例而言，在进行人机交互时，急性子的策略是，语音输入“旋转它”，多通道分层整合模型就开始工作，开始进行信息的处理。而慢性子的策略是，语音输入“旋转它”，同时指点手势做出指点某个物体，以使得模型可以确定指称对象，此时模型才启动。也就是，慢性子是在一次性提供一次人机交互的全部信息。由于用户的语音输入经常出现不连续的情况，一个完整的移动物体的命令中间出现较大的时间间隔。同时受到语音识别引擎的限制，本发明使用“急性子”策略，采用语音驱动，在语音通道接收到第一语句时，就开始一次人机交互过程。

指称对象确认的过程也就是指称归结的过程。在本发明中，指称归结要同时以语音指称对象约束信息和手势指称对象约束信息为依据。本发明基于以下两条假设：(1)语音输入中的语义是清晰的，本发明主要关注于解决多通道指称归结中的指点模糊性，因此假设语音输入中的语义是清晰的，不存在“左上角”、“中间”、“以前”等模糊词汇；(2)以“自我为中心”的指称，指称可以划分为三种类型：以自我为中心、以参照物为中心、以他人为中心。本发明中的所有指称均是以自我为中心，不存在“选择他左边的物体”这种以其他视点为中心的情况。

本发明采用语音驱动的整合策略，一个语句被识别后，触发多通道整合过程。多通道分层整合模型中，首先，语音指称对象约束信息被填充入语音约束集。根据手势指称对象约束信息则可以为虚拟环境中的所有模型对象分配身份，将所有模型对象划分为指点对象、聚焦对象、激活对象以及沉寂对象四类。所述指点对象为位于当前指点手势所限定的指点区域内的对象，所述聚焦对象为在上一次人机交互过程中所被确定的指称对象，所述激活对象为位于可视范围内的除指点对象和激活对象以外的模型对象，所述沉寂对象为位于不可视范围内的除指点对象和激活对象以外的模型对象。每一类型模型对象对应一个初始化匹配矩阵，分别为指点矩阵、聚焦矩阵、激活矩阵和沉寂矩阵。

本发明在指称归结过程中采用感知形状的方法，感知形状是由用户控制并能提供交互对象有关信息的几何体。当系统识别当前手势为指点手势时，生成附着在虚拟手食指指尖上的圆锥体(也就是由指点手势所限定的指点区域)，通过碰撞检测记录模型对象和圆锥体交互过程，生成各种统计量数据。然后对统计量加权平均生成指点优先级。一次指点交互完成以后，得到与该指点手势对应的二元组向量，该二元组的第一个元素为指点对象向量，第二个元素为指点优先级。

本发明定义了时间序列T_rank和距离序列D_rank两种统计量。在感知形状内的时间越长，距离指点中心(虚拟手食指指尖)越近，则该模型对象的优先级越高。

T_rank的计算过程如下式所示，其中T_object表示某模型对象在圆锥体中的时间，T_period表示某次交互过程中圆锥体的存在时间(即为指点手势的持续时间)。

T_{rank} = \frac{T_{object}}{T_{period}},

0＜T_rank≤1

D_rank的计算过程如下式所示，其中D_object表示某模型对象中心到指点中心的距离，D_max是在圆锥体中的模型对象到指点中心的最远距离。

D_{rank} = 1 - \frac{D_{object}}{D_{\max}},

0＜D_rank≤1

指点优先级P_rank由上述两种统计量加权平均得到，其计算方法如下：

P_rank＝T_rank*λ+D_rank*(1-λ)，0≤λ≤1

由于交互设备并没有被设计来以协作的方式工作，进行跨通道的整合就必须依靠时间相关性。因此通过感知形状计算得到指点优先级P_rank后，应该记录当前时间以供后阶段的多通道整合使用。由于任务槽对于进一步的信息输入具有等待时间的设置，这个等待时间的数值则要考虑到，进一步的手势信息输入并与语音信息一起完成指称归结过程所需要的时间。

上述得到指点优先级和指点对象向量后，将在指点矩阵、聚焦矩阵、激活矩阵、沉寂矩阵中逐一进行比对寻找，处于四个矩阵中的模型对象具有对应的状态。在每一阶段，对于位于同一矩阵中的模型对象进行指称归结时，则是通过匹配函数Match(o，e)量化模型对象所处状态。

匹配函数的构造如下：

Match (o, e) = [\underset{S &Element; {P, F, A, E}}{Σ} P (o | S) * P (S | e)] * Semantic (o, e) * Temp (o, e)

其中，o表示模型对象，e表示指称。P表示指点状态，F表示聚焦状态，A表示激活状态，E表示沉寂状态，S表示当前对象的状态。下面是Match(o，e)的各个组成部分：

(1)P(o|S)与P(S|e)

P(o|S)表示给定认知状态S时对象o被选中概率，用于衡量手势通道对指称归结的影响。具体计算方法是：P(o|P)＝P_rank；

(M为聚焦对象的个数)，

(N为激活对象的个数)，

(L表示虚拟环境中所有模型对象的个数)。P(S|e)是当指称为e时指称对象状态为S的概率。

(2)Semantic(o，e)

Semantic(o，e)表示模型对象o与指称e之间的语义兼容性，用于衡量语音通道对指称归结的影响，其构造如下：

Semantic (o, e) = \underset{k}{Σ} \frac{{Attr}_{k} (o, e)}{K}

本发明将标志符和语义类型均划入属性Attr_k中，当o和e均有属性k并且两者值不等时Attr_k(o，e)为0，其余情况为1。K为指称对象的属性总数。

(3)Temp(o，e)

Temp(o，e)表示模型对象o和指称e之间的时间兼容性，用于衡量时间对指称归结的影响。它是一个分段函数：

当o和e在同一次交互中时，Temp(o，e)的计算过程如下：

Temp(o，e)＝exp(-|Time(o)-Time(e)|)

当o和e在不同交互中时，Temp(o，e)的计算过程如下：

Temp(o，e)＝exp(-|OrderIndex(o)-OrderIndex(e)|)

其中Time(o)为指点手势发生时间，Time(e)为指称发生时间，单位为秒；OrderIndex(o)表示o在指点手势序列中的先后次序，OrderIndex(e)表示e在指称序列中的先后次序。处于聚焦、激活或沉寂状态对象的Temp(o，e)＝1。

当指称与处于某一状态(即位于某一矩阵内)的模型对象经对比匹配后，指称对象即得到确认。

所述的基于语音和手势的多通道人机交互方法中，所述虚拟环境中的模型对象被划分为指点对象、聚焦对象、激活对象以及沉寂对象四类，所述指点对象为位于当前指点手势所限定的指点区域内的对象，所述聚焦对象为在上一次人机交互过程中所被确定的指称对象，所述激活对象为位于可视范围内的除指点对象和激活对象以外的模型对象，所述沉寂对象为位于不可视范围内的除指点对象和激活对象以外的模型对象，在步骤三中，将上述语音指称对象约束信息及手势指称对象约束信息按顺序逐一与上述指点对象、聚焦对象、激活对象、沉寂对象的特征信息进行对比，确定出人机交互的指称对象。

所述的基于语音和手势的多通道人机交互方法中，在所述步骤二中，从上述语音信息中提取语音指称对象约束信息和从上述手势信息中提取手势指称对象约束信息是通过以下方式实现的：构建多通道分层整合模型，所述多通道分层整合模型包括有四层，分别为物理层、词法层、语法层和语义层，其中，所述物理层接收分别由语音通道和手势通道输入的语音信息和手势信息，所述词法层包括有语音识别解析模块和手势识别解析模块，所述语音识别解析模块将物理层的语音信息解析为语音指称对象约束信息，所述手势识别解析模块将物理层的手势信息解析为手势指称对象约束信息。

所述的基于语音和手势的多通道人机交互方法中，所述步骤三中，将上述语音指称对象约束信息及手势指称对象约束信息与虚拟环境中模型对象的特征信息进行对比，确定出人机交互的指称对象，所述指称对象的确定是在所述语法层上实现的，从上述语音指称对象约束信息中提取对指称对象的命令信息是通过以下方式实现的：所述语法层从语音指称对象约束信息中提取命令信息，将命令信息作用于指称对象是通过以下方式实现的：所述语义层将语法层所提取的命令信息作用于指称对象。

所述的基于语音和手势的多通道人机交互方法中，所述多通道分层整合模型还包括有任务槽，所述任务槽包括命令表项以及指称对象表项，其中所述语义层将语法层所提取的命令信息作用于指称对象是通过以下方式进行的：所述语义层将语法层所提取的命令信息填入命令表项，将指称对象填入指称对象表项，所述任务槽被填充完整，所述多通道分层整合模型生产系统可执行命令。

所述的基于语音和手势的多通道人机交互方法中，在所述任务槽未填充完整的情况下，设置等待时间，所述任务槽在等待时间内被填充完整，则继续此次人机交互，所述任务槽在等待时间内未被填充完整，则放弃此次人机交互。

所述的基于语音和手势的多通道人机交互方法中，所述命令表项包括有动作表项和参数表项，所述语音指称对象约束信息中提取对指称对象的命令信息时，所述命令信息包括动作信息和参数信息。

所述的基于语音和手势的多通道人机交互方法中，所述步骤一中，在语音通道接收到第一个语句时，开始一次人机交互过程。

所述的基于语音和手势的多通道人机交互方法中，所述步骤一中，在语音通道接收到一个语句时，设置超时时间以接收手势通道的手势信息的输入，如手势信息的输入超出所设超时时间，则放弃此次人机交互过程。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于语音和手势的多通道人机交互方法，其特征在于，包括以下步骤:

步骤一、构建语音通道和手势通道，并分别通过语音通道和手势通道对人机交互的指称对象进行语音信息和手势信息的输入;

在语音通道接收到第一个语句时，开始一次人机交互过程;

在语音通道接收到一个语句时，设置超时时间，如手势信息的输入超出所设超时时间，则放弃此次人机交互过程;

步骤二、从上述语音信息中提取语音指称对象约束信息，从上述手势信息中提取手势指称对象约束信息，其中，所述手势指称对象约束信息包括当前指点手势所限定的指点区域内的任一点到达指点手势的指点中心的距离统计量以及上述指点手势所维持的时间统计量;

从上述语音信息中提取语音指称对象约束信息和从上述手势信息中提取手势指称对象约束信息是通过以下方式实现的:

构建多通道分层整合模型，所述多通道分层整合模型包括有四层，分别为物理层、词法层、语法层和语义层，其中，所述物理层接收分别由语音通道和手势通道输入的语音信息和手势信息，所述词法层包括有语音识别解析模块和手势识别解析模块，所述语音识别解析模块将物理层的语音信息解析为语音指称对象约束信息，所述手势识别解析模块将物理层的手势信息解析为手势指称对象约束信息;

步骤三、虚拟环境中的模型对象被划分为指点对象、聚焦对象、激活对象以及沉寂对象四类，所述指点对象为位于当前指点手势所限定的指点区域内的对象，所述聚焦对象为在上一次人机交互过程中所被确定的指称对象，所述激活对象为位于可视范围内的除指点对象和激活对象以外的模型对象，所述沉寂对象为位于不可视范围内的除指点对象和激活对象以外的模型对象，将上述语音指称对象约束信息及手势指称对象约束信息按顺序逐一与上述指点对象、聚焦对象、激活对象、沉寂对象的特征信息进行对比，确定出人机交互的指称对象，从上述语音指称对象约束信息中提取对指称对象的命令信息，将命令信息作用于指称对象，完成一次人机交互;

从上述语音指称对象约束信息中提取对指称对象的命令信息是通过以下方式实现的:

所述语法层从语音指称对象约束信息中提取命令信息，

将命令信息作用于指称对象是通过以下方式实现的:

所述语义层将语法层所提取的命令信息作用于指称对象;

所述多通道分层整合模型还包括有任务槽，所述任务槽包括命令表项以及指称对象表项，

其中所述语义层将语法层所提取的命令信息作用于指称对象是通过以下方式进行的:

所述语义层将语法层所提取的命令信息填入命令表项，将指称对象填入指称对象表项，所述任务槽被填充完整，所述多通道分层整合模型生产系统可执行命令;

在所述任务槽未填充完整的情况下，设置等待时间，所述任务糟在等待时间内被填充完整，则继续此次人机交互，所述任务槽在等待时间内未被填充完整，则放弃此次人机交互;

所述命令表项包括有动作表项和参数表项，所述语音指称对象约束信息中提取对指称对象的命令信息时，所述命令信息包括动作信息和参数信息。