CN100368960C

CN100368960C - 信息处理方法和设备

Info

Publication number: CN100368960C
Application number: CNB2004800153162A
Authority: CN
Inventors: 近江裕美; 广田诚; 中川贤一郎
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-06-02
Filing date: 2004-06-01
Publication date: 2008-02-13
Anticipated expiration: 2024-06-01
Also published as: JP2004362052A; WO2004107150A1; US20060290709A1; JP4027269B2; EP1634151A1; KR100738175B1; KR20060030857A; EP1634151A4; CN1799020A

Abstract

一种用于基于用户使用多种类型的输入模态输入的多条输入信息来处理用户指令的信息处理方法，其中，多种类型的输入模态的每一个具有包括输入内容和语义属性之间的对应性的描述。通过解析使用多种类型的输入模态输入的多条输入信息的每一条来获得每个输入内容，并且从该描述中获取所获取的输入内容的语义属性。多模态输入整合单元基于所获取的语义属性整合所获取的输入内容。

Description

信息处理方法和设备

技术领域

本发明涉及用于使用多种类型的输入模态来发出指令的所谓多模态用户界面。

背景技术

对用户来说，允许使用例如GUI输入、语音输入等多种类型的模态(输入模式)中所期望的模态来进行输入的多模态用户界面是非常便利的。特别地，通过同时使用多种类型的模态进行输入获得高便利性。例如，当用户点击指示GUI上的对象的按钮，同时发出例如“这个”等指令词语时，即使不习惯如命令等技术语言的用户也能自由地操作目标设备。为了获得这种操作，需要用于整合通过多种类型的模态的输入的处理。

作为用于整合通过多种类型的模态的输入的处理的例子，已经提出了将语言解释应用于语音识别结果的方法(日本专利公开No.9-114634)、使用上下文信息的方法(日本专利公开No.8-234789)、组合输入时间相近的输入并将它们作为语义解释单元输出的方法(日本专利公开No.8-263258)、以及进行语言解释且使用语义结构的方法(日本专利公开No.2000-231427)。

IBM等也规划了“XHTML+Voice Profile”规范，并且此规范允许用置标语言描述多模态用户界面。此规范的细节在W3C网站中描述(http://www.w3.org/TR/xhtml+voice/)。SALT论坛已经发表了0“SALT”规范，且该规范允许用如上述XHTML+Voice配置文件中的置标语言描述多模态用户界面。此规范的细节在SALT论坛网站中描述(The Speech Application Language Tags：http://www.saltforum.org/)。

然而，这些现有技术在整合多种类型的模态方面需要例如语言解释等复杂处理。即使进行了这种复杂处理，由于语言解释的解释错误等，用户所意图的输入的含义有时也不能反映在应用中。XHTML+Voice profile和SALT所代表的技术以及使用置标语言的常规描述方法不具有处理表示输入含义的语义属性描述的方案。

发明内容

考虑到上述情形提出了本发明，并且本发明的目的是通过简单处理实现用户所意图的多模态输入整合。

更具体地，本发明的另一个目的是通过在用于处理来自多种类型的模态的输入的描述中采用例如表示输入含义的语义属性描述的新描述，因而通过简单整合处理来实施用户或设计者所意图的输入的整合。

本发明的另一个目的是允许应用开发者使用置标语言等来描述输入的语义属性。

为了实现以上目的，根据本发明的一个方面，提供了一种信息处理方法，该方法用于基于由用户使用多种类型的输入模态输入的多条输入信息来识别用户的指令，该方法具有包括对多种类型的输入模态的每一个的输入内容和语义属性之间的对应性的描述，该方法包括：获取步骤，通过解析使用多种类型的输入模态输入的多条输入信息的每一条来获取输入内容，并且从描述中获取所获取的输入内容的语义属性，并且进一步获取输入内容的输入时间，以及与输入内容的值和绑定目的地相关的信息；以及整合步骤，基于与输入内容的值和绑定目的地相关的信息，检查是否需要整合，如果不需要整合，则完整无缺地输出输入内容，否则，基于输入时间和语义属性整合需要整合的输入内容，并且输出整合结果。

一种信息处理设备，用于基于用户使用多种类型的输入模态输入的多条输入信息来识别用户的指令，所述设备包括：保持单元，用于保持包括用于多种类型的输入模态的每一个的输入内容和语义属性之间的对应性的描述，获取单元，用于通过解析使用多种类型的输入模态输入的多条输入信息的每一条来获取输入内容，并且从描述中获取所获取的输入内容的语义属性，并且进一步获取输入内容的输入时间，以及与输入内容的值和绑定目的地相关的信息；以及整合单元，用于基于与输入内容的值和绑定目的地相关的信息，检查是否需要整合，如果不需要整合，则完整无缺地输出输入内容，否则，基于输入时间和语义属性整合需要整合的输入内容，并且输出整合结果。

从结合附图的以下描述中，本发明的其他特征和优势将变得明显，其中在所有附图中，相同参考标号指示相同或相似的部分。

附图说明

引入说明书并组成说明书一部分的附图同说明一起阐释了本发明的实施例，用于说明本发明的原理。

图1是示出根据第一实施例的信息处理系统的基本配置的框图；

图2示出了根据第一实施例的通过置标语言进行的语义属性的描述例子；

图3示出了根据第一实施例的通过置标语言进行的语义属性的描述例子；

图4是用于说明根据第一实施例的信息处理系统中的GUI输入处理器的处理流程的流程图；

图5是示出根据第一实施例的用于语音识别的语法(语法规则)的描述例子的表格；

图6示出了根据第一实施例的使用置标语言进行语音识别的语法(语法规则)的描述例子；

图7示出了根据第一实施例的语音识别/解释结果的描述例子；

图8是用于说明根据第一实施例的信息处理系统中的语音识别/解释处理器103的处理流程的流程图；

图9A是用于说明根据第一实施例的信息处理系统中的多模态输入整合单元104的处理流程的流程图；

图9B是示出图9A中的步骤S903的细节的流程图；

图10示出了根据第一实施例的多模态输入整合的例子；

图11示出了根据第一实施例的多模态输入整合的例子；

图12示出了根据第一实施例的多模态输入整合的例子；

图13示出了根据第一实施例的多模态输入整合的例子；

图14示出了根据第一实施例的多模态输入整合的例子；

图15示出了根据第一实施例的多模态输入整合的例子；

图16示出了根据第一实施例的多模态输入整合的例子；

图17示出了根据第一实施例的多模态输入整合的例子；

图18示出了根据第一实施例的多模态输入整合的例子；

图19示出了根据第一实施例的多模态输入整合的例子；

图20示出了根据第二实施例的使用置标语言的语义属性的描述例子；

图21示出了根据第二实施例的用于语音识别的语法(语法规则)的描述例子；

图22示出了根据第二实施例的语音识别/解释结果的描述例子；

图23示出了根据第二实施例的多模态输入整合的例子；

图24示出了根据第二实施例的使用置标语言的包括“ratio”的语义属性的描述例子；

图25示出了根据第二实施例的多模态输入整合的例子；

图26示出了根据第二实施例的用于语音识别的语法(语法规则)的描述例子；以及

图27示出了根据第二实施例的多模态输入整合的例子。

具体实施方式

现在根据附图详细描述本发明的优选实施例。

[第一实施例]

图1是示出根据第一实施例的信息处理系统的基本配置的框图。该信息处理系统具有GUI输入单元101、语音输入单元102、语音识别/解释单元103、多模态输入整合单元104、存储单元105、置标解析单元106、控制单元107、语音合成单元108、显示单元109以及通信单元110。

GUI输入单元101包括例如按钮组、键盘、鼠标、触摸板、笔、书写板等的输入设备，并且作为用于从用户向此设备输入各种指令的输入界面。语音输入单元102包括麦克风、A/D转换器等，并且将用户所说的话转换成语音信号。语音识别/解释单元103解释语音输入单元102提供的语音信号，并且执行语音识别。注意，可以使用已知技术作为语音识别技术，且省略其详细描述。

多模态输入整合单元104整合从GUI输入单元101和语音识别/解释单元103输入的信息。存储单元105包括用于保存各种信息的硬盘驱动设备，以及例如CD-ROM、DVD-ROM等用于将各种信息提供给信息处理系统和驱动器的存储介质等。硬盘驱动设备和存储介质存储各种应用程序、用户界面控制程序、执行程序所需的各种数据等，并且这些程序在控制单元107(将在后面描述)的控制下被载入系统。

置标解析单元106解析用置标语言描述的文档。控制单元107包括工作存储器、CPU、MPU等，并且通过读出存储在存储单元105中的程序和数据，执行用于整个系统的各种处理。例如，控制单元107将多模态输入整合单元104的整合结果传递给语音合成单元108，以将其作为合成语音输出，或将该结果传递给显示单元109，以将其作为图像显示。语音合成单元108包括扩音器、耳机、D/A转换器等，并且执行基于所读取的文本产生语音数据的处理，将该数据D/A转换成模拟数据，并且将该模拟数据向外输出作为语音。注意，可以使用已知技术作为语音合成技术，且省略其详细描述。显示单元109包括例如液晶显示器等的显示设备，并且显示包括图像、文本等的各种信息。注意，显示单元109可以采用触摸板类型的显示设备。在这种情况下，显示单元109还具有GUI输入单元的功能(将各种指令输入到此系统的功能)。通信单元110是用于通过例如因特网、LAN等的网络与其他设备进行数据通信的网络接口。

以下将描述用于对具有上述配置的信息处理系统进行输入的机构(GUI输入和语音输入)。

首先将说明GUI输入。图2示出了使用用于表示各自组元的置标语言(此例中为XML)的描述例子。参考图2，<input>标签描述了每个GUI组元，并且type(类型)属性描述了组元的类型。value(值)属性描述了每个组元的值，并且ref属性描述了作为每个组元的绑定目的地的数据模型。这种XML文档符合W3C(万维网协会)的规范，即，这是一种已知技术。注意，该规范的细节在W3C网站中描述(XHTML：http://www.w3.org/Tr/xhtm111/，XForms：http://www.w3.org/TR/xforms/)。

在图2中，通过扩展现有规范准备meaning(含义)属性，并且该meaning属性具有可以描述每个组元的语义属性的结构。由于允许置标语言描述组元的语义属性，应用开发者自己可以容易地设定他或她所意图的每个组元的含义。例如，在图2中，将meaning属性“station(车站)”给予“涩谷(SHIBUYA)”、“惠比寿(EBISU)”、以及“JIYUGAOKA”。注意，语义属性不像含义属性一样需要总使用唯一的规范。例如，可以使用现有规范来描述语义属性，例如XHTML规范中的类(class)属性，如图3所示。用置标语言描述的XML文档由置标解析单元106(XML解析器)进行解析。

将使用图4的流程图描述GUI输入处理方法。当用户从GUI输入单元101输入例如GUI组元的指令时，获取GUI输入事件(步骤S401)。获取该指令的输入时间(时间标记)，并且参考图2中的meaning属性(或图3中的class属性)把指定GUI组元的语义属性设定为输入的语义属性(步骤S402)。进一步地，从GUI组元的前述描述中获取指定组元的数据的绑定目的地和输入值。为组元的数据所获取的绑定目的地、输入值、语义属性以及时间标记输出到多模态输入整合单元104作为输入信息(步骤S403)。

下面将参考图10和11描述GUI输入处理的一个实际例子。图10示出了当通过GUI按下具有值“1”的按钮时所执行的处理。此按钮用置标语言描述，如图2或3所示，并且通过解析此置标语言来理解该值为“1”、语义属性为“number(数字)”，且数据绑定目的地为“/Num”。按下按钮“1”时，获取输入时间(时间标记；图10中的“00:00:08”)。接着，将GUI组元的值“1”、语义属性“number”和数据绑定目的地“/Num”，以及时间标记输出到多模态输入整合单元104(图10：1002)。

同样，当按下按钮“惠比寿”时，如图11所示，时间标记(图11中的“00:00:08”)、通过解析图2或3中的置标语言获得的值“惠比寿”、语义属性“station”以及数据绑定目的地“-(无绑定)”输出到多模态输入整合单元104(图11：1102)。通过上述处理，可以将应用开发者所意图的语义属性作为应用侧的输入的语义属性信息进行处理。

下面将描述来自语音输入单元102的语音输入处理。图5示出了识别语音所需的语法(语法规则)。图5示出了描述规则的语法，该规则用于识别例如“从这里”、“到惠比寿”等的语音输入，以及输出解释结果：from＝“@unknwon”，to＝“惠比寿”等。在图5中，输入串是输入语音，并且具有如下结构：在value串中描述对应输入语音的值，在meaning串中描述语义属性，以及在DataModel串中描述绑定目的地的数据模型。由于识别语音所需的语法(语法规则)可以描述语义属性(meaning)，应用开发者自己可以容易地设定对应每个语音输入的语义属性，并且可以避免例如对语言解释等复杂处理的需要。

在图5中，value串描述了一种特殊值(此例中的@unknown)，用于例如“这里”等的输入，这种输入如果单独被输入则无法处理，且需要与通过其他模态的输入之间的对应性。通过指定此特殊值，应用侧可以确定这种输入不能被单独处理，并且可以跳过例如语言解释等的处理。注意，可以使用W3C的规范来描述语法(语法规则)，如图6所示。该规范的细节在W3C网站中描述(语音识别语法规范：http//www.w3.org/TR/speech-grammar/，用于语音识别的语义解释：http://www.w3.org/TR/semantic-interpretation/)。由于W3C规范不具有描述语义属性的结构，因此将冒号(：)和语义属性附加到解释结果上。因而，之后需要用于分离解释结果和语义属性的处理。用置标语言描述的语法由置标解析单元106(XML解析器)进行解析。

下面将使用图8的流程图描述语音输入/解释处理方法。当用户从语音输入单元102输入语音时，获取语音输入事件(步骤S801)。获取输入时间(时间标记)，并且执行语音识别/解释处理(步骤S802)。图7示出了解释处理结果的一个例子。例如，当使用连接到网络的语音处理器时，获得解释结果作为图7所示的XML文档。在图7中，<nlsml:interpretation>标签指示一个解释结果，并且confidence(置信度)属性指示其置信度。并且，<nlsml:input>标签指示输入语音的文本，且<nlsml:instance>标签指示识别结果。W3C已经发表了表达解释结果所需的规范，并且该规范的细节在W3C网站中描述(用于语音界面框架结构的自然语言语义置标语言：http://www.w3.org/TR/nl-spec/)。如在该语法中那样，可以由置标解析单元106(XML解析器)对语音解释结果(输入语音)进行解析。从语法规则的描述中获取对应于此解释结果的语义属性(步骤S803)。此外，从语法规则的描述中获取对应于解释结果的绑定目的地和输入值，并且将该绑定目的地和输入值作为输入信息，连同语义属性和时间标记一起输出到多模态输入整合单元104(步骤S804)。

下面将使用图10和11描述前述语音输入处理的实际例子。图10示出了当输入语音“到惠比寿”的处理。从图6中的语法(语法规则)可以看出，当输入语音“到惠比寿”时，值为“惠比寿”，语义属性为“station”，并且数据绑定目的地为“/To”。当输入语音“到惠比寿”时，获取其输入时间(时间标记；图10中的“00:00:06”)，并且将该输入时间连同值“惠比寿”、语义属性“station”以及数据绑定目的地“/To”一起输出到多模态输入整合单元104中(图10：1001)。注意，图6中的语法(用于语音识别的语法)允许语音作为以下之一的组合进行输入：由<one-of>和</one-of>标签约束的“这里”、“涩谷”、“惠比寿”、“JIYUGAOKA”、“东京(TOKYO)”等，以及“从(from)”或“到(to)”(例如“从这里”和“到惠比寿”)。并且，也可以组合这种组合(例如“从涩谷到JIYUGAOKA”和“到这里，从东京”)。与“从”组合的词语被解释为from值，与“到”组合的词被解释为to值，并且返回由<item>、<tag>、</tag>以及</item>约束的内容作为解释结果。因此，当输入语音“到惠比寿”时，返回“惠比寿：station”作为to值，并且当输入语音“从这里”时，返回“@unknown:station”作为from值。当输入语音“从惠比寿到东京”时，返回“惠比寿：station”作为from值，且返回“东京：station”作为to值。

同样地，当输入语音“从这里”时，如图11所示，时间标记“00:00:06”、以及基于图6中的语法(语法规则)获取的输入值“@unknown”、语义属性“station”和数据绑定目的地“/From”输出到多模态输入整合单元104(图11：1101)。通过以上处理，在语音输入处理中，可以将应用开发者所意图的语义属性作为应用侧的输入的语义属性信息进行处理。

下面将参考图9A到19描述多模态输入整合单元104的操作。注意，此实施例将说明用于整合来自前述GUI输入单元101和语音输入单元102的输入信息(多模态输入)的处理。

图9A是示出用于在多模态输入整合单元104中整合来自各输入模态的输入信息的处理方法的流程图。当各输入模式输出多条输入信息(数据绑定目的地、输入值、语义属性以及时间标记)时，获取这些输入信息(步骤S901)，并且以时间标记的次序对所有输入信息进行排序(步骤S902)。接着，按照其输入次序整合具有相同语义属性的多条输入信息(步骤S903)。即，根据其输入次序整合具有相同语义属性的多条输入信息。更具体地，进行下面的处理。即，例如，当输入“从这里(点击涩谷)到这里(点击惠比寿)”时，按下面的次序输入多条语音输入信息：

(1)这里(station)←“从这里”的“这里”

(2)这里(station)←“到这里”的“这里”

同样，按下面的次序输入多条GUI输入(点击)信息：

(1)涩谷(station)

(2)惠比寿(station)

于是，分别整合输入(1)和输入(2)。

作为整合多条输入信息所需的条件，

(1)该多条信息需要整合处理；

(2)该多条信息在一期限内输入(例如时间标记的差等于或小于3秒)；

(3)该多条信息具有相同的语义属性；

(4)当该多条信息以时间标记次序排序时，它们不包括任何具有不同语义属性的输入信息；

(5)“绑定目的地”和“值”具有互补关系；并且

(6)将要整合满足(1)到(4)的信息中最早输入的信息。将要整合满足这些整合条件的多条输入信息。注意，这些整合条件是一个例子，且可以设定其他条件。例如，可以采用输入的空间距离(坐标)。注意，可以使用东京车站、惠比寿车站等在地图上的坐标作为坐标。同样，也可以使用以上整合条件中的一些作为整合条件(例如，仅使用条件(1)和(3)作为整合条件)。在此实施例中，整合不同模态的输入，但是不整合相同模态的输入。

注意，条件(4)不总是必需的。然而，通过添加此条件，期望获得以下优势。

例如，当输入语音“从这里，两张票，到这里”时，如果作为点击定时和整合解释而认为

(a)“(点击)从这里，两张票，到这里”→整合点击和“这里(从)”是自然的；

(b)“从(点击)这里，两张票，到这里”→整合点击和“这里(从)”是自然的；

(c)“从这里(点击)，两张票，到这里”→整合点击和“这里(从)”是自然的；

(d)“从这里，两张(点击)票，到这里”→即使是人类也很难说点击与“这里(从)”整合还是与“这里(到)”整合；

(e)“从这里，两张票，(点击)到这里”→整合点击和“这里(到)”是自然的，当不使用条件(4)时，即，当可以包括不同语义属性时，如果在上面的(e)中点击和“这里(从)”具有接近的定时，则整合点击和“这里(从)”。然而，对于本领域中的技术人员很明显的是，这种条件可以根据界面的使用目的而改变。

图9B是用于更加详细说明步骤S903中的整合处理的流程图。在步骤S902中，以时间次序对多条输入信息进行排序之后，在步骤S911中选择第一个条输入信息。在步骤S912中检查所选输入信息是否需要整合。在这种情况下，如果输入信息的绑定目的地和输入值中的至少其中之一没有解决，则确定需要整合；如果绑定目的地和输入值都解决了，则确定不需要整合。如果确定不需要整合，流程前进到步骤S913，且多模态输入整合单元104输出该输入信息的绑定目的地和输入值作为单独输入。同时，设定指示输出了输入信息的标志。流程接着跳到步骤S919。

另一方面，如果确定需要整合，流程前进到步骤S914，以搜索在所关心的输入信息之前输入的且满足整合条件的输入信息。如果找到了这种输入信息，流程从步骤S915前进到步骤S916，以整合所关心的输入信息和所找到的输入信息。将在后面使用图10到19描述此整合处理。流程前进到步骤S917以输出整合结果，并且设定指示整合了这两条输入信息的标志。流程接着前进到步骤S919。

如果搜索处理不能找到任何可以整合的输入信息，流程前进到步骤S918以保持所选择的输入信息完整无缺。选择下一个输入信息(步骤S919和步骤S920)，且从步骤S912重复前述处理。如果在步骤S919中确定没有剩余要处理的输入信息，则此处理结束。

下面将参考图10到19详细描述多模态输入整合处理的例子。在每个处理的描述中，在括号中描述图9B中的步骤标号。还定义了GUI输入和用于语音识别的语法，如图2或3以及图6所示。

将说明图10的例子。如上所述，对语音输入信息1001和GUI输入信息1002以时间标记的次序进行排序，并且从具有较早时间标记的输入信息开始依次进行处理(在图10中，带圈的数字指示该次序)。在语音输入信息1001中，解决了数据绑定目的地、语义属性以及值的全部。由于此原因，多模态输入整合单元104输出数据绑定目的地“/To”和值“惠比寿”作为单独输入(图10：1004，图9B中的S912、S913)。同样地，由于在GUI输入信息1002中解决了数据绑定目的地、语义属性以及值的全部，多模态输入整合单元104输出数据绑定目的地“/Num”和值“1”作为单独输入(图10：1003)。

下面将描述图11中的例子。由于语音输入信息1101和GUI输入信息1102以时间标记的次序排序，并且从具有较早时间标记的输入信息开始依次进行处理，所以首先处理语音输入信息1101。语音输入信息1101不能作为单独输入进行处理，并且需要整合处理，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1101之前输入的GUI输入信息中搜索类似地需要整合处理的输入(在这种情况下是没有解决数据绑定目的地的信息)。在这种情况下，由于在语音输入信息1101之前没有输入，下一GUI输入信息1102的处理开始，同时保持该信息。GUI输入信息1102不能作为单独输入进行处理，并且需要整合处理(S912)，因为其数据模型为“-(无绑定)”。

在图11的情况下，由于满足整合条件的输入信息是语音输入信息1101，选择GUI输入信息1102和语音输入信息1101作为要整合的信息(S915)。整合这两条信息，并且输出数据绑定目的地“/From”和值“惠比寿”(图11：1103)(S916)。

下面将描述图12的例子。对语音输入信息1201和GUI输入信息1202以时间标记的次序进行排序，并且从具有较早时间标记的输入信息开始依次进行处理。语音输入信息1201不能作为单独输入进行处理，并且需要整合处理，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1201之前输入的GUI输入信息中搜索类似地需要整合处理的输入。在这种情况下，由于在语音输入信息1201之前没有输入，所以下一GUI输入信息1202的处理开始，同时保持该信息。GUI输入信息1202不能作为单独输入进行处理，并且需要整合处理，因为其数据模型为“-(无绑定)”。作为要整合的信息，在语音输入信息1202之前输入的语音输入信息中搜索满足整合条件的输入信息(S912、S914)。在这种情况下，在GUI输入信息1202之前输入的语音输入信息1201具有与信息1202不同的语义属性，并且不满足整合条件。因此，跳过整合处理，并且下一处理开始，同时保持如语音输入信息1201中的信息(S914、S915-S918)。

下面将描述图13的例子。对语音输入信息1301和GUI输入信息1302以时间标记的次序进行排序，并且从具有较早时间标记的输入信息开始依次进行处理。语音输入信息1301不能作为单独输入进行处理，并且需要整合处理(S912)，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1301之前输入的GUI输入信息中搜索类似地需要整合处理的输入(S914)。在这种情况下，由于在语音输入信息1301之前没有输入，所以下一GUI输入信息1302的处理开始，同时保持该信息。由于解决了GUI输入信息1302中数据绑定目的地、语义属性以及值的全部，将数据绑定目的地“/Num”和值“1”输出作为单独输入(图13：1303)(S912、S913)。因而，保持语音输入信息1301。

下面将描述图14的例子。对语音输入信息1401和GUI输入信息1402以时间标记的次序进行排序，并且从具有较早时间标记的输入信息开始依次进行处理。由于解决了语音输入信息1401中数据绑定目的地(/To)、语义属性以及值的全部，所以将数据绑定目的地“/To”和值“惠比寿”输出作为单独输入(图14：1404)(S912、S913)。接着，还在GUI输入信息1402中，将数据绑定目的地“/To”和值“JIYUGAOKA”输出作为单独输入(图14：1403)(S912、S913)。结果，由于1403和1404具有相同数据绑定目的地“/To”，所以1403的值“JIYUGAOKA”覆盖1404的值“惠比寿”。即，输出1404的内容，接着输出1403的内容。这种状态一般被认为是“信息竞争”，这是由于虽然在相同时间带内要输入相同的数据，但是接收了“惠比寿”作为一个输入，且接收了“JIYUGAOKA”作为另一个输入。这种情况下，选择哪条信息是一个问题。可以使用一种等待在时间上接近的输入之后处理信息的方法。然而，这种方法需要很多时间，直到获得处理结果。因此，此实施例执行用于依次输出数据而不等待这种输入的处理。

下面将描述图15的例子。对语音输入信息1501和GUI输入信息1502以时间标记的次序进行排序，并且从具有较早时间标记的输入信息开始依次进行处理。在这种情况下，由于这两条输入信息具有相同的时间标记，按语音模态和GUI模态的次序执行处理。对于此种次序，这些信息可以按它们到达多模态输入整合单元的次序，或按在浏览器中事先设定的输入模态的次序进行处理。结果，由于解决了语音输入信息1501中数据绑定目的地、语义属性以及值的全部，所以将数据绑定目的地“/To”和值“惠比寿”输出作为单独输入(图15：1504)。接着，当处理GUI输入信息1502时，将数据绑定目的地“/To”和值“JIYUGAOKA”输出作为单独输入(图15：1503)。结果，由于1503和1504具有相同数据绑定目的地“/To”，1503的值“JIYUGAOKA”覆盖1504的值“惠比寿”。

下面将描述图16的例子。对语音输入信息1601、语音输入信息1602、GUI输入信息1603以及GUI输入信息1604以时间标记的次序进行排序，并且从具有较早时间标记(由图16中带圈标号1到4指示)的输入信息开始依次进行处理。语音输入信息1601不能作为单独输入进行处理，并且需要整合处理(S912)，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1601之前输入的GUI输入信息中搜索类似地需要整合处理的输入(S914)。在这种情况下，由于在语音输入信息1601之前没有输入，下一GUI输入信息1602的处理开始，同时保持该信息(S915、S918-S920)。GUI输入信息1603不能作为单独输入进行处理，并且需要整合处理(S912)，因为其数据模型为“-(无绑定)”。作为要整合的信息，在GUI输入信息1603之前输入的语音输入信息中搜索满足整合条件的输入信息(S914)。在图16的情况下，由于语音输入信息1601和GUI输入信息1603满足整合条件，所以整合GUI信息1603和语音输入信息1601(S916)。整合这两条信息之后，输出数据绑定目的地“/From”和值“涩谷”(图16：1606)(S917)，并且作为一信息的语音输入信息1602的处理开始(S920)。语音输入信息1602不能作为单独输入进行处理，并且需要整合处理(S912)，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1602之前输入的GUI输入信息中搜索类似地需要整合处理的输入(S914)。在这种情况下，已经处理了GUI输入信息1603，并且语音输入信息1602之前没有需要整合处理的GUI输入信息。因此，下一GUI信息1604的处理开始，同时保持语音输入信息1602(S915，S918-S920)。GUI输入信息1604不能作为单独输入进行处理，并且需要整合处理，因为其数据模型为“-(无绑定)”(S912)。作为要整合的信息，在GUI输入信息1604之前输入的语音输入信息中搜索满足整合条件的输入信息(S914)。在这种情况下，由于满足整合条件的输入信息是语音输入信息1602，整合GUI输入信息1604和语音输入信息1602。整合这两条信息，并且输出数据绑定目的地“/To”和值“惠比寿”(图16：1605)(S915-S917)。

下面将描述图17的例子。对语音输入信息1701、语音输入信息1702、以及GUI输入信息1703以时间标记的次序进行排序，并且从具有较早时间标记的输入信息开始依次进行处理。作为第一条输入信息的语音输入信息1701不能作为单独输入进行处理，并且需要整合处理，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1701之前输入的GUI输入信息中搜索类似地需要整合处理的输入(S912、S914)。在这种情况下，由于在语音输入信息1701之前没有输入，所以下一语音输入信息1702的处理开始，同时保持此信息(S915、S918-S920)。由于解决了语音输入信息1702的数据绑定目的地、语义属性以及值的全部，所以将数据绑定目的地“/To”和值“惠比寿”输出作为单独输入(图17：1704)(S912、S913)。

接着，作为下一输入信息的GUI输入信息1703的处理开始。GUI输入信息1703不能作为单独输入进行处理，并且需要整合处理，因为其数据模型为“-(无绑定)”。作为要整合的信息，在GUI输入信息1703之前输入的语音输入信息中搜索满足整合条件的输入信息。找到了语音输入信息1701，作为满足整合条件的输入信息。因此，整合GUI输入信息1703和语音输入信息1701，结果，输出数据绑定目的地“/From”和值“涩谷”(图17：1705)(S915-S917)。

下面将描述图18的例子。对语音输入信息1801、语音输入信息1802、GUI输入信息1803以及GUI输入信息1804以时间标记的次序进行排序，并且从具有较早时间标记的输入信息开始依次进行处理。在图18的情况下，对这些输入信息以1803、1801、1804和1802的次序进行处理。

第一条GUI输入信息1803不能作为单独输入进行处理，并且需要整合处理，因为其数据模型为“-(无绑定)”。作为要整合的信息，在GUI输入信息1803之前输入的语音输入信息中搜索满足整合条件的输入信息。在这种情况下，由于在GUI输入信息1803之前没有输入，所以作为下一输入信息的语音输入信息1801的处理开始，同时保持该信息(S912、S914、S915)。语音输入信息1801不能作为单独输入进行处理，并且需要整合处理，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1801之前输入的GUI输入信息中搜索类似地需要整合处理的输入(S912、S914)。在这种情况下，存在语音输入信息1801之前的GUI输入信息1803，但是该信息已超时(time-out)(时间标记的差等于或大于3秒)，并且不满足整合条件。因此不执行整合处理。结果，下一GUI信息1804的处理开始，同时保持该语音输入信息1801(S915、S918-S920)。

GUI输入信息1804不能作为单独输入进行处理，并且需要整合处理，因为其数据模型为“-(无绑定)”。作为要整合的信息，在GUI输入信息1804之前输入的语音输入信息中搜索满足整合条件的输入信息(S912、S914)。在图18的情况下，由于语音输入信息1801满足整合条件，所以整合GUI信息1804和语音输入信息1801。整合这两条信息之后，输出数据绑定目的地“/From”和值“惠比寿”(图18：1805)(S915-S917)。

在此之后，语音输入信息1802的处理开始。语音输入信息1802不能作为单独输入进行处理，并且需要整合处理，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1802之前输入的GUI输入信息中搜索类似地需要整合处理的输入(S912、S914)。在这种情况下，由于语音输入信息1802之前没有输入，所以下一处理开始，同时保持该信息(S915、S918-S920)。

下面将描述图19的例子。对语音输入信息1901、语音输入信息1902以及GUI输入信息1903以时间标记的次序进行排序，并且从具有较早时间标记的输入信息开始依次进行处理。在图19的情况下，对这些输入信息按1901、1902和1903的次序进行排序。

语音输入信息1901不能作为单独输入进行处理，并且需要整合处理，因为它的值为“@unknown”。作为要整合的信息，在语音输入信息1901之前输入的GUI输入信息中搜索类似地需要整合处理的输入(S912、S914)。在这种情况下，由于在语音输入信息1901之前没有GUI输入信息，所以跳过整合处理，且下一语音输入信息1902的处理开始，同时保持信息(S915、S918-S920)。由于解决了语音输入信息1902的数据绑定目的地、语义属性以及值的全部，所以输出数据绑定目的地“/Num”和值“2”作为单独输入(图19：1904)(S912、S913)。接着，GUI输入信息1903的处理开始(S920)。GUI输入信息1903不能作为单独输入进行处理，并且需要整合处理，因为其数据模型为“-(无绑定)”。作为要整合的信息，在GUI输入信息1903之前输入的语音输入信息中搜索满足整合条件的输入信息(S912、S914)。在这种情况下，语音输入信息1901不满足整合条件，因为在两者之间存在具有不同语义属性的输入信息1902。因此，跳过整合处理，并且下一处理开始，而同时保持该信息(S915、S918-S920)。

如上所述，由于基于时间标记和语义属性执行整合处理，可以正常地整合来自各输入模态的多条输入信息。结果，当应用开发者在要整合的输入中设定共同语义属性时，他或她的意图可以反映在该应用中。

如上所述，根据第一实施例，用于语音识别的XML文档和语法(语法规则)可以描述语义属性，并且应用开发者的意图可以反映在该系统上。当包含多模态用户界面的该系统利用语义属性信息时，可以有效地整合多模态输入。

[第二实施例]

下面将描述根据本发明的信息处理系统的第二实施例。在前述第一实施例的例子中，将一个语义属性指定给一条输入信息(GUI组元或输入语音)。第二实施例将举例说明可以将多个语义属性指定给一条输入信息的情况。

图20示出了用于在根据第二实施例的信息处理系统中表示各GUI组元的XHTML文档的例子。在图20中，由与第一实施例中图3的描述方法相同的描述方法描述<input>标签、type属性、value属性、ref属性以及class属性。然而，与第一实施例不同，class属性描述多个语义属性。例如，具有值“东京”的按钮在其class属性中描述了“station(车站)area(区域)”。置标解析单元106将此class属性作为具有白色空格字符作为分隔符的两个语义属性“station”和“area”进行解析。更具体地，可以通过使用空格分隔来描述多个语义属性。

图21示出了识别语音所需的语法(语法规则)。由与图7中相同的描述方法描述图21中的语法，并且该语法描述用于识别“这里的天气”、“东京的天气”等语音输入，并且输出例如area＝“@unknown”的解释结果所需的规则。图22示出了当使用图21所示的语法(语法规则)和图7所示的语法(语法规则)两者时所获得的解释结果的例子。例如，当使用连接到网络的语音处理器时，获得作为图22所示的XML文档的解释结果。由与图7相同的描述方法描述图22。根据图22，“这里的天气”的置信水平为80，且“从这里”的置信水平为20。

下面将图23作为例子描述关于整合多条输入信息的处理方法，其中该多条输入信息的每一条具有多个语义属性。在图23中，GUI输入信息2301的“DataModel”是数据绑定目的地，“value”是值，“meaning”是语义属性，“ratio”是每个语义属性的置信水平，且“c”是值的置信水平。通过由置标解析单元106解析图20所示的XML文档来获得这些“DataModel”、“value”、“meaning”和“ratio”。注意，如果这些数据的“ratio”没有在meaning属性(或class属性)中指定，则假设这些数据的“ratio”为1除以语义属性的数目而获得的值(于是，对于东京，station和area的“ratio”各为0.5)。同样，“c”是值的置信水平，且当输入该值时，由应用来计算此值。例如，在GUI输入信息2301的情况下，“c”是当指定了值为东京的概率为90％且值为KANAWAGA的概率为10％的点时的置信水平(例如，当通过用笔画圈来指定地图上的点，并且该圈包括东京90％和KANAGAWA 10％时)。

同样，在图23中，语音输入信息2302的“c”是值的置信水平，它对每个识别候选使用了规格化似然(识别分数)。语音输入信息2302是当“这里的天气”的规格化似然(识别分数)为80且“从这里”的规格化似然(识别分数)为20时的例子。图23不描述任何时间标记，但是如同第一实施例一样地使用时间标记信息。

根据第二实施例的整合条件包括：

(1)该多条信息需要整合处理；

(2)该多条信息在一期限内输入(例如，时间标记的差等于或小于3秒)；

(3)信息的至少语义属性之一与要整合的信息匹配；

(4)当该多条信息以时间标记的次序排序时，它们不包括具有都不匹配的语义属性的任何输入信息；

(5)“绑定目的地”和“值”具有互补关系；并且

(6)将要整合满足(1)到(4)的信息中最早输入的信息。注意，整合条件是一个例子，且可以设定其他条件。同样，也可以使用以上整合条件中的一些作为整合条件(例如，仅使用条件(1)和(3)作为整合条件)。同样，在此实施例中，整合不同模态的输入，但是不整合相同模态的输入。

下面将使用图23描述第二实施例的整合处理。将GUI输入信息2301转换成GUI输入信息2303，以具有置信水平“cc”，该置信水平“cc”是通过将图23中的值的置信水平“c”乘以语义属性的置信水平“ratio”而获得的。同样地，将语音信息2303转换成语音输入信息2304，以具有置信水平“cc”，该值信度水平“cc”是通过将图23中的值的置信水平“c”乘以语义属性的置信水平“ratio”而获得的(在图23中，语义属性的置信水平为“1”，因为每个语音识别结果仅具有一种语义属性；例如，当获得语音识别结果“东京”时，它包括语义属性“station”和“area”，且它们的置信水平为0.5)。各条语音输入信息的整合方法与第一实施例中的相同。然而，由于一条输入信息包括多个语义属性和多个值，可能在步骤S916中出现多个整合候选，如图23中2305所指示。

接着，在GUI输入信息2303和语音输入信息2304中，通过乘以匹配的语义属性的置信水平而获得的值被设定为置信水平“ccc”，以产生多条输入信息2305。在多条输入信息2305中，选择具有最高置信水平(ccc)的输入信息，并且输出所选数据(在本例中为ccc＝3600的数据)的绑定目的地“/Area”和值“东京”(图23：2306)。如果多条信息具有相同的置信水平，优先选择首先处理的信息。

将说明使用置标语言的语义属性的置信水平(ratio)的描述例子。在图24中，如同图22，在class属性中指定语义属性。在这种情况下，将冒号(：)和置信水平附加到每个语义属性上。如图24所示，具有值“东京”的按钮具有语义属性“station”和“area”，语义属性“station”的置信水平为“55”，且语义属性“area”的置信水平为“45”。置标解析单元106(XML解析器)分别解析语义属性和置信水平，并且输出语义属性的置信水平作为图25中GUI输入信息2501的“ratio”。在图25中，进行与图23相同的处理，以输出数据绑定目的地“/Area”和值“东京”(图25：2506)。

在图24和25中，为简单起见，在用于语音识别的语法(语法规则)中仅描述了一个语义属性。然而，如图26所示，可以通过使用例如List类型的方法指定多个语义属性。如图26所示，输入“这里”的值为“@unknown”、语义属性为“area”和“country(乡村)”，语义属性“area”的置信水平为“90”，且语义属性“country”的置信水平为“10”。

在这种情况下，如图27所示，执行整合处理。来自语音识别/解释单元103的输出具有内容2602。多模态输入整合单元104计算置信水平ccc，如2605所指示。对于语义属性“country”，由于没有来自GUI输入单元101的输入具有相同语义属性，不计算其置信水平。

图23和25示出了基于置标语言中描述的置信水平的整合处理的例子。可供替换地，可以基于具有多个语义属性的输入信息的匹配语义属性的数目来计算置信水平，并且可以选择具有最高置信水平的信息。例如，如果将要整合具有三个语义属性A、B、和C的GUI输入信息，具有三个语义属性A、D和E的GUI输入信息，以及具有四个语义属性A、B、C和D的语音输入信息，具有语义属性A、B和C的GUI输入信息和具有语义属性A、B、C和D的语音输入信息之间的共同语义属性的数目为3。另一方面，具有语义属性A、D和E的GUI输入信息和具有语义属性A、B、C和D的语音输入信息之间的共同语义属性的数目为2。因此，使用共同语义属性的数目作为置信水平，并且整合并输出置信水平高的具有语义属性A、B和C的GUI输入信息以及具有语义属性A、B、C和D的语音输入信息。

如上所述，根据第二实施例，用于语音识别的XML文档和语法(语法规则)可以描述多个语义属性，并且应用开发者的意图可以反映在系统上。当包括多模态用户界面的系统使用语义属性信息时，可以有效整合多模态输入。

如上所述，根据上述实施例，用于语音识别的XML文档和语法(语法规则)可以描述语义属性，并且应用开发者的意图可以反映在系统上。当包括多模态用户界面的系统使用语义属性信息时，可以有效整合多模态输入。

如上所述，根据本发明，由于处理来自多种类型的输入模态的输入所需的描述采用语义属性的描述，可以通过简单分析处理实施用户或开发者所意图的输入整合。

进一步地，可以通过直接地或间接地向系统或设备提供实施前述实施例的功能的软件程序，用该系统或设备的计算机读取所提供的程序代码，并且执行该程序代码，从而实施本发明。在这种情况下，只要系统或设备具有该程序的该功能，实施的模式不需要依赖于程序。

因此，由于本发明的各功能由计算机实施，所以安装在计算机中的程序代码也实施本发明。换句话说，本发明的权利要求书也包括为了实施本发明的功能的计算机程序。

在这种情况下，只要系统或设备具有该程序的功能，可以以任何形式，例如目标代码、由解释器执行的程序、或提供给操作系统的脚本数据来执行程序。

可以用来提供程序的存储介质的例子有软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、CD-RW、磁带、非易失性存储卡、ROM以及DVD(DVD-ROM和DVD-R)。

对于提供程序的方法，客户计算机可以使用客户计算机的浏览器连接到因特网上的网站，并且可以将本发明的计算机程序或该程序的可自动安装的压缩文件下载到例如硬盘的记录介质。此外，可以通过将组成该程序的程序代码划分为多个文件，并且从不同网站下载这些文件，来提供本发明的程序。换句话说，本发明的权利要求也涵盖将通过计算机实施本发明的功能的程序文件下载到多个用户的WWW(万维网)服务器。

也可能加密并在例如CD-ROM的存储介质上存储本发明的程序，将存储介质分发给用户，允许满足某些要求的用户通过因特网从网站下载解密密钥信息，并且允许这些用户通过使用密钥信息解密所加密的程序，从而将该程序安装在用户计算机中。

除了通过由计算机执行所读取的程序来实施根据各实施例的前述功能的情况之外，在计算机上运行的操作系统等也可以执行全部或部分实际处理，使得前述实施例的功能可以由此处理实施。

进一步地，将从存储介质读取的程序写入插入计算机中的功能扩展板或在连接到计算机的功能扩展单元中设置的存储器之后，安装在功能扩展板或功能扩展单元上的CPU等执行全部或部分实际处理，使得前述实施例的功能可以由此处理实施。

由于可以进行很多明显广泛不同的本发明的实施例，而不偏离本发明的实质和范围，应该理解，除了在所附权利要求书中定义之外，本发明不限于其具体实施例。

Claims

1.一种信息处理方法，用于基于用户使用多种类型的输入模态输入的多条输入信息来识别用户的指令，

所述方法具有包括用于多种类型的输入模态的每一个的输入内容和语义属性之间的对应性的描述，

所述方法包括：获取步骤，通过解析使用多种类型的输入模态输入的多条输入信息的每一条来获取输入内容，并且从描述中获取所获取的输入内容的语义属性，并且进一步获取输入内容的输入时间，以及与输入内容的值和绑定目的地相关的信息；以及

整合步骤，基于与输入内容的值和绑定目的地相关的信息，检查是否需要整合，如果不需要整合，则完整无缺地输出输入内容，否则，基于输入时间和语义属性整合需要整合的输入内容，并且输出整合结果。

2.根据权利要求1的方法，其中，多种类型的输入模态之一是经由GUI的组元的指令，

该描述包括GUI的各组元和语义属性之间的对应性的描述，以及

所述获取步骤包括如下步骤：检测作为输入内容的组元的指令，以及从该描述获取对应于该组元的指令的语义属性。

3.根据权利要求2的方法，其中，该描述用于使用置标语言描述GUI。

4.根据权利要求1的方法，其中，多种类型的输入模态之一是语音输入，

该描述包括语音输入和语义属性之间的对应性的描述，以及

该获取步骤包括如下步骤：将语音识别处理应用于语音信息，以获得作为输入内容的输入语音，以及从该描述获取对应于输入语音的语义属性。

5.根据权利要求4的方法，其中，该描述包括用于语音识别的语法规则的描述，以及

该语音识别步骤包括如下步骤：参考语法规则的描述，将语音识别处理应用于语音信息。

6.根据权利要求5的方法，其中，使用置标语言描述语法规则。

7.根据权利要求1的方法，其中，整合步骤包括如下步骤：整合需要整合的输入内容中输入时间差在预定范围内并且具有匹配的语义属性的输入内容。

8.根据权利要求1的方法，其中，整合步骤包括如下步骤：当要输出其输入时间差在预定范围内并且具有相同绑定目的地的输入内容或整合结果时，以输入时间的次序输出该输入内容或整合结果。

9.根据权利要求1的方法，其中，整合步骤包括如下步骤：以输入时间的升序整合输入内容。

10.根据权利要求1的方法，其中，该描述用于描述一个输入内容的多个语义属性，并且

该整合步骤包括如下步骤：当多种类型的信息可能基于该多个语义属性而整合时，基于分配给各语义属性的权重来确定将要整合的输入内容。

11.根据权利要求1的方法，其中，整合步骤包括如下步骤：当在获取步骤获取用于输入信息的多个输入内容时，基于解析中输入内容的置信水平来确定将要整合的输入内容。

12.一种信息处理设备，用于基于用户使用多种类型的输入模态输入的多条输入信息来识别用户的指令，所述设备包括：

保持单元，用于保持包括用于多种类型的输入模态的每一个的输入内容和语义属性之间的对应性的描述，

获取单元，用于通过解析使用多种类型的输入模态输入的多条输入信息的每一条来获取输入内容，并且从描述中获取所获取的输入内容的语义属性，并且进一步获取输入内容的输入时间，以及与输入内容的值和绑定目的地相关的信息；以及

整合单元，用于基于与输入内容的值和绑定目的地相关的信息，检查是否需要整合，如果不需要整合，则完整无缺地输出输入内容，否则，基于输入时间和语义属性整合需要整合的输入内容，并且输出整合结果。