CN1952926B

CN1952926B - 用于从受控对话语法创建混合主导语法的方法和设备

Info

Publication number: CN1952926B
Application number: CN200610137188XA
Authority: CN
Inventors: 苏恩索恩·阿蒂瓦尼查雅普杭格; 戴维·雅拉米尔罗; 杰拉尔德·马修·麦科布
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2005-10-21
Filing date: 2006-10-23
Publication date: 2012-05-30
Anticipated expiration: 2026-10-23
Also published as: KR20080092327A; US20070094026A1; KR20070043625A; KR100923180B1; US8229745B2; CN1952926A

Abstract

一种建立混合主导语法的方法能够包括识别用于包括在混合主导语法内的多个受控对话语法，和依照选定的语法产生技术，自动地产生这样的混合主导语法，以便混合主导语法指定多个受控对话语法。

Description

用于从受控对话语法创建混合主导语法的方法和设备

技术领域

本发明涉及基于混合主导语音的系统，以及更特别地涉及创建与这样的系统一起使用的语法。

背景技术

许多健壮的话音应用利用称作混合主导交互的人机交互的形式。混合主导交互是在用户和计算机系统之间灵活的交互策略，在其中每个参与者能够在任何时间转而控制或改变交互的流程。混合主导系统提供更自然的，以及通常优选的，用于用户与计算机系统交互的方式。

在混合主导语音系统中，用户能够以变化的顺序提供不同信息片而不用先被提示输入各个信息项。例如，计算机系统能够从用户口语表达中提取出所需的信息项，并使用该信息项填充到电子表格的合适字段中。在举例说明中，用户能够说，“我想在六月23日从波士顿飞到纽约的拉瓜迪亚机场”。混合主导系统能够从该单一的口语表达中提取所需的信息项，如离开的城市、抵达的机场、和航班的日期。相对照地，受控对话系统会以特定的顺序为每个个体信息片而提示用户，每次一个，且执行数据的采集。以这种方式，受控对话系统有效地“指引”交互或对话的流程而不向用户提供任何机会以偏离该指定的流程。

开发混合主导系统的一个方面是将用于处理用户口语表达的混合主导语法的开发。尽管现代技术如话音扩展标记语言(话音XML)支持混合主导对话，在话音XML中创建混合主导语法仍然是一个复杂的任务。典型地，混合主导语法较受控对话语法的开发和维护更为困难和复杂。是这样的情况，即典型地使用受控对话语法作为组件而来建立混合主导语法。进一步使混合主导语法开发复杂的是这些语法是手动开发的事实。如此，混合主导语法的创建是耗费时间的和易于出错的过程。

提供克服上述不足的用于创建混合主导语法的更有效的技术将是有益的。

发明内容

本发明提供用于构造混合主导语法的方法和设备，和进一步能够重新使用受控对话语法。本发明的一个实施方式能够包括建立混合主导语法的方法。该方法能够包括识别用于包括在混合主导语法中的多个受控对话语法，和依照选定的语法产生技术，自动地产生这样的混合主导语法，从而该混合主导语法指定多个受控对话语法。

本发明的另一个实施方式能够包括自动地从多个受控对话语法构造混合主导语法的方法。该方法能够包括识别用于包括在混合主导语法中的多个受控对话语法和，响应用户提示，接收指定一个选定的语法产生技术的用户输入。该方法进一步能够包括自动地产生指定多个受控对话语法的混合主导语法。多个受控对话语法相对于彼此能够具有用于处理用户口语表达的，至少部分根据选定的语法产生技术确定的顺序关系。

本发明的另一个实施方式能够包括一种机器可读的存储器，已经在其上存储有具有多个代码部分的计算机程序，所述代码部分可由机器执行用于使机器执行此处公开的各种步骤和方法。

附图说明

在图中所示的是当前优选的实施方式，然而应该理解，本发明不限于所示的具体布置和手段。

图1是依照本发明的一个实施方式的在创建混合主导语法中使用的图形用户接口(GUI)的视图。

图2是依照本发明的另一个实施方式的在创建混合主导语法中使用的GUI的视图。

图3描述了举例说明能够依照此处公开的发明布置而产生的混合主导语法的一种变型的示例性代码。

图4描述了举例说明能够依照此处公开的发明布置而产生的混合主导语法的另一种变型的示例性代码。

图5描述了举例说明能够依照此处公开的发明布置而产生的混合主导语法的又一种变型的示例性代码。

图6描述了举例说明一种方式的示例性代码，在该方式中，用户能够选择和/或识别将被包括在混合主导语法中的受控对话语法。

图7是举例说明依照本发明的另一个实施方式的创建混合主导语法的方法的流程图。

具体实施方式

虽然本说明书给出定义了被认为具有新颖性的本发明的特征的权利要求，但是结合附图和说明书的描述将更好地理解本发明。如所需要的，在此处公开了本发明的详细实施方式；然而，应该理解所公开的实施方式仅是本发明的示例，本发明能够以各种形式具体化。因此，此处所公开的指定的结构和功能的细节不应解释为限制，而仅是作为用于权利要求的基础，作为用于教导本领域熟练人员在实际任何合适的详细结构中不同地使用本发明的代表性基础。进一步，此处所使用的术语和短语不旨在限制而是提供本发明的可理解的描述。

本发明提供用于开发由混合主导计算系统使用的语法的解决方案。依照此处公开的本发明的布置，能够使用，和/或重新使用受控对话语法，以创建混合主导系统。本发明能够从用户或软件开发者得到创建混合主导语法所需的不同信息项。在一个实施方式中，例如，一个或更多受控对话语法和各种连接短语一样能够被识别。连接短语能够被用于链接选定的受控对话语法。使用多种不同语法产生技术的一种，能够从用户指定的信息自动地产生混合主导语法，因此，减少了和/或消除了许多典型地与混合主导语法的手动创建相结合的复杂性。

在一个实施方式中，此处公开的本发明的布置能够在基于软件的开发系统中，或作为其一部分实现。例如，此处公开的不同实施方式能够作为软件开发系统如WebSphere

话音工具包V6.0(此后“话音工具包”)的一部分实现。话音工具包是可从纽约阿芒克的国际商业机器公司(IBM)得到的软件开发平台，该公司提供用于开发支持话音的应用的支持。话音工具包提供用于语音识别的语法文件的视觉组成的图形语法建立器，支持可重新使用的对话组件的通信流程建立器，对话音扩展标记语言(话音XML)的支持，和/或其他功能。

应该认识到虽然此处所公开的实施方式能够作为话音工具包的一部分实现，这仅仅是一个实施方式。本发明不旨在由所使用的特定主机应用限制，因为此处所公开的实施方式能够作为任何合适的软件开发系统和/或环境的一部分而实现。此外，应该认识到此处所公开的实施方式能够作为单机软件开发系统或应用而实现。

图1是依照本发明的一个实施方式的在创建混合主导语法中使用的图形用户接口(GUI)100的视图。GUI 100能够包括多个不同域类型105、110和115。域105和115能够接收指定各种连接短语的用户输入。如所示，能够在域105中接收或指定前缀类型短语，而能够在域115中指定后缀类型短语。能够在域110中指定特定的受控对话语法。如此处所使用的，受控对话语法能够指定一个或更多单词或短语，这些单词或短语对于根据从一个或更多用户口语表达中提取或识别的数据而填充的电子表格的特定域是可允许输入。

图1举例说明了混合主导语法被开发用于支持话音的航线预订系统的实例。应该认识到，然而，此处公开的本发明的布置能够被应用于任何各种不同的支持话音的系统，且在图1中特定产业的使用仅仅出于图示的意图。因此，图1不旨在限制本发明，而是作为用于解释本发明各方面的基础。

在任何实例中，再次参考域105和115，连接短语能够作为指示所使用的特定受控对话语法或，可选择地，链接两个或更多受控对话语法的队列。看情况，连接短语能够包括一个或更多单词、符号或文本元素。因此，当在用户口语表达中被识别时，连接短语指示将使用特定的受控对话语法来处理用户口语表达的一部分或特定的单词。如所述，连接短语也能够用于在两个或更多受控对话语法之间高效地链接，或建立关联或关系。因此，连接短语能够在使用连接短语链接的受控对话语法之间建立顺序。

GUI 100举例说明了连接短语“从...离开”，此处单词“离开”已经被表示为可选的，已经与名为“离开语法”的受控对话语法相关联。这个语法能够指定离开城市的列表。相似地，连接短语“在...离开”，此处单词“离开”也是可选的，已经与名为“离开日期”的受控对话语法相关联。这个语法能够指定日期的列表。因此，例如，如果用户说“在星期三从西棕榈滩离开”，连接短语“从...离开”指示名为“离开语法”的受控对话语法将被用于从表达中识别下面若干单词，也就是“西棕榈滩”。当连接短语“在”被识别，支持语音系统会确定“离开日期”语法将被用于从表达中识别下面若干单词，也就是“星期三”。

在这个实例中，两个连接短语都被分类为前缀短语。前缀连接短语指示用户口语表达中连接短语之后跟随的单词将使用特定的受控对话语法而处理。因此，单词“星期三”使用“离开语法”识别。后缀连接短语指示用户口语表达中连接短语前面的单词将使用特定的受控对话语法来处理。如GUI 100所示，受控对话语法能够与前缀短语、后缀短语、前缀和后缀短语两者、或不与连接短语的任何类型相关联。

在一个实施方式中，受控对话短语能够通过键入语法的名字到GUI 100的域110中来指定。在另一个实施方式中，可以使用拖放功能来允许受控对话语法文件或代码的部分在域110的任何一个上被选定和放置。在另一个实施方式中，能够打开文件选择导航窗口来允许用户选择受控对话语法。这样的技术也能够被用于指定连接短语。

图2是依照本发明的另一个实施方式的在创建混合主导语法中使用的GUI 200的视图。GUI 200允许用户选择多个可用的语法产生技术中的任何来用于创建混合主导语法。在这个实例中，在框205中显示有三个可用语法产生技术。这些技术是固定的顺序、宽的结合、和窄的结合。

GUI 200进一步能够包括能够接收指定初始提示以用于从被开发的混合主导系统的终端用户请求信息的用户提供的输入的域220。初始提示将被用于请求将使用被创建的混合主导语法来处理的终端用户口语表达。例如，在使用话音XML的本发明实施方式中，提示能够与“初始”标记一起使用。“初始”标记在话音XML混合主导对话中使用来允许用户填充表格宽度信息。“初始”标记允许用户用一个表达略过多个域提示。通常，混合主导对话中的首先提示询问用户的全部信息。典型地，仅在确定全部域没有被填充后才执行域。“初始”元素不包含任何语法或其自身的填充的事件；而是，它依赖语法和每个个体域的所填充的元素。

在GUI 200的视图210中举例说明了固定顺序语法产生技术。使用固定的顺序，用户能够指定特定顺序，其中如在GUI 100中所指定或创建的连接短语和相关联的受控对话语法的组，在产生的混合主导语法中是有序的。用户能够选择特定的连接短语-受控对话语法组，且使用箭头215在排序中将其上下移动。使用这个技术，混合主导语法将在组成的受控对话语法的平面列表中创建。

图3描述了举例说明能够依照此处公开的发明布置而产生的混合主导语法的一种变型的示例性代码。更特别地，图3举例说明了能够基于参考图2所示所选择的选项由语法产生工具产生的混合主导语法的变型。

图4描述了举例说明能够依照此处公开的发明布置而产生的混合主导语法的另一种变型的示例性代码。更特别地，图4描述了能够在选择宽结合选项作为语法产生技术时由语法产生工具产生的混合主导语法的变型。宽结合语法产生技术允许用户以任何顺序说一个或更多或全部受控对话语法。

宽结合语法产生技术允许看情况能够被称为“无意图单词”或“无意图短语”。如能够在图4中所见，“*”句法被用于混合主导语法的末尾。“*”是不同类型的语法如Java应用程序编程接口语音语法格式(JSGF)、W3 C语音识别语法规范、增强的巴科斯诺尔形式(ABNF)等中符号的标准形式，其指示语法的扩展能够被讲零或更多次。如此处使用的术语“短语”能够包括一个或更多单词、符号、文本的一部分等。

在举例说明中，在图4中举例说明的语法将允许用户说如下短语：“从波士顿到迈阿密在五月一日”和“在五月一日到迈阿密从波士顿”。语法也将允许用户说短语“从波士顿到迈阿密在五月一日从奥兰多”。这最后的用户口语表达包括两个离开城市的实例-“从波士顿”和“从奥兰多”。图4的语法将允许这样的表达。离开城市的重复被称为无意图短语且是允许的，原因是语法的扩展被允许讲零或更多次。

图5描述了举例说明能够依照此处公开的发明布置而产生的混合主导语法的又一种变型的示例性代码。特别地，图5描述了能够在选择窄结合选项作为语法产生技术时由语法产生工具产生的混合主导语法的变型。窄结合选项将产生这样的混合主导语法，该语法将不仅允许用户以任何顺序说一个或更多或全部对话语法，也将删除当使用宽结合技术时所允许的无意图短语的列表。

例如，假设混合主导语法将被制造且连接短语和受控对话语法A、B、和C已经被确定，产生出的混合主导语法将允许如下的受控对话顺序：A、B、C、AB、CA、BC、ABC、BAC、CAB等等。然而，如AABC、AA、BCC这样的顺序将不被接受。在这个实例中，A表示全部的叙述“([离开]从)<离开语法>”，B表示叙述“(到|抵达)<抵达语法>”，和C表示“([离开]在)<离开日期>”。由于无意图短语不被允许，如果不适合的或无意图的短语能够被忽略从而表达的余下部分能够被处理，能够拒绝全部表达。注意，任何重复短语的任一个特定实例能够根据开发者的喜好被选定用于处理。

图6描述了举例说明一种方式的示例性代码，在该方式中，用户能够选择和/或识别将被包括在被产生的混合主导语法的受控对话语法和与每个受控对话语法相关联的域。如在图6中所举例说明的代码能够由语法产生工具输入，例如，通过文件选择对话或通过将包括这样的代码的文本文件拖放进GUI的指定区域或到图标之上。在另一个实施方式中，用户能够将每个将被包括在混合主导语法中的受控对话语法拖放到工具中。在任何实例中，受控对话语法被指定或被识别的特定的方式不旨在对本发明的限制。

图7是举例说明依照本发明的另一个实施方式的创建混合主导语法的方法700的流程图。方法700能够在步骤705中开始，此处用户可选地能够创建在产生与基于混合主导语音的系统一起使用的混合主导语法中使用的一个或更多受控对话语法。

在步骤710中，用户能够选择在产生混合主导语法中使用的一个或更多受控对话语法。由于步骤705实质上是可选的，在步骤710中识别的受控对话语法不需要已经由用户创建，而是可以已经由其他开发者创建。因此，在步骤710中，无论该用户是否创建了受控对话语法，用户能够选择一个或更多的已经存在的受控对话语法。

在步骤715中，用户能够被提示输入一个或更多连接短语。在步骤720中，能够接收指定一个或更多连接短语的用户输入。应该认识到用户输入能够以这样的方式提供，其中不仅是指定一个或更多连接短语，而且连接短语进一步能够与用户指定的受控对话语法(也就是在步骤710中识别的那些选定的)相关联。在任何实例中，步骤715和720实质上能够是可选的，原因是依赖所选定的特定语法产生技术，连接短语可以被排除在混合主导语法之外。

在步骤725中，语法产生工具能够提示用户输入指定的语法产生技术。在步骤730中，用户指定的语法产生技术能够从用户处作为输入而接收到。在步骤735中，语法产生工具能够提示用户输入将用于从终端用户请求信息的初始提示。在步骤740中，用户指定的初始提示能够从用户处得到或接收到。在步骤745中，语法产生工具能够根据由用户提供的输入和/或选择产生混合主导语法。注意，用户被允许说特定短语的顺序(如由混合主导语法所指定的受控对话语法的排序所规定的)，能够依照由用户所选定的语法产生技术而规定。

应该认识到此处所公开的不同GUI、流程图、和实例部分已经仅为了举例说明的目的而提供，以及，同样地，不旨在以任何方式限制本发明的范围。关于GUI，例如，可以使用不同控制、视觉指示器等来代替那些所示的和/或所讨论的。相似地，关于流程图，在不偏离本发明精神的情况下，与所描述的相比较，能够以不同顺序实现或忽略各种步骤。

本发明能够在硬件、软件、或硬件和软件的结合中实现。本发明能够以集中式方式在一个计算机系统中实现，或以其中不同元素跨越多个互联计算机系统扩展的分布式方式实现。任何类型的计算机系统或其他适于实现此处所描述方法的设备都是适合的。硬件和软件的典型结合能够是具有计算机程序的通用计算机系统，当该计算机程序被加载和执行时，这样控制计算机系统以便它实现此处所描述的方法。本发明也能够被嵌入到计算机程序产品中，其包含支持此处所描述的方法的执行的全部特性，且当在计算机系统中加载时，其能够实现这些方法。

在本文档中，术语“计算机程序”、“软件”、“应用”、它们的结合和/或变型，以任何语言、代码或符号，表示旨在使系统具有这样的信息处理能力以直接地或在如下的任一个或两者之后实现特定功能的指令集的任何表达方式：a)转换到另一个语言、代码或符号；b)以不同的材料形式再现。例如，计算机程序能够包括，但不限于子程序、函数、程序、对象方法、对象执行、可执行的应用、Java小程序、Java服务器端程序、源代码、目标代码、共享库/动态加载库和/或其他设计用于在计算机系统上执行的指令序列。

术语“一个”，如此处所使用的，被定义为一个或多于一个。术语“多个”，如此处所使用的，被定义为两个或多于两个。术语“另一个”，如此处所使用的，被定义为至少第二个或更多。术语“包括”和/或“具有”，如此处所使用的，被定义为包含(也就是，开放语言)。术语“耦合的”，如此处所使用的，被定义为连接的，虽然不是必须直接地，且不是必须机械地，也就是通过通信通道或路径可通信地连接。

本发明能够以其他形式被具体化而不偏离其精神或本质属性。因此，作为指示本发明的范围，应该参考如下权利要求，而不是说明书。

Claims

1.一种建立混合主导语法的方法，包含：

识别用于包括在混合主导语法内的多个受控对话语法；

接收用户输入，该输入指定连接短语的前缀类型和后缀类型的至少之一，其中，每个连接短语与多个受控对话语法中的选定的一个相关联，每个连接短语和相关联的受控对话语法组成一组，其中，当在用户口语表达中识别该连接短语时，该连接短语指出该关联的受控对话语法将被用来处理用户口语表达；

接收用户输入，该输入指定解释用户口语表达时的允许的组顺序、以及在要产生的混合主导语法中在用户口语表达内无意图的短语是否是允许的；

自动地产生该混合主导语法。

2.一种从多个受控对话语法自动地构造混合主导语法的方法，所述方法包含：

提供图形用户接口，该图形用户接口包括第一部分，用于接收连接短语的前缀类型，第二部分，用于接收与连接短语前缀类型相关的受控对话语法，以及第三部分，用于接收与受控对话语法相关的连接短语的后缀类型；

在图形用户接口接收指定连接短语的前缀类型和后缀类型的至少之一以及多个受控对话语法的用户输入，其中，每个连接短语与多个受控对话语法中被选择的一个通过图形用户接口相关联，其中，当在用户口语表达中连接短语被识别时，连接短语指示与连接短语相关联的受控对话语法被用于处理用户口语表达，

接收用户输入，该输入指定了多个受控对话语法相对于彼此用于处理用户口语表达的关系以及在要产生的混合主导语法中在用户口语表达内无意图的短语是否是允许的；和

自动地产生混合主导语法。