CN1776583B

CN1776583B - 解释语音命令的集中式方法和系统

Info

Publication number: CN1776583B
Application number: CN2005101163399A
Authority: CN
Inventors: D·莫厄特; R·L·钱伯斯
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-11-16
Filing date: 2005-10-14
Publication date: 2013-01-02
Anticipated expiration: 2025-10-14
Also published as: EP1657709B1; US10748530B2; JP4854259B2; US9972317B2; DE602005019518D1; KR20060055313A; US20060106614A1; KR101143034B1; US8942985B2; JP2006146182A; US20170032786A1; ATE459076T1; EP1657709A1; US20150095030A1; CN1776583A

Abstract

一种用于促进与用户集中式交互的方法和系统，包括提供经识别的语音命令给多个应用模块。语音命令的多个解释由多个应用模块的至少一个模块所产生。集中式界面模块在集中式显示屏上可视地呈现语音命令的多个解释。从用户接收解释的选择的指示。

Description

解释语音命令的集中式方法和系统

背景技术

本发明一般涉及与计算设备的用户交互。更加具体地，本发明涉及与在语言识别上下文中的集中式界面的用户交互。

目前，很多注意转向语言识别技术的提高。在语言识别技术内一种这样的挑战为使用语音命令使用户与计算设备交互。通常，语音命令在计算设备能执行这样的指令前需要进一步的明确化。

计算设备经常使用多种方式解释语音命令。在一方面，计算设备不理解语音命令指向哪个应用。例如，语音命令可包括在多个应用模块中使用的术语。另一方面，由于语音命令包括不明确的信息，应用可能不理解用户想要执行什么。例如，当有多个Beatles唱片可供应用播放时，语音命令可包括“播放Beatles″。在另个例子中，语音命令可包括错误识别误差。例如，用户可叙述命令“插入冰淇淋”(insert ice cream)，而语言识别系统识别该命令为“插入我尖叫声”(insertIscream)。

在没有询问用户的情况下猜测用户的意图或采取行动可导致对于用户的不愉快。提供给用户工具以在没有导致不适当的不愉快和牺牲语言识别效率的情况下控制语音命令的解释和错误识别误差的解释是有必要的。

发明概要

提供一种用于促进与用户的集中式交互的方法和系统。该方法和系统包括提供识别的语音命令给多个应用模块。语音命令的多个解释由多个应用模块中的至少个产生。集中式的界面模块在集中式的显示屏上可视地呈现语音命令的多个解释。从用户接收解释选择的指示。

一种当在语音命令中有不明确时，可视地呈现一解释列表给用户的集中式界面模块避免对用户所涉及命令的任意的猜测。此外，由集中界面模块提供的集中式显示面板可允许普通的用户交互。

附图简述

图1示出了一般计算环境的框图，本发明可在所述环境中实现。

图2示出了移动设备的框图，本发明可在所述设备中实现。

图3示出了用于促进集中式用户交互的系统的框图。

图4示出了集中式面板的实例屏幕输出。

图5示出了集中式面板的实例屏幕输出。

图6示出了计算设备显示屏的实例屏幕输出。

图7示出了用于促进集中式用户交互的方法的流程图。

图8示出了集中式面板的实例屏幕输出。

图9示出了集中式面板的实例屏幕输出。

图10示出了集中式面板的实例屏幕输出。

图11是一框图，示出了用于使用语言识别器操作显示在集中式屏方法。

图12示出了集中式面板的实例屏幕输出。

图13示出了集中式面板的实例屏幕输出。

图14示出了集中式面板的实例屏幕输出。

图15示出了集中式面板的实例屏幕输出。

图16示出了集中式面板的实例屏幕输出。

图17示出了集中式面板的实例屏幕输出。

图18示出了集中式面板的实例屏幕输出。

图19示出了集中式面板的实例屏幕输出。

图20示出了集中式面板的实例屏幕输出。

图21示出了集中式面板的实例屏幕输出。

图22示出了集中式面板的实例屏幕输出。

图23示出了集中式面板的实例屏幕输出。

示意性实施例的详细描述

本发明在计算机可实现系统的上下文中被描述，所述计算机可实现系统使用语言识别以识别来自用户的语音命令。然而，在描述本发明的方面之前，描述可合作的并从这些方面受益的合适的计算环境是有用的。

图1所述了合适的计算系统环境100的实例，本发明可在该环境中实现。计算系统环境100只是一合适的计算环境的一例，而不是要提出对本发明使用或功能的范围的限制。计算环境100不能解释成对于在示例操作环境100中所示出的仟一组件或其组合有任何依赖或需求。

本发明用多个其它通用或特殊用途计算系统环境或配置是可运行的。可以适用于本发明的公认的计算系统、环境、和/或配置的实例包括，但不局限于，个人计算机、服务器计算机、手持设备或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电器、网络PC、小型机、大型计算机、电话系统、包括任何诸如以上系统或设备的分布计算环境等。

本发明可以在诸如由计算机执行的程序模块的可实现计算机指令的一般上下文中被描述。一般地，程序模块包括完成特殊任务或执行特殊抽象数据类型的例行程序、程序、对象、组件、数据结构等。本发明也可以在分布的计算环境中实践，在此通过连接到一计算网络的远程处理设备来执行任务。在分布的计算环境中，程序模块可以定位于包括记忆体储存器设备的本地和远程计算机存储介质。由程序和模块执行的任务在以下结合附图的帮助进行描述。本领域的技术人员能实现在此提供的描述和附图作为处理器可执行指令，所述指令可写在计算机可读介质的任何形式上。

参见图1，对于实现本发明的示例的系统包括一以计算机110形式出现的通用计算设备。计算机110的组件包括，但不局限于，处理单元120、系统存储器130、以及将包括系统存储器在内的各种系统元件耦合至处理单元的系统总线121。上述系统总线121可以是多种总线体系结构类型中的任何一种，包括存储总线或存储控制器、外围总线和使用各种总线体系结构的任一种的局部总线。举例来说，而非限制，此类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型工业标准体系结构(EISA)总线、视频电子标准技术协会(VESA)局部总线、和也被称为Mezzanine总线的外围部件互连(PCI)总线。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是任何计算机110能够访问的可用介质，包括易失性的和非易失性的介质、可移动的和不可移动的介质。举例来说，而非限制，计算机可读介质可以包含计算机存储介质和通信介质。计算机存储介质包括能以任何方法或技术实现的易失性的和非易失性的、可移动的和不可移动的介质，用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。计算机存储介质包括，但不局限于，RAM，ROM，EEPROM，闪存或其它存储技术、CD-ROM、数字化多功能光盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储器或其它磁存储设备、或任何其它可以被用来存储想要的信息并且可以被计算机110访问的介质。通信介质通常体现出诸如载波或其它传送机制的已调制的数据信号中的计算机可读指令、数据结构、程序模块或其它数据，也包括任何信息传递介质。术语“已调制的数据信号”是指以在该信号中编码信息的方式来设置或改变其一个或多个特征的信号。举例来说，而非限制，通信介质包括诸如有线网或直接连线的有线介质，和诸如声音、射频、红外线和其它无线介质的无线介质。任何以上所述的组合也可以包括在计算机可读介质的范围之内。

系统存储器130包括以诸如只读存储器(ROM)131和随机存取存储器(RAM)132的易失和/或非易失存储器的形式的计算机存储介质。包含如在启动期间帮助在计算机110内各元素之间传送信息的基本例行程序的基本输入输出系统(BIOS)133，通常存储在ROM 131中。RAM 132通常包含可以被处理单元120立即访问和/或当前操作的数据和/或程序模块。举例来说，而非限制，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110还可以包括其它可移动/不可移动、易失/非易失的计算机存储介质。只作为例子，图1示出了从不可移动、非易失磁性介质读出或写入不可移动、非易失磁性介质的硬盘驱动器141、从可移动、非易失磁性磁盘152读出或写入可移动、非易失磁性磁盘152的磁盘驱动器151、以及从诸如CD ROM或其它光学介质的可移动、非易失性光盘156读出或写入可移动、非易失性光盘156的光盘驱动器155。其它可以使用在示例的操作环境中的可移动/不可移动、易失性/非易失性计算机存储介质包括，但不局限于，盒式磁带、闪存卡、数字多功能光盘、数字视频带、固态RAM、固态ROM、等。硬盘驱动141通常通过诸如接口140的不可移动存储接口连接到系统总线121。磁盘驱动151和光盘驱动155通常通过诸如接口150的可移动存储接口连接到系统总线121。

以上讨论并且在图1中示出的驱动器及它们相关的计算存储介质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。在图1，例如，示出硬盘驱动141存储操作系统144、应用程序145、其它程序模块146、和程序数据147。需要注意的是这些组件可以和操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以和它们不同。在此对操作系统144、应用程序145、其它程序模块146和程序数据147给出了不同的标号来说明至少它们是不同的拷贝。

用户可以通过诸如键盘162、麦克风163、和定位设备161把指令和信息输入到计算机110中，定位设备161通常指如鼠标、跟踪球或触摸板。其它输入设备(图中未示)可以包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常由用户输入接口160连接到处理单元120，上述输入接口160和系统总线相连。但是上述和其它输入设备也可以由其它接口和总线结构连接到处理单元120，诸如，并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型显示设备也可以通过诸如视频接口190的接口连接到系统总线121。除了监视器之外，计算机也包括其它外围输出设备，诸如可以通过一输出外围设备接口195连接到扬声器197和打印机196。

计算机110可以在网络化的环境中运行，该环境使用逻辑连接连接到一个或多个诸如远程计算机180的远程计算机。远程计算机180可以是个人计算机、服务器、路由器、网络个人计算机、对等设备或其它共用网络节点，通常包括以上描述的和计算机110相关的多个或全部组件。在图1中描绘的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但是也可以包括其它网络。这样的网络环境在办公室、企业范围的计算机网络、内联网和因特网中是普遍的。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接到LAN171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或通过诸如因特网的WAN 173建立通信的其他装置。调制解调器172可以是内部的或外部的，可以通过用户输入接口160或其它适当的机制连接到系统总线121。在一网络连接的环境中，所描述的和计算机110相关的程序模块或其中的一部分可以存储在远程记忆体储存器设备内。举例说明，但非限制，图1示出了驻留在远程计算机180上的远程应用程序185。可以理解的是所示的网络连接是示例的，也可以使用在计算机间建立通信链路的其他装置。

图2是移动设备200的框图，所述设备是另一可应用的计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206、和用于与远程计算机或其它移动设备通信的通信接口208。在一实施例中，上述组件通过合适的系统总线210耦合以相互通信。

存储器204作为诸如随机存取存储器(RAM)的具有电池供电组件(图中未示)的非易失性电子存储器实现以使存储在存储器204中的信息当用于移动设备204的总开关关闭时不丢失。存储器204的一部分更加适合作为用于程序执行的可寻址存储器被分配，而存储器204的另一部分更加适合使用于存储，诸如模拟在硬盘驱动器上的存储。

存储器204包括操作系统212、应用程序214和对象存储216。在操作期间，来自存储器204的操作系统212更适合于由处理器202执行。在一较佳的实施例中，操作系统212是来自微软公司商业上可提供的品牌操作系统。操作系统212较好地为移动设备设计，以及实现了数据库特征，所述数据库特征可以通过一组公开的应用程序接口和方法由应用程序214所使用。在对象存储216中的对象由应用程序214和操作系统212维持，至少部分地响应于对于公开的应用程序接口和方法的调用。

通信接口208代表了多个允许移动设备200发送和接收信息的设备和技术。设备包括有线的和无线的调制解调器、卫星接收器和广播调谐器等等。移动设备200也可直接与计算机相连以与之交换数据。在这种情况下，通信接口208可以是红外线接收器或串行或并行通信连接，它们全都可以发送流信息。

输入/输出组件206包括多个输入设备，所述输入设备包括触摸感应屏、按钮、滚轴和麦克风，并且多个输出设备包括音频发生器、振动装置、和显示屏。以上所列出的设备是作为例子并不需要都呈现在移动设备200上。此外，其它输入/输出设备也可在本发明的范围内附连于移动设备200或结合移动设备200使用。

图3示出了根据本发明的实施例一计算机可实现系统300的示意框图。系统300可以和任一以上所讨论的计算环境结合并包括麦克风302、音频捕获模块304、语言识别器306、多个安装的应用模块310和集中式界面模块312。麦克风302被配置以接收来自用户的语音命令。音频捕获模块304被配置以捕获由麦克风302接收的语音命令和把处理的语音命令发送给语言识别器306。

为了识别语音命令，语言识别器306访问包括多个可识别的命令的语法308。语法产生器模块309被配置以基于从安装的和操作应用模块310接收的输入产生语法。从应用模块310接收的输入增加语法308并且是可执行的命令，通过该命令应用模块能处理和执行各种动作。因此，每个位于语法308内的可识别的命令对应于一可在多个应用模块310中的一个应用模块中执行动作的命令。

语法产生器模块309也可结合各种命令的可供选择的方式增加语法308。命令的这些可供选择的方式通常从应用模块310中接收。例如，如果用户希望在计算设备上播放Beatles，用户应该发出“播放Beatles”的声音。然而，用户可指令计算设备“开始Beatles”而不是适当地指令计算设备“播放Beatles”以完成相同的任务是可能的。

在某些实施例中，语法产生器模块309被进一步配置以确定哪个应用模块310在任意给定的时间是可操作的。例如，语法产生器模块309可确定五个应用模块运行在操作系统上。可操作的应用模块包括网络浏览器的两个实例、电子邮件应用、文字处理应用和电子表格应用。当语法产生器模块309产生语法308，它压缩命令以使只有一组用于网络浏览器应用的命令增加语法308。然而，语法产生器309保留存在两个网络浏览器实例是可操作的标志。因此，语法产生器309意识到在产生语法308的时候存在不明确。

在另一实施例中，语法产生器309不保留存在两个网络浏览器实例是可操作的标志。在该实施例中，集中式界面模块312可在操作系统上执行状态检测以确定是否相同应用的不同实例是可操作的以及因此是不明确的。

在语言识别器306识别语音命令后，被识别的语音命令传送给多个应用模块310。被识别的语音命令可由集中式界面模块312或由语言识别器306传送给多个应用模块。不管传送的路径，多个应用模块310处理被识别的语音命令。

根据本发明的一实施例，某些或所有应用模块310确定它们可执行被识别的语音命令。例如，一用户发出“开始设置”。然而，安装在系统300内的应用模块310的许多模块可具有包括术语“设置”的应用方面。因此，被识别的命令310是不明确的。用户所涉及的是哪个应用是不明确的。

在这个实施例中，集中式界面模块312集中一组来自多个应用模块310的被识别的语音命令可能的解释。然后，集中式界面模块312以列表的形式可视地呈现该组解释。解释的列表由用户在显示器314的集中式面板上查看。一可视地呈现一可能的解释的列表402的实例之屏幕输出400在图4中示出。

根据本发明的另一实施例，只有多个应用模块310的一个模块确定它能执行被识别的语音命令。例如，用户发出“播放Indigo Girls”。只用一个应用模块310，诸如介质应用具有包括“播放Indigo Girls”的菜单项。然而，当介质应用设备开始执行命令时，它发现有四个可能的Indigo Girls的唱片可供播放。因此，被识别的命令是不明确的。对于介质应用而言哪个唱片是用户想播放的是不清楚的。

在该实施例中，集中式界面模块312集中一组来自多个应用模块310的被识别的语音命令可能的解释。集中式界面模块312以列表的形式可视地呈现该组解释。解释的列表由用户在显示器314的集中式面板上查看。一可视地呈现一根据描述的实例的可能解释列表的实例屏幕输出500在图5中所示。

还根据本发明的另一实施例和如以上所描述的，用户参考具体应用的哪个实例或应用模块可以是不明确的。例如，用户使用电子表格应用并且发出命令“切换到因特网浏览器”。然而，系统300除了运行电子表格应用的一个实例外，系统300也运行因特网浏览器应用的两个实例。因此，被识别的命令是不明确的。用户所指的是哪个因特网浏览器的实例是不清楚的。

在这个实施例中，语言识别器306可提供给集中式界面模块312一组基于保留存在多于一个可操作的网络浏览器实例的标志的语法产生器309的可能的语音命令的解释。在一选择中，在执行操作系统的状态检测后，集中式界面模块312可提供一组语音命令可能的解释。集中式界面模块312以列表的形式可视地呈现该组解释。该组解释由用户在位于显示器314上的集中式面板中查看。

在解释列表402和502中的每个解释由一标识符(也就是说，“1”、“2”、“3”等)注解。在图4和图5的实施例中，虽然可以使用任一形式的符号，标识符504和404是数字符号。通过查看翻译列表402和502，用户可以确定哪个解释是相应于用户所指的解释。在一实施例中，用户可通过说出相应的数字符号选择正确的命令。在另一实施例中，用户可通过使用输入设备316(在图3中所示)选择正确的命令以选择想要的解释。输入设备316可以是，但不局限于，诸如鼠标的选择装置。输入设备316也可以是键盘。不管正确的解释如何被选择，解释的选择通过转发命令到相应的应用使系统300执行相应的命令。

在另一实施例中，用户可表明，参考图5，播放所有Indigo Girls的唱片是想要的。通信线506表明用户既可从多个解释502中选择一解释也可发出“播放所有”以播放所有唱片。不管用户想要的是什么，正确解释的选择使系统300通过提供命令信息给相应的应用而采取行动。

当在语音命令中存在不明确时，使用可视地呈现一列解释给用户的集中式界面模块对于系统300提供一种方法避免任意地猜测适当的命令。一集中式界面模块也提供简单的集中式屏幕用于图形化地显现可能的用户交互，提供确定用户意思的高效的方法并且提供位于多个应用模块外的一致的界面。换句话说，图4、5、和8-10中所示的集中式面板输出的每个输出，看上去和操作是类似的，并且因此它们能显示在一致的位置。例如，图6示出了在操作系统上操作的媒体播放器的屏幕输出600。用户要求“播放Indigo Girls”。如以上所讨论的，存在多于一个的Indigo Girls的唱片可以播放。集中式界面或面板500出现在屏幕右下角并且促进用户选择他们的意思。通过这种方式，即使集中式屏幕能被一个或多个应用模块310使用，用户不会太困惑于如何操作显示屏。

图7示出了提供一促进与用户的集中式交互的计算机实现的方法的流程图700。流程图700包括需要从用户接收语音命令的步骤702。在接收语音命令后，流程图700继续到步骤704以处理语音命令以致该命令是在一适当的环境被语言识别器识别。在步骤706，诸如图3的语言识别器的语言识别器识别语音命令。语言识别器把语音命令与存储在索引中的多个命令比较。

在步骤708，被识别的命令传送给多个应用模块。在步骤710，通过多个应用模块的至少一个模块，多个解释被接收以确定识别的命令是不明确的。在步骤712，多个解释可视地呈现给用户。例如，多个解释可与相应的标识符在显示屏的集中式面板上列出。在步骤714，多个解释中一个解释的用户选择的指示被接收。例如，通过可听地表明标识符，想要的解释可被标识为正确的命令。

除了图3中的通过与集中式界面模块312交互来解释语音命令，当用户命令一诸如文字处理应用的应用模块时，用户也可以与集中式界面模块312交互以纠正识别误差。为了纠正识别误差，用户可通过使用输入设备加亮已经被不正确录制的术语。在加亮后，应用模块发送多个选择到集中式界面模块312。选择包括听上去和语音发声相似的短语。集中式界面模块312接收并在显示屏314的集中式面板上可视地呈现选择短语。每个可选择的短语包括一相应的标识符。集中式界面模块312通过语音或输入设备316接收来自用户以标识符的形式的选择的指示并传送选择给应用模块。

在某些实例中，集中式界面模块312不能可视地呈现是正确选择的选择。如果语言识别器316产生错误识别误差或如果选择不是可识别的，由于用户从未使用结合系统300的说话方式，不能呈现正确的选择会发生。结合发生的这些类别，除了以上所表现的选择外，集中式界面模块312被配置以表现进一步的选择。一种这样的选择包括提供重述原始说法的选择。另一种这样的进一步选择包括表现允许用户创建一对于系统300不熟悉的新的选择的选项。

例如，图8示出了根据本发明的实施例可视地呈现一选择列表的集中式面板的屏幕输出800。选择的列表包括由文字处理应用产生的一列可供选择短语列表804和由集中式界面模块312产生的一进一步的选择的列表806。每个进一步的选择806包括相应的标识符以使用户能以标识符的形式做出选择的指示。

如果用户选择标识符“9”，那么集中式界面模块312在集中式面板上可视地呈现屏幕输出900，如图9所示。屏幕输出900的通信行902促使用户用清晰的声音重新说出要说的话。通过重新说出要说的话，集中式界面模块312将可视地呈现更新的选择列表。如果系统300产生识别误差，选择标识符“9”是有用的。如果用户选择了在图8中的标识符“10”，那么集中式界面模块312可视地在集中式面板内呈现如图10所示的屏幕输出1000。屏幕输出1000的通信行1002促使用户大声拼出要说的言词。如用户拼出，字母将显示在框1004中。另外，用户也可以使用输入设备打出框1004中言词的正确拼读。

在本发明的另一实施例中，图11是一框图，示出了在用户可听到地拼出新的选择后，用于操作显示在集中式面板上的字符，诸如图10示出了集中式面板的屏幕输出1000上的方法1100。例如，在图12，用户拼出以下短语，“intent″。然而，语言识别器306(图3)“听”到一系列输入文本1024为“i”、“n”、“v”、“e″、“n”、“t”并且然后，显示单词“invent”在面板1200上。单词“invent”需要改正成“intent”。

参考图13，为了改正这个，用户调用拼读命令以口头地发送命令来修改“invent”。在系统300接收拼读命令时，选择的单词被识别并且附加的单词1302通过附加至少一个空格1304至选择的单词来创建，其中附加的单词1302包括至少一个要被修改的字符1306，如在操作框1102所示的(图11)。在附加的单词内的每个字符1308然后被分配和唯一的数字值1310相关联，诸如在操作框1104内所示。然后附加的单词1302通过集中式面板的屏幕输出1300显示以可视地沟通在附加的单词1302内每个字符1308与它们分配的唯一数字值1310之间的关联。该关联可通过在在屏幕输出1300的附加的单词1302周围画框1312以及显示每个唯一数字值1310可视地沟通，所述数值1310紧靠着附加的单词1302内它们被分配的字符1308。如此，每个字符1308被”分配“一唯一数字值1310，该值与每个字符1308相关联。例如，用户要更改单词″invent″1314为″intent″，将口头输入命令给语言识别器306。这将导致在屏幕输出1300上一框1312显示在单词″invent”1314的周围。这也将导致单词“invent”1314内的每个单词被分配一显示在它的相应的字符1308邻近的唯一数字值1310，两者都在图13中显示。这将允许用户更改和/或纠正单词“invent”中的任一字母。

在这点上，选择命令和修改命令可由系统300接收，其中选择命令是相应于选择的字符的唯一数字值1310，如在操作框1106中所示。这对系统表明附加的单词1302中哪个字符将被更改。一旦系统300接收修改命令，通过响应于修改命令修改选择的字符产生修改过的单词，如在操作框1108中所示。可以理解的是用户可输入多个修改命令，诸如“删除”、“添加”、或要添加的字母/字符，其中这些情况的每种情况在以下讨论。

例如，参考图14，考虑以上的情况，用户想删除显示在集中式面板的屏幕输出1400的附加的单词“invent”1404中的字母“v”1402。如在此讨论的，用户发送响应于要更改的字符的唯一数字值给系统300。可以理解的是虽然这些唯一数字值1408开始于数字1并且以加1的方式递增，任何唯一数字值1408和增量可被分配。可以看到的是，在附加的单词“invent”1404内的字母“v”1402被分配给唯一数字数字1408“3”。如此，用户可口头地发送数字“3”至系统300。这个方式选择相应于由插入符1410所表明的数字“3”以及与之相关联的字母，在这种情况下是字母“v″1402在附加的单词“invent”1404中。然后用户可输入想要的修改命令，诸如“删除”，可以导致字母“v″1402从附加的单词“invent”1404中删除，留下如在图15的集中式面板的屏幕输出上显示的“inent”1412。这样，修改命令“删除”可从附加的单词中移除选择的字母和其相应的空格，并且选择插入符1410将选择下一个后续的字符，也就是说，“e”。

另一方面，参考图16，考虑这种情况，用户要在在集中式面板的屏幕输出1600上显示的单词“invent”的字母“n”1604和字母“v”1606之间增加一字符，诸如字母或空格。本质上，用户要增加一字符到相应于唯一数字值“3”的点中。如在此所讨论的，用户可口头地发送一命令。这将导致单词“invent”附加一空格以产生附加的单词“invent”1608以及显示在附加的单词“invent”周围的框1610和分配给每个在附加的单词“invent”的字符1608并显示在其邻近的唯一数字值1612。可以看到的是，附加的单词“invent”1608内的字母“v”1606被分配给一“3”的唯一数字值1612。如此，用户可口头地发送“3”至系统300以“选择”相应于由插入符1614所表明的数值“3”以及与之关联的字母，在这种情况下字母“v”1606在附加的单词“invent_”1608中。然后用户可输入修改命令，使系统300以合适的方式响应。例如，如果用户发送修改命令“增加”并且然后发送单词“空格”，那么一个空格将添加在字母“n”1604和字母“v”1606之间，有效地把附加的单词“invent_”1608改变为“in_vent_”1616，如图17中在集中式面板的屏幕输出1700中所示。在这种情况下，插入符1614保留原地以表明与唯一数字数字“3”相关联的空格已经被选择。然而，如果用户发送命令“增加”然后发送字母“p”，那么字母“p”将被添加到字母“n”1604和字母“v”1606之间，有效地把附加的单词“invent_”改变为“inpvent_”1618，如在图18的集中式面板的屏幕输出1800中所示，并且选择插入符1614将移动至下一字符以表明下一字符(也就是说，相应于唯一数字值“4”的字符)已经被选择。

类似地，参考图19，考虑这种情况，用户只要更改显示在集中式面板的屏幕输出1900的单词“invent_”的一个字母。如在此讨论的，用户可口头地发送一命令。这将导致单词“invent_”附加一空格以产生附加的单词“invent_”1902以及显示在附加的单词“invent_”1902周围的框1904和分配给每个在附加的单词“invent_”的字符1908并显示在其邻近的唯一数字值1906。可以看到的是，在附加的单词“invent_”1902内的字母“v”1912被分配给一“3”唯一数字数字1906。如此，用户可口头地发送数字“3”给系统300。这将导致相应于如插入符1310所表明的数字“3”和与之相关联的字母被选择，在这种情况下字母“v”1912在附加的单词“invent_”1902中。然后用户可输入修改命令(在这种情况下，命令是一简单的字母)导致系统300以合适的方式响应。例如，如果用户在发送数字“3”之后发送修改命令“t”，那么字母“v”1912将被字母“t”所替代，有效地把附加的单词“invent_”1902改变为单词“intent”1914，如图20中所示的在集中式面板的输出屏幕200上显示的。在这点上，选择插入符1910将移动至下一字符以表明下一字符(也就是说，相应于唯一数字值“4”的字符)已被选择。

可以理解的是一旦用户输入相应于要更改的字母的唯一数字值，可显示一建议的修改命令菜单，诸如下拉式菜单，其中每个建议的行动被分配给一自己的唯一数字值。例如，参考图21，这种情况，用户要更改显示在集中式面板的屏幕输出2100上的单词“invent”的一字母。用户可口头地发送一命令。这将导致单词“invent”附加一空格以产生附加的单词“invent_”2102以及显示在附加的单词“invent_”2102周围的框2104和分配给每个在附加的单词“invent_”2102的字符并显示在其邻近的唯一数字值2106。可以看到的是，在附加的单词“invent_”2102内的字母“v”2108被分配给一“3”唯一数字值2106。如此，用户可口头地发送数字“3”给系统300以“选择”相应于如插入符2110所表明的数字“3”和与之相关联的字母被选择，在这种情况下在附加的单词是“invent_”2102中的字母“v”2108。参考图22，菜单2112可显示在集中式面板输出2200以给用户多个修改命令选择，每个选择被分配给一第二唯一数字值2114。然后用户可输入修改命令，该修改命令是与想要的修改命令相关联的第二唯一数字数字2114，导致语言识别软件应用以合适的方式响应。例如，如果用户在发送数字“3”之后发送数字值“4”，那么字母“v”2108将被字母“d”代替，有效地从附加的单词“invent_”2102改变为单词“indent”2118，如图23中的集中式面板的屏幕输出2300所示。如上所述，选择插入符2110将移动至下一字符以表明下一字符(也就是说，相应于唯一数字值“4”的字符)已被选择。

可以理解的是建议的修改命令的菜单2112可包括任何合适于想要的最终目的的修改命令，诸如听上去和选择的字母或单词相似的字符/单词的菜单，举例来说，如果选择“v”，那么菜单2112将包括“d”、“t”、“e”、“g”、“3”。此外，菜单1210也可包括字符的大写形式，举例来说，“V”，以及来自拼读检查程序的自动完成列表。如此，从这个例子中，菜单1012可包括单词“indent”、“intent”、“amend”。此外，可以理解的是本发明可包括同时执行多个功能的语音命令，举例来说，“把3更改为如‘eagle’中的‘e’”、或“把t更改为g”，如果在选择的单词内只有一个字母“t”，可把字母“t”更改为字母“g”。如果在选择的单词内有两个字母“t”，反馈提供给用户要求更加精确。此外，其它命令也可被提供，诸如可使先前更改的字符返回其先前的状态的“撤销”，也就是说，如果用户说“cap that”(把选择的字母大写化)，但是输入被识别为“caret”，那么用户可以说“撤销”以返回字母至先前状态。

参考图8-23，这些附图在用户对文字处理应用命令的上下文中被讨论。然而，本领域的技术人员可意识到在图8-23中所讨论的实施例也可适用于用户说出语音命令给系统300的用户。如果语音命令是不明确的，集中式界面模块312将可视地呈现解释的列表并且也可视地呈现进一步选择的列表。进一步选择的列表包括重新说命令的选择和创建新的命令的选择。例如，如果用户能可听到地发出命令“插入名字David”。然而，如果用户先前已经发送邮件给David Black和David Green，但是从没发送邮件给David White，那么存在插入哪个David的不明确。集中式界面模块312可视地呈现David解释的列表。解释的列表包括David Black和David Green。此外，集中式界面模块312可视地呈现进一步选择的列表，该列表包括重述语音命令的选择和创建新的命令的选择。在这个例子中，由于用户希望发送邮件给David White，对于系统300而言是不熟悉的，用户可选择创建一新的命令。

除了通过与集中式界面模块312交互以解释命令和纠正错误识别误差外，用户也能与集中式界面模块312交互以接收来自多个应用模块310的反馈。集中式界面模块312被配置以可视地呈现哪个系统300正在收听。例如，集中式面板可显示由于麦克风302关闭而没有内容收听的系统300。此外，集中式界面模块312也可被配置以可视地呈现系统300的状态。例如，集中式面板可显示由系统300识别的最后的命令。在另一实施例中，集中式面板可显示正开着或关闭的具体的应用模块。

虽然本发明已结合具体的实施例被描述，本领域的技术人员可意识到在不背离本发明精神和内容的情况下，在形式和细节上可做修改。

Claims

1.一种促进与用户集中式交互的计算机实现的方法，所述方法包括：

提供经识别的语音命令给多个应用模块用于执行；

当所述应用模块中的至少一个由于经识别的语音命令的执行是不明确的而无法执行所经识别的语音命令时，接收经识别的语音命令的多个可能解释，所述多个可能解释由多个应用模块的至少一个模块产生；

在集中式显示屏上可视地呈现语音命令的多个可能解释；和

接收来自用户的对解释的选择的指示。

2.如权利要求1所述的方法，其特征在于，其中可视地呈现多个解释包括以列表的形式可视地呈现多个解释，多个解释的每个解释有相应的数字标识符。

3.如权利要求2所述的方法，其特征在于，其中接收对解释的选择的指示包括接收表明对应于所选择的解释的数字标识符的语言信号。

4.如权利要求2所述的方法，其特征在于，其中接收对解释的选择的指示包括接收表明相应于所选择的解释的数字标识符的输入设备信号。

5.如权利要求1所述的方法，其特征在于，进一步包括可视地呈现允许用户选择重述语音命令的方案。

6.如权利要求5所述的方法，其特征在于，进一步包括当用户选择重述语音命令时，可视地呈现多个更新的解释。

7.如权利要求1所述的方法，其特征在于，进一步包括可视地呈现允许用户选择创建新的不被包括在所述多个解释内的解释的选择方案。

8.如权利要求7所述的方法，其特征在于，其中允许用户选择创建新的解释进一步包括接收新的解释的可听的拼读。

9.如权利要求1所述的方法，其特征在于，其中集中式显示屏包括显示在计算设备屏幕上一致的位置内的集中式面板。

10.如权利要求1所述的方法，其特征在于，进一步包括在集中式显示屏上可视地呈现可供选择的用于错误识别的发声的拼读的列表。

11.如权利要求1所述的方法，其特征在于，进一步包括在集中式显示屏上可视地呈现来自多个应用模块的反馈。

12.如权利要求1所述的方法，其特征在于，如果在多于一个的应用模块中经识别的语音命令能够执行一个动作，则所述语音命令的执行对于所述多个应用模块是不明确的。

13.如权利要求1所述的方法，其特征在于，如果在所述多个应用模块中的一个中经识别的语音命令能够执行多于一个动作，则所述语音命令的执行对于所述多个应用模块是不明确的。

14.如权利要求1所述的方法，其特征在于，当所述应用模块的一个的多于一个实例被打开并且不清楚经识别的语音命令指的是应用模块的实例中的哪一个时，所述语音命令的执行对于所述多个应用模块是不明确的。

15.一种促进与用户集中式交互的计算机实现的系统，所述系统包括：

被配置为接收用于执行各种动作的命令的多个应用模块；

音频捕捉模块，配置以捕捉语音命令；

语言识别器，配置以通过访问在语法内的多个命令和所述多个命令的多个可选形式来识别语音命令，其中所述语法包括对应于所述多个应用模块能接收的用于执行各种动作的命令的多个命令，以及所述多个命令的多个可选形式，所述多个可选形式的每一个具有与所述多个命令中的一个相同的定义，但具有不同形式；

集中式界面模块，配置以：

当所述多个应用模块的至少一个在尝试执行经识别的语音命令时发现经

识别的语音命令的执行是不明确的时候，可视地呈现从多个应用模块的至少一个模块接收的多个可能解释；和

接收对用于执行所述语音命令的所述多个可能解释的一个解释的选择的指示。

16.如权利要求15所述的计算机实现的系统，其特征在于，其中集中式界面模块适合于可视地呈现允许用户选择重述语音命令的选择方案。

17.如权利要求15所述的计算机实现的系统，其特征在于，其中集中式界面模块适合于可视地呈现允许用户选择创建没有可视地呈现在解释列表内的语音命令的选择方案。

18.如权利要求15所述的计算机实现的系统，其特征在于，其中集中式界面模块适合于可视地呈现用于包括识别误差的口述的短语的可供替代的短语的列表。

19.一种促进与用户集中式交互的计算机实现的方法，所述方法包括：

捕捉语音命令；

通过访问语法来识别语音命令，所述语法包括对应于多个应用模块能接收的用于执行各种动作的命令的多个可识别命令；

将经识别的语音命令发送至用于执行的多个应用模块；

确定在如何执行经识别的语音命令中存在不明确之处；

在集中式显示屏上可视地呈现由所述多个应用模块中的至少一个生成的经识别的语音命令的可能解释的列表；以及

接收对解释中的一个解释的选择的指示。

20.如权利要求19所述的方法，其特征在于，其中解释的列表是基于一概念，所述概念为应用的多于一个实例在操作。