CN102047323B

CN102047323B - 网页的自动化语音支持

Info

Publication number: CN102047323B
Application number: CN2009801198498A
Authority: CN
Inventors: W·L·努斯比克尔; V·穆尔
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 2008-04-07
Filing date: 2009-04-03
Publication date: 2013-04-10
Anticipated expiration: 2029-04-03
Also published as: US8831950B2; US20090254346A1; WO2009124887A1; CN102047323A; EP2277171A1

Abstract

本发明的各实施例提供了用于对网页进行自动化语音支持的方法、系统和计算机程序产品。在本发明的一个实施例中，用于语音支持网页的方法可包括选择网页的供进行语音输入的输入字段，基于输入字段的核心属性中的项来为所述输入字段生成语音语法，为输入字段接收语音输入，将所接收的语音输入和所述语法张贴到自动语音识别(ASR)引擎并将由所述ASR引擎所提供的所述语音输入的文本等值插入到所述网页的文档对象模型(DOM)中。

Description

网页的自动化语音支持

技术领域

本发明涉及语音识别领域，更具体而言，涉及网页中的语音输入处理。

背景技术

语音识别系统通过在处理人的语音过程中避免使用昂贵的人力资本，大大降低了运营成本，在商务中扮演关键角色。一般而言，语音识别系统包括耦合到定义会话流的脚本的语音识别和文本到语音转换处理能力。因此，可以利用语音识别系统来为扬声器提供语音交互式体验，就好象活人参与了人与人之间的谈话一样。

语音识别系统已经被证实对使基于计算机的信息系统适应可听的语音处理世界特别有用。具体而言，基于Web的信息系统在通过在线表单中完成字段的填写而从最终用户处收集和处理信息时特别有效，这种说法对于语音识别系统也成立。具体而言，语音XML和等效的技术提供了Web表单适用于语音的基础。因此，语音识别系统已经被配置成通过基于表单的输入进行复杂的数据处理，正如通过常规的Web界面的情况。

将语音处理与Web应用的网页集成不适合弱者。不仅在网页和Web应用开发领域，而且在语音应用开发领域也需要专业知识。与语音应用开发集成在一起的是设计和使用语音语法使其反映语音应用的应用目的。因为Web表单中的不同字段的期望的信息会在不同字段之间有所不同，因此，在许多情况下，必须为每一个字段生成不同语法。

如此，支持语音的应用的语音开发组件常常与Web应用的开发同时进行，并需要语音开发人员和Web开发人员之间的协调。只有这样才可将两者合并到一个支持语音的Web应用中。由于此任务很复杂，支持语音的应用难以被许多类型的企业广泛采用，只是因为许多企业缺乏资源和专业知识来协调支持语音的应用的开发。因此，Web分发的内容中时常省略交互的一个重要形式，结果客户受损害。

发明内容

本发明的各实施例解决了当前技术的在网页的语音支持方面存在的缺陷，并提供用于网页的自动化语音支持的新颖而非明显的方法、系统和计算机程序产品。在本发明的一个实施例中，用于语音支持网页的方法可包括选择网页的输入字段供进行语音输入，基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法，为所述输入字段接收语音输入，将所接收的语音输入和所述语法张贴到自动语音识别(ASR)引擎并将由所述ASR引擎所提供的所述语音输入的文本等值(textual equivalent)插入到所述网页的文档对象模型(DOM)中。

在本发明的另一实施例中，Web应用数据处理系统可以用于网页的语音支持。该系统可包括语音支持配件，其包括用于执行下列操作的程序代码：基于输入字段的核心属性中的项来为网页中的输入字段生成语音语法，为所述输入字段接收语音输入，将接收到的语音输入和语法张贴到通信地耦合的ASR引擎，并将由所述ASR引擎提供的所述语音输入的文本等值插入到所述网页的DOM中。可任选地，核心属性可以是隐藏的标题字段。进一步地，这些项可包括对于相应语法所允许的项。更进一步，这些项还可包括前缀、语义指示器或两者。最后，ASR引擎可以是符合代表性状态传输(REST)的ASR引擎。

在随后的描述中将阐述本发明的其他方面，经过描述，这些方面将变清楚，也可以通过本发明的实践来了解。本发明的各方面将通过在所附权利要求书中特别指出的元素和组合来实现和获得。应该理解，前面的一般性的说明和下面的详细描述只是示例性的和说明性的，不会对如权利要求所述的本发明形成限制。

附图说明

包括在说明书中并构成本说明书一部分的附图示出了本发明的各实施例，并且与说明书一起用于说明本发明的原理：此处所示出的实施例目前是优选的，然而，可以理解，本发明不仅限于所示出的准确的配置和手段，其中：

图1是网页的自动化语音支持的过程的图示说明；

图2是被配置用于网页的自动化语音支持的Web应用数据处理系统的示意图；以及

图3是示出了Web应用数据处理系统中的语音支持网页的过程的流程图。

具体实施方式

本发明的各实施例提供了用于对网页进行自动化语音支持的方法、系统和计算机程序产品。根据本发明的一实施例，Web应用的网页可以呈现在内容浏览器中，并可以为网页的输入字段接收语音输入。可以为输入字段确定语法，并且，如果不能确定语法，则可以为输入字段动态地生成语法。关于这一点，诸如输入字段的标题之类的输入字段的核心属性可以为输入字段指定可允许的输入，或者，核心属性可以参考现有的语法。

在任一种情况下，可以将语法和语音输入从内容浏览器张贴(post)到语音识别引擎，并且作为响应可以接收文本等值。例如，符合REST的语音识别引擎可以接收来自内容浏览器的语音输入和语法的该张贴，语音识别引擎可以将相当于语音输入的文本，例如，根据Javascript对象符号(JSON)格式化的文本返回到内容浏览器。此后，可以将该文本等值插入到网页的DOM中，并可以重新呈现该网页的受插入影响的部分，以为输入字段提供文本输入的可视化。

以此方式，甚至在没有语音应用开发的特定专业知识的情况下Web应用也可以是支持语音的。具体而言，一个寻求对Web应用中网页的字段进行语音支持的人只需在输入字段的核心属性内为输入字段指定所允许的项。可以参考输入字段的核心属性，自动地生成语音语法。进一步地，可以通过将输入字段的语音输入的文本等值直接插入到网页的DOM中，而将该文本等值无缝地集成到输入字段中。如此，不需要语音识别专业知识即可对Web应用的网页进行语音支持。

在例示中，图1以图形方式示出了用于对网页进行自动化语音支持的过程。如图1所示，Web应用(未示出)的网页120可以通过由呈现网页120的内容浏览器(未示出)产生的DOM 130来表示。DOM130可以在网页120内定义一个或多个不同输入字段180A、180B、180N。每个输入字段180A、180B、180N都可包括诸如标题之类的核心、隐藏属性。本领域技术人员将认识到，根据超文本标记语言(HTML)规范，诸如输入字段之类的标记语言元素的核心属性是已知的，并被很好地备有文件。

语音支持配件(widget)190可以处理由最终用户110为输入字段180A、180B、180N中的给定一个输入字段所提供的语音输入150。具体而言，在从最终用户110接收到语音输入150之后，可以判断是否为输入字段180A、180B、180N中的给定一个输入字段指定了语法。如果没有，则通过参考输入字段180A、180B、180N中的给定一个输入字段的对应的核心属性，为输入字段180A、180B、180N中的给定一个输入字段生成语法140。关于这一点，对于对应的语法提供允许的项的输入字段180A、180B、180N的示例性标记语言元素遵循：

Field_1：<input type＝″text″name＝″Field 1″title＝″term1，term2，term3″/>

Field_2：<input type＝″text″name＝″Field 2″title＝″term4，term5，term6″/>

Field_N：<input type＝″text″name＝″Field N″title＝″term7，term8″/>

</form>

另外，可以为每一个字段提供诸如[the]或[an]或[to]之类的前缀，以允许自然的语音。更进一步，还可以为允许的项提供语义含义。作为示例，

Field_1：<input type＝″text″name＝″Field 1″title＝″[the]term1，term2，term3″/>

Field_2：<input type＝″text″name＝″Field 2″title＝″term4，term5，term6″>

Field_N：<input type″text″name＝″Field N″title＝″(to|$NULL)，term7＝1，term8＝0″/>

</fprm>

以此方式，可以提供语音识别的语义解释(SISR)用于添加到生成的语法中，以便一个项的说出的形式可以被转换为文本等值内的值。

所产生的语法140可以反映所允许的项、前缀和语义值，例如，如下所示：

#ABNF 1.0；

language en-US

mode voice；

tag-format<semantics/1.0>；

root $command

met″author″is″VoiceGrammar Widget″；

public $command＝$prologue $action($Field_1$Field_2$Field_N)

$epilogue{$.Field_1＝$Field_1；$.Field_2＝$Field_2；$.Field_N＝$Field_N}

Sprologue＝please|wouldyou|$NULL

$action＝do1|do2|doN|$NULL

$Field_1＝([the]term1{$＝″term_1″}|term2{$＝″term_2}|term3{$＝″term_3}″/>

$Field_2＝(term4{$＝″term_4″}|term2{$＝″term_5}|term3{$＝″term_6}″/>

$Field_N＝((to|$NULL)term7{$＝″term_7″}|term8{$＝″term_8}″/>

$epilogue＝thanks|now|$NULL；

可选地，可以只为输入字段180A、180B、180N中的缺乏由最终用户110所提供的输入的那些输入字段生成所产生的语法140。

语音支持配件190可以将所产生的语法140与语音输入150一起提供到语音识别服务160，例如，符合REST的自动语音识别(ASR)引擎。语音识别服务160可以与语法140一起处理语音输入150，以产生语音输入150的文本等值170。可以将该文本等值170返回到语音支持配件190，该语音支持配件190又可以将文本等值170插入到网页120的DOM 130的与输入字段180A、180B、180N中的给定输入字段相对应的那一部分。可任选地，还可以将语音输入150传递到扬声器独立验证(SIV)引擎以执行语音鉴别。最后，可以由内容浏览器(未示出)处理DOM 130，以利用在输入字段180A、180B、180N中的给定输入字段中示出的文本等值170重新呈现网页120。

可以在Web应用数据处理系统中实现结合图1所描述的过程。在例示中，图2示意地描绘了被配置成用于对网页进行自动化语音支持的Web应用数据处理系统。该系统可包括通过计算机通信网络230通信地耦合到客户机240的内容服务器210。内容服务器210可以被配置成通过计算机通信网络230向客户机240供应网页220，以用于在内容浏览器250中呈现。可任选地，每个网页220都可以是从分布在计算机通信网络230上的多个不同内容源(未示出)提取的内容的“杂烩(mesh up)”260。

语音支持配件300可以耦合到内容浏览器250。语音支持配件300可包括用于从输入字段的核心属性中的项为杂烩260中的字段生成提供语音输入270的语法的计算机程序代码。该程序代码进一步可以用于向ASR引擎290提供语法和语音输入270，并且又接收相当于语音输入270的文本输入280。最后，该程序代码还可以进一步用于将文本输入280插入到杂烩260的DOM中，并在内容浏览器250中重新呈现杂烩260，以将文本输入260包括在杂烩260的已经向其中提供了语音输入270的输入字段中。

在语音支持配件300的操作的更进一步的例示中，图3是示出了用于在Web应用数据处理系统中对网页进行语音支持的过程的流程图。在框305中开始，可以接收用于在内容浏览器中呈现的网页，并在框310中，可以为该网页创建DOM。随后，在框315中，可以作为网页在内容浏览器中呈现该DOM。

该网页可以提供预计文本要输入的一个或多个输入字段，然而，还可以与输入字段中的一个或多个一起在该网页中提供用户界面元素，当被激活时，该元素允许在输入字段中提供语音输入代替文本输入。如此，在框320中，可以选择用于语音输入的输入字段，并在判断框325中，可以判断对于该输入字段是否存在语音语法。如果是，则可以为该输入字段加载语法。否则，在框330中，可以从输入字段的核心属性中检索项，并且在框335中，可以基于这些项生成语音语法。

在任意一种情况下，在框345中，可以为输入字段接收语音输入，而在框350中，可以将语音输入与语音语法一起张贴到耦合的ASR引擎中。此后，在框355中，可以将由ASR引擎为语音输入产生的等效的文本插入到与该输入字段相对应的DOM的节点中。最后，在框360中，可以重新呈现该网页以在输入字段中示出文本输入。

本发明的各实施例可以呈现完全是硬件实施方式、完全是软件实施方式或包含硬件和软件元件两者的实施方式的形式。在优选实施例中，本发明是以软件实现的，包括但不仅限于固件、常驻软件、微代码等等。此外，本发明还可以采用计算机程序产品的形式，该产品可以从计算机可用的或计算机可读的介质进行访问，其提供了程序代码，供计算机或任何指令执行系统使用或与它们一起使用。

对于此说明书，计算机可用的或计算机可读的介质可以是能够包含、存储、传递、传播或传输供指令执行系统、设备或装置使用或与它们结合使用的程序的任何设备。介质可以是电子的、磁性的、光学的、电磁的、红外的或半导体系统(设备或器件)或传播介质。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前示例包括压缩盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。

适用于存储和/或执行程序代码的数据处理系统将包括至少一个通过系统总线直接或间接地耦接到存储器元件的处理器。存储器元件可以包括在程序代码的实际执行过程中使用的本地存储器、大容量存储器，以及高速缓冲存储器，其提供了至少某些程序代码的临时存储，以便减少在执行过程中必须从大容量存储器取出代码的次数。输入/输出或I/O设备(包括但不仅限于键盘、显示器、指点设备，等等)可以直接或者通过居间I/O控制器耦接到系统。网络适配器也可以耦接到系统，以使得数据处理系统能够通过居间的私有或公共网络耦接到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是几个当前可用类型的网络适配器。

Claims

1.一种用于语音支持网页的方法，包括：

选择网页中的输入字段供进行语音输入；

基于所述输入字段的标记语言元素中的所述输入字段的核心属性中的项来为所述输入字段生成语音语法；

为所述输入字段接收语音输入；

将所接收的语音输入和所述语法张贴到自动语音识别ASR引擎，所述引擎配置用于识别所述接收的语音输入以产生所述接收的语音输入的文本等值；以及

将由所述ASR引擎所提供的所述接收的语音输入的所述文本等值插入到所述网页的文档对象模型DOM中。

2.如权利要求1所述的方法，其中，基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括：基于所述输入字段的标题属性中的项来为所述输入字段生成语音语法。

3.如权利要求1或2所述的方法，其中，基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括：基于所述输入字段的核心属性中列出的对于相应语法所允许的项以及所述所允许的项的前缀，为所述输入字段生成语音语法。

4.如权利要求1或2所述的方法，其中，基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括：基于所述输入字段的核心属性中列出的对于相应语法所允许的项以及所述所允许的项的语义指示器，为所述输入字段生成语音语法。

5.如权利要求1或2所述的方法，其中，基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括：基于相应的输入字段的核心属性中的项来为每个输入字段生成语音语法。

6.如权利要求5所述的方法，其中，基于相应的输入字段的核心属性中的项来为每个输入字段生成语音语法包括：基于相应的输入字段的核心属性中的项来为缺乏文本输入的每个输入字段生成语音语法。

7.如权利要求1或2所述的方法，其中，将所接收的语音输入和所述语法张贴到自动语音识别ASR引擎包括：将所接收的语音输入和所述语法张贴到通信地耦合的远程的符合代表性状态传输REST的ASR引擎。

8.一种语音支持网页的装置，所述装置包括：

用于选择网页中的输入字段供进行语音输入的部件；

基于所述输入字段的标记语言元素中的所述输入字段的核心属性中的项来为所述输入字段生成语音语法的部件；

为所述输入字段接收语音输入的部件；

将所接收的语音输入和所述语法张贴到自动语音识别ASR引擎的部件，所述引擎配置用于识别所述接收的语音输入以产生所述接收的语音输入的文本等值；以及

将由所述ASR引擎所提供的所述接收的语音输入的所述文本等值插入到所述网页的文档对象模型DOM中的部件。

9.如权利要求8所述的装置，其中，所述核心属性是标题字段。

10.如权利要求8或9所述的装置，其中，所述项包括对于相应语法所允许的项。

11.如权利要求10所述的装置，其中，所述项还包括前缀。

12.如权利要求10所述的装置，其中，所述项还包括语义指示器。

13.如权利要求8或9所述的装置，其中，所述ASR引擎是符合代表性状态传输REST的ASR引擎。

14.如权利要求8所述的装置，其中，用于基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法的部件包括：用于基于所述输入字段的隐藏标题属性中的项来为所述输入字段生成语音语法的部件。