CN102047323B - 网页的自动化语音支持 - Google Patents
网页的自动化语音支持 Download PDFInfo
- Publication number
- CN102047323B CN102047323B CN2009801198498A CN200980119849A CN102047323B CN 102047323 B CN102047323 B CN 102047323B CN 2009801198498 A CN2009801198498 A CN 2009801198498A CN 200980119849 A CN200980119849 A CN 200980119849A CN 102047323 B CN102047323 B CN 102047323B
- Authority
- CN
- China
- Prior art keywords
- input field
- phonetic entry
- described input
- voice
- core attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明的各实施例提供了用于对网页进行自动化语音支持的方法、系统和计算机程序产品。在本发明的一个实施例中,用于语音支持网页的方法可包括选择网页的供进行语音输入的输入字段,基于输入字段的核心属性中的项来为所述输入字段生成语音语法,为输入字段接收语音输入,将所接收的语音输入和所述语法张贴到自动语音识别(ASR)引擎并将由所述ASR引擎所提供的所述语音输入的文本等值插入到所述网页的文档对象模型(DOM)中。
Description
技术领域
本发明涉及语音识别领域,更具体而言,涉及网页中的语音输入处理。
背景技术
语音识别系统通过在处理人的语音过程中避免使用昂贵的人力资本,大大降低了运营成本,在商务中扮演关键角色。一般而言,语音识别系统包括耦合到定义会话流的脚本的语音识别和文本到语音转换处理能力。因此,可以利用语音识别系统来为扬声器提供语音交互式体验,就好象活人参与了人与人之间的谈话一样。
语音识别系统已经被证实对使基于计算机的信息系统适应可听的语音处理世界特别有用。具体而言,基于Web的信息系统在通过在线表单中完成字段的填写而从最终用户处收集和处理信息时特别有效,这种说法对于语音识别系统也成立。具体而言,语音XML和等效的技术提供了Web表单适用于语音的基础。因此,语音识别系统已经被配置成通过基于表单的输入进行复杂的数据处理,正如通过常规的Web界面的情况。
将语音处理与Web应用的网页集成不适合弱者。不仅在网页和Web应用开发领域,而且在语音应用开发领域也需要专业知识。与语音应用开发集成在一起的是设计和使用语音语法使其反映语音应用的应用目的。因为Web表单中的不同字段的期望的信息会在不同字段之间有所不同,因此,在许多情况下,必须为每一个字段生成不同语法。
如此,支持语音的应用的语音开发组件常常与Web应用的开发同时进行,并需要语音开发人员和Web开发人员之间的协调。只有这样才可将两者合并到一个支持语音的Web应用中。由于此任务很复杂,支持语音的应用难以被许多类型的企业广泛采用,只是因为许多企业缺乏资源和专业知识来协调支持语音的应用的开发。因此,Web分发的内容中时常省略交互的一个重要形式,结果客户受损害。
发明内容
本发明的各实施例解决了当前技术的在网页的语音支持方面存在的缺陷,并提供用于网页的自动化语音支持的新颖而非明显的方法、系统和计算机程序产品。在本发明的一个实施例中,用于语音支持网页的方法可包括选择网页的输入字段供进行语音输入,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法,为所述输入字段接收语音输入,将所接收的语音输入和所述语法张贴到自动语音识别(ASR)引擎并将由所述ASR引擎所提供的所述语音输入的文本等值(textual equivalent)插入到所述网页的文档对象模型(DOM)中。
在本发明的另一实施例中,Web应用数据处理系统可以用于网页的语音支持。该系统可包括语音支持配件,其包括用于执行下列操作的程序代码:基于输入字段的核心属性中的项来为网页中的输入字段生成语音语法,为所述输入字段接收语音输入,将接收到的语音输入和语法张贴到通信地耦合的ASR引擎,并将由所述ASR引擎提供的所述语音输入的文本等值插入到所述网页的DOM中。可任选地,核心属性可以是隐藏的标题字段。进一步地,这些项可包括对于相应语法所允许的项。更进一步,这些项还可包括前缀、语义指示器或两者。最后,ASR引擎可以是符合代表性状态传输(REST)的ASR引擎。
在随后的描述中将阐述本发明的其他方面,经过描述,这些方面将变清楚,也可以通过本发明的实践来了解。本发明的各方面将通过在所附权利要求书中特别指出的元素和组合来实现和获得。应该理解,前面的一般性的说明和下面的详细描述只是示例性的和说明性的,不会对如权利要求所述的本发明形成限制。
附图说明
包括在说明书中并构成本说明书一部分的附图示出了本发明的各实施例,并且与说明书一起用于说明本发明的原理:此处所示出的实施例目前是优选的,然而,可以理解,本发明不仅限于所示出的准确的配置和手段,其中:
图1是网页的自动化语音支持的过程的图示说明;
图2是被配置用于网页的自动化语音支持的Web应用数据处理系统的示意图;以及
图3是示出了Web应用数据处理系统中的语音支持网页的过程的流程图。
具体实施方式
本发明的各实施例提供了用于对网页进行自动化语音支持的方法、系统和计算机程序产品。根据本发明的一实施例,Web应用的网页可以呈现在内容浏览器中,并可以为网页的输入字段接收语音输入。可以为输入字段确定语法,并且,如果不能确定语法,则可以为输入字段动态地生成语法。关于这一点,诸如输入字段的标题之类的输入字段的核心属性可以为输入字段指定可允许的输入,或者,核心属性可以参考现有的语法。
在任一种情况下,可以将语法和语音输入从内容浏览器张贴(post)到语音识别引擎,并且作为响应可以接收文本等值。例如,符合REST的语音识别引擎可以接收来自内容浏览器的语音输入和语法的该张贴,语音识别引擎可以将相当于语音输入的文本,例如,根据Javascript对象符号(JSON)格式化的文本返回到内容浏览器。此后,可以将该文本等值插入到网页的DOM中,并可以重新呈现该网页的受插入影响的部分,以为输入字段提供文本输入的可视化。
以此方式,甚至在没有语音应用开发的特定专业知识的情况下Web应用也可以是支持语音的。具体而言,一个寻求对Web应用中网页的字段进行语音支持的人只需在输入字段的核心属性内为输入字段指定所允许的项。可以参考输入字段的核心属性,自动地生成语音语法。进一步地,可以通过将输入字段的语音输入的文本等值直接插入到网页的DOM中,而将该文本等值无缝地集成到输入字段中。如此,不需要语音识别专业知识即可对Web应用的网页进行语音支持。
在例示中,图1以图形方式示出了用于对网页进行自动化语音支持的过程。如图1所示,Web应用(未示出)的网页120可以通过由呈现网页120的内容浏览器(未示出)产生的DOM 130来表示。DOM130可以在网页120内定义一个或多个不同输入字段180A、180B、180N。每个输入字段180A、180B、180N都可包括诸如标题之类的核心、隐藏属性。本领域技术人员将认识到,根据超文本标记语言(HTML)规范,诸如输入字段之类的标记语言元素的核心属性是已知的,并被很好地备有文件。
语音支持配件(widget)190可以处理由最终用户110为输入字段180A、180B、180N中的给定一个输入字段所提供的语音输入150。具体而言,在从最终用户110接收到语音输入150之后,可以判断是否为输入字段180A、180B、180N中的给定一个输入字段指定了语法。如果没有,则通过参考输入字段180A、180B、180N中的给定一个输入字段的对应的核心属性,为输入字段180A、180B、180N中的给定一个输入字段生成语法140。关于这一点,对于对应的语法提供允许的项的输入字段180A、180B、180N的示例性标记语言元素遵循:
<form dojo Type=″VoiceForm″widgetID=″command″method=″post″>
Field_1:<input type=″text″name=″Field 1″title=″term1,term2,term3″/>
Field_2:<input type=″text″name=″Field 2″title=″term4,term5,term6″/>
Field_N:<input type=″text″name=″Field N″title=″term7,term8″/>
</form>
另外,可以为每一个字段提供诸如[the]或[an]或[to]之类的前缀,以允许自然的语音。更进一步,还可以为允许的项提供语义含义。作为示例,
<form dojo Type=″VoiceForm″widgetID=″command″method=″post″>
Field_1:<input type=″text″name=″Field 1″title=″[the]term1,term2,term3″/>
Field_2:<input type=″text″name=″Field 2″title=″term4,term5,term6″>
Field_N:<input type″text″name=″Field N″title=″(to|$NULL),term7=1,term8=0″/>
</fprm>
以此方式,可以提供语音识别的语义解释(SISR)用于添加到生成的语法中,以便一个项的说出的形式可以被转换为文本等值内的值。
所产生的语法140可以反映所允许的项、前缀和语义值,例如,如下所示:
#ABNF 1.0;
language en-US
mode voice;
tag-format<semantics/1.0>;
root $command
met″author″is″VoiceGrammar Widget″;
public $command=$prologue $action($Field_1$Field_2$Field_N)
$epilogue{$.Field_1=$Field_1;$.Field_2=$Field_2;$.Field_N=$Field_N}
Sprologue=please|wouldyou|$NULL
$action=do1|do2|doN|$NULL
$Field_1=([the]term1{$=″term_1″}|term2{$=″term_2}|term3{$=″term_3}″/>
$Field_2=(term4{$=″term_4″}|term2{$=″term_5}|term3{$=″term_6}″/>
$Field_N=((to|$NULL)term7{$=″term_7″}|term8{$=″term_8}″/>
$epilogue=thanks|now|$NULL;
可选地,可以只为输入字段180A、180B、180N中的缺乏由最终用户110所提供的输入的那些输入字段生成所产生的语法140。
语音支持配件190可以将所产生的语法140与语音输入150一起提供到语音识别服务160,例如,符合REST的自动语音识别(ASR)引擎。语音识别服务160可以与语法140一起处理语音输入150,以产生语音输入150的文本等值170。可以将该文本等值170返回到语音支持配件190,该语音支持配件190又可以将文本等值170插入到网页120的DOM 130的与输入字段180A、180B、180N中的给定输入字段相对应的那一部分。可任选地,还可以将语音输入150传递到扬声器独立验证(SIV)引擎以执行语音鉴别。最后,可以由内容浏览器(未示出)处理DOM 130,以利用在输入字段180A、180B、180N中的给定输入字段中示出的文本等值170重新呈现网页120。
可以在Web应用数据处理系统中实现结合图1所描述的过程。在例示中,图2示意地描绘了被配置成用于对网页进行自动化语音支持的Web应用数据处理系统。该系统可包括通过计算机通信网络230通信地耦合到客户机240的内容服务器210。内容服务器210可以被配置成通过计算机通信网络230向客户机240供应网页220,以用于在内容浏览器250中呈现。可任选地,每个网页220都可以是从分布在计算机通信网络230上的多个不同内容源(未示出)提取的内容的“杂烩(mesh up)”260。
语音支持配件300可以耦合到内容浏览器250。语音支持配件300可包括用于从输入字段的核心属性中的项为杂烩260中的字段生成提供语音输入270的语法的计算机程序代码。该程序代码进一步可以用于向ASR引擎290提供语法和语音输入270,并且又接收相当于语音输入270的文本输入280。最后,该程序代码还可以进一步用于将文本输入280插入到杂烩260的DOM中,并在内容浏览器250中重新呈现杂烩260,以将文本输入260包括在杂烩260的已经向其中提供了语音输入270的输入字段中。
在语音支持配件300的操作的更进一步的例示中,图3是示出了用于在Web应用数据处理系统中对网页进行语音支持的过程的流程图。在框305中开始,可以接收用于在内容浏览器中呈现的网页,并在框310中,可以为该网页创建DOM。随后,在框315中,可以作为网页在内容浏览器中呈现该DOM。
该网页可以提供预计文本要输入的一个或多个输入字段,然而,还可以与输入字段中的一个或多个一起在该网页中提供用户界面元素,当被激活时,该元素允许在输入字段中提供语音输入代替文本输入。如此,在框320中,可以选择用于语音输入的输入字段,并在判断框325中,可以判断对于该输入字段是否存在语音语法。如果是,则可以为该输入字段加载语法。否则,在框330中,可以从输入字段的核心属性中检索项,并且在框335中,可以基于这些项生成语音语法。
在任意一种情况下,在框345中,可以为输入字段接收语音输入,而在框350中,可以将语音输入与语音语法一起张贴到耦合的ASR引擎中。此后,在框355中,可以将由ASR引擎为语音输入产生的等效的文本插入到与该输入字段相对应的DOM的节点中。最后,在框360中,可以重新呈现该网页以在输入字段中示出文本输入。
本发明的各实施例可以呈现完全是硬件实施方式、完全是软件实施方式或包含硬件和软件元件两者的实施方式的形式。在优选实施例中,本发明是以软件实现的,包括但不仅限于固件、常驻软件、微代码等等。此外,本发明还可以采用计算机程序产品的形式,该产品可以从计算机可用的或计算机可读的介质进行访问,其提供了程序代码,供计算机或任何指令执行系统使用或与它们一起使用。
对于此说明书,计算机可用的或计算机可读的介质可以是能够包含、存储、传递、传播或传输供指令执行系统、设备或装置使用或与它们结合使用的程序的任何设备。介质可以是电子的、磁性的、光学的、电磁的、红外的或半导体系统(设备或器件)或传播介质。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前示例包括压缩盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。
适用于存储和/或执行程序代码的数据处理系统将包括至少一个通过系统总线直接或间接地耦接到存储器元件的处理器。存储器元件可以包括在程序代码的实际执行过程中使用的本地存储器、大容量存储器,以及高速缓冲存储器,其提供了至少某些程序代码的临时存储,以便减少在执行过程中必须从大容量存储器取出代码的次数。输入/输出或I/O设备(包括但不仅限于键盘、显示器、指点设备,等等)可以直接或者通过居间I/O控制器耦接到系统。网络适配器也可以耦接到系统,以使得数据处理系统能够通过居间的私有或公共网络耦接到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是几个当前可用类型的网络适配器。
Claims (14)
1.一种用于语音支持网页的方法,包括:
选择网页中的输入字段供进行语音输入;
基于所述输入字段的标记语言元素中的所述输入字段的核心属性中的项来为所述输入字段生成语音语法;
为所述输入字段接收语音输入;
将所接收的语音输入和所述语法张贴到自动语音识别ASR引擎,所述引擎配置用于识别所述接收的语音输入以产生所述接收的语音输入的文本等值;以及
将由所述ASR引擎所提供的所述接收的语音输入的所述文本等值插入到所述网页的文档对象模型DOM中。
2.如权利要求1所述的方法,其中,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括:基于所述输入字段的标题属性中的项来为所述输入字段生成语音语法。
3.如权利要求1或2所述的方法,其中,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括:基于所述输入字段的核心属性中列出的对于相应语法所允许的项以及所述所允许的项的前缀,为所述输入字段生成语音语法。
4.如权利要求1或2所述的方法,其中,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括:基于所述输入字段的核心属性中列出的对于相应语法所允许的项以及所述所允许的项的语义指示器,为所述输入字段生成语音语法。
5.如权利要求1或2所述的方法,其中,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括:基于相应的输入字段的核心属性中的项来为每个输入字段生成语音语法。
6.如权利要求5所述的方法,其中,基于相应的输入字段的核心属性中的项来为每个输入字段生成语音语法包括:基于相应的输入字段的核心属性中的项来为缺乏文本输入的每个输入字段生成语音语法。
7.如权利要求1或2所述的方法,其中,将所接收的语音输入和所述语法张贴到自动语音识别ASR引擎包括:将所接收的语音输入和所述语法张贴到通信地耦合的远程的符合代表性状态传输REST的ASR引擎。
8.一种语音支持网页的装置,所述装置包括:
用于选择网页中的输入字段供进行语音输入的部件;
基于所述输入字段的标记语言元素中的所述输入字段的核心属性中的项来为所述输入字段生成语音语法的部件;
为所述输入字段接收语音输入的部件;
将所接收的语音输入和所述语法张贴到自动语音识别ASR引擎的部件,所述引擎配置用于识别所述接收的语音输入以产生所述接收的语音输入的文本等值;以及
将由所述ASR引擎所提供的所述接收的语音输入的所述文本等值插入到所述网页的文档对象模型DOM中的部件。
9.如权利要求8所述的装置,其中,所述核心属性是标题字段。
10.如权利要求8或9所述的装置,其中,所述项包括对于相应语法所允许的项。
11.如权利要求10所述的装置,其中,所述项还包括前缀。
12.如权利要求10所述的装置,其中,所述项还包括语义指示器。
13.如权利要求8或9所述的装置,其中,所述ASR引擎是符合代表性状态传输REST的ASR引擎。
14.如权利要求8所述的装置,其中,用于基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法的部件包括:用于基于所述输入字段的隐藏标题属性中的项来为所述输入字段生成语音语法的部件。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/099,028 US8831950B2 (en) | 2008-04-07 | 2008-04-07 | Automated voice enablement of a web page |
US12/099,028 | 2008-04-07 | ||
PCT/EP2009/054008 WO2009124887A1 (en) | 2008-04-07 | 2009-04-03 | Automated voice enablement of a web page |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102047323A CN102047323A (zh) | 2011-05-04 |
CN102047323B true CN102047323B (zh) | 2013-04-10 |
Family
ID=40718702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801198498A Expired - Fee Related CN102047323B (zh) | 2008-04-07 | 2009-04-03 | 网页的自动化语音支持 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8831950B2 (zh) |
EP (1) | EP2277171A1 (zh) |
CN (1) | CN102047323B (zh) |
WO (1) | WO2009124887A1 (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9047869B2 (en) * | 2008-04-07 | 2015-06-02 | Nuance Communications, Inc. | Free form input field support for automated voice enablement of a web page |
US8831950B2 (en) * | 2008-04-07 | 2014-09-09 | Nuance Communications, Inc. | Automated voice enablement of a web page |
US8543404B2 (en) * | 2008-04-07 | 2013-09-24 | Nuance Communications, Inc. | Proactive completion of input fields for automated voice enablement of a web page |
US8510117B2 (en) * | 2009-07-09 | 2013-08-13 | Nuance Communications, Inc. | Speech enabled media sharing in a multimodal application |
US8909683B1 (en) | 2009-07-17 | 2014-12-09 | Open Invention Network, Llc | Method and system for communicating with internet resources to identify and supply content for webpage construction |
EP4318463A3 (en) | 2009-12-23 | 2024-02-28 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US9786268B1 (en) * | 2010-06-14 | 2017-10-10 | Open Invention Network Llc | Media files in voice-based social media |
US11068954B2 (en) * | 2015-11-20 | 2021-07-20 | Voicemonk Inc | System for virtual agents to help customers and businesses |
US9576573B2 (en) * | 2011-08-29 | 2017-02-21 | Microsoft Technology Licensing, Llc | Using multiple modality input to feedback context for natural language understanding |
JP5710464B2 (ja) * | 2011-12-27 | 2015-04-30 | 株式会社東芝 | 電子機器、表示方法、およびプログラム |
US9400633B2 (en) * | 2012-08-02 | 2016-07-26 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US9781262B2 (en) | 2012-08-02 | 2017-10-03 | Nuance Communications, Inc. | Methods and apparatus for voice-enabling a web application |
US9292253B2 (en) * | 2012-08-02 | 2016-03-22 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US9292252B2 (en) * | 2012-08-02 | 2016-03-22 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US10157612B2 (en) | 2012-08-02 | 2018-12-18 | Nuance Communications, Inc. | Methods and apparatus for voice-enabling a web application |
CN103034118A (zh) * | 2012-12-23 | 2013-04-10 | 黑龙江工程学院 | 采用语音识别技术的无按键电子报时表 |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US10102848B2 (en) | 2014-02-28 | 2018-10-16 | Google Llc | Hotwords presentation framework |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
CN109766073A (zh) * | 2019-01-25 | 2019-05-17 | 四川长虹电器股份有限公司 | 电视浏览器中语音操作网页内容导航的方法 |
US11594218B2 (en) * | 2020-09-18 | 2023-02-28 | Servicenow, Inc. | Enabling speech interactions on web-based user interfaces |
CN113593568B (zh) * | 2021-06-30 | 2024-06-07 | 北京新氧科技有限公司 | 将语音转换成文本的方法、系统、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1564123A (zh) * | 2004-03-26 | 2005-01-12 | 宏碁股份有限公司 | 网页语音接口的操作方法 |
CN1666199A (zh) * | 2002-07-02 | 2005-09-07 | 艾利森电话股份有限公司 | 一种与访问互联网内容有关的装置及方法 |
CN1752975A (zh) * | 2004-09-20 | 2006-03-29 | 国际商业机器公司 | 用于支持话音的自动填充的方法和系统 |
CN1894658A (zh) * | 2003-06-06 | 2007-01-10 | 纽约市哥伦比亚大学托管会 | 用于话音激活网页的系统和方法 |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5369577A (en) * | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
US5794189A (en) * | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6587822B2 (en) * | 1998-10-06 | 2003-07-01 | Lucent Technologies Inc. | Web-based platform for interactive voice response (IVR) |
US6314398B1 (en) * | 1999-03-01 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method using speech understanding for automatic channel selection in interactive television |
US6604075B1 (en) * | 1999-05-20 | 2003-08-05 | Lucent Technologies Inc. | Web-based voice dialog interface |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
US6792576B1 (en) * | 1999-07-26 | 2004-09-14 | Xerox Corporation | System and method of automatic wrapper grammar generation |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6813603B1 (en) * | 2000-01-26 | 2004-11-02 | Korteam International, Inc. | System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form |
US7389234B2 (en) * | 2000-07-20 | 2008-06-17 | Microsoft Corporation | Method and apparatus utilizing speech grammar rules written in a markup language |
US7308408B1 (en) * | 2000-07-24 | 2007-12-11 | Microsoft Corporation | Providing services for an information processing system using an audio interface |
US7400718B2 (en) * | 2000-08-24 | 2008-07-15 | Golden Voice Technology & Training Llc | Automated business form information aquisition system |
ES2391983T3 (es) * | 2000-12-01 | 2012-12-03 | The Trustees Of Columbia University In The City Of New York | Procedimiento y sistema para la activación por voz de páginas web |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7020841B2 (en) * | 2001-06-07 | 2006-03-28 | International Business Machines Corporation | System and method for generating and presenting multi-modal applications from intent-based markup scripts |
US20030055649A1 (en) * | 2001-09-17 | 2003-03-20 | Bin Xu | Methods for accessing information on personal computers using voice through landline or wireless phones |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7222073B2 (en) * | 2001-10-24 | 2007-05-22 | Agiletv Corporation | System and method for speech activated navigation |
US7493259B2 (en) * | 2002-01-04 | 2009-02-17 | Siebel Systems, Inc. | Method for accessing data via voice |
US20060168095A1 (en) * | 2002-01-22 | 2006-07-27 | Dipanshu Sharma | Multi-modal information delivery system |
US7177814B2 (en) * | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
US7546382B2 (en) * | 2002-05-28 | 2009-06-09 | International Business Machines Corporation | Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms |
US7660855B2 (en) * | 2002-09-24 | 2010-02-09 | International Business Machines Corporation | Using a prediction algorithm on the addressee field in electronic mail systems |
US7003464B2 (en) | 2003-01-09 | 2006-02-21 | Motorola, Inc. | Dialog recognition and control in a voice browser |
WO2004066125A2 (en) * | 2003-01-14 | 2004-08-05 | V-Enable, Inc. | Multi-modal information retrieval system |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7389236B2 (en) * | 2003-09-29 | 2008-06-17 | Sap Aktiengesellschaft | Navigation and data entry for open interaction elements |
GB2407657B (en) * | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
CN1879149A (zh) * | 2003-11-10 | 2006-12-13 | 皇家飞利浦电子股份有限公司 | 音频对话系统和语音浏览方法 |
US7660400B2 (en) * | 2003-12-19 | 2010-02-09 | At&T Intellectual Property Ii, L.P. | Method and apparatus for automatically building conversational systems |
US20060156278A1 (en) * | 2004-11-18 | 2006-07-13 | Reager Sue E | Global localization and customization system and process |
US7613610B1 (en) * | 2005-03-14 | 2009-11-03 | Escription, Inc. | Transcription data extraction |
US20060235694A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Integrating conversational speech into Web browsers |
US20060288309A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Displaying available menu choices in a multimodal browser |
US7873523B2 (en) * | 2005-06-30 | 2011-01-18 | Microsoft Corporation | Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech |
GB2434664A (en) * | 2006-01-25 | 2007-08-01 | Voxsurf Ltd | Configuration and analysis of an interactive voice system |
US20070192675A1 (en) * | 2006-02-13 | 2007-08-16 | Bodin William K | Invoking an audio hyperlink embedded in a markup document |
US20070203869A1 (en) * | 2006-02-28 | 2007-08-30 | Microsoft Corporation | Adaptive semantic platform architecture |
US8311836B2 (en) * | 2006-03-13 | 2012-11-13 | Nuance Communications, Inc. | Dynamic help including available speech commands from content contained within speech grammars |
US7747442B2 (en) * | 2006-11-21 | 2010-06-29 | Sap Ag | Speech recognition application grammar modeling |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US8417529B2 (en) * | 2006-12-27 | 2013-04-09 | Nuance Communications, Inc. | System and methods for prompting user speech in multimodal devices |
JP5002283B2 (ja) * | 2007-02-20 | 2012-08-15 | キヤノン株式会社 | 情報処理装置および情報処理方法 |
US7822608B2 (en) * | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
US7991609B2 (en) * | 2007-02-28 | 2011-08-02 | Microsoft Corporation | Web-based proofing and usage guidance |
US8862475B2 (en) * | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
US8150699B2 (en) * | 2007-05-17 | 2012-04-03 | Redstart Systems, Inc. | Systems and methods of a structured grammar for a speech recognition command system |
US20080319757A1 (en) * | 2007-06-20 | 2008-12-25 | International Business Machines Corporation | Speech processing system based upon a representational state transfer (rest) architecture that uses web 2.0 concepts for speech resource interfaces |
US8831950B2 (en) * | 2008-04-07 | 2014-09-09 | Nuance Communications, Inc. | Automated voice enablement of a web page |
US8543404B2 (en) * | 2008-04-07 | 2013-09-24 | Nuance Communications, Inc. | Proactive completion of input fields for automated voice enablement of a web page |
US9047869B2 (en) * | 2008-04-07 | 2015-06-02 | Nuance Communications, Inc. | Free form input field support for automated voice enablement of a web page |
US8935677B2 (en) * | 2008-04-07 | 2015-01-13 | Microsoft Corporation | Automatic reverse engineering of input formats |
-
2008
- 2008-04-07 US US12/099,028 patent/US8831950B2/en active Active
-
2009
- 2009-04-03 CN CN2009801198498A patent/CN102047323B/zh not_active Expired - Fee Related
- 2009-04-03 EP EP09729447A patent/EP2277171A1/en not_active Withdrawn
- 2009-04-03 WO PCT/EP2009/054008 patent/WO2009124887A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1666199A (zh) * | 2002-07-02 | 2005-09-07 | 艾利森电话股份有限公司 | 一种与访问互联网内容有关的装置及方法 |
CN1894658A (zh) * | 2003-06-06 | 2007-01-10 | 纽约市哥伦比亚大学托管会 | 用于话音激活网页的系统和方法 |
CN1564123A (zh) * | 2004-03-26 | 2005-01-12 | 宏碁股份有限公司 | 网页语音接口的操作方法 |
CN1752975A (zh) * | 2004-09-20 | 2006-03-29 | 国际商业机器公司 | 用于支持话音的自动填充的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US8831950B2 (en) | 2014-09-09 |
US20090254346A1 (en) | 2009-10-08 |
WO2009124887A1 (en) | 2009-10-15 |
CN102047323A (zh) | 2011-05-04 |
EP2277171A1 (en) | 2011-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102047323B (zh) | 网页的自动化语音支持 | |
US12147732B2 (en) | Analyzing graphical user interfaces to facilitate automatic interaction | |
US8543404B2 (en) | Proactive completion of input fields for automated voice enablement of a web page | |
US10803860B2 (en) | Dependency graph conversation modeling for use in conducting human-to-computer dialog sessions with a computer-implemented automated assistant | |
US9047869B2 (en) | Free form input field support for automated voice enablement of a web page | |
CN108270843A (zh) | 生成和传送对适当第三方代理的调用请求 | |
US20190341039A1 (en) | Dependency graph generation in a networked system | |
US8321226B2 (en) | Generating speech-enabled user interfaces | |
Alhassan et al. | A novel framework for Arabic dialect chatbot using machine learning | |
CN113705224A (zh) | 一种语音识别的调度业务语音交互方法及系统 | |
US20140215304A1 (en) | Utilizing classification and text analytics for annotating documents to allow quick scanning | |
CN111966803B (zh) | 对话模拟方法、装置、存储介质及电子设备 | |
JP2009223720A (ja) | 自然言語対話エージェントのためのスクリプト作成支援方法及びプログラム | |
CN114036959B (zh) | 会话语境的确定方法、装置、计算机程序产品和存储介质 | |
EDIM et al. | A Voice User Interface for Low-literacy Users in a Rural Community. | |
Gatius et al. | Integrating semantic web and language technologies to improve the online public administrations services | |
US20240095448A1 (en) | Automatic guidance to interactive entity matching natural language input | |
CN111209348B (zh) | 用于输出信息的方法和装置 | |
Ali Mousa et al. | Developing a web application for collecting conversations in lab rooms | |
Paternò et al. | Deriving Vocal Interfaces from Logical Descriptions in Multi-device Authoring Environments | |
Zuil González | Voice Interaction Study: Exploring Elderly Users’ Language Patterns with a Web Interface through Spanish Voice Commands | |
Alhassan et al. | Research Article A Novel Framework for Arabic Dialect Chatbot Using Machine Learning | |
Plhák | A context-based grammar generation in mixed initiative dialogue system for visually impaired | |
JP2009129456A (ja) | ウェブページの特性に基づいてテキストを抽出するための方法、システム及びコンピュータ読み取り可能な記録媒体 | |
Hui | Attracting Foreign Direct Investment in the Process of Tacoma's Globalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130410 Termination date: 20210403 |