CN1871638B - 采用用户接口的智能语音识别 - Google Patents
采用用户接口的智能语音识别 Download PDFInfo
- Publication number
- CN1871638B CN1871638B CN2004800308924A CN200480030892A CN1871638B CN 1871638 B CN1871638 B CN 1871638B CN 2004800308924 A CN2004800308924 A CN 2004800308924A CN 200480030892 A CN200480030892 A CN 200480030892A CN 1871638 B CN1871638 B CN 1871638B
- Authority
- CN
- China
- Prior art keywords
- text
- suggestion
- modification
- automatic
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012986 modification Methods 0.000 claims abstract description 89
- 230000004048 modification Effects 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 210000001072 colon Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种将语音转换成文本的方法、装置、图形用户接口和计算机程序产品。在语音识别步骤(100)中,提供一种文本,对其实施基于文本修改规则的自动文本修改(102)。加亮文本中对其进行修改的文本部分(106),并向用户显示至少一条用于修改的建议(110),使得用户能够选择一条建议,并且因此对自动文本修改过程进行控制(112)。例如,这些规则识别语音识别步骤中可能已经被错误解译的有关模糊语音或丢失的文本格式字符的文本部分。
Description
技术领域
本发明涉及语音至文本的自动变换领域,尤其涉及对已经从语音自动转换成为文本进行的自动文本修改。自动文本修改按照修改规则检测文本部分、生成智能修改建议,并与具有最终文本修改决定权的用户进行交互。
背景技术
将语音转换成书写文本的语音识别系统在本领域中是众所周知的。商用语音识别系统目前已被医学界(例如用在医院中)和法律界广泛采用。将口授语言转换成书写文本的语音识别由于不再需要由打字员进行口授的转录而节省了时间、降低了成本。
通常情况下,口授不仅含有待转换的文本,而且还包含要由语音识别系统解译的命令。标点符号命令不应当按照字面转换,例如“冒号”、“句号”。标点符号命令或格式化的、加亮命令也应当由智能转换系统进行识别和解译。所识别的文本与所解译的命令最终产生必须由人类校对者或编辑人员进行校对的文件。
商用语音识别系统如Philips Electronics N.V公司的SpeechMagicTM和IBM公司的ViaVoiceTM的特点就是文本识别和命令解译。这两种商用语音识别系统可以组装在文本处理软件产品内,用来转换、编辑、校正和格式化文本。另外,这些商用系统还提供用户和个人电脑之间的话音受控交互。对语音指令的解释启动菜单选项和其它定制的软件功能,例如浏览互联网。
尽管如此口授固有的特点是模糊不清的文本部分,比如一些数必须根据口授的语境解释为数字或按字面解释为书写文本。这些模糊不清的文本部分很容易被自动语音识别系统错误解释。此外,基于系统对文本格式或文本的加亮命令的解释可能出错。这种无法避免发生的系统解释错误必须由校对者进行人工校正,从而降低了整个语音识别系统的效率。因此,人们非常希望能够有一种支持对潜在的模糊不清或解释错误的文本部分进行修改或校正的系统,以便于进行校对。
用于文本处理系统的特定文本校正、文本修改系统在本领域中是众所周知的。WO 97/49043中描述了一种检验文件的拼写、语法结构准确性的方法和系统。在一种电子文件中,取出某一句子,并检查所取出的句子中的单词是否有拼写错误。当系统检测到有拼写错误的单词时,在拼写和语法组合对话框中显示一条指示。显示出现拼写错误的单词和整个句子。另外,拼写检验程序模块接收拼写和语法组合对话框中的建议列表框中显示的建议。随后,用户通过选择拼写和语法组合对话框中的一个命令按钮,来输入一条命令。响应于用户选择这些命令按钮之一,该方法执行相应的步骤。采用类似的方法,本方法可以应用于对句子进行语法检查。
美国专利6047300中描述了一种对拼写错误的单词进行自动校正的系统和方法。在该系统中,如果检测到某一单词的拼写有错误,那么就产生一个拼写正确的替换词。按照一组不同的标准,将该拼写错误的单词与拼写正确的替换词进行比较。如果各种不同的标准比较的结果满足选择标准,那么就用拼写正确的替换单词来替换拼写错误的单词。既使检测到某一单词拼写有错,该用户也可能希望使输入的单词保留原样。为了保持输入的单词,必须克服对拼写错误的单词所进行的自动替换。为了克服替换,该专利申请文件公开了一种拼写实施例,它包括一个例外单词表。例外单词必须由用户定义,并且将不被替换。用户可以对例外单词表进行编辑,以增加、去除例外单词。
美国专利6047300还公开了一种拼写实施例,按照该实施例,在某一拼写错误的单词被正确拼写的单词所替换时,用户会或者不会接收一则通知。如果该用户接收到一则替换通知,则用户就了解了要进行的替换,并且可以确认或拒绝进行该替换。
上述引用的文件仅仅涉及列出电子文本文件中的错误拼写或不恰当的语法结构。但是由于模糊文本部分是拼写正确的,因此采用上述方法并不能识别语音至文本转换时所产生的模糊不清的文本部分。同样,通常并不能采用上述校正、验证系统来检测到口授中所包括的并且从自动语音识别系统按字面转换而来的文本格式化命令或文本加亮的命令。通常,这些系统不适于对电子文本执行基于语境的修改。
发明内容
本发明旨在提供一种利用用户交互对由语音至文本的识别系统所产生的电子文本进行自动文本修改的方法、系统、图形用户接口和计算机程序产品。
本发明提供了一种利用用户交互进行的自动文本修改。优选地,直接执行可靠的修改动作,如直接解译非模糊命令或非模糊文本部分。相反,当检测到不可靠的动作如模糊文本部分或无法解析的命令时,本方法在执行修改动作之前请求人类专业人员。向用户指示执行的修改动作以及对人类专业人员的请求。利用这一途径,用户得到了对经修改的文本部分和/或潜在解译错误的口授命令和/或模糊文本部分以及涉及语音至文本识别的其它潜在问题的简便、有效的访问途径。
例如,任何类型的数都与模糊文本部分相关。由于一个数可以被解译成是用阿拉伯数字书写的数,或者是一个顺序号(enumeration),或者按字面解释为一个词,因此语音至文本识别系统需要人类专业人员的帮助。一个数是要写成数字、顺序号还是一个词,需要根据语境来作出判断。这些模糊文本部分是由系统自动识别的,并且在所生成的文本中加亮。利用这样的方法,系统向校对者给出有关在语音至文本转换步骤中可能已经出现的潜在错误解译的智能指示。
发生错误解译的不仅是数字,也可以是某些短语或单词。取决于语境,单词“冒号”可以写成“冒号”(例如在医学报告中),也可以作为印刷符号写成“:”。
按照本发明的一种优选实施例,系统的特征在于可以采用几种规则来识别在被识别的文本中可能需要进行修改的文本部分。所产生的文本显示在用户接口上用于校对。为了便于进行校对,在文本中加亮潜在的文本修改部分。可以借助任何一种强调方式来执行加亮,例如要修改的文本的不同的颜色、不同的大小、不同的字体或不同的字样。
按照本发明的另一个优选实施例,与至少一种所述规则匹配的文本部分是由系统来自动修改的,并且在文本中被加亮。以这种方式,校对者可以立即识别已经由系统修改的那些文本部分。另外,系统 提供了一种撤销功能,使得校对者可以对经修改的文本部分进行自动更正。
按照本发明的另一优选实施例,规则给出了一种置信值,它表示某一被匹配文本部分是否需要进行修改的几率。当置信值高于第一预定阈值时,自动执行文本修改。这时,进行修改时无需给出任何注解或任何进一步的建议。当置信值低于该第一置信值但高于第二阈值时,执行自动修改,该自动修改与用户的一个指示相关联以及与使用户能够撤销所执行的修改的撤销信息相关联。当置信值低于该第二阈值时,不自动执行修改,但向用户指示一条建议,并且系统请求由用户对该匹配的文本部分是否需要进行修改作出判断。通常,可以调节用于该置信值的阈值,使之适合于校对者或用户的喜好。
按照本发明的另一优选实施例,规则所匹配的文本部分不是由系统自动修改的。相反,这需要校对者或用户的专业技能,以便判断是否应当进行修改。因此,在文本中加亮规则所匹配的文本部分。因此,校对者可以方便地找到被加亮的文本部分。加亮的文本部分通常与一个或几个文本修改的建议相关。通常,用户有可能接受或拒绝系统所产生的建议。文本修改最终是根据用户的决定来执行的。
根据文本文件的类型,可以应用基于不同语境的规则模块,以便检测模糊不清或有问题的文本部分。基于语境的规则模块例如是专用于某一法律实务或某一种医学报告的。根据该语境,这些规则不仅检测模糊不清的文本部分,而且还涉及口授中所包含的某些不清楚的命令。
另外,命令如“引文开始引文结束”可以解译为仅引用下一个单词,或解译成未知长度的引文段的开始。在这些情况下,产生建议或提示并在文本中加亮。单个的规则还可以指定用来检测含有顺序号符号如“1、2、3_...”或“a)、b)、c)”的文件中的不一致处。由于说话者通常在口授所有顺序符号时是不一致的,因此,设计了一些规则来检测一系列顺序号中的丢失项。这时,为校对者产生提示或建议。此外,对其它文本段落的引用,例如“相同于”或“如上所述”可以按字面来转换,也可以共同解析这些引用段落并且插入相应的文本。由于任何种类的装置通常是没有机会来解析这些引 用段落的,因此,如果检测到某些引用术语或短语,系统会向人类校对者提供一些指示。
按照本发明的另一优选实施例,当为关于某一特定的文本部分的文本修改所提供的两条或多条建议是互相冲突的时候,总是产生建议并且将所涉及的文本部分加亮。在至少两个不同的规则为某一特定文本部分提供了的不同建议的情况下,无疑需要求助于人类专业人员了。按照每一冲突建议的置信值,本方法提供了建议的排序或列表,用户或校对者能够根据其作出选择。
按照本发明的另一优选实施例,仅在自动文本修改中包含次数低于某一预定阈值的编辑操作时执行自动文本修改。当按照某一特定规则的文本编辑操作的次数超过了某一特定的阈值时,只要该校对者还没有作出决定,就不执行适当的文本修改。这样,本方法在进行大量自动编辑操作之前,求助于人类专业人员。因此,就将可能使由校对者所执行的撤销操作的次数减少到了最小。与用户的这种交互节省了时间、降低了成本。
按照本发明的另一优选实施例,将被识别的文本和按照不同校正规则产生的建议输出到一个图形用户接口。设计的图形用户接口用来显示所识别的文本以及显示潜在文本修改操作的建议。可以以多种不同的方式来显示某一建议。例如,建议可以以直接位于加亮的与该建议相关的文本部分旁边的建议菜单的形式出现。按照本发明的另一实施例,不同的建议可以出现在图形用户接口内的单独的窗口中。
按照本发明的另一优选实施例,只响应于用户的请求来显示不同文本部分的多条建议。否则,图形用户接口会由于多条建议或多个建议列表而过于拥挤不堪。可以以多种不同的方式来适应用户的请求,如,通过点击鼠标按钮、将鼠标指针移动到加亮的文本部分上、手指触摸图形用户接口上适当的位置或者简单地通过在与系统相连的键盘上输入通用的快捷键。
还可以采用多种不同的途径来修改用于单个加亮的文本部分的各条建议的外观。单个的建议可以按照指定的顺序(例如以置信值分类)作为菜单的选项或列表选项来给出,也可以以完全无序方式给出。建议外观方式可以进一步由用户来指定。
按照本发明的另一优选实施例,可以以不同的方式执行所请求的用户判定。用户或者可以选择必须由系统执行的建议之一,也可以人工输入要由系统执行的替代建议。特定建议的选择可以借助于鼠标指针和鼠标点击或利用通用快捷键来实现。这里,可以在用户和图形用户接口之间采用任何一种其它形式的交互。
按照本发明的另一优选实施例,对特定建议的选择会引发相关的副作用。例如,当系统检测到某一丢失的顺序号时,它会建议实现该顺序号。当用户接着决定插入该丢失的顺序号时,系统会自动给出一条提示,其提示紧接着的字母需要大写。这样,按照第一条规则的某一自动修改的执行会启用按照另一规则的第二种潜在修改。该用户还可以进一步判断是否在文件的局部处或全部中引发这些副作用。
通过将前文中描述的置信值与阈值相关联,可以进一步控制由于所执行的修改而引发的副作用。这样,可以进行区分,是否在向用户作出提示或没有作出提示的情况下自动执行某一副作用,或者在没有与该用户作出进一步交互的情况下,自动执行某一副作用。
附图说明
下文中将参照附图,详细描述本发明的优选实施例。
图1是执行本发明的方法的流程图,
图2是执行本发明的第二种方法的流程图,
图3示出本发明一种优选实施例的方框图,
图4示出图形用户接口的方框图,
图5是启用修改规则的流程图。
具体实施方式
图1是执行按照本发明的方法的流程图。在第一个步骤100中,将语音转换成文本。在步骤102中,检查哪些文本区域与一项或几项修改或不一致规则相匹配。在步骤104中,借助冲突的适用修改规则或借助某一不一致规则的匹配,来检测有问题的文本区域。在步骤106中,在文本中加亮所识别和检测到的文本部分。在步骤108中,本方法对于每一加亮的文本部分产生几条建议,并提供一个建议列表。在步骤110中,如果受用户请求,则将产生的建议列表显示在图形用户接口上。在步骤112中,用户选择一条建议,用户也可以人工插入某一随后要插入到文本中的文本修改项。图2中示出执行自动文本修改的本发明方法的流程图。与图1所描述的类似,在步骤200中,将语音变换成文本。在下一个步骤202中,检查被识别文本的哪些区域与一项或几项修改或不一致规则匹配。按照不同的规则,在步骤204中该方法检测潜在需要受到修改的文本部分。在步骤206中,本方法按照这些规则自动进行文本修改。由于这些自动文本修改可能会有错误,因此在接下来的步骤208中见它们加亮,并且为用户配备所述修改的一些撤销信息。这样,本方法执行了自动文本修改,并且还通知用户在该文本中已经执行了自动的并且因而是潜在错误的修改。
在理想情况下,本方法还提供了一种特定的撤销功能,使得用户可以方便地撤销由自动文本修改系统所执行的文本修改。图3示出了基于语音至文本转换系统302的本发明优选实施例的方框图。将自然语音300输入到语音至文本转换系统302中。语音至文本转换系统302与用户304进行交互,并产生修改的文本316。语音至文本转换系统302包含语音至文本转换模块306、规则匹配检测器模块308、规则执行模块309、以及图形用户接口310。语音至文本转换系统302还包含基于语境的规则模块312、314。每一基于语境的规则模块312、314包含数据库318、324、第一规则320、326、第二规则322、328以及本文中没有进一步指明的其它规则。
在提供一个经识别的文本的语音至文本转换模块306中,对输入的语音300进行处理。规则匹配检测器模块308接着将一个或几个基于语境的规则模块312、314应用于经识别的文本。为特定的文本范围指定数据库318、324以及单个的规则320、322、326、328。例如,数据库318、324指定用于法律实务或医学报告。以类似的方法,指定规则320、322、326、328用于不同的应用领域。根据所选择的基于语境的规则模块312、314,规则匹配检测器模块308检测经识别的文本内可能要进行修改的的文本部分。
对检测到的文本部分的修改是由规则执行模块309来执行的。按照用户的喜好,自动修改可以直接由规则执行模块309来执行,也可以按照用户的决定来执行。取决于预定的阈值和置信值,可以向用户指示与撤销信息关联或不关联的优选修改。通过图形用户接口 310,向用户指示需要用户的决定。通过图形用户接口310来处理语音至文本转换系统302与用户304之间的交互。当系统执行了自动文本修改时,将合适的文本部分在图形用户接口310上加亮。其修改需要用户决定的文本部分也在图形用户接口310上被加亮。当系统按照规则320、322、326、328产生了某一自动修改的建议时,这些建议也通过图形用户接口310被显示出来。用户的决定以及对所识别文本的自动文本修改的执行最终给出经修改的文本316,并将其从语音至文本转换系统302中输出。另外,当某一文本部分与某一不一致规则(其被应用于例如缺失顺序号、无法解析的索引或其它的不一致)相匹配时,在图形用户接口310上产生表示文本不一致的警告图标。
图4示出本发明的图形用户接口400的方框图。图形用户接口400包含文本窗口402和建议窗口404。文本窗口402通常含有几个加亮的文本部分406,其表示潜在修改或文本不一致的警告图标。可以用不同的方式(例如不同的颜色、不同字体或其它优选的视觉指示符)将文本加亮。可以借助文本窗口402中或建议窗口404中的建议列表410来显示某一被加亮的文本部分的各项修改建议。建议窗口404以及任一建议列表410、412可以总是出现在图形用户接口400内,但也可以只应用户的要求来显示。
借助于鼠标指针408,用户可以选择特定加亮的文本部分406,为该部分显示合适的建议列表410、412或建议窗口404。选择加亮的文本部分406(为其显示建议列表410、412)还可以借助任何一种其它类型的输入装置,如键盘快捷键、触摸屏、甚至是用户的语音命令来执行。借助于同样的装置,用户最终可以选择建议列表410、412中所提供的一项建议,用户也可以人工输入替代文本部分。
图5示出了针对作为文本修改的副作用而触发规则的文本修改执行过程的流程图。在第一个步骤500中,检查所识别的文本的哪一个部分是符合一项或几项修改或不一致规则的。在步骤502中,检测到N个潜在需要受到自动文本修改的文本部分,并且开始启用索引j(j=1)。步骤504将索引j与潜在需要受到修改的文本部分的个数N相比较。如果j大于N,则该方法进入步骤518,并且结束修改。如果在步骤504中,j小于或等于N,则在步骤506中在识别的文本中将第一个文本部分(j=1)加亮。在步骤508中,该方法提供了一种将显示在 图形用户接口上的文本修改的建议列表。在步骤510中,进行与用户的交互。接着,在步骤512中,依照与用户的交互来修改文本部分j。
接下来的步骤514检查所执行的文本修改是否触发其它的文本修改规则。例如,当第一项修改输入丢失的标点如“.”时,下一个句子中开头的单词按照另一个规则必须大写。当在步骤514中,所执行的修改触发了这样的另一规则时,在步骤516中将该规则应用于文本部分。在已经将该另一规则应用于指定的文本部分以后,该方法回到步骤506,并对所选择的规则执行相同的建议和交互过程。相反,当在步骤514中所执行的修改没有触发其它规则时,索引j递增1,并且该方法回到步骤504。
参考符号表
300 语音
302 语音至文本转换系统
304 用户
306 语音至文本变换模块
308 规则匹配检测器模块
309 规则执行模块
310 图形用户接口
312 基于语境的规则模块
314 基于语境的规则模块
316 修改的文本
318 数据库
320 规则
322 规则
324 数据库
326 规则
328 规则
400 图形用户接口
402 文本窗口
404 建议窗口
406 加亮的文本
408 鼠标指针
410 建议列表
412 建议列表
Claims (16)
1.一种将语音转换成文本的方法,包含下述步骤:
-执行语音识别步骤,以提供一文本,
-对所述文本应用至少一项规则,以执行至少一项自动文本修改,
-在用户接口上输出所述文本,
-在所述用户接口上输出至少一项建议,用于自动文本修改,以及
其中,所述文本修改包含多项编辑操作,当所述编辑操作的数量超过预定阈值时,输出用于所述文本修改的建议。
2.如权利要求1所述的方法,其中所述至少一项自动文本修改是自动执行的,并且在所述文本中被加亮,以供用户审核。
3.如权利要求1所述的方法,其中与所述至少一项建议相关的文本部分在所述文本中被加亮,并且响应于用户接受所述建议来执行至少一项文本修改。
4.如权利要求1至3中任一权利要求所述的方法,所述至少一项规则提供所述至少一项自动文本修改的置信值,其中,所述建议仅在所述置信值低于一个阈值时输出,以供用户审核。
5.如权利要求1至3中任一权利要求所述的方法,其中,当提供了至少第一和第二用于所述文本修改的冲突建议时,输出这些建议以供用户选择。
6.如权利要求1至3中任一权利要求所述的方法,其中,所述文本和所述建议被输出至图形用户接口。
7.如权利要求1至3中任一权利要求所述的方法,其中,当所述用户输入一项建议命令时,显示至少一项建议。
8.如权利要求2或3所述的方法,其中,所述用户审核包含通过输入选择命令来选择一项建议或人工输入文本修改。
9.如权利要求1至3中任一权利要求所述的方法,其中,按照由第一规则提供的至少一项建议,来执行第一自动文本修改,并且还包含对所述第一自动文本修改应用至少第二规则,并输出至少第二建议,用于第二自动文本修改。
10.一种语音至文本的转换系统(302),其包括:
-执行语音识别步骤以提供文本的装置,
-对所述文本应用至少一项规则(320,322,326,328)用以执行至少一项自动文本修改的装置,
-在用户接口上输出所述文本并输出所述自动文本修改的至少一项建议的装置,以及
其中,所述文本修改包含多项编辑操作,当所述编辑操作的数量超过预定阈值时,输出用于所述文本修改的建议。
11.如权利要求10所述的系统,包含加亮文本修改或加亮与至少一项建议相关的文本部分以供用户审核的装置。
12.如权利要求10或11所述的系统,该系统包含在提供用于文本修改的至少第一和第二建议冲突时或在文本修改包括多项编辑操作而编辑操作的数目超过一个预定阈值时,产生至少一项建议输出的装置。
13.如权利要求10或11所述的系统,包含当所述用户(304)输入一项建议命令时,在图形用户接口(310;400)上显示所述至少一项建议的装置。
14.如权利要求10或11所述的系统,包含按照由第一规则(320,…;326,…)所提供的第一建议进行第一自动文本修改的装置,并且还包含对所述第一自动文本修改应用至少第二规则(322,…;328,…)并且输出至少第二建议用于第二自动文本修改的装置。
15.一种用于语音至文本转换系统(302)的图形用户接口(310;400),所述系统(302)具有用于执行至少一项自动文本修改的至少一项规则(320,322,326,328),并且具有用于自动文本修改的至少一项建议,所述图形用户接口(310;400)包含:
-产生所述文本的显示的装置,
-加亮文本并加亮与所述至少一项建议相关的文本部分的装置,
-显示所述至少一项建议以用于所述自动文本修改的装置,以及
其中,所述文本修改包含多项编辑操作,当所述编辑操作的数量超过预定阈值时,输出用于所述文本修改的建议。
16.如权利要求15所述的图形用户接口,还包含由所述用户输入一项建议命令以便启动所述至少一项建议的显示的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03103885 | 2003-10-21 | ||
EP03103885.4 | 2003-10-21 | ||
PCT/IB2004/052074 WO2005038777A1 (en) | 2003-10-21 | 2004-10-13 | Intelligent speech recognition with user interfaces |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1871638A CN1871638A (zh) | 2006-11-29 |
CN1871638B true CN1871638B (zh) | 2012-01-25 |
Family
ID=34443045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800308924A Expired - Lifetime CN1871638B (zh) | 2003-10-21 | 2004-10-13 | 采用用户接口的智能语音识别 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7483833B2 (zh) |
EP (1) | EP1678707B1 (zh) |
JP (1) | JP4864712B2 (zh) |
CN (1) | CN1871638B (zh) |
AT (1) | ATE403215T1 (zh) |
DE (1) | DE602004015491D1 (zh) |
WO (1) | WO2005038777A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679032A (zh) * | 2017-09-04 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 语音转换纠错方法和装置 |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030101054A1 (en) * | 2001-11-27 | 2003-05-29 | Ncc, Llc | Integrated system and method for electronic speech recognition and transcription |
CN100536532C (zh) * | 2005-05-23 | 2009-09-02 | 北京大学 | 自动加配字幕的方法和系统 |
US20100158217A1 (en) | 2005-09-01 | 2010-06-24 | Vishal Dhawan | System and method for placing telephone calls using a distributed voice application execution system architecture |
US9799039B2 (en) | 2005-09-01 | 2017-10-24 | Xtone, Inc. | System and method for providing television programming recommendations and for automated tuning and recordation of television programs |
US11102342B2 (en) | 2005-09-01 | 2021-08-24 | Xtone, Inc. | System and method for displaying the history of a user's interaction with a voice application |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7624019B2 (en) * | 2005-10-17 | 2009-11-24 | Microsoft Corporation | Raising the visibility of a voice-activated user interface |
US20080256071A1 (en) * | 2005-10-31 | 2008-10-16 | Prasad Datta G | Method And System For Selection Of Text For Editing |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8386248B2 (en) * | 2006-09-22 | 2013-02-26 | Nuance Communications, Inc. | Tuning reusable software components in a speech application |
JP4867654B2 (ja) * | 2006-12-28 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
US7991609B2 (en) * | 2007-02-28 | 2011-08-02 | Microsoft Corporation | Web-based proofing and usage guidance |
TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
US8635069B2 (en) * | 2007-08-16 | 2014-01-21 | Crimson Corporation | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
US9081590B2 (en) * | 2008-06-24 | 2015-07-14 | Microsoft Technology Licensing, Llc | Multimodal input using scratchpad graphical user interface to edit speech text input with keyboard input |
US20110112836A1 (en) * | 2008-07-03 | 2011-05-12 | Mobiter Dicta Oy | Method and device for converting speech |
CN101651788B (zh) * | 2008-12-26 | 2012-11-21 | 中国科学院声学研究所 | 一种在线语音文本对齐系统及方法 |
JP2010160316A (ja) | 2009-01-08 | 2010-07-22 | Alpine Electronics Inc | 情報処理装置及びテキスト読み上げ方法 |
US9280971B2 (en) * | 2009-02-27 | 2016-03-08 | Blackberry Limited | Mobile wireless communications device with speech to text conversion and related methods |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US8379801B2 (en) | 2009-11-24 | 2013-02-19 | Sorenson Communications, Inc. | Methods and systems related to text caption error correction |
US9218807B2 (en) * | 2010-01-08 | 2015-12-22 | Nuance Communications, Inc. | Calibration of a speech recognition engine using validated text |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9002700B2 (en) | 2010-05-13 | 2015-04-07 | Grammarly, Inc. | Systems and methods for advanced grammar checking |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
JP5673330B2 (ja) * | 2011-04-25 | 2015-02-18 | 株式会社デンソー | 音声入力装置 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9697834B2 (en) | 2012-07-26 | 2017-07-04 | Nuance Communications, Inc. | Text formatter with intuitive customization |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10033797B1 (en) | 2014-08-20 | 2018-07-24 | Ivanti, Inc. | Terminal emulation over HTML |
CN105374356B (zh) * | 2014-08-29 | 2019-07-30 | 株式会社理光 | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9576575B2 (en) * | 2014-10-27 | 2017-02-21 | Toyota Motor Engineering & Manufacturing North America, Inc. | Providing voice recognition shortcuts based on user verbal input |
US9678947B2 (en) | 2014-11-21 | 2017-06-13 | International Business Machines Corporation | Pattern identification and correction of document misinterpretations in a natural language processing system |
US9940396B1 (en) * | 2014-12-10 | 2018-04-10 | Amazon Technologies, Inc. | Mining potential user actions from a web page |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US9787819B2 (en) * | 2015-09-18 | 2017-10-10 | Microsoft Technology Licensing, Llc | Transcription of spoken communications |
DK201670539A1 (en) * | 2016-03-14 | 2017-10-02 | Apple Inc | Dictation that allows editing |
CN105827417A (zh) * | 2016-05-31 | 2016-08-03 | 安徽声讯信息技术有限公司 | 一种用于会议记录并可随时修改的语音速记装置 |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US11100278B2 (en) | 2016-07-28 | 2021-08-24 | Ivanti, Inc. | Systems and methods for presentation of a terminal application screen |
US10706210B2 (en) | 2016-08-31 | 2020-07-07 | Nuance Communications, Inc. | User interface for dictation application employing automatic speech recognition |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109949828B (zh) * | 2017-12-20 | 2022-05-24 | 苏州君林智能科技有限公司 | 一种文字校验方法及装置 |
JP2019191713A (ja) * | 2018-04-19 | 2019-10-31 | ヤフー株式会社 | 決定プログラム、決定方法、及び決定装置 |
US11170770B2 (en) * | 2018-08-03 | 2021-11-09 | International Business Machines Corporation | Dynamic adjustment of response thresholds in a dialogue system |
US11620552B2 (en) * | 2018-10-18 | 2023-04-04 | International Business Machines Corporation | Machine learning model for predicting an action to be taken by an autistic individual |
CN112699644B (zh) * | 2020-12-29 | 2024-12-31 | 维沃移动通信有限公司 | 信息处理方法、装置及电子设备 |
US11551694B2 (en) * | 2021-01-05 | 2023-01-10 | Comcast Cable Communications, Llc | Methods, systems and apparatuses for improved speech recognition and transcription |
US12254874B2 (en) * | 2022-02-20 | 2025-03-18 | Google Llc | False suggestion detection for user-provided content |
KR102517661B1 (ko) | 2022-07-15 | 2023-04-04 | 주식회사 액션파워 | 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법 |
CN119003059A (zh) * | 2023-09-22 | 2024-11-22 | 北京字跳网络技术有限公司 | 一种信息处理方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6047300A (en) * | 1997-05-15 | 2000-04-04 | Microsoft Corporation | System and method for automatically correcting a misspelled word |
CN1275223A (zh) * | 1998-08-31 | 2000-11-29 | 索尼株式会社 | 自然语言处理装置及方法 |
CN1310426A (zh) * | 2000-02-24 | 2001-08-29 | 株式会社金泰克 | 在电子商务系统中验证个人信息的方法 |
US6347296B1 (en) * | 1999-06-23 | 2002-02-12 | International Business Machines Corp. | Correcting speech recognition without first presenting alternatives |
US20030086341A1 (en) * | 2001-07-20 | 2003-05-08 | Gracenote, Inc. | Automatic identification of sound recordings |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3285954B2 (ja) * | 1992-09-25 | 2002-05-27 | 株式会社東芝 | 音声認識装置 |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US6098034A (en) * | 1996-03-18 | 2000-08-01 | Expert Ease Development, Ltd. | Method for standardizing phrasing in a document |
US6085206A (en) | 1996-06-20 | 2000-07-04 | Microsoft Corporation | Method and system for verifying accuracy of spelling and grammatical composition of a document |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
JP3082746B2 (ja) * | 1998-05-11 | 2000-08-28 | 日本電気株式会社 | 音声認識システム |
JP2000089786A (ja) * | 1998-09-08 | 2000-03-31 | Nippon Hoso Kyokai <Nhk> | 音声認識結果の修正方法および装置 |
AU1598900A (en) * | 1998-10-27 | 2000-05-15 | Fujitsu Network Communications, Inc. | Event based rate policing with a jumping window |
JP2000259178A (ja) * | 1999-03-08 | 2000-09-22 | Fujitsu Ten Ltd | 音声認識装置 |
JP2000293193A (ja) * | 1999-04-08 | 2000-10-20 | Canon Inc | 音声入力装置、音声入力方法、及び記憶媒体 |
US7149970B1 (en) * | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
US6856956B2 (en) * | 2000-07-20 | 2005-02-15 | Microsoft Corporation | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system |
DE10138408A1 (de) * | 2001-08-04 | 2003-02-20 | Philips Corp Intellectual Pty | Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf |
US20040030540A1 (en) * | 2002-08-07 | 2004-02-12 | Joel Ovil | Method and apparatus for language processing |
-
2004
- 2004-10-13 CN CN2004800308924A patent/CN1871638B/zh not_active Expired - Lifetime
- 2004-10-13 EP EP04770243A patent/EP1678707B1/en not_active Expired - Lifetime
- 2004-10-13 DE DE602004015491T patent/DE602004015491D1/de not_active Expired - Lifetime
- 2004-10-13 WO PCT/IB2004/052074 patent/WO2005038777A1/en active IP Right Grant
- 2004-10-13 JP JP2006536231A patent/JP4864712B2/ja not_active Expired - Fee Related
- 2004-10-13 AT AT04770243T patent/ATE403215T1/de not_active IP Right Cessation
- 2004-10-13 US US10/576,329 patent/US7483833B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6047300A (en) * | 1997-05-15 | 2000-04-04 | Microsoft Corporation | System and method for automatically correcting a misspelled word |
CN1275223A (zh) * | 1998-08-31 | 2000-11-29 | 索尼株式会社 | 自然语言处理装置及方法 |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
US6347296B1 (en) * | 1999-06-23 | 2002-02-12 | International Business Machines Corp. | Correcting speech recognition without first presenting alternatives |
CN1310426A (zh) * | 2000-02-24 | 2001-08-29 | 株式会社金泰克 | 在电子商务系统中验证个人信息的方法 |
US20030086341A1 (en) * | 2001-07-20 | 2003-05-08 | Gracenote, Inc. | Automatic identification of sound recordings |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679032A (zh) * | 2017-09-04 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 语音转换纠错方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
ATE403215T1 (de) | 2008-08-15 |
EP1678707A1 (en) | 2006-07-12 |
EP1678707B1 (en) | 2008-07-30 |
US20070083366A1 (en) | 2007-04-12 |
JP2007509377A (ja) | 2007-04-12 |
WO2005038777A1 (en) | 2005-04-28 |
US7483833B2 (en) | 2009-01-27 |
CN1871638A (zh) | 2006-11-29 |
DE602004015491D1 (de) | 2008-09-11 |
JP4864712B2 (ja) | 2012-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1871638B (zh) | 采用用户接口的智能语音识别 | |
US7149970B1 (en) | Method and system for filtering and selecting from a candidate list generated by a stochastic input method | |
US7831423B2 (en) | Replacing text representing a concept with an alternate written form of the concept | |
US6848080B1 (en) | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors | |
US7165019B1 (en) | Language input architecture for converting one text form to another text form with modeless entry | |
US6356866B1 (en) | Method for converting a phonetic character string into the text of an Asian language | |
KR100650427B1 (ko) | 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴 | |
CN100593167C (zh) | 语言输入用户界面 | |
JPH07325828A (ja) | 文法チェックシステム | |
JPH07325824A (ja) | 文法チェックシステム | |
US6286014B1 (en) | Method and apparatus for acquiring a file to be linked | |
JPWO2007097390A1 (ja) | 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム | |
US20070277118A1 (en) | Providing suggestion lists for phonetic input | |
US20240354490A1 (en) | System and method for transcribing audible information | |
US20240354519A1 (en) | System and method for transcribing audible information | |
JPH10240739A (ja) | 情報検索装置および情報検索方法 | |
JPH09325787A (ja) | 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置 | |
JP2007122660A (ja) | 文書データ処理装置および文書データ処理プログラム | |
JP2003016055A (ja) | 文作成装置及び文作成方法 | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 | |
JPH0836575A (ja) | 統語解析装置 | |
JPH05290083A (ja) | 文書作成支援装置 | |
JPH01303564A (ja) | 文書作成支援装置 | |
JPH0682367B2 (ja) | 文書作成・校正支援装置 | |
JP2009146238A (ja) | 翻訳支援装置、翻訳支援方法および翻訳支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20120125 |