CN104112448B - 用于管理语音系统的对话的方法和系统 - Google Patents
用于管理语音系统的对话的方法和系统 Download PDFInfo
- Publication number
- CN104112448B CN104112448B CN201310747386.8A CN201310747386A CN104112448B CN 104112448 B CN104112448 B CN 104112448B CN 201310747386 A CN201310747386 A CN 201310747386A CN 104112448 B CN104112448 B CN 104112448B
- Authority
- CN
- China
- Prior art keywords
- list
- ambiguity
- difference
- key element
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000004044 response Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 230000004927 fusion Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及用于管理语音系统的对话的方法和系统。方法和系统被提供来用于管理语音系统的语音对话。在一个实施例中,一种方法包括:接收来自语音系统的用户的第一表达;确定来自第一表达的可能结果的第一列表,其中第一列表包括至少两个要素,每个要素表示一种可能结果;分析第一列表的所述至少两个要素来确定要素的歧义;以及基于部分正字法和所述歧义来对用户生成语音提示。
Description
技术领域
本技术领域主要涉及语音系统,并且更特别地涉及用于使用部分正字法(partialorthography)来管理语音系统内的对话的方法和系统。
背景技术
交通工具语音识别系统对由交通工具的乘员发出的语音执行语音识别或理解。语音表达通常包括指令,其通信于或控制交通工具的一个或多个特征或可由交通工具访问的其它系统。语音对话系统响应于语音表达生成语音指令。在一些情况下,响应于语音识别生成语音指令,需要进一步的信息以便执行语音识别。例如,语音指令可以要求用户重复语音表达,或者可以要求用户从可能性的列表中进行选择。这类语音指令可能是笨拙的,难以理解,或者可能不能解决识别问题。
因此,希望的是提供改善的方法和系统来管理语音对话用以改善语音识别。因此,进一步希望的是提供方法和系统来使用部分正字法管理语音对话用以改善语音识别。更进一步,从后续详细描述和所附权利要求书,结合附图和前述技术领域和背景技术来理解,本发明的其它所需特征和特性将变得清楚明了。
发明内容
方法和系统被提供来用于管理语音系统的语音对话。在一个实施例中,一种方法包括:接收来自语音系统的用户的第一表达;确定来自第一表达的可能结果的第一列表,其中第一列表包括至少两个要素,每个要素表示一种可能结果;分析第一列表的所述至少两个要素来确定要素的歧义;以及基于部分正字法和所述歧义来对用户生成语音提示。
在另一实施例中,一种系统包括:第一模块,其接收来自语音系统的用户的第一表达,并且确定来自第一表达的可能结果的第一列表。第一列表包括至少两个要素,每个要素表示一种可能结果。第二模块分析第一列表的所述至少两个要素来确定要素的歧义。第三模块基于部分正字法和所述歧义来对用户生成语音提示。
本发明还提供以下技术方案:
1. 一种用于管理语音系统的语音对话的方法,包括:
接收来自语音系统的用户的第一表达;
确定来自第一表达的可能结果的第一列表,其中第一列表包括至少两个要素,每个要素表示一种可能结果;
分析第一列表的所述至少两个要素来确定要素的歧义;以及
基于部分正字法和所述歧义来对用户生成语音提示。
2. 如技术方案1所述的方法,进一步包括:
响应于语音提示接收来自用户的第二表达;
确定来自第二表达的可能结果的第二列表;以及
基于第一列表和第二列表生成结果。
3. 如技术方案2所述的方法,其中,基于第一列表的可能结果与第二列表的可能结果的融合来生成结果。
4. 如技术方案2所述的方法,进一步包括:
基于第二列表更新语音模型的语法;以及
使用语音模型的更新语法来生成结果。
5. 如技术方案1所述的方法,其中,所述分析包括:分析第一列表的所述至少两个要素来确定所述至少两个要素之间的差别。
6. 如技术方案5所述的方法,其中,所述分析进一步包括:确定第一列表的第一要素的槽位与第二要素的槽位之间的差别来确定差别。
7. 如技术方案6所述的方法,其中,确定差别包括:确定第一要素的槽位与第二要素的槽位之间的正字法差别。
8. 如技术方案7所述的方法,其中,正字法差别是基于与槽位相关联的语言。
9. 如技术方案7所述的方法,其中,正字法差别是基于槽位的字母、数字、字符、音素和音调中的至少一个。
10. 如技术方案6所述的方法,其中,确定差别包括:确定第一要素的槽位与第二要素的槽位之间的置信度差别。
11. 如技术方案10所述的方法,其中,确定差别进一步包括:确定第一要素的槽位与第二要素的槽位之间的正字法差别。
12. 如技术方案6所述的方法,其中,所述分析进一步包括:从所述差别中选择最大差别,并将歧义类型设定为与关联于所述最大差别的槽位相关联的槽位类型,并且其中对用户生成语音提示是基于歧义类型。
13. 如技术方案1所述的方法,其中,所述部分正字法是基于所确定的正字法差别类型。
14. 如技术方案1所述的方法,其中,所述部分正字法是基于所确定的歧义类型。
15. 如技术方案1所述的方法,进一步包括:
基于歧义来确定歧义类型;
基于歧义来确定差别类型;并且
其中,生成语音提示是基于所述歧义类型和所述差别类型。
16. 如技术方案1所述的方法,其中,接收第一表达是通过交通工具的人机界面模块。
17. 一种用于管理语音对话的语音系统,包括:
第一模块,其接收来自语音系统的用户的第一表达,并且确定来自第一表达的可能结果的第一列表,其中第一列表包括至少两个要素,每个要素表示一种可能结果;
第二模块,其分析第一列表的所述至少两个要素来确定要素的歧义;以及
第三模块,其基于部分正字法和所述歧义来对用户生成语音提示。
18. 如技术方案17所述的语音系统,其中,所述第一模块响应于语音提示接收来自用户的第二表达,其中所述第二模块确定来自第二表达的可能结果的第二列表;并且其中第四模块基于第一列表和第二列表生成结果。
19. 如技术方案18所述的语音系统,其中,所述第四模块基于第一列表的可能结果与第二列表的可能结果的比较来生成结果。
20. 如技术方案18所述的语音系统,其中,所述第四模块基于第二列表来更新语音模型的语法;并使用语音模型的更新语法来生成结果。
附图说明
下面将结合以下附图来描述示例性实施例,附图中相似附图标记表示相似要素,并且附图中:
图1是包括依据多个不同示例性实施例的语音系统的交通工具的功能框图;
图2是数据流图,示出了依据多个不同示例性实施例的语音系统;并且
图3-5是流程图,示出了可以由依据多个不同示例性实施例的语音系统执行的语音方法。
具体实施方式
以下详细描述本质上仅仅是示例性的,并不旨在限制应用和用途。更进一步,没有意图被在前面的技术领域、背景技术、发明内容或以下详细描述中给出的任何明示或暗示的理论限制。如本文中所使用的,术语模块是指专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的存储器和处理器(共享、专用或分组)、组合逻辑电路、和/或提供所描述功能的其它适当部件。
依据本公开的示例性实施例,语音系统10被示出为被包括在交通工具12内。在多个不同示例性实施例中,语音系统10通过人机界面(HMI)模块14为一个或多个交通工具系统提供语音识别或理解和对话。这类交通工具系统可以包括例如但不限于电话系统16、导航系统18、媒体系统20、远程信息处理系统22、网络系统24或可以包括依赖于语音的应用的任何其它交通工具系统。如能够理解的,语音系统10的一个或多个实施例可适用于具有依赖于语音的应用的其它非交通工具系统,因此并不局限于本交通工具示例。
语音系统10通过通信总线和/或其它通信手段26(例如,有线、短距离无线或长距离无线)与多个交通工具系统14-24通信。通信总线可为例如但并不局限于控制器区域网络(CAN)总线、本地互连网络(LIN)总线或任何其它类型的总线。
语音系统10包括语音理解模块32、对话管理器模块34和语音生成模块35。如能够理解的,语音理解模块32、对话管理器模块34和语音生成模块35可以被实施为单独的系统和/或如所示的组合系统。一般而言,语音理解模块32使用一个或多个语音识别技术来接收和处理来自HMI模块14的语音表达(speech utterance)。语音理解模块32从语音表达生成可能结果的一个或多个列表(例如,基于置信度阈值),并将列表发送至对话管理器模块34。在多个不同实施例中,语音理解模块32使用存储在数据库中的预先限定的可能性来生成列表。例如,预先限定的可能性可为存储在电话薄中的名称或号码、存储在地址簿中的名称或地址、存储在音乐目录中的歌曲名称或艺人、等等。
对话管理器模块34管理交互序列和待基于列表说给用户的语音提示的选择。特别地,当列表包含多于一个的可能结果时,对话管理器模块34使用消除歧义策略来管理与用户的对话提示,使得能够确定识别的结果。消除歧义策略有助于识别用户目标,而不是识别用户正在说的准确词语。语音生成模块35基于由对话管理器34确定的对话向用户生成发声提示。
现在参考图2,数据流图示出了依据多个不同示例性实施例的语音理解模块32和对话管理器模块34。如能够理解的,根据本公开的语音理解模块32和对话管理器模块34的多个不同示例性实施例可以包括任意数量的子模块。在多个不同示例性实施例中,图2中示出的子模块可以被组合和/或被进一步划分,用以使用消除歧义策略来类似地管理对话。在多个不同示例性实施例中,对话管理器模块34包括列表分析器模块40、歧义辨识符模块42、提示管理器模块44和结果确定模块45。语音理解模块32包括识别器模块46。
参考语音理解模块32,识别器模块46接收作为输入的来自用户的语音表达47(例如,通过HMI模块14(图1))。识别器模块46使用一个或多个语音模型来处理语音表达47,用以确定可能结果的列表50。列表50包括表示处理过程的可能结果的一个或多个要素(element)。在多个不同实施例中,列表的每个要素包括一个或多个槽位(slot),其各自与取决于应用的槽位类型相关联。例如,如果应用支持打电话给电话薄联系人(例如,“呼叫John Doe”),则每个要素可以包括具有名、中间名和/或姓氏的槽位类型的槽位。在另一示例中,如果应用支持导航(例如,“去往阳光大街1111号(1111 Sunshine Boulevard)”),则每个要素可以包括具有门牌号码、和街道名称等的槽位类型的槽位。在多个不同实施例中,槽位和槽位类型可以被存储在数据库中,并由识别器模块46访问。列表50的每个要素或槽位与作为处理过程的结果被确定的置信度得分(confidence score)相关联。
现在参考对话管理器模块34,列表评价器模块40接收作为输入的来自语音理解模块32的列表50。列表评价器模块40评价列表50,用以确定是否需要消除歧义。例如,当列表50包含多于一个的要素时,列表分析器模块40选择被列表用于由歧义辨识符模块42进一步处理,被称为选择列表52。当列表50只包含一个要素或是响应于语音提示56(如将论述的)被接收的时,列表评价器模块40将该列表作为更新列表62提供至结果确定模块45。如能够理解的,在多个不同实施例中,当列表50只包含一个要素并且相关联的置信度得分低时,列表50可以被选择用于进一步处理。然而,为了示例性目的,将在包含多于一个的要素的选择列表52的背景中论述本公开。
歧义辨识符模块42接收作为输入的选择列表52。歧义辨识符模块42处理选择列表52的要素,用以辨识要素之间的歧义。歧义辨识器模块42基于要素之间的歧义而生成歧义类型54。例如,歧义类型可基于歧义要素的槽位类型(例如,名、姓氏、街道名称、街道号码等)。
歧义辨识器模块42通过辨识具有特定槽位类型的要素的槽位之间的歧义来辨识要素之间的歧义。例如,对于要素中的槽位的数量,歧义辨识器模块42处理要素的第一槽位来辨识任何歧义,然后处理要素的第二槽位来辨识任何歧义,以此类推。在多个不同实施例中,歧义辨识器模块42辨识选择列表52中的前M名的要素之间的歧义,其中M是大于2的整数。例如,歧义辨识器模块42处理选择列表52的前两名要素的槽位来辨识歧义,其中要素基于相关联的置信度得分被排名为前两名。
歧义辨识器模块42进一步通过确定特定槽位类型的槽位之间的差别来辨识要素之间的歧义。在多个不同实施例中,歧义辨识器模块42基于槽位的正字法(orthography)来确定差别。例如,槽位的正字法可根据与槽位相关联的语言,口语或书面均可。歧义辨识器模块42评价正字法的一个或多个方面来确定差别(例如,字母、数字、字符、音素、音调等)。当歧义辨识器模块42基于槽位的正字法来辨识歧义时,差别类型55得以生成,其辨识正字法的方面(例如,字母、数字、字符、音素、音调等),其辨识差别。
例如,对于要素中的所有槽位,歧义辨识器模块42比较要素的(例如前M名要素的)第一槽位来确定各第一槽位之间的正字法差别,比较要素的第二槽位来确定各第二槽位之间的正字法差别,以此类推。具有最大正字法差别的要素的槽位被辨识为歧义槽位。与歧义槽位相关联的槽位类型被选择为歧义类型54。正字法的被辨识为最大差别的方面被选择为差别类型55。
在多个不同实施例中,歧义辨识器模块42通过确定与槽位或要素相关联的置信度得分的差别来确定要素之间的歧义。例如,对于要素中的所有槽位,歧义辨识器模块42比较要素的(例如前M名要素的)第一槽位的置信度得分来确定置信度差别,比较要素的第二槽位的置信度得分来确定置信度差别,以此类推。要素的具有最小置信度差别的槽位被辨识为歧义槽位,并且与歧义槽位相关联的槽位类型被选择为歧义类型54。当歧义辨识器模块42基于与槽位相关联的置信度来辨识歧义时,差别类型55被设定为预定值,例如,基于与槽位相关联的正字法。
在再一些实施例中,歧义辨识器模块42基于槽位的正字法和置信度得分来辨识要素之间的歧义。例如,对于要素中的所有槽位,歧义辨识器模块42比较要素的(例如前M名要素的)第一槽位的置信度得分来确定置信度差别,比较要素的第二槽位的置信度得分来确定置信度差别,以此类推。要素的具有最小置信度差别的槽位被辨识为歧义槽位,并且与歧义槽位相关联的槽位类型被选择为歧义类型54。歧义辨识器模块42然后确定与最小置信度差别相关联的槽位之间的正字法差别,并基于正字法差别来设定差别类型55。如能够理解的,歧义辨识器模块42可按其它方式来使用槽位的正字法和置信度得分两者,因此并不局限于本示例。
提示管理器模块44接收作为输入的歧义类型54和差别类型55。提示管理器模块44基于选择的歧义类型54和差别类型55来生成语音提示56。在多个不同实施例中,语音提示56基于部分正字法来得以生成。例如,语音提示56要求用户拼出/说出歧义类型54的差别类型55的X数。例如,如果所辨识的歧义类型54是姓氏并且所辨识的差别类型55是字母,则提示管理器模块44生成语音提示,其包括“请拼出姓氏的前三个字母”、“请拼出姓氏的最后四个字母”、“请拼出姓氏的数个字母”等等。在另一示例中,如果歧义类型54是街道号码并且差别类型55是数字,则提示管理器模块44生成语音提示,其包括:“请说出街道号码的前三个数字”、“请说出街道号码最后三个数字”、“请说出街道号码的数个数字”等等。如能够理解的,数X可被预先限定,或可基于槽位之间的所确定的正字法差别来确定。
结果确定模块45接收作为输入的更新列表62和/或选择列表52。结果确定模块45基于选择列表52和/或更新列表62来确定结果64。在多个不同实施例中,结果确定模块45通过融合选择列表52与更新列表62来确定结果64。例如,结果确定模块45融合(或组合)选择列表52和更新列表62的要素和要素的置信度得分来生成融合列表。例如,如果选择列表52包含与更新列表62的要素相同的要素,则该要素的置信度得分被组合(例如,通过加法或一些其它计算),并且该要素以组合的置信度得分被添加至融合列表。然后评价融合列表的置信度得分来确定结果64。
在多个不同的其它实施例中,结果确定模块45使用更新列表62来更新被使用来对初始语音表达和/或将来语音表达执行语音识别或理解的语音模型的语法65。例如,可使用更新的语法从初始语音表达的语音识别来确定结果64。
现在参考图3-5,这些流程图示出了可以由依据多个不同示例性实施例的语音系统10执行的语音方法。如鉴于本公开能够理解的,方法内的操作顺序并不局限于如图3-5中示出的顺次执行,而是可以按照应用和依据本公开以一个或多个变化的顺序来执行。如能够进一步理解的,方法的一个或多个步骤可以被添加或去除,而不改变方法的精神。
如图所示,方法可以在步骤99处开始。在步骤100处接收语音表达47。在步骤110处,对语音表达47执行一种或多种语音识别方法来确定结果的列表50。例如,如果语音表达是“呼叫Scott Rothestein”,则名称可能不被直接识别,并且对于“Scott Rothestein”的可能结果的列表50被生成(例如,从地址簿中列出的名称)。在一个示例中,列表50的前三名要素包括“Scott Austin”、“Scott Rothstein”和“Tom Rothman”。如能够理解的,方法将在本示例的背景中被论述,但是并不局限于此。
由于列表50包含多于一个的要素,所以列表50被选择为选择列表52,用于在步骤120处进行进一步处理。在步骤125处确定列表的歧义。例如,在步骤130处确定差别。假定以上的示例性列表,槽位基于第一词语和第二词语,并且槽位类型是名和姓。对于名的槽位的差别是基于与名相关联的槽位之间的正字法差别和/或置信度差别来确定的;并且对于姓氏的槽位的差别是基于与姓氏相关联的槽位的正字法差别和/或置信度差别来确定的。例如,对于名的正字法差别在“Scott”与“Scott”以及“Scott”与“Tom”之间确定;对于姓氏的正字法差别在“Austin”与“Rothstein”、“Rothstein”与“Rothman”以及“Rothman”与“Austin”之间确定。
然后,在步骤140处将歧义类型54设定为槽位的具有最大差别的槽位类型,并在步骤150处将差别类型55设定为正字法的具有最大差别的方面。在提供的示例中,姓氏是具有最大差别的槽位类型,并且姓氏的最后一个音节是正字法的具有最大差别的方面。在步骤160处,基于歧义类型54和差别类型55生成语音提示56。例如,语音提示56可以包括“请拼出姓氏的最后几个字母”。
然后,在步骤100处以接收第二语音表达47来继续方法。在步骤110处,对第二语音表达47执行一种或多种语音识别方法来确定结果的第二列表50。由于该列表是响应于语音提示56接收到的,所以在步骤120处将列表50设定为更新列表62,并且不进一步做歧义的处理。在步骤180处,如以上所描述的,使用列表52、62的融合或基于更新列表62更新语法,来基于选择列表52和/或更新列表62生成结果64。例如,如图4中示出的,结果64通过以下方式生成:通过在步骤190处融合列表52、62,其又是通过在步骤200处将列表52、62的要素和置信度得分组合成单个融合列表,在步骤210处基于置信度得分对融合列表进行分类,并在步骤220处将分类了的融合列表的首位要素选择为结果64。
在另一示例中,如图5中示出的,结果64基于在步骤230处从更新列表62确定的更新语法来生成,方法是通过:在步骤240处使用更新列表62来生成更新语法,在步骤250处使用更新语法生成更新列表来对第一语音表达47执行语音识别,并在步骤260处将更新列表的首位要素(或首位置信度得分)选择为结果64。
返回参考图3,当在步骤180处确定结果64之后,可以在步骤270处结束方法。
如能够理解的,方法可以对于任意数量的语音表达47进行重复,因为步骤120处的标准可基于列表中的要素的数量、可基于对语音提示56的响应的数量或任何其它标准。如能够进一步理解的,在对至少两个语音表达的处理之后,如果要素的歧义仍然存在,则可以执行其它方法来确定结果。
虽然在前述详细描述中给出了至少一个示例性实施例,但是应该理解的是存在大量的变型。还应该理解的是:一个示例性实施例或多个示例性实施例只是示例,并不旨在以任何方式限制本公开的范围、适用性或构造。相反,前述详细描述将为本领域技术人员提供便利的线路图来实施一个示例性实施例或多个示例性实施例。应该明白的是:可在要素的功能和配置中做出各种变化,而不背离如在所附权利要求及其法律等同方案中阐述的本公开的范围。
Claims (20)
1.一种用于管理语音系统的语音对话的方法,包括:
接收来自语音系统的用户的第一表达;
确定来自第一表达的可能结果的第一列表,其中第一列表包括至少两个要素,每个要素表示一种可能结果;
分析第一列表的所述至少两个要素的正字法来确定要素的歧义;以及
基于所述歧义来对用户生成语音提示,所述语音提示动态地请求第一表达的部分正字法。
2.如权利要求1所述的方法,进一步包括:
响应于语音提示接收来自用户的第二表达;
确定来自第二表达的可能结果的第二列表;以及
基于第一列表和第二列表生成结果。
3.如权利要求2所述的方法,其中,基于第一列表的可能结果与第二列表的可能结果的融合来生成结果。
4.如权利要求2所述的方法,进一步包括:
基于第二列表更新语音模型的语法;以及
使用语音模型的更新语法来生成结果。
5.如权利要求1所述的方法,其中,所述分析包括:分析第一列表的所述至少两个要素来确定所述至少两个要素之间的差别。
6.如权利要求5所述的方法,其中,所述分析进一步包括:确定第一列表的第一要素的槽位与第二要素的槽位之间的差别来确定差别。
7.如权利要求6所述的方法,其中,确定差别包括:确定第一要素的槽位与第二要素的槽位之间的正字法差别。
8.如权利要求7所述的方法,其中,正字法差别是基于与槽位相关联的语言。
9.如权利要求7所述的方法,其中,正字法差别是基于槽位的字母、数字、字符、音素和音调中的至少一个。
10.如权利要求6所述的方法,其中,确定差别包括:确定第一要素的槽位与第二要素的槽位之间的置信度差别。
11.如权利要求10所述的方法,其中,确定差别进一步包括:确定第一要素的槽位与第二要素的槽位之间的正字法差别。
12.如权利要求6所述的方法,其中,所述分析进一步包括:从所述差别中选择最大差别,并将歧义类型设定为与关联于所述最大差别的槽位相关联的槽位类型,并且其中对用户生成语音提示是基于歧义类型。
13.如权利要求1所述的方法,其中,所述部分正字法是基于所确定的正字法差别类型。
14.如权利要求1所述的方法,其中,所述部分正字法是基于所确定的歧义类型。
15.如权利要求1所述的方法,进一步包括:
基于歧义来确定歧义类型;
基于歧义来确定差别类型;并且
其中,生成语音提示是基于所述歧义类型和所述差别类型。
16.如权利要求1所述的方法,其中,接收第一表达是通过交通工具的人机界面模块。
17.一种用于管理语音对话的语音系统,包括:
第一模块,其接收来自语音系统的用户的第一表达,并且确定来自第一表达的可能结果的第一列表,其中第一列表包括至少两个要素,每个要素表示一种可能结果;
第二模块,其分析第一列表的所述至少两个要素的正字法来确定要素的歧义;以及
第三模块,其基于所述歧义来对用户生成语音提示,所述语音提示动态地请求第一表达的部分正字法。
18.如权利要求17所述的语音系统,其中,所述第一模块响应于语音提示接收来自用户的第二表达,其中所述第二模块确定来自第二表达的可能结果的第二列表;并且其中第四模块基于第一列表和第二列表生成结果。
19.如权利要求18所述的语音系统,其中,所述第四模块基于第一列表的可能结果与第二列表的可能结果的比较来生成结果。
20.如权利要求18所述的语音系统,其中,所述第四模块基于第二列表来更新语音模型的语法;并使用语音模型的更新语法来生成结果。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/866,829 US9202459B2 (en) | 2013-04-19 | 2013-04-19 | Methods and systems for managing dialog of speech systems |
US13/866829 | 2013-04-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104112448A CN104112448A (zh) | 2014-10-22 |
CN104112448B true CN104112448B (zh) | 2017-07-14 |
Family
ID=51629100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310747386.8A Active CN104112448B (zh) | 2013-04-19 | 2013-12-31 | 用于管理语音系统的对话的方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9202459B2 (zh) |
CN (1) | CN104112448B (zh) |
DE (1) | DE102014201676B4 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358538A1 (en) * | 2013-05-28 | 2014-12-04 | GM Global Technology Operations LLC | Methods and systems for shaping dialog of speech systems |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
US9858918B2 (en) * | 2016-03-15 | 2018-01-02 | GM Global Technology Operations LLC | Root cause analysis and recovery systems and methods |
US10824798B2 (en) | 2016-11-04 | 2020-11-03 | Semantic Machines, Inc. | Data collection for a new conversational dialogue system |
WO2018148441A1 (en) | 2017-02-08 | 2018-08-16 | Semantic Machines, Inc. | Natural language content generator |
US10762892B2 (en) * | 2017-02-23 | 2020-09-01 | Semantic Machines, Inc. | Rapid deployment of dialogue system |
WO2018156978A1 (en) | 2017-02-23 | 2018-08-30 | Semantic Machines, Inc. | Expandable dialogue system |
US11069340B2 (en) | 2017-02-23 | 2021-07-20 | Microsoft Technology Licensing, Llc | Flexible and expandable dialogue system |
US11132499B2 (en) | 2017-08-28 | 2021-09-28 | Microsoft Technology Licensing, Llc | Robust expandable dialogue system |
DE102018200088B3 (de) | 2018-01-04 | 2019-06-13 | Volkswagen Aktiengesellschaft | Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung |
CN114020898B (zh) * | 2022-01-07 | 2022-04-19 | 和美(深圳)信息技术股份有限公司 | 人机自动对话方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1494711A (zh) * | 2001-02-05 | 2004-05-05 | �Ҵ���˾ | 使用多模式输入进行多模式焦点检测,参考岐义解析和语气分类的系统和方法 |
CN101233559A (zh) * | 2005-06-27 | 2008-07-30 | 微软公司 | 用于不同语言的说话者之间的增强的交互和理解的上下文敏感通信和翻译方法 |
CN101462522A (zh) * | 2007-12-21 | 2009-06-24 | 通用汽车公司 | 交通工具内根据状况的语音识别 |
CN102137085A (zh) * | 2010-01-22 | 2011-07-27 | 谷歌公司 | 语音命令的多维消歧 |
CN102280105A (zh) * | 2010-06-10 | 2011-12-14 | 通用汽车环球科技运作有限责任公司 | 模块化语音识别架构 |
CN102428440A (zh) * | 2009-03-18 | 2012-04-25 | 罗伯特·博世有限公司 | 用于多模式输入的同步和消歧的系统和方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994014270A1 (en) | 1992-12-17 | 1994-06-23 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5903864A (en) | 1995-08-30 | 1999-05-11 | Dragon Systems | Speech recognition |
EP1018109B1 (en) * | 1997-09-24 | 2003-03-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for distinguishing similar-sounding utterances in speech recognition |
US5987411A (en) * | 1997-12-17 | 1999-11-16 | Northern Telecom Limited | Recognition system for determining whether speech is confusing or inconsistent |
US7526431B2 (en) | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7246062B2 (en) * | 2002-04-08 | 2007-07-17 | Sbc Technology Resources, Inc. | Method and system for voice recognition menu navigation with error prevention and recovery |
WO2005098817A2 (en) | 2004-03-25 | 2005-10-20 | Ashwin Rao | System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode |
US7299181B2 (en) * | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
US20120158695A1 (en) | 2004-09-07 | 2012-06-21 | Mr. Scott P. Stuart | More efficient search algorithm (MESA) using: integrated system optimizer |
US8942985B2 (en) * | 2004-11-16 | 2015-01-27 | Microsoft Corporation | Centralized method and system for clarifying voice commands |
US20070043562A1 (en) * | 2005-07-29 | 2007-02-22 | David Holsinger | Email capture system for a voice recognition speech application |
US7904298B2 (en) | 2006-11-17 | 2011-03-08 | Rao Ashwin P | Predictive speech-to-text input |
US8099287B2 (en) * | 2006-12-05 | 2012-01-17 | Nuance Communications, Inc. | Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands |
US7844456B2 (en) * | 2007-03-09 | 2010-11-30 | Microsoft Corporation | Grammar confusability metric for speech recognition |
US20080243504A1 (en) * | 2007-03-30 | 2008-10-02 | Verizon Data Services, Inc. | System and method of speech recognition training based on confirmed speaker utterances |
WO2009105639A1 (en) * | 2008-02-22 | 2009-08-27 | Vocera Communications, Inc. | System and method for treating homonyms in a speech recognition system |
US8082148B2 (en) * | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
KR20110072847A (ko) * | 2009-12-23 | 2011-06-29 | 삼성전자주식회사 | 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법 |
US8433570B2 (en) * | 2010-01-06 | 2013-04-30 | General Motors Llc | Method of recognizing speech |
US8473289B2 (en) * | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US9418674B2 (en) * | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
-
2013
- 2013-04-19 US US13/866,829 patent/US9202459B2/en active Active
- 2013-12-31 CN CN201310747386.8A patent/CN104112448B/zh active Active
-
2014
- 2014-01-30 DE DE102014201676.2A patent/DE102014201676B4/de active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1494711A (zh) * | 2001-02-05 | 2004-05-05 | �Ҵ���˾ | 使用多模式输入进行多模式焦点检测,参考岐义解析和语气分类的系统和方法 |
CN101233559A (zh) * | 2005-06-27 | 2008-07-30 | 微软公司 | 用于不同语言的说话者之间的增强的交互和理解的上下文敏感通信和翻译方法 |
CN101462522A (zh) * | 2007-12-21 | 2009-06-24 | 通用汽车公司 | 交通工具内根据状况的语音识别 |
CN102428440A (zh) * | 2009-03-18 | 2012-04-25 | 罗伯特·博世有限公司 | 用于多模式输入的同步和消歧的系统和方法 |
CN102137085A (zh) * | 2010-01-22 | 2011-07-27 | 谷歌公司 | 语音命令的多维消歧 |
CN102280105A (zh) * | 2010-06-10 | 2011-12-14 | 通用汽车环球科技运作有限责任公司 | 模块化语音识别架构 |
Also Published As
Publication number | Publication date |
---|---|
CN104112448A (zh) | 2014-10-22 |
US20140316782A1 (en) | 2014-10-23 |
US9202459B2 (en) | 2015-12-01 |
DE102014201676A1 (de) | 2014-10-23 |
DE102014201676B4 (de) | 2023-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104112448B (zh) | 用于管理语音系统的对话的方法和系统 | |
CN104282305B (zh) | 语音对话系统中用于结果仲裁的系统和方法 | |
US10847139B1 (en) | Crowd sourced based training for natural language interface systems | |
US9875741B2 (en) | Selective speech recognition for chat and digital personal assistant systems | |
CN107038220B (zh) | 用于生成备忘录的方法、智能机器人及系统 | |
CN109841212B (zh) | 分析具有多个意图的命令的语音识别系统和语音识别方法 | |
CN109710727B (zh) | 用于自然语言处理的系统和方法 | |
CN102549652B (zh) | 信息检索装置 | |
EP3201770B1 (en) | Methods and apparatus for module arbitration | |
US9396727B2 (en) | Systems and methods for spoken dialog service arbitration | |
CN104299623B (zh) | 语音应用中用于自动确认和消歧模块的方法和系统 | |
JP2017058673A (ja) | 対話処理装置及び方法と知能型対話処理システム | |
US9715877B2 (en) | Systems and methods for a navigation system utilizing dictation and partial match search | |
WO2017070522A1 (en) | Parameter collection and automatic dialog generation in dialog systems | |
CN110502227A (zh) | 代码补全的方法及装置、存储介质、电子设备 | |
CN109741735B (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN110415679A (zh) | 语音纠错方法、装置、设备和存储介质 | |
CN111916088B (zh) | 一种语音语料的生成方法、设备及计算机可读存储介质 | |
US9405742B2 (en) | Method for phonetizing a data list and voice-controlled user interface | |
CN104485107A (zh) | 名称的语音识别方法、语音识别系统和语音识别设备 | |
CN105047196A (zh) | 语音识别系统中的语音假象补偿系统和方法 | |
CN112527955A (zh) | 一种数据处理的方法和装置 | |
US20150019225A1 (en) | Systems and methods for result arbitration in spoken dialog systems | |
US20180366123A1 (en) | Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base | |
CN104484426A (zh) | 一种多模式音乐搜索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |