CN104112448B

CN104112448B - 用于管理语音系统的对话的方法和系统

Info

Publication number: CN104112448B
Application number: CN201310747386.8A
Authority: CN
Inventors: E.茨尔克尔-汉科克; G.塔尔瓦; X.赵; G.T.林德曼
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2013-04-19
Filing date: 2013-12-31
Publication date: 2017-07-14
Anticipated expiration: 2033-12-31
Also published as: CN104112448A; US20140316782A1; US9202459B2; DE102014201676A1; DE102014201676B4

Abstract

本发明涉及用于管理语音系统的对话的方法和系统。方法和系统被提供来用于管理语音系统的语音对话。在一个实施例中，一种方法包括：接收来自语音系统的用户的第一表达；确定来自第一表达的可能结果的第一列表，其中第一列表包括至少两个要素，每个要素表示一种可能结果；分析第一列表的所述至少两个要素来确定要素的歧义；以及基于部分正字法和所述歧义来对用户生成语音提示。

Description

用于管理语音系统的对话的方法和系统

技术领域

本技术领域主要涉及语音系统，并且更特别地涉及用于使用部分正字法(partialorthography)来管理语音系统内的对话的方法和系统。

背景技术

交通工具语音识别系统对由交通工具的乘员发出的语音执行语音识别或理解。语音表达通常包括指令，其通信于或控制交通工具的一个或多个特征或可由交通工具访问的其它系统。语音对话系统响应于语音表达生成语音指令。在一些情况下，响应于语音识别生成语音指令，需要进一步的信息以便执行语音识别。例如，语音指令可以要求用户重复语音表达，或者可以要求用户从可能性的列表中进行选择。这类语音指令可能是笨拙的，难以理解，或者可能不能解决识别问题。

因此，希望的是提供改善的方法和系统来管理语音对话用以改善语音识别。因此，进一步希望的是提供方法和系统来使用部分正字法管理语音对话用以改善语音识别。更进一步，从后续详细描述和所附权利要求书，结合附图和前述技术领域和背景技术来理解，本发明的其它所需特征和特性将变得清楚明了。

发明内容

方法和系统被提供来用于管理语音系统的语音对话。在一个实施例中，一种方法包括：接收来自语音系统的用户的第一表达；确定来自第一表达的可能结果的第一列表，其中第一列表包括至少两个要素，每个要素表示一种可能结果；分析第一列表的所述至少两个要素来确定要素的歧义；以及基于部分正字法和所述歧义来对用户生成语音提示。

在另一实施例中，一种系统包括：第一模块，其接收来自语音系统的用户的第一表达，并且确定来自第一表达的可能结果的第一列表。第一列表包括至少两个要素，每个要素表示一种可能结果。第二模块分析第一列表的所述至少两个要素来确定要素的歧义。第三模块基于部分正字法和所述歧义来对用户生成语音提示。

本发明还提供以下技术方案：

1. 一种用于管理语音系统的语音对话的方法，包括：

接收来自语音系统的用户的第一表达；

确定来自第一表达的可能结果的第一列表，其中第一列表包括至少两个要素，每个要素表示一种可能结果；

分析第一列表的所述至少两个要素来确定要素的歧义；以及

基于部分正字法和所述歧义来对用户生成语音提示。

2. 如技术方案1所述的方法，进一步包括：

响应于语音提示接收来自用户的第二表达；

确定来自第二表达的可能结果的第二列表；以及

基于第一列表和第二列表生成结果。

3. 如技术方案2所述的方法，其中，基于第一列表的可能结果与第二列表的可能结果的融合来生成结果。

4. 如技术方案2所述的方法，进一步包括：

基于第二列表更新语音模型的语法；以及

使用语音模型的更新语法来生成结果。

5. 如技术方案1所述的方法，其中，所述分析包括：分析第一列表的所述至少两个要素来确定所述至少两个要素之间的差别。

6. 如技术方案5所述的方法，其中，所述分析进一步包括：确定第一列表的第一要素的槽位与第二要素的槽位之间的差别来确定差别。

7. 如技术方案6所述的方法，其中，确定差别包括：确定第一要素的槽位与第二要素的槽位之间的正字法差别。

8. 如技术方案7所述的方法，其中，正字法差别是基于与槽位相关联的语言。

9. 如技术方案7所述的方法，其中，正字法差别是基于槽位的字母、数字、字符、音素和音调中的至少一个。

10. 如技术方案6所述的方法，其中，确定差别包括：确定第一要素的槽位与第二要素的槽位之间的置信度差别。

11. 如技术方案10所述的方法，其中，确定差别进一步包括：确定第一要素的槽位与第二要素的槽位之间的正字法差别。

12. 如技术方案6所述的方法，其中，所述分析进一步包括：从所述差别中选择最大差别，并将歧义类型设定为与关联于所述最大差别的槽位相关联的槽位类型，并且其中对用户生成语音提示是基于歧义类型。

13. 如技术方案1所述的方法，其中，所述部分正字法是基于所确定的正字法差别类型。

14. 如技术方案1所述的方法，其中，所述部分正字法是基于所确定的歧义类型。

15. 如技术方案1所述的方法，进一步包括：

基于歧义来确定歧义类型；

基于歧义来确定差别类型；并且

其中，生成语音提示是基于所述歧义类型和所述差别类型。

16. 如技术方案1所述的方法，其中，接收第一表达是通过交通工具的人机界面模块。

17. 一种用于管理语音对话的语音系统，包括：

第一模块，其接收来自语音系统的用户的第一表达，并且确定来自第一表达的可能结果的第一列表，其中第一列表包括至少两个要素，每个要素表示一种可能结果；

第二模块，其分析第一列表的所述至少两个要素来确定要素的歧义；以及

第三模块，其基于部分正字法和所述歧义来对用户生成语音提示。

18. 如技术方案17所述的语音系统，其中，所述第一模块响应于语音提示接收来自用户的第二表达，其中所述第二模块确定来自第二表达的可能结果的第二列表；并且其中第四模块基于第一列表和第二列表生成结果。

19. 如技术方案18所述的语音系统，其中，所述第四模块基于第一列表的可能结果与第二列表的可能结果的比较来生成结果。

20. 如技术方案18所述的语音系统，其中，所述第四模块基于第二列表来更新语音模型的语法；并使用语音模型的更新语法来生成结果。

附图说明

下面将结合以下附图来描述示例性实施例，附图中相似附图标记表示相似要素，并且附图中：

图1是包括依据多个不同示例性实施例的语音系统的交通工具的功能框图；

图2是数据流图，示出了依据多个不同示例性实施例的语音系统；并且

图3-5是流程图，示出了可以由依据多个不同示例性实施例的语音系统执行的语音方法。

具体实施方式

以下详细描述本质上仅仅是示例性的，并不旨在限制应用和用途。更进一步，没有意图被在前面的技术领域、背景技术、发明内容或以下详细描述中给出的任何明示或暗示的理论限制。如本文中所使用的，术语模块是指专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的存储器和处理器(共享、专用或分组)、组合逻辑电路、和/或提供所描述功能的其它适当部件。

依据本公开的示例性实施例，语音系统10被示出为被包括在交通工具12内。在多个不同示例性实施例中，语音系统10通过人机界面(HMI)模块14为一个或多个交通工具系统提供语音识别或理解和对话。这类交通工具系统可以包括例如但不限于电话系统16、导航系统18、媒体系统20、远程信息处理系统22、网络系统24或可以包括依赖于语音的应用的任何其它交通工具系统。如能够理解的，语音系统10的一个或多个实施例可适用于具有依赖于语音的应用的其它非交通工具系统，因此并不局限于本交通工具示例。

语音系统10通过通信总线和/或其它通信手段26(例如，有线、短距离无线或长距离无线)与多个交通工具系统14-24通信。通信总线可为例如但并不局限于控制器区域网络(CAN)总线、本地互连网络(LIN)总线或任何其它类型的总线。

语音系统10包括语音理解模块32、对话管理器模块34和语音生成模块35。如能够理解的，语音理解模块32、对话管理器模块34和语音生成模块35可以被实施为单独的系统和/或如所示的组合系统。一般而言，语音理解模块32使用一个或多个语音识别技术来接收和处理来自HMI模块14的语音表达(speech utterance)。语音理解模块32从语音表达生成可能结果的一个或多个列表(例如，基于置信度阈值)，并将列表发送至对话管理器模块34。在多个不同实施例中，语音理解模块32使用存储在数据库中的预先限定的可能性来生成列表。例如，预先限定的可能性可为存储在电话薄中的名称或号码、存储在地址簿中的名称或地址、存储在音乐目录中的歌曲名称或艺人、等等。

对话管理器模块34管理交互序列和待基于列表说给用户的语音提示的选择。特别地，当列表包含多于一个的可能结果时，对话管理器模块34使用消除歧义策略来管理与用户的对话提示，使得能够确定识别的结果。消除歧义策略有助于识别用户目标，而不是识别用户正在说的准确词语。语音生成模块35基于由对话管理器34确定的对话向用户生成发声提示。

现在参考图2，数据流图示出了依据多个不同示例性实施例的语音理解模块32和对话管理器模块34。如能够理解的，根据本公开的语音理解模块32和对话管理器模块34的多个不同示例性实施例可以包括任意数量的子模块。在多个不同示例性实施例中，图2中示出的子模块可以被组合和/或被进一步划分，用以使用消除歧义策略来类似地管理对话。在多个不同示例性实施例中，对话管理器模块34包括列表分析器模块40、歧义辨识符模块42、提示管理器模块44和结果确定模块45。语音理解模块32包括识别器模块46。

参考语音理解模块32，识别器模块46接收作为输入的来自用户的语音表达47(例如，通过HMI模块14(图1))。识别器模块46使用一个或多个语音模型来处理语音表达47，用以确定可能结果的列表50。列表50包括表示处理过程的可能结果的一个或多个要素(element)。在多个不同实施例中，列表的每个要素包括一个或多个槽位(slot)，其各自与取决于应用的槽位类型相关联。例如，如果应用支持打电话给电话薄联系人(例如，“呼叫John Doe”)，则每个要素可以包括具有名、中间名和/或姓氏的槽位类型的槽位。在另一示例中，如果应用支持导航(例如，“去往阳光大街1111号(1111 Sunshine Boulevard)”)，则每个要素可以包括具有门牌号码、和街道名称等的槽位类型的槽位。在多个不同实施例中，槽位和槽位类型可以被存储在数据库中，并由识别器模块46访问。列表50的每个要素或槽位与作为处理过程的结果被确定的置信度得分(confidence score)相关联。

现在参考对话管理器模块34，列表评价器模块40接收作为输入的来自语音理解模块32的列表50。列表评价器模块40评价列表50，用以确定是否需要消除歧义。例如，当列表50包含多于一个的要素时，列表分析器模块40选择被列表用于由歧义辨识符模块42进一步处理，被称为选择列表52。当列表50只包含一个要素或是响应于语音提示56(如将论述的)被接收的时，列表评价器模块40将该列表作为更新列表62提供至结果确定模块45。如能够理解的，在多个不同实施例中，当列表50只包含一个要素并且相关联的置信度得分低时，列表50可以被选择用于进一步处理。然而，为了示例性目的，将在包含多于一个的要素的选择列表52的背景中论述本公开。

歧义辨识符模块42接收作为输入的选择列表52。歧义辨识符模块42处理选择列表52的要素，用以辨识要素之间的歧义。歧义辨识器模块42基于要素之间的歧义而生成歧义类型54。例如，歧义类型可基于歧义要素的槽位类型(例如，名、姓氏、街道名称、街道号码等)。

歧义辨识器模块42通过辨识具有特定槽位类型的要素的槽位之间的歧义来辨识要素之间的歧义。例如，对于要素中的槽位的数量，歧义辨识器模块42处理要素的第一槽位来辨识任何歧义，然后处理要素的第二槽位来辨识任何歧义，以此类推。在多个不同实施例中，歧义辨识器模块42辨识选择列表52中的前M名的要素之间的歧义，其中M是大于2的整数。例如，歧义辨识器模块42处理选择列表52的前两名要素的槽位来辨识歧义，其中要素基于相关联的置信度得分被排名为前两名。

歧义辨识器模块42进一步通过确定特定槽位类型的槽位之间的差别来辨识要素之间的歧义。在多个不同实施例中，歧义辨识器模块42基于槽位的正字法(orthography)来确定差别。例如，槽位的正字法可根据与槽位相关联的语言，口语或书面均可。歧义辨识器模块42评价正字法的一个或多个方面来确定差别(例如，字母、数字、字符、音素、音调等)。当歧义辨识器模块42基于槽位的正字法来辨识歧义时，差别类型55得以生成，其辨识正字法的方面(例如，字母、数字、字符、音素、音调等)，其辨识差别。

例如，对于要素中的所有槽位，歧义辨识器模块42比较要素的(例如前M名要素的)第一槽位来确定各第一槽位之间的正字法差别，比较要素的第二槽位来确定各第二槽位之间的正字法差别，以此类推。具有最大正字法差别的要素的槽位被辨识为歧义槽位。与歧义槽位相关联的槽位类型被选择为歧义类型54。正字法的被辨识为最大差别的方面被选择为差别类型55。

在多个不同实施例中，歧义辨识器模块42通过确定与槽位或要素相关联的置信度得分的差别来确定要素之间的歧义。例如，对于要素中的所有槽位，歧义辨识器模块42比较要素的(例如前M名要素的)第一槽位的置信度得分来确定置信度差别，比较要素的第二槽位的置信度得分来确定置信度差别，以此类推。要素的具有最小置信度差别的槽位被辨识为歧义槽位，并且与歧义槽位相关联的槽位类型被选择为歧义类型54。当歧义辨识器模块42基于与槽位相关联的置信度来辨识歧义时，差别类型55被设定为预定值，例如，基于与槽位相关联的正字法。

在再一些实施例中，歧义辨识器模块42基于槽位的正字法和置信度得分来辨识要素之间的歧义。例如，对于要素中的所有槽位，歧义辨识器模块42比较要素的(例如前M名要素的)第一槽位的置信度得分来确定置信度差别，比较要素的第二槽位的置信度得分来确定置信度差别，以此类推。要素的具有最小置信度差别的槽位被辨识为歧义槽位，并且与歧义槽位相关联的槽位类型被选择为歧义类型54。歧义辨识器模块42然后确定与最小置信度差别相关联的槽位之间的正字法差别，并基于正字法差别来设定差别类型55。如能够理解的，歧义辨识器模块42可按其它方式来使用槽位的正字法和置信度得分两者，因此并不局限于本示例。

提示管理器模块44接收作为输入的歧义类型54和差别类型55。提示管理器模块44基于选择的歧义类型54和差别类型55来生成语音提示56。在多个不同实施例中，语音提示56基于部分正字法来得以生成。例如，语音提示56要求用户拼出/说出歧义类型54的差别类型55的X数。例如，如果所辨识的歧义类型54是姓氏并且所辨识的差别类型55是字母，则提示管理器模块44生成语音提示，其包括“请拼出姓氏的前三个字母”、“请拼出姓氏的最后四个字母”、“请拼出姓氏的数个字母”等等。在另一示例中，如果歧义类型54是街道号码并且差别类型55是数字，则提示管理器模块44生成语音提示，其包括：“请说出街道号码的前三个数字”、“请说出街道号码最后三个数字”、“请说出街道号码的数个数字”等等。如能够理解的，数X可被预先限定，或可基于槽位之间的所确定的正字法差别来确定。

结果确定模块45接收作为输入的更新列表62和/或选择列表52。结果确定模块45基于选择列表52和/或更新列表62来确定结果64。在多个不同实施例中，结果确定模块45通过融合选择列表52与更新列表62来确定结果64。例如，结果确定模块45融合(或组合)选择列表52和更新列表62的要素和要素的置信度得分来生成融合列表。例如，如果选择列表52包含与更新列表62的要素相同的要素，则该要素的置信度得分被组合(例如，通过加法或一些其它计算)，并且该要素以组合的置信度得分被添加至融合列表。然后评价融合列表的置信度得分来确定结果64。

在多个不同的其它实施例中，结果确定模块45使用更新列表62来更新被使用来对初始语音表达和/或将来语音表达执行语音识别或理解的语音模型的语法65。例如，可使用更新的语法从初始语音表达的语音识别来确定结果64。

现在参考图3-5，这些流程图示出了可以由依据多个不同示例性实施例的语音系统10执行的语音方法。如鉴于本公开能够理解的，方法内的操作顺序并不局限于如图3-5中示出的顺次执行，而是可以按照应用和依据本公开以一个或多个变化的顺序来执行。如能够进一步理解的，方法的一个或多个步骤可以被添加或去除，而不改变方法的精神。

如图所示，方法可以在步骤99处开始。在步骤100处接收语音表达47。在步骤110处，对语音表达47执行一种或多种语音识别方法来确定结果的列表50。例如，如果语音表达是“呼叫Scott Rothestein”，则名称可能不被直接识别，并且对于“Scott Rothestein”的可能结果的列表50被生成(例如，从地址簿中列出的名称)。在一个示例中，列表50的前三名要素包括“Scott Austin”、“Scott Rothstein”和“Tom Rothman”。如能够理解的，方法将在本示例的背景中被论述，但是并不局限于此。

由于列表50包含多于一个的要素，所以列表50被选择为选择列表52，用于在步骤120处进行进一步处理。在步骤125处确定列表的歧义。例如，在步骤130处确定差别。假定以上的示例性列表，槽位基于第一词语和第二词语，并且槽位类型是名和姓。对于名的槽位的差别是基于与名相关联的槽位之间的正字法差别和/或置信度差别来确定的；并且对于姓氏的槽位的差别是基于与姓氏相关联的槽位的正字法差别和/或置信度差别来确定的。例如，对于名的正字法差别在“Scott”与“Scott”以及“Scott”与“Tom”之间确定；对于姓氏的正字法差别在“Austin”与“Rothstein”、“Rothstein”与“Rothman”以及“Rothman”与“Austin”之间确定。

然后，在步骤140处将歧义类型54设定为槽位的具有最大差别的槽位类型，并在步骤150处将差别类型55设定为正字法的具有最大差别的方面。在提供的示例中，姓氏是具有最大差别的槽位类型，并且姓氏的最后一个音节是正字法的具有最大差别的方面。在步骤160处，基于歧义类型54和差别类型55生成语音提示56。例如，语音提示56可以包括“请拼出姓氏的最后几个字母”。

然后，在步骤100处以接收第二语音表达47来继续方法。在步骤110处，对第二语音表达47执行一种或多种语音识别方法来确定结果的第二列表50。由于该列表是响应于语音提示56接收到的，所以在步骤120处将列表50设定为更新列表62，并且不进一步做歧义的处理。在步骤180处，如以上所描述的，使用列表52、62的融合或基于更新列表62更新语法，来基于选择列表52和/或更新列表62生成结果64。例如，如图4中示出的，结果64通过以下方式生成：通过在步骤190处融合列表52、62，其又是通过在步骤200处将列表52、62的要素和置信度得分组合成单个融合列表，在步骤210处基于置信度得分对融合列表进行分类，并在步骤220处将分类了的融合列表的首位要素选择为结果64。

在另一示例中，如图5中示出的，结果64基于在步骤230处从更新列表62确定的更新语法来生成，方法是通过：在步骤240处使用更新列表62来生成更新语法，在步骤250处使用更新语法生成更新列表来对第一语音表达47执行语音识别，并在步骤260处将更新列表的首位要素(或首位置信度得分)选择为结果64。

返回参考图3，当在步骤180处确定结果64之后，可以在步骤270处结束方法。

如能够理解的，方法可以对于任意数量的语音表达47进行重复，因为步骤120处的标准可基于列表中的要素的数量、可基于对语音提示56的响应的数量或任何其它标准。如能够进一步理解的，在对至少两个语音表达的处理之后，如果要素的歧义仍然存在，则可以执行其它方法来确定结果。

虽然在前述详细描述中给出了至少一个示例性实施例，但是应该理解的是存在大量的变型。还应该理解的是：一个示例性实施例或多个示例性实施例只是示例，并不旨在以任何方式限制本公开的范围、适用性或构造。相反，前述详细描述将为本领域技术人员提供便利的线路图来实施一个示例性实施例或多个示例性实施例。应该明白的是：可在要素的功能和配置中做出各种变化，而不背离如在所附权利要求及其法律等同方案中阐述的本公开的范围。

Claims

1.一种用于管理语音系统的语音对话的方法，包括：

接收来自语音系统的用户的第一表达；

分析第一列表的所述至少两个要素的正字法来确定要素的歧义；以及

基于所述歧义来对用户生成语音提示，所述语音提示动态地请求第一表达的部分正字法。

2.如权利要求1所述的方法，进一步包括：

响应于语音提示接收来自用户的第二表达；

确定来自第二表达的可能结果的第二列表；以及

基于第一列表和第二列表生成结果。

3.如权利要求2所述的方法，其中，基于第一列表的可能结果与第二列表的可能结果的融合来生成结果。

4.如权利要求2所述的方法，进一步包括：

基于第二列表更新语音模型的语法；以及

使用语音模型的更新语法来生成结果。

5.如权利要求1所述的方法，其中，所述分析包括：分析第一列表的所述至少两个要素来确定所述至少两个要素之间的差别。

6.如权利要求5所述的方法，其中，所述分析进一步包括：确定第一列表的第一要素的槽位与第二要素的槽位之间的差别来确定差别。

7.如权利要求6所述的方法，其中，确定差别包括：确定第一要素的槽位与第二要素的槽位之间的正字法差别。

8.如权利要求7所述的方法，其中，正字法差别是基于与槽位相关联的语言。

9.如权利要求7所述的方法，其中，正字法差别是基于槽位的字母、数字、字符、音素和音调中的至少一个。

10.如权利要求6所述的方法，其中，确定差别包括：确定第一要素的槽位与第二要素的槽位之间的置信度差别。

11.如权利要求10所述的方法，其中，确定差别进一步包括：确定第一要素的槽位与第二要素的槽位之间的正字法差别。

12.如权利要求6所述的方法，其中，所述分析进一步包括：从所述差别中选择最大差别，并将歧义类型设定为与关联于所述最大差别的槽位相关联的槽位类型，并且其中对用户生成语音提示是基于歧义类型。

13.如权利要求1所述的方法，其中，所述部分正字法是基于所确定的正字法差别类型。

14.如权利要求1所述的方法，其中，所述部分正字法是基于所确定的歧义类型。

15.如权利要求1所述的方法，进一步包括：

基于歧义来确定歧义类型；

基于歧义来确定差别类型；并且

其中，生成语音提示是基于所述歧义类型和所述差别类型。

16.如权利要求1所述的方法，其中，接收第一表达是通过交通工具的人机界面模块。

17.一种用于管理语音对话的语音系统，包括：

第二模块，其分析第一列表的所述至少两个要素的正字法来确定要素的歧义；以及

第三模块，其基于所述歧义来对用户生成语音提示，所述语音提示动态地请求第一表达的部分正字法。

18.如权利要求17所述的语音系统，其中，所述第一模块响应于语音提示接收来自用户的第二表达，其中所述第二模块确定来自第二表达的可能结果的第二列表；并且其中第四模块基于第一列表和第二列表生成结果。

19.如权利要求18所述的语音系统，其中，所述第四模块基于第一列表的可能结果与第二列表的可能结果的比较来生成结果。

20.如权利要求18所述的语音系统，其中，所述第四模块基于第二列表来更新语音模型的语法；并使用语音模型的更新语法来生成结果。