CN112204656A

CN112204656A - 高效对话配置

Info

Publication number: CN112204656A
Application number: CN201980034917.4A
Authority: CN
Inventors: 克里斯多福·纽曼
Original assignee: Companies
Current assignee: Companies
Priority date: 2018-05-29
Filing date: 2019-05-26
Publication date: 2021-01-08
Also published as: EP3576084B1; JP7448240B2; WO2019228667A1; US20210210092A1; US11488600B2; EP3576084A1; EP3791386A1; JP2022501652A

Abstract

本发明有关一种在计算机支持的自动化对话系统中用于高效对话配置和对话判读的方法。本发明的优点特别在于：减少了产生对话时的工作复杂度，并且因此降低了错误可能性。此外，可以考虑子对话的语境，并根据所述语境来动态地产生对话。此外，所述方法可以自动启动与人类用户的对话。本发明还有关一种对应地设计的系统设备，并且有关一种具有控制命令的计算机程序产品，所述控制命令执行所述方法或操作所述系统组件。

Description

高效对话配置

技术领域

本发明有关一种在计算机辅助自动化对话系统中用于高效对话配置和对话判读的方法。其中，本发明特别具有在对话创建中减少了工作量并因此减少了易出错性的优点。此外，可以考虑子对话的语境，并根据此语境动态地创建对话。此外，所提出的方法可以自己启动与人类用户的对话。本发明还有关一种对应地设置的系统设备，并且有关一种包括控制命令的计算机程序产品，所述控制命令执行所述方法或操作所述系统设备。

背景技术

US 2015/0134337 A1公开一种包括谈话场景的基于谈话的检索系统。

DE 10 2012 019 178 A1公开一种用于判读用户输入的计算机程序产品，以便在具有至少一个处理器的计算装置上执行任务。

DE 60 030 920 T2公开了与数据仓库或数据存储器关联的用于收集数据的方法，所述数据被分配给语音系统的用户的语音。

DE 11 2016 003 335 T5公开了自然语言处理(NLP)系统，尤其是包括自然语言生成(NLG)系统的NLP系统，自然语言生成(NLG)系统进而包含自然语言翻译(NLT)系统、自然语言处理问答(NLP Q&A)系统、以及以自然语言进行对话的系统等。

在现有技术中,已知对话系统，其中机器系统与人类用户互动，并接收人类用户的语音命令。对这些命令的反应随后被启动，并且用户接收到对应的回应。此类系统例如以注册商标“Alexa”和“Siri”而闻名。除了在信息娱乐领域中，此类系统也例如在汽车领域中使用，其中，用户可以语音控制导航系统或其他功能。

现有技术还公开了例如用于将声音转换为文本并再次转换回来的装置。此类系统通常称为“语音识别”系统。这可以以人类用户说出句子并且随后通过模式匹配将接收到的声音信号分配给文本的方式进行。其还已知为提供一种文本，随后将其转换为自然声音语言。此方法通常称为“文本到语音”。

此外，文本的判读是已知的，这例如在“自然语言理解”的情况下进行。此类方法使得可以从现有的文本段落中提取关键字，并随后进行进一步处理。此外，自然语言处理技术是已知的。

传统对话系统以用户提供声音或文字输入的方式实施，其中所述声音或文字输入被转换为文本。随后，启动控制进一步对话的对应源代码。在此类对话控制系统或对话协议中，储存对哪个问题会给出哪个答案。此外，可以指定回应于哪个命令来执行哪个动作。为此，为每个对话提供专用的源文本，并且以硬编码方式描述对话过程。描述对话的此类元素具有这样的缺点：在这种情况下，必须对整个对话进行建模，特别是还必须储存所提供的文本元素。这类对话只要在重新启动时就会死板地运行。因此，可能很难合并语境知识，并且对话通常每次都以相同的方式进行。

此外，此类的各个硬编码对话也存在难以实施的缺点，因为必须预先为每个请求和每个对话分支创建专用对话。这导致了另一问题，即，为此产生了大量的源代码，并且必须对应地进行测试。此测试是工作密集型的，而且可能容易出错。另外，由于对话已经预先被固定，因此用户通常感受不到直观的对话过程。

发明内容

因此，本发明的一个目的是提出一种用于高效对话配置和对话判读的改进方法，所述方法使得可以进行动态对话，所述动态对话可以根据用户输入个别地进行。所提出的方法应该以可在运行时间选择及使用对话元素的方式动态地构建。此外，本发明的一个目的是提供一种对应地设置的系统设备和包括控制命令的计算机程序产品，所述控制命令实现所提出的方法或操作所提出的系统设备。

所述目的通过权利要求1的特征达成。在从属权利要求中提出了其他有利的实施例。

因此，提出一种在计算机辅助自动化对话系统中用于高效对话配置和对话判读的方法，包括：为至少一个关键字中的每一个储存多个对话协议，所述对话协议各自指定对话的动态顺序；根据在运行时间提供的至少一个关键字选择对话协议；将文本元素分配给对话协议的对话单元；以及在运行时间执行对话协议。

在这种情况下，本领域技术人员将理解的是，所述方法步骤可以迭代地和/或以不同的顺序执行。另外，各个步骤可以包括子步骤。因此，例如，可以迭代进行多个对话协议的储存，并且可以不断添加新的对话协议。可以在运行时间，即在对话期间，或者甚至可以预先将文本元素分配给对话协议的对话单元。在运行时间的对话协议的执行包括多个子步骤，例如：在语音识别过程或自然语言理解过程中提供的子步骤。

特别地，所提出的方法包括已知技术，由于所述已知技术已在传统元件的基础上实施，在此不予引用。因此，根据本发明，用户通常输入声音问题或答案，并且随后还接收到声音答案或问题。这涉及在机器应答中将声音信号转换为文本，即，将语音转换为文本，随后还将输出文本转换回语音。这产生了与用户进行通信互动的对话系统。本发明还涉及文本对话系统，例如聊天机器人。

所提出的方法是一种高效方法，因为根据本发明，对话协议与各个文本元素解耦。以此方式，对话可以不必以硬编码的方式储存，因此不必在每种情况下都须被个别地创建。因此，本发明克服了现有技术的缺点：在传统方法中，对话配置以文本元素已经被嵌入到源代码中的方式运行。相反地，根据本发明，可以提供动态地构成各个对话的对话协议，并且还可以另外将文本元素解耦。此外，对话的判读是可能的，因为可以以情况特定的方式调查对话过程，并且，不但用户自己提供的关键字可以用作用户输入，而且控制命令还可以产生对应的关键字。关键字也可以由对话协议根据语境产生(在这种情况下，无需外部控制命令)。例如，如果所述问题被误解了两次，则会自动重新导向到替代问题。

所提出的方法以计算机辅助和自动化的方式运行，以此方式，所提出的方法可以自发地与用户互动，因此，所提出的系统还可以通过对话协议自己设计对话。因此，所有方法步骤都是通过计算执行的，用户仅提供了声音或文字输入。

为此，为至少一个关键字中的每一个储存多个对话协议。因此创建了对话协议，所述对话协议例如提供暂时或在逻辑上互相连接的活动作为对话单元。因此，对话协议没有指定传统的、死板的顺序，而是规定何时由哪个参与者来执行哪个活动，而不固定使用哪些文本元素。这克服了现有技术中对话逻辑和文本元素相链接的缺点。例如，对话协议指定由对话系统进行对于特定的用户输入的查询。此外，对话协议可以指定：如果用户提出一个主题，则提取对应的关键字，并且随后对话系统必须提出问题。如果检测到用户自己在问问题，则对话协议指定系统进行检索并提供对应的答案。因此，对话协议对应于对话系统与用户之间的谈话或对话的动态顺序。

对话协议是预先提供的，即，是在运行时间之前提供的，因此，如果开始对话，则对话协议已经可用。因此，在这种情况下，对话协议可以称为抽象对话协议，因为他们不包含具体的文本元素，而是提供对话将要采用的动态顺序。

关键字，即，一个或多个关键字，被分配给各个对话协议。例如，关键字可以称为对话围绕着其进行的主题。因此，可以使用传统方法从句子中选择特别突出的名词。因此，在一个应用场景中，用户可以例如询问天气，并且随后所提出的方法可以通过传统方法提取用户实际上在询问天气的事实。为此，还可以考虑输入的语调，并且随后可以检测它是陈述还是问题。如果检测到存在关于天气的问题，则对应的关键字因此是“天气”，并且选择这样的对话协议：指定对话系统提出问题，随后回应于来自用户的期望回应来回答最初提出的问题。

此时，仍然没有提供文本元素，仅提供了所述协议的各个活动。因此，回应于关于天气的问题，所提出的方法可以指定由对话系统询问与特定位置有关的问题。随后，分配文本元素“您想知道什么位置的当前天气？”。于是，对话协议可以指定用户必须回答。如果提供了对应的答案，则可以从其提取位置，于是可以进而指定对话系统必须提供答案。此时，关键字“天气”可用于对话系统，随后例如由用户提供位置“慕尼黑”。使用此信息，所述系统可以使用所提供的界面来进行数据库查询，并且随后，对话协议可以指定对话系统必须给出答案，且所述方法在给出答案之后终止。因此，对话系统可以进行天气播报，并且因此提供从数据库中读出的天气参数。由于问题通常应得到令人满意的回答，因此所述方法可以终止。

然而，子对话协议还可以提供通往另一子对话协议的分支，因此，例如可以选择用于关键字“旅行目的地”的对话协议。因此，如果对话系统已经回答了有关天气的问题，则对话协议可以以选择子对话协议的方式分支，其中，所述子对话协议向用户询问他是否希望在好天气的情况下进行旅行。随后重复上述方法，并且，在对应的数据库查询之后，可以提出既符合“天气”的主题又符合“慕尼黑”的主题的适合用户的活动。在这种情况下，所述系统自动从先前的对话过程中找出旅行目的地“慕尼黑”，而无需用户再次说出来。以此方式，创建了对话的动态顺序，并且，对话协议与实际文本元素解耦。

根据本发明，可以在运行时间或预先另外将文本元素分配给对话协议的对话单元。运行时间总是指对话本身的执行时间。本发明克服了所提供的源代码既提供文本元素又提供各个活动的缺点，其中所述各个活动即对话单元。因此，对话协议的对话单元可以被定义为指定对话系统必须提出问题的抽象元件。然后由对应的文本元素指定具体如何提出问题。这产生了优于现有技术的另一优点：所提出的方法具体地与语言无关。因此，可以创建通用的对话协议，并且可以将所有语言的文本元素用于此目的。因此，对话协议可以仅与德语文本元素一起使用。如果用户现在选择不同的语言，则不需要使用新的源代码，而是仅需要将不同的文本元素，例如英语文本元素，分配给未变更的对话协议。因此，由于对话逻辑，即对话协议，与实际将要应用的文本内容分开，因此，所述系统也没有传统系统那么高的维护成本。因此，当维持此类系统或执行此类方法时，其与传统的系统和方法相比复杂度更低。

另外，只要开发环境中可以使用DCS(对话控制脚本)，就可以将现有的对话协议以及文本元素以不更改的方式移植到新的开发环境中(而无需重写源代码，或者甚至无需将其转换为不同的编程语言)。

由于现在已经选择了对话协议，并且存在单个对话协议，对其来说也存在文本元素，因此，现在可以执行对话或执行对话协议。因此，以对话协议的方式引导用户进行动态对话，并且，在如此地提供对话协议时接收对应的细节或问题。由于对话协议还可以提供子协议，因此，如果用户给出对应的输入，则可以在任何时间分支为不同的子对话协议。例如，如果用户没有得到足够的信息，则可以进入另一个对话，所述对话提供了可以如何帮助用户的其他操作。为此，再次选择对应的文本元素并将其呈现给用户。

在本发明的一个方面中，对话协议指定了对话单元的存在和对话过程，所述对话过程将对话单元按时间顺序放置。此优点在于，可以提供与文本元素本身无关的对话过程。对话单元仅提供所提出的方法何时采取行动以及用户何时采取行动。此外，可以指定具体提供哪个活动作为对话单元。因此，对话单元可以由用户或对话系统输入。此外，对话单元可以提供将在对话内的特定点进行处理的控制命令。因此，根据本发明，两个都将由对话系统操作的对话单元可以连续放置，首先在第一对话单元中开始进行第一数据库查询，并且在第二对话单元中指定读出的信息将被提供给用户。时间顺序可以是流程图，通常也可以指定逻辑顺序作为时间顺序的替代。因此，可以指定总是必须等待用户输入并随后进行回答。对话单元还可以指定对话系统启动对话并且用户随后进行回答。

在本发明的另一方面中，对话单元被储存为字母数字参数。此优点在于，可以选择一种的节省存储器且人类易读取的形式来储存对话单元。因此，各个对话单元可以被交换到一个单独的档案中并提供给所提出的方法。

在本发明的另一方面中，对话单元以表格形式储存。此优点在于：可以在行中输入活动或参与者，并且可以在列中输入可以由子对话协议引用的连续索引。因此，可以以对相关联的索引进行寻址的方式动态创建对话，并且在子对话协议的终点处动态地引用另一索引，随后对所述另一索引进行查询，并且可以进行另一子对话。因此，各个列指定了可以被动态地构成的子对话协议。

在本发明的另一方面中，通过用户输入和/或通过控制命令提供关键字。此优点在于，用户可以进行声音输入或文字输入，而关键字被从中提取，或者执行控制命令然后选择合适的对话协议。因此，例如，可以创建宏指令，所述宏指令进而包括多个控制命令。设置这些控制命令以提供关键字。可以以这样的方式进行用户输入和控制命令的组合：用户选择第一关键字并且控制命令为此对语境进行建模，然后选择对应的对话协议。

在本发明的另一方面中，使用用于理解自然语言的技术来提供关键字。此优点在于，可以将已安装或实施的元件用于自然语言理解。因此，用户还可以以声音进行用户输入，以便将其转换为文本，随后从所述声音输入中提取一个或多个关键字。根据NLU的本发明的另一方面，是从一组不同的可匹配关键字到一个关键字的映射(例如，“房屋”、“建筑物”、“摩天大楼”都映射到“房屋”)或年龄的映射(例如，年龄“43”、“49”都映射到年龄组“40至49”)。特别地，这还包括许多不正确的语音识别结果。因此，在英语中，“杯子”在许多方言中的发音几乎与“猫”相同，因此，例如，“猫”被用作希望检测“杯子”的系统的一个触发。

在本发明的另一方面中，每个对话单元指定对话协议内的参与者的活动。此优点在于，对话单元可以指定现在将要提供问题、答案或是控制命令。对应的参与者是与其进行对话的用户或者是对话系统。在这种情况下，也可以使用其他参与者，例如将要通过控制命令造访的外部数据库。

在本发明的另一方面中，对话的动态顺序指定了通过分支构成的子对话。此优点在于，可以在运行时间动态地创建对话，并且随后可以同样地使用对应的协议。在这种情况下，可以等待用户输入，进而可以根据所述用户输入选择另一子对话。这使得在运行时间将子对话动态地构成一个整体对话。这对应于将子对话协议构成对话协议。

在本发明的另一方面中，根据用户输入和/或由控制命令选择分支。此优点在于，不仅可以使用声音或文字的用户输入，而且还可以通过用户输入发出控制命令，例如数据库查询。

在本发明的另一方面中，每个对话单元预定义了对话系统的活动、用户的活动、控制命令的执行和/或方法的终止。此优点在于，可以指定各个活动，并且这些活动不直接导向对话系统本身或人类用户，而是还可以建议执行哪些控制命令来回答用户输入。此外，可以指定对话协议在什么时候终止所述方法，因为用户请求已被成功回答。

在本发明的另一方面中，在运行时间的对话协议的执行包括在对话系统与用户之间操作声音对话。此优点在于，可以使用传统元件将声音输入转换为文本，随后再次将文本输出转换为声音信息。

在本发明的另一方面中，所述方法在移动终端设备上、车辆中或静止的计算单元上执行。此优点在于，可以涵盖各种应用场景，并且可以操作所有常见的终端设备。静止的计算单元可以例如是用户的传统个人计算机。在车辆中使用时，通常使用用户界面来引导驾驶员进行对话。

在本发明的另一方面中，提供了通往现有的基于互联网的服务的界面。此优点在于，可以重复使用已经实施的软件元件，并且可以查询互联网服务，所述互联网服务提供用于回答用户请求的信息或提供诸如购物选项的服务。

所述目的还通过一种用于在计算机辅助对话系统中用于高效对话配置和对话判读的系统设备来实现，所述系统包括：存储单元，设置以为至少一个关键字中的每一个储存多个对话协议，所述对话协议各自指定对话的动态顺序；计算单元，设置以根据在运行时间提供的至少一个关键字选择对话协议；另一计算单元，设置以将文本元素分配给对话协议的对话单元；以及对话单元，设置以在运行时间执行对话协议。

所述目的还通过一种包含控制命令的计算机程序产品来实现，所述控制命令实施所提出的方法或操作所提出的系统设备。

根据本发明，其优点特别在于，所述系统设备提供在功能上对应于各个方法步骤的结构特征。因此，所述系统设备用于执行所提出的方法。所提出的方法进而设置以操作所述系统设备。因此，所述方法步骤也可以反映为所述系统设备的结构特征。所述系统设备包括实际上如上所述地设置的装置，而不仅是为了适用性而包括通用元件。

附图说明

通过附图更详细地描述了其他有利的实施例，其中：

图1示出作为本发明的起点的传统对话系统；

图2示出根据本发明的一个方面的用于高效对话配置和对话判读的系统设备；

图3示出根据本发明的一个方面的用于高效对话配置和对话判读的系统设备的另一示例；

图4示出根据本发明的一个方面的包括对话单元的示例对话协议；以及

图5是根据本发明的另一方面所提出的用于高效对话配置和对话判读的方法的示意性流程图。

具体实施方式

图1的左侧示出正在向语音识别系统给出输入的人类用户。语音识别系统是语音识别服务系统SRS。如右侧所示，各个对话是分开实施的，在这种情况下，指定了包含对应的文本元素的顺序逻辑。这是特别不利的，因为对话协议必须链接到文本元素。因此，不能进行分开的维护，这导致技术复杂性增加。

图2示出了根据本发明的图1的系统的改编，并且，在这种情况下提供了另一元件，即选择单元，例如对话控制脚本单元DCS。所述单元位于右侧的文本元素的上游，随后，在运行时间，可以选择对应的对话，且只需要将右侧的文本元素集成到所述系统中。因此，本发明克服了以下缺点：对话协议不如图1所示地与文本元素一起储存在的右侧的三个示意单元中，对话协议是储存在上游的单元DCS中，且只需从右侧读取各个文本元素即可。可替代地，各个对话协议不储存在DCS中，而是由DCS动态地/在运行时间查询/读入。因此，附加元件DCS创建特定的对话过程，并随后从右侧选择进一步的参数。在此，PVD代表参数语音对话，例如PVD1、PVD2和PVD3。

图3示出了根据本发明的对应系统，用户请求UR在左上侧被提出，并且被传递到判读元件，所述判读元件在此称为自然语言理解元件NLU。随后，产生答案或问题，这在另一元件中发生，所述另一元件在此称为系统应答/提示S A/P。随后，所述方法可以终止，这在右侧用向外的对应箭头表示，或者进而将文本回应依次传递到语音服务VS，所述语音服务VS将输出的文本再次转换为语音并将其提供给用户，所述用户可以随后再次启动用户输入。在所述附图中也提供了相反的方向。“系统询问，用户回答”(语音调查)的使用例是有利的。语音服务的使用不是强制性的。

图4示出了指定对话顺序的对话协议及对话单元。为此，在左上角示出了开始对话单元，随后分支到第一对话单元。在这种情况下，可以取得用户输入，并根据所提供的答案而将其引入对话单元5或21。对应的对话单元可以以表格形式储存，数字索引可以是列的编号。如本附图所示，动态分支是可以的，每个示出的对话框对应于分配给参与者的对话单元。因此，可以例如指定对话单元11由用户提供，并且在随后的对话单元中，对话由所提出的对话系统终止。左侧的两个箭头表示可以提供更多的对话单元，图4所提出的示例仅是从较大规模的对话协议中提取的。因为两个以上的分支以及进入另一个对话分支的斜角步骤是可以的，所以从11回到2的分支也是可以的。这些全部都为良好的用户体验做出了贡献。

图5是示出在计算机辅助自动化对话系统中用于高效对话配置和对话判读的方法的示意性流程图，所述方法包括：储存100，为至少一个关键字中的每一个储存多个对话协议，所述对话协议各自指定对话的动态顺序；选择101，根据在运行时间提供102的至少一个关键字选择对话协议；分配103，将文本元素分配给对话协议的对话单元；以及执行104，在运行时间执行对话协议。

根据本发明，其优点特别在于：对话的元件储存在语音对话系统中，而不是以硬编码的方式储存，对话单元使用索引明确地分类，从而可以使源代码或脚本保持不变，且新的对话可以显示为参数表，并且，对话可以额外从一个语音对话系统开发环境移植到另一个中，或者也可以通过界面造访。在这种情况下，不需要改变软件，并且可以执行多部分对话或递归对话，特别是使得机器可以询问并且用户可以回答。在本发明的一个方面中，必须为每个新的开发环境移植控制程序本身一次，但是DP不需要。

最终，根据本发明，其优点在于：机器首先进行询问并随后用户回答，并且最后(通过控制命令)永久地储存回答。这使得简单地实施使用此对话结构的应用程序，特别是语音调查和语音数据收集。

对话过程和用户输入也可以永久地储存(在硬盘上或数据库中)，这对于语音调查/数据收集是有利的。

Claims

1.一种在计算机辅助自动化对话系统中用于高效对话配置和对话判读的方法，其特征在于，包括：

为至少一个关键字中的每一个储存(100)多个对话协议，所述对话协议各自指定对话的动态顺序，且所述对话的所述动态顺序描述由分支点构成的子对话；

根据在运行时间提供(102)的至少一个关键字选择(101)对话协议，所述关键字通过用户输入提供且通过控制命令提供，所述用户选择所述关键字，且所述控制命令为此对语境进行建模，然后选择对应的对话协议；

将文本元素分配(103)给所述对话协议的对话单元；以及

在所述运行时间执行(104)所述对话协议。

2.根据权利要求1所述的方法，其特征在于，所述对话协议指定对话单元的存在和对话过程，所述对话过程将所述对话单元按时间顺序放置。

3.根据权利要求1或2所述的方法，其特征在于，所述对话单元被储存为字母数字参数。

4.根据前述权利要求中的任一项所述的方法，其特征在于，所述对话单元以表格形式储存。

5.根据前述权利要求中的任一项所述的方法，其特征在于，使用用于理解自然语言的技术来提供所述关键字。

6.根据前述权利要求中的任一项所述的方法，其特征在于，在每种情况下，一个对话单元指定在所述对话协议内的参与者的活动。

7.根据前述权利要求中的任一项所述的方法，其特征在于，根据用户输入和/或由控制命令选择分支点。

8.根据前述权利要求中的任一项所述的方法，其特征在于，每个对话单元预定义所述对话系统的活动、用户的活动、控制命令的执行和/或所述方法的终止。

9.根据前述权利要求中的任一项所述的方法，其特征在于，在所述运行时间的所述对话协议的所述执行(104)包括：在所述对话系统与用户之间操作声音对话。

10.根据前述权利要求中的任一项所述的方法，其特征在于，所述方法在移动终端设备上、车辆中或静止的计算单元上执行。

11.根据前述权利要求中的任一项所述的方法，其特征在于，提供通往现有的基于互联网的服务的界面。

12.一种在计算机辅助对话系统中用于高效对话配置和对话判读的系统设备，其特征在于，包括：

存储单元，为至少一个关键字中的每一个储存(100)多个对话协议，所述对话协议各自指定对话的动态顺序，且所述对话的所述动态顺序描述由分支点构成的子对话；

计算单元，设置以根据在运行时间提供(102)的至少一个关键字选择(101)对话协议，所述系统设备设置以通过用户输入提供所述关键字，且所述系统设备还设置以通过控制命令提供所述关键字，所述用户选择所述关键字，且所述控制命令为此设置以对语境进行建模，然后选择对应的对话协议；

另一计算单元，设置以将文本元素分配(103)给所述对话协议的对话单元；以及

对话单元，设置以在所述运行时间执行(104)所述对话协议。

13.一种计算机程序产品，其特征在于，包括控制命令，当所述控制命令在计算机上执行时，所述控制命令执行根据权利要求1至11中任一项所述的方法。