CN106448670B

CN106448670B - 基于深度学习和强化学习的自动回复对话系统

Info

Publication number: CN106448670B
Application number: CN201610920931.2A
Authority: CN
Inventors: 简仁贤; 吴文杰
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2019-11-19
Anticipated expiration: 2036-10-21
Also published as: CN106448670A

Abstract

本发明公开了基于深度学习和强化学习的自动回复对话系统，包括：用户交互模块，接收用户在对话系统界面中输入的问题信息；会话管理模块，记录用户的活动状态，活动状态包括历史对话信息，用户位置变换信息和用户情绪变化信息；用户分析模块，分析用户的注册信息和活动状态，为用户进行画像，得到用户画像信息；对话模块，根据用户在问题信息，结合用户的画像，通过语言模型生成的回答信息；模型学习模块，根据语言模型生成的回答信息，通过强化学习技术更新语言模型。本发明基于深度学习和强化学习的自动回复对话系统，可根据用户输入的对话文本，联系上下文信息、用户的个性特征及对话中的意图给出符合用户个性的对话回答。

Description

基于深度学习和强化学习的自动回复对话系统

技术领域

本发明涉及人工智能领域，尤其涉及智能人机对话领域。

背景技术

随着人类社会信息化的不断演进以及人工服务成本的不断上升，人们越来越希望通过自然语言与计算机进行交流，智能对话机器人系统成为这样的历史背景下诞生的产物，尤其是能够理解用户，能够记忆用户的历史对话，能够照顾用户的情绪，能够给用户提供个性化的服务的对话机器人系统，正成为各大公司及学术研究机构研发的方向和重点。

现有技术中实现方式一需要针对各种问题构建各种回答并精确设计选择逻辑，需要投入巨大的人力。如果考虑上下文之间的依赖关系，那么规则的设计会非常复杂，并且规则之间也会存在冲突。实现方式二需要基于统计系统翻译，但是在对话的场景下，因为回复和输入之间并没有语义层面的同义关系，使得输出并不能很好的输入相匹配。尤其对于多轮对话的场景，和系统翻译更是存在根本的不同，因为还需要更多的考虑上下文的信息，如用户的意图、兴趣爱好及用户所处时空，前面对话的内容，对话主题的切换等。

因此现有技术中的缺陷是：现有的人机对话系统实现方式不能根据用户的意图或是上下文的不同给出准确并符合用户个性的回答，无法实现智能聊天。

发明内容

本发明要解决的技术问题是提供一种基于深度学习和强化学习的自动回复对话系统，可根据用户输入的对话文本，联系上下文信息、用户的个性特征及对话中的意图给出符合用户个性的对话回答。

为解决上述技术问题，本发明提供的技术方案是：

本发明提供一种基于深度学习和强化学习的自动回复对话系统，包括：

用户交互模块，用于接收用户在对话系统界面中输入的问题信息；

会话管理模块，用于记录所述用户的活动状态，所述活动状态包括历史对话信息，用户位置变换信息和用户情绪变化信息；

用户分析模块，用于分析所述用户的注册信息和活动状态，为所述用户进行画像，得到所述用户画像信息，所述用户画像信息用来描述所述用户的个性特征，所述用户的注册信息包括用户个人信息；

对话模块，用于根据所述用户在所述问题信息，结合所述用户的画像，通过语言模型生成的回答信息；

模型学习模块，用于根据所述语言模型生成的回答信息，通过强化学习技术更新所述语言模型。

本发明的技术方案为：用户交互模块，用于接收用户在对话系统界面中输入的问题信息；会话管理模块，用于记录所述用户的活动状态，所述活动状态包括历史对话信息，用户位置变换信息和用户情绪变化信息；用户分析模块，用于分析所述用户的注册信息和活动状态，为所述用户进行画像，得到所述用户画像信息，所述用户画像信息用来描述所述用户的个性特征，所述用户的注册信息包括用户个人信息；

对话模块，用于根据所述用户在所述问题信息，结合所述用户的画像，通过语言模型生成的回答信息；模型学习模块，用于根据所述语言模型生成的回答信息，通过强化学习技术更新所述语言模型。

通过上述基于深度学习和强化学习的自动回复对话系统进行人机对话，可根据用户输入的对话文本，联系上下文信息、用户的个性特征及对话中的意图给出符合用户个性的对话回答，提高用户体验。

进一步地，所述对话模块中，通过所述语言模型生成回复，具体为：

获得用户的问题信息和用户的历史对话信息；

对所述用户的问题信息和所述用户的历史对话信息通过编码器进行信息提取，得到提取信息，所述提取信息包括所述问题信息中包含的主题信息、言语行为信息和情绪信息；

通过所述编码器对所述问题信息进行编码，输出一个固定长度的向量，所述向量表示根据所述用户的画像得到的用户类别信息；

根据所述固定长度的向量，结合所述提取信息，通过解码器进行解码，生成回答信息。

进一步地，所述语言模型的训练过程分为离线有监督学习阶段和在线无监督强化学习阶段。

进一步地，所述模型学习模块中，在所述离线有监督学习阶段，通过循环神经网络建立所述语言模型，具体为：

所述循环神经网路的第一层输入当前用户输入的问题信息和所述历史对话信息；

所述循环神经网路的第二层为通过编码器提取的所述当前用户输入的问题信息的主题信息、言语行为信息、情绪信息和输出一个固定长度的向量；

所述循环神经网路的第三层输出通过解码器解码所述第二层的信息得到的回答信息。

进一步地，所述模型学习模块中，在所述在线无监督强化学习阶段，通过强化学习技术更新语言模型：

根据所述语言模型生成的回答信息，计算出奖励系数；

在通过反向传播算法进行计算过程中，将所述奖励系数与所述反向传播算法中的导数相乘，生成新的导数，实现所述语言模型的更新。

进一步地，所述用户在对话系统界面中输入的问题信息包括语音信息、图形信息和文字信息。

进一步地，所述用户画像信息通过用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话文本信息获得；

所述用户在搜索引擎中使用关键字信息的获得方式包括通过所述用户在搜索引擎中使用关键字的次数、使用频率和使用时间；

所述用户使用手机应用程序信息的获得方式包括通过所述用户使用手机应用程序的次数、使用频率和使用时间。

进一步地，所述用户画像信息包括标签信息和图谱信息。

进一步地，所述用户个人信息包括用户的性别，年龄，住址、讲话风格、社会关系、情绪变化模式和个人喜好。

进一步地，所述解码器是通过GRU算法实现的。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1示出了本发明第一实施例所提供的一种基于深度学习和强化学习的自动回复对话系统的示意图；

图2示出了本发明第一实施例所提供的一种基于深度学习和强化学习的自动回复对话系统的语言模型训练系统框图；

图3示出了本发明第一实施例所提供的一种基于深度学习和强化学习的自动回复对话系统的语言模型训练建立示意图；

图4示出了本发明第一实施例所提供的一种基于深度学习和强化学习的自动回复对话系统的GRU算法示意图；

图5示出了本发明第一实施例所提供的一种基于深度学习和强化学习的自动回复对话系统的强化学习示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

实施例一

图1示出了本发明第一实施例所提供的一种基于深度学习和强化学习的自动回复对话系统10的示意图，如图1所示，实施例一提供的一种基于深度学习和强化学习的自动回复对话系统10，包括：

用户交互模块101，用于接收用户在对话系统界面中输入的问题信息；

会话管理模块102，用于记录用户的活动状态，活动状态包括历史对话信息，用户位置变换信息和用户情绪变化信息；

用户分析模块103，用于分析用户的注册信息和活动状态，为用户进行画像，得到用户画像信息，用户画像信息用来描述用户的个性特征，用户的注册信息包括用户个人信息；

对话模块104，用于根据用户在问题信息，结合用户的画像，通过语言模型生成的回答信息；

模型学习模块105，用于根据语言模型生成的回答信息，通过强化学习技术更新语言模型。

本发明的技术方案为：用户交互模块101，用于接收用户在对话系统界面中输入的问题信息；会话管理模块102，用于记录用户的活动状态，活动状态包括历史对话信息，用户位置变换信息和用户情绪变化信息；用户分析模块103，用于分析用户的注册信息和活动状态，为用户进行画像，得到用户画像信息，用户画像信息用来描述用户的个性特征，用户的注册信息包括用户个人信息；

对话模块104，用于根据用户在问题信息，结合用户的画像，通过语言模型生成的回答信息；模型学习模块105，用于根据语言模型生成的回答信息，通过强化学习技术更新语言模型。

用户交互模块101接收用户输入的问题；会话管理模块102获取该用户的ID，用户当前位置，提问时间及最近5轮的历史对话等信息；会话管理模块102向用户分析模块103请求用户的类别信息，会话管理模块102将前面获取的信息发送到对话模块104，对话模块使用训练好的语言模型生成一个回答；对话模块104可以请求模型学习模块105使用强化学习技术来更新语言模型。

通过上述基于深度学习和强化学习的自动回复对话系统10进行人机对话，可根据用户输入的对话文本，联系上下文信息、用户的个性特征及对话中的意图给出符合用户个性的对话回答，提高用户体验。

其中，用户的类别信息由用户分析模块103生成，用户分析模块103用于离线分析用户，根据用户的注册信息、对话历史记录以及从外部系统如微博等获取的社交关系等；给用户进行分类以及打上标签，这样在生成对话的时就可以将用户的类别作为输入信息之一，从而实现根据不同类别的用户生成个性化的回复。

具体地，用户分析模块103从用户的注册信息，历史聊天记录，历史活动信息，历史对话信息等发掘出用户的年龄，性别，住址，活动范围，爱好，兴趣，讲话的风格，情绪变化模式，社会关系等，给用户进行画像。

具体地，对话模块中，通过语言模型生成回复，具体为：

获得用户的问题信息和用户的历史对话信息；

对用户的问题信息和用户的历史对话信息通过编码器进行信息提取，得到提取信息，提取信息包括问题信息中包含的主题信息、言语行为信息和情绪信息；

通过编码器对问题信息进行编码，输出一个固定长度的向量，向量表示根据用户的画像得到的用户类别信息；

根据固定长度的向量，结合提取信息，通过解码器进行解码，生成回答信息。

通过编码器分析用户对话内容信息中的语义，情绪等信息，然后通过解码器解码，生成符合用户个性的对话回答，通过预先训练好的语言模型分析用户对话内容的意图，联系上下文信息和用户的个性，这样可以给出符合用户个性的对话回答。

具体地，语言模型的训练过程分为离线有监督学习阶段和在线无监督强化学习阶段。

具体地，模型学习模块中，在离线有监督学习阶段，通过循环神经网络建立语言模型，具体为：

循环神经网路的第一层输入当前用户输入的问题信息和历史对话信息；

循环神经网路的第二层为通过编码器提取的当前用户输入的问题信息的主题信息、言语行为信息、情绪信息和输出一个固定长度的向量；

循环神经网路的第三层输出通过解码器解码第二层的信息得到的回答信息。

语言模型一般通过神经网络建立，本发明基于深度学习和强化学习的自动回复对话系统采用循环神经网络建立语言模型，循环神经网络(RNN)可以真正充分地利用所有上下文信息来预测下一个词，即运用循环神经网络建立语言模型可以根据上下文信息推测出对话的回答信息，使人机对话更自然更准确。

如图2所示，语言模型由编码器和解码器两个部分组成，用户提出的问题首先使用编码器进行编码，输出一个固定长度的n维向量，再使用解码器进行解码，生成一句回答。

具体地，如图3所示，本发明的语言模型中使用了4个编码器来对用户的问题和历史对话进行信息提取，并和一个表示用户信息的向量一起输入到解码器中进行解码，来生成回答。

具体地，四个编码器分别是问题编码器、主题编码器、言语行为编码器和情绪编码器；其中：

问题编码器(Question Encoder)：用于对用户的问题进行编码；问题编码器使用了多层GRU或LSTM实现；

主题编码器(Topic Encoder)：用于对历史对话和当前问题进行编码，编码结果侧重于抽取主题信息；主题编码器使用CNN+RNN方式实现；

言语行为编码器(Speech Act Encoder)：用于对历史对话和当前问题进行编码，编码结果侧重于抽取言语行为信息，言语行为编码器的实现方式和问题编码器的实现方式类似，不同的地方只是在训练模型时需要使用标注了言语行为的语料；

情绪编辑器(Emotion Encoder)，用于对历史对话和当前问题进行编码，编码结果侧重于抽取情绪信息；情绪编辑器的实现方式和问题编码器的实现方式类似，不同的地方只是在训练模型时需要使用标注了情绪的语料。

具体地，用户信息使用一个n维向量表示，每一位取值维0或1，可以把用户类别，用户的性别，年龄段，爱好，当前时间，地点等信息编码到这个向量中，例如，如果用户分为3类，那么久可以用3位来表示，如100，010，001，分别表示了3个用户类别。

具体地，以上4个编码器的输出和用户信息向量为输入，进行解码，生成回答，解码器的实现方式是使用GRU实现的，但不同于传统的GRU，这里增加了上下文输入，因此成为C—GRU，具体计算过程如图4所示。

其中，输出的计算公式如下：

y_t＝S_oftmax(W_hyh_t)

h_t＝z_tοh_t-1+(1-z_t)οg_t

g_t＝tanh(W_xgx_t+W_hg(r_tοh_t-1)+W_cg(u_tοc)+b_g)

z_t＝σ(W_xzx_t+W_hzh_t-1+W_cz(u_tοc)+b_z)

r_t＝σ(W_xrx_t+W_hrh_t-1+W_cr(u_tοc)+b_r)

u_t＝σ(αW_huh_t-1+W_cuc+b_u)

具体地，模型学习模块中，在在线无监督强化学习阶段，通过强化学习技术更新语言模型：

根据语言模型生成的回答信息，计算出奖励系数；

在通过反向传播算法进行计算过程中，将奖励系数与反向传播算法中的导数相乘，生成新的导数，实现语言模型的更新。

BP(Back Propagation，反向传播算法)网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映。

在线无监督强化学习阶段，训练出的语言模型已经可以产生比较好的，基本没有语法错误的回答，但是由于采用了MLE(maximum likelihood eapection)目标，因此比较容易生成一些无意义的回答，所以在这一阶段使用强化学习修正语言模型的参数，如图5所示，当对话系统接收到用户的问题，并生成一个回答，然后运用一个奖励策略(RewardPolicy)计算出奖励系数r，在进行BP(Back Propagation)时和导数相乘作为新的导数，然后继续完成BP过程。

具体地，用户在对话系统界面中输入的问题信息包括语音信息、图形信息和文字信息。在对话系统界面中输入用户的对话文本信息，文本信息可以是一段语音，可以是一个截图信息，也可以是文字信息，系统都会根据这些信息给出相应的回答，多种输入方式可以满足用户的不同需求，提高了用户体验。

具体地，用户画像信息通过用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话文本信息获得；

用户在搜索引擎中使用关键字信息的获得方式包括通过用户在搜索引擎中使用关键字的次数、使用频率和使用时间；

用户使用手机应用程序信息的获得方式包括通过用户使用手机应用程序的次数、使用频率和使用时间。

用户的画像信息为描述包括用户个性、特点和行为特征的画像信息，可以通过用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和搜集到的用户对话内容样本信息获得，比如，用户经常在搜索引擎中搜索关于美食的关键词，那么该用户可能是个美食达人，比如，用户经常使用购物类的应用程序，那么该用户可能是个网购爱好者，也可以通过搜集到的用户对话内容样本信息，这些信息可以使以往每次该用户对话的文本信息，也可以是我们收集到的一些样本信息。通过这些信息，得到用户的画像信息，可以根据不同用户的不同特点给出更准确的回答。

具体地，用户在搜索引擎中使用关键字信息的获得方式包括通过用户在搜索引擎中使用关键字的次数、使用频率和使用时间；用户使用手机应用程序信息的获得方式包括通过所述用户使用手机应用程序的次数、使用频率和使用时间。

本发明基于深度学习和强化学习的自动回复对话系统可以通过多种方式获得具有用户个性特征的信息，本发明中提到了三种获取方式，其中所述用户在搜索引擎中使用关键字信息是根据所述用户在搜索引擎中使用关键字的次数获得，可以统计所述用户在搜索引擎中使用关键字的次数，当大于某一阈值时，即判定此关键词是用户在搜索引擎中经常使用的，同样，也可以统计用户使用手机应用程序的次数，当大于某一阈值时，即判定此应用程序是该用户经常使用的，根据这些信息可以判断出该用户的个性特征，就可以根据不同的用户给出不同的回答。

具体地，用户画像信息包括标签信息和图谱信息。用户画像信息是用来描述用户的个人特点的，因此可以通过标签或者图像的形式表现，直观方便。具体地，用户个人信息包括用户的性别，年龄，住址、讲话风格、社会关系、情绪变化模式和个人喜好。

结合用户的个人信息，可以给出更准确的回答，比如知道用户的性别，在对话过程中就会根据不同的性别给出不同的回答，比如用户想知道附近比较好玩的地方，那么系统就会根据用户为女性，推荐一些适合女性玩的地方，如KTV，商场等，如果是男性，就会推荐比如健身房，电玩城等地方，因此得到用户的个人信息，可以得到更精准的回答。

实施例二

本发明基于深度学习和强化学习的自动回复对话系统10，结合用户在系统界面的对话内容，具体介绍一下本发明的系统流程；

用户：你好！

系统：下午好，有什么可以帮助您？

用户：我的电脑开机不显示了。

系统：替你难过。你是用Windows操作系统吗？

用户：不是，Linux系统。

系统：有什么错误提示吗？

用户在系统界面中进行人机对话，输入用户对话的文本信息，如“你好”，系统先将“你好”编码转换成词向量，方便计算机进行计算，然后对于简单的问好类信息，系统会根据预先设定的模式，给出相应的回答，如“下午好，有什么可以帮助您？”或是“下午好，请问什么事？”，然后用户接着进行对话，“我的电脑开机不显示了”，同样，系统先将这句话转换成词向量信息，然后系统根据转换成的词向量信息，通过感知器计算出用户的意图信息，意图信息就是系统会分析出用户这句话的意图是什么，这句话的意图是“用户电脑的显示器不好使了，寻求帮助”，然后系统根据用户的意图，结合用户的画像信息，通过语言模型推测出给用户的回答信息，其中，用户的画像信息描述用户的个人特点等信息，这样充分利用每个用户不相同的特点，给用户提供差别个性化的回答，如“替你难过。你是用Windows操作系统吗？”，在语言模型中，存储着很多数据，根据用户的意图信息和画像信息，可以快速在语言模型中找到相应有关于电脑的一些信息，然后给出相应的回答。以同样的方式用户和系统进行对话，就会得到上述对话内容。

因此，通过本发明基于深度学习和强化学习的自动回复对话系统，可以根据用户对话内容表达的意图，给出个性化的回答。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.基于深度学习和强化学习的自动回复对话系统，其特征在于，包括：

模型学习模块，用于根据所述语言模型生成的回答信息，通过强化学习技术更新所述语言模型；

所述语言模型的训练过程分为离线有监督学习阶段和在线无监督强化学习阶段；

所述模型学习模块中，在所述离线有监督学习阶段，通过循环神经网络建立所述语言模型，具体为：

2.根据权利要求1所述基于深度学习和强化学习的自动回复对话系统，其特征在于，

所述模型学习模块中，在所述在线无监督强化学习阶段，通过强化学习技术更新语言模型：

根据所述语言模型生成的回答信息，计算出奖励系数；

3.根据权利要求1所述基于深度学习和强化学习的自动回复对话系统，其特征在于，

所述用户在对话系统界面中输入的问题信息包括语音信息、图形信息和文字信息。

4.根据权利要求1所述基于深度学习和强化学习的自动回复对话系统，其特征在于，

所述用户画像信息通过用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话文本信息获得；

5.根据权利要求1所述基于深度学习和强化学习的自动回复对话系统，其特征在于，

所述用户画像信息包括标签信息和图谱信息。

6.根据权利要求1所述基于深度学习和强化学习的自动回复对话系统，其特征在于，

所述用户个人信息包括用户的性别，年龄，住址、讲话风格、社会关系、情绪变化模式和个人喜好。

7.根据权利要求1所述基于深度学习和强化学习的自动回复对话系统，其特征在于，

所述解码器是通过GRU算法实现的。