CN113641778B

CN113641778B - 一种对话文本的主题识别方法

Info

Publication number: CN113641778B
Application number: CN202011191264.1A
Authority: CN
Inventors: 陈杭升; 李建红; 吴向宏; 韩翊; 陈耀军; 姜炯挺; 孙灵; 林昊; 翁张力; 张湘
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2024-07-12
Anticipated expiration: 2040-10-30
Also published as: CN113641778A

Abstract

本发明提出一种对话文本的主题识别方法，包括以下步骤：S1，在原有电力领域本体词典和通用词典的基础上进行对话文本预处理，包括分词、词性标注和词频特征提取；S2，在原有电力领域本体词典和通用词典的基础上，新增属性条目，包括电力专有词汇、供应商名称词汇和事件关键词汇；S3，单轮对话下句预测分析，利用上下句的连贯性判断是否同主题；S4，进行对话中断交叉处理，获得全部同主题对话集合；S5，进行供应商识别。本发明能够筛除与主题无关的冗余内容并对同主题的对话文本进行识别归纳。

Description

一种对话文本的主题识别方法

技术领域

本发明涉及电力系统技术领域，尤其是一种对话文本的主题识别方法。

背景技术

电网企业技术人员及管理人员在日常运维管理过程中，会通过腾讯通(Real TimeeXpert，RTX)、微信、钉钉等通讯软件进行对话交流，其中蕴含不少主题信息，如讨论某供应商的产品质量等。针对上述电力对话文本进行挖掘，可获得包含不同主题的信息。然而，对话文本中往往会包含与主题无关的冗余内容，存在隐式评价对象以及交叉中断现象，对话文本中对话主题划分非常困难。

由于电力对话文本专业性强的特点，与常用词库存在一定差别，为提升文本理解的准确率，需要扩充对话业务领域的本体词典，通过自然语言处理技术，包括分词、词性标注等，抽取电力对话文本领域专业词汇，并对词典新增属性条目，包括电力专有词汇、供应商名称词汇和事件关键词汇，为后续的主题归纳奠定基础。主题归纳的准确性是后续针对主题内容进行其他研究的关键基础和重要保障，目前尚未有相关研究，因此开展对话文本主题归纳方法的研究十分必要和迫切。

发明内容

本发明解决了对话文本中对话主题划分非常困难的问题，提出一种对话文本的主题识别方法，能够筛除与主题无关的冗余内容并对同主题的对话文本进行识别归纳。

为实现上述目的，提出以下技术方案：

一种对话文本的主题识别方法，包括以下步骤：

S1，在原有电力领域本体词典和通用词典的基础上进行对话文本预处理，包括分词、词性标注和词频特征提取；

S2，在原有电力领域本体词典和通用词典的基础上，新增属性条目，包括电力专有词汇、供应商名称词汇和事件关键词汇；

S3，单轮对话下句预测分析，利用上下句的连贯性判断是否同主题；

S4，进行对话中断交叉处理，获得全部同主题对话集合；

S5，进行供应商识别，在全部同主题对话集合的基础上，依据电力业务本体词典中的供应商信息类别，对每个主题对话集合提取其中供应商信息，采用向上就近原则识别其中隐式评价对象，再去除无关的冗余主题内容。

本发明提出的方法能够归纳出对话文本主题并识别供应商信息，解决对话文本中含有无关冗余内容、隐式评价对象和交叉中断现象等问题，能够为后续对话文本分析奠定基础。

作为优选，所述步骤S3具体包括以下步骤：

S301，利用基于Transformer的双向编码器下句预测BERT-NSP模型，以两条对话文本为输入，添加第一个标记[CLS]，对其进行变换输出每个字对应的隐藏向量，对电力业务单轮对话文本进行下句预测匹配概率计算，获得模型输出：

p＝softmax(CW^T)

式中，p为下句预测匹配概率矩阵；C为BERT模型第一个标志[CLS]的最终隐藏状态；W为全连接层权重矩阵；本模型实际是一个二分类问题，因此p为一个二维向量，分别表示下句预测为0和1的概率值，即不相关和相关的概率，下句预测概率P_NS取该向量中表示两句相关的数值。

S302，计算上下两句单轮对话文本的余弦相似度，作为上下重复内容连贯性判断标准：

式中，S为相邻对话的余弦相似度；A＝(a₁,a₂,…,a_n)和B＝(b₁,b₂,…,b_n)分别为上下两句文本词频向量化表示后获得的n维词频特征向量；

S303，融合上述两类预测结果，定义单轮对话语义相关性匹配度：

M＝(1-α)P_NS+αS

式中，M为单轮对话语义相关性匹配度；α为余弦相似度权重系数，M值是一个大于等于0的数，M越大表示两句匹配相关性越大，参考P_NS的二分类取值标准，当M大于等于设定阈值时，则判定上下句相关，将上下俩句划归为同一对话主题，当M小于设定阈值时，则判定上下句不相关；其意义在于能够融合深度特征和相似度特征，综合考虑上下句的语言联系，提高匹配判断的准确性。α的作用是平衡深度特征和相似度特征的权重比例，对该系数进行寻优可获得单轮对话文本判断最优模型。

作为优选，所述设定阈值为0.5。

作为优选，所述步骤S4具体包括以下步骤：

S401，分别设对话文本集合D中顺序取出的两条文本为d_i和d_j，判断两条文本的间隔轮次；

S402，若间隔轮次在设定间隔允许范围内，则对两条文本进行单轮对话相关性匹配度M值判断；

S403，若间隔轮次不在设定间隔允许范围内，则对d_i进行链接@用户ID信息判断；若含有链接信息，就将含链接语句依次和被链接用户间隔轮次最近的上下两条对话文本分别进行相关性匹配度M值判断，根据匹配度判断结果进行同主题对话集合归纳；若不含链接信息，则该条文本所属主题对话集合已归纳完毕；

S404，重复步骤S401到S403，直至对话文本集合D为空，获得全部同主题对话集合。

作为优选，所述设定间隔允许范围为3次及以内。根据对话文本研究经验，认为间隔轮次在3轮之外的对话一般无直接相关关系。

作为优选，所述步骤S5具体包括以下步骤：

S501，若未识别到供应商信息，则判定该对话集合谈论对象为无关冗余内容，对设备供应商评价无价值，筛除无关冗余内容；

S502，若识别到一个供应商信息或多个相同供应商信息，则判定该对话集合评价对象为被识别供应商；

S503，出现两个及以上不同供应商信息，按出现顺序分别为厂家A，B，…，X，对集合内每条文本采用向上就近原则确定对应供应商，定义该对话集合自第一句至厂家B出现句之前评价对象为厂家A，厂家B出现句至厂家C出现句之前评价对象为厂家B，以此类推，若某厂家重复出现，则对该厂家的对话集进行合并。

本发明的有益效果是：本发明能够归纳出对话文本主题并识别供应商信息，解决对话文本中含有无关冗余内容、隐式评价对象和交叉中断现象等问题，能够为后续对话文本分析奠定基础。

附图说明

图1是本发明的流程图；

图2是本发明的α影响下的BERT-NSP与余弦相似度加权准确率曲线图；

图3是本发明对话中断交叉处理流程图；

具体实施方式

实施例：

本实施例提出一种对话文本的主题识别方法，参考图1，包括以下步骤：

S1，在原有电力领域本体词典和通用词典的基础上进行对话文本预处理，包括分词、词性标注和词频特征提取，这是文本分析、挖掘的常见步骤，不再累述；

S2，在原有电力领域本体词典和通用词典的基础上，新增属性条目，包括电力专有词汇、供应商名称词汇和事件关键词汇，采用半监督的方法补充本体词典，然后由人工核查确定是否成为本体词以及词的属性；

步骤S3具体包括以下步骤：

p＝softmax(CW^T)

M＝(1-α)P_NS+αS

设定阈值为0.5。

S4，进行对话中断交叉处理，获得全部同主题对话集合；

参考图3，步骤S4具体包括以下步骤：

设定间隔允许范围为3次及以内。根据对话文本研究经验，认为间隔轮次在3轮之外的对话一般无直接相关关系。

步骤S5具体包括以下步骤：

以下以具体的应用例进一步进行阐述：

以电力采集运维领域对话文本为例进行验证研究，首先建立语料库，搜集了包括电力采集运维RTX工作群聊对话、《电网企业一线员工作业采集异常一本通》导则、采集异常文本在内的共23.8M文本数据；然后基于隐马尔科夫模型(hidden Markov model，HMM)对语料库进行分词等预处理。该过程是在通用词典和已有的电力设备缺陷本体词典基础上，识别新的本体词，由人工核查后补充形成了新的领域本体词典。格式及示例如表1所示，对本体词标注了词条属性和同义词、近义词，属性包括专有领域名词、供应商名称和事件关键词汇等主题归纳相关的。新增采集运维领域本体词典共计752条，包括在采集运维语料库中出现的专业词汇但原有本体词典未包含的专有领域名词词条539条，供应商名称类词汇106条，事件关键词汇107条。

表1电力领域本体词典示例

主题归纳数据集选取电力采集运维RTX工作群聊对话文本中的347对单轮对话文本，表2列出了其中13条对话内容。BERT-NSP模型参数使用12层Transformer单元110M个参数的BERT-Chinese预训练模型结构，自我注意力机制为12头，隐含层维度为768维，最大序列长度为128，学习率为3e-5，批量大小为32。基于BERT-NSP与余弦相似度加权的单轮对话下句预测分析对347对电力供应商的主题对话内容进行实验，对单轮对话语义相关性匹配度M中的余弦相似度权重系数α进行寻优，准确率如图2所示。当取值为0和1时分别代表BERT-NSP模型和余弦相似度模型，单轮对话判断准确率在α取0.04时最大为80.69％，超过0.04后准确率单调递减，模型准确率指标如表3所示。因此下述BERT-NSP与余弦相似度加权模型取余弦相似度权重系数α为0.04。

表2电力对话文本示例

表3单轮对话文本判断准确率

基于表3可知，本发明采用的单轮对话下句预测分析模型，在BERT-NSP判断两句深度特征相关性的基础上与语言特征相似度加权，能够提高单轮对话判断的准确性。该加权模型的确立同时也具有一定可解释性，对话过程中出现相同文本内容更倾向于为相同主题的讨论。

在单轮对话文本下句预测分析基础上，处理对话交叉中断情况。以表2电力对话文本为例，该段对话包含两个对话主题，分别为表计异常供应商讨论主题和陶瓷杯性价比讨论主题。比较对话交叉中断处理通过无处理、余弦相似度、BERT-NSP、BERT-NSP与余弦相似度加权模型后得到的多轮对话主题划分情况如表4所示，其中同供应商识别情况下不同对话主题以斜杠划分。

表4不同模型多轮对话主题划分情况

从表4可以看出，在多轮对话主题划分方面，仅使用余弦相似度计算的模型主题划分准确率最低，加权模型准确率最高。相比较而言，余弦相似度模型主要看重两句对话间的文本重复率，仅依靠两句中的重复内容来判断连贯性，忽视内在联系；仅使用BERT-NSP模型虽然能够达到较高准确率，但仍出现划分不完整的情况，针对划分错误的第4、7、13句分析可知，通过相同关键词“陶瓷杯”可以判断两句为同一主题；因此本发明的加权模型综合以上两者的优点，克服BERT模型忽略词语级联系的不足，更准确划分各主题的范围。从加权模型的对话集合匹配结果可见，采用图3对话交叉中断处理流程可以准确划分同主题内容，不仅对话间隔轮次在3句以内的同主题可以正确划分，如第4、13句那样通过链接@用户ID远距离对话也能准确划分主题。

最后，依据供应商识别方法，能够正确识别表计异常供应商讨论主题下A厂家的内容为(1)(2)(3)(5)(6)(8)(9)(10)(12)，而B厂家的内容仅有(11)，不属于该主题的无关内容(4)(7)(13)将从对话中删除。

Claims

1.一种对话文本的主题识别方法，其特征是，包括以下步骤：

S2，在原有电力领域本体词典和通用词典的基础上，新增属性条目，包括电力专有词汇、供应商名称词汇和事件关键词汇；本体词典标注了词条属性和同义词、近义词；

S3，单轮对话下句预测分析，利用上下句的连贯性判断是否同主题；所述步骤S3具体包括以下步骤：

S301，利用基于Transformer的双向编码器下句预测BERT-NSP模型；

S302，计算上下两句单轮对话文本的余弦相似度，作为上下重复内容连贯性判断标准；

S303，融合两类预测结果，定义单轮对话语义相关性匹配度；

S4，进行对话中断交叉处理，获得全部同主题对话集合；

2.根据权利要求1所述的一种对话文本的主题识别方法，其特征是，所述步骤S3具体包括以下步骤：

p＝softmax(CW^T)

式中，p为下句预测匹配概率矩阵；C为BERT模型第一个标志[CLS]的最终隐藏状态；W为全连接层权重矩阵；本模型实际是一个二分类问题，因此p为一个二维向量，分别表示下句预测为0和1的概率值，即不相关和相关的概率，下句预测概率P_NS取该向量中表示两句相关的数值；

S303，融合两类预测结果，定义单轮对话语义相关性匹配度：

M＝(1-α)P_NS+αS

式中，M为单轮对话语义相关性匹配度；α为余弦相似度权重系数，当M大于等于设定阈值时，则判定上下句相关，将上下俩句划归为同一对话主题，当M小于设定阈值时，则判定上下句不相关。

3.根据权利要求2所述的一种对话文本的主题识别方法，其特征是，所述设定阈值为0.5。

4.根据权利要求2或3所述的一种对话文本的主题识别方法，其特征是，所述步骤S4具体包括以下步骤：

5.根据权利要求4所述的一种对话文本的主题识别方法，其特征是，所述设定间隔允许范围为3次及以内。

6.根据权利要求1所述的一种对话文本的主题识别方法，其特征是，所述步骤S5具体包括以下步骤：