[go: up one dir, main page]

CN113641778B - 一种对话文本的主题识别方法 - Google Patents

一种对话文本的主题识别方法 Download PDF

Info

Publication number
CN113641778B
CN113641778B CN202011191264.1A CN202011191264A CN113641778B CN 113641778 B CN113641778 B CN 113641778B CN 202011191264 A CN202011191264 A CN 202011191264A CN 113641778 B CN113641778 B CN 113641778B
Authority
CN
China
Prior art keywords
dialogue
text
sentence
topic
manufacturer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011191264.1A
Other languages
English (en)
Other versions
CN113641778A (zh
Inventor
陈杭升
李建红
吴向宏
韩翊
陈耀军
姜炯挺
孙灵
林昊
翁张力
张湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Zhejiang Huayun Information Technology Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Zhejiang Huayun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Zhejiang Huayun Information Technology Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202011191264.1A priority Critical patent/CN113641778B/zh
Publication of CN113641778A publication Critical patent/CN113641778A/zh
Application granted granted Critical
Publication of CN113641778B publication Critical patent/CN113641778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种对话文本的主题识别方法,包括以下步骤:S1,在原有电力领域本体词典和通用词典的基础上进行对话文本预处理,包括分词、词性标注和词频特征提取;S2,在原有电力领域本体词典和通用词典的基础上,新增属性条目,包括电力专有词汇、供应商名称词汇和事件关键词汇;S3,单轮对话下句预测分析,利用上下句的连贯性判断是否同主题;S4,进行对话中断交叉处理,获得全部同主题对话集合;S5,进行供应商识别。本发明能够筛除与主题无关的冗余内容并对同主题的对话文本进行识别归纳。

Description

一种对话文本的主题识别方法
技术领域
本发明涉及电力系统技术领域,尤其是一种对话文本的主题识别方法。
背景技术
电网企业技术人员及管理人员在日常运维管理过程中,会通过腾讯通(Real TimeeXpert,RTX)、微信、钉钉等通讯软件进行对话交流,其中蕴含不少主题信息,如讨论某供应商的产品质量等。针对上述电力对话文本进行挖掘,可获得包含不同主题的信息。然而,对话文本中往往会包含与主题无关的冗余内容,存在隐式评价对象以及交叉中断现象,对话文本中对话主题划分非常困难。
由于电力对话文本专业性强的特点,与常用词库存在一定差别,为提升文本理解的准确率,需要扩充对话业务领域的本体词典,通过自然语言处理技术,包括分词、词性标注等,抽取电力对话文本领域专业词汇,并对词典新增属性条目,包括电力专有词汇、供应商名称词汇和事件关键词汇,为后续的主题归纳奠定基础。主题归纳的准确性是后续针对主题内容进行其他研究的关键基础和重要保障,目前尚未有相关研究,因此开展对话文本主题归纳方法的研究十分必要和迫切。
发明内容
本发明解决了对话文本中对话主题划分非常困难的问题,提出一种对话文本的主题识别方法,能够筛除与主题无关的冗余内容并对同主题的对话文本进行识别归纳。
为实现上述目的,提出以下技术方案:
一种对话文本的主题识别方法,包括以下步骤:
S1,在原有电力领域本体词典和通用词典的基础上进行对话文本预处理,包括分词、词性标注和词频特征提取;
S2,在原有电力领域本体词典和通用词典的基础上,新增属性条目,包括电力专有词汇、供应商名称词汇和事件关键词汇;
S3,单轮对话下句预测分析,利用上下句的连贯性判断是否同主题;
S4,进行对话中断交叉处理,获得全部同主题对话集合;
S5,进行供应商识别,在全部同主题对话集合的基础上,依据电力业务本体词典中的供应商信息类别,对每个主题对话集合提取其中供应商信息,采用向上就近原则识别其中隐式评价对象,再去除无关的冗余主题内容。
本发明提出的方法能够归纳出对话文本主题并识别供应商信息,解决对话文本中含有无关冗余内容、隐式评价对象和交叉中断现象等问题,能够为后续对话文本分析奠定基础。
作为优选,所述步骤S3具体包括以下步骤:
S301,利用基于Transformer的双向编码器下句预测BERT-NSP模型,以两条对话文本为输入,添加第一个标记[CLS],对其进行变换输出每个字对应的隐藏向量,对电力业务单轮对话文本进行下句预测匹配概率计算,获得模型输出:
p=softmax(CWT)
式中,p为下句预测匹配概率矩阵;C为BERT模型第一个标志[CLS]的最终隐藏状态;W为全连接层权重矩阵;本模型实际是一个二分类问题,因此p为一个二维向量,分别表示下句预测为0和1的概率值,即不相关和相关的概率,下句预测概率PNS取该向量中表示两句相关的数值。
S302,计算上下两句单轮对话文本的余弦相似度,作为上下重复内容连贯性判断标准:
式中,S为相邻对话的余弦相似度;A=(a1,a2,…,an)和B=(b1,b2,…,bn)分别为上下两句文本词频向量化表示后获得的n维词频特征向量;
S303,融合上述两类预测结果,定义单轮对话语义相关性匹配度:
M=(1-α)PNS+αS
式中,M为单轮对话语义相关性匹配度;α为余弦相似度权重系数,M值是一个大于等于0的数,M越大表示两句匹配相关性越大,参考PNS的二分类取值标准,当M大于等于设定阈值时,则判定上下句相关,将上下俩句划归为同一对话主题,当M小于设定阈值时,则判定上下句不相关;其意义在于能够融合深度特征和相似度特征,综合考虑上下句的语言联系,提高匹配判断的准确性。α的作用是平衡深度特征和相似度特征的权重比例,对该系数进行寻优可获得单轮对话文本判断最优模型。
作为优选,所述设定阈值为0.5。
作为优选,所述步骤S4具体包括以下步骤:
S401,分别设对话文本集合D中顺序取出的两条文本为di和dj,判断两条文本的间隔轮次;
S402,若间隔轮次在设定间隔允许范围内,则对两条文本进行单轮对话相关性匹配度M值判断;
S403,若间隔轮次不在设定间隔允许范围内,则对di进行链接@用户ID信息判断;若含有链接信息,就将含链接语句依次和被链接用户间隔轮次最近的上下两条对话文本分别进行相关性匹配度M值判断,根据匹配度判断结果进行同主题对话集合归纳;若不含链接信息,则该条文本所属主题对话集合已归纳完毕;
S404,重复步骤S401到S403,直至对话文本集合D为空,获得全部同主题对话集合。
作为优选,所述设定间隔允许范围为3次及以内。根据对话文本研究经验,认为间隔轮次在3轮之外的对话一般无直接相关关系。
作为优选,所述步骤S5具体包括以下步骤:
S501,若未识别到供应商信息,则判定该对话集合谈论对象为无关冗余内容,对设备供应商评价无价值,筛除无关冗余内容;
S502,若识别到一个供应商信息或多个相同供应商信息,则判定该对话集合评价对象为被识别供应商;
S503,出现两个及以上不同供应商信息,按出现顺序分别为厂家A,B,…,X,对集合内每条文本采用向上就近原则确定对应供应商,定义该对话集合自第一句至厂家B出现句之前评价对象为厂家A,厂家B出现句至厂家C出现句之前评价对象为厂家B,以此类推,若某厂家重复出现,则对该厂家的对话集进行合并。
本发明的有益效果是:本发明能够归纳出对话文本主题并识别供应商信息,解决对话文本中含有无关冗余内容、隐式评价对象和交叉中断现象等问题,能够为后续对话文本分析奠定基础。
附图说明
图1是本发明的流程图;
图2是本发明的α影响下的BERT-NSP与余弦相似度加权准确率曲线图;
图3是本发明对话中断交叉处理流程图;
具体实施方式
实施例:
本实施例提出一种对话文本的主题识别方法,参考图1,包括以下步骤:
S1,在原有电力领域本体词典和通用词典的基础上进行对话文本预处理,包括分词、词性标注和词频特征提取,这是文本分析、挖掘的常见步骤,不再累述;
S2,在原有电力领域本体词典和通用词典的基础上,新增属性条目,包括电力专有词汇、供应商名称词汇和事件关键词汇,采用半监督的方法补充本体词典,然后由人工核查确定是否成为本体词以及词的属性;
S3,单轮对话下句预测分析,利用上下句的连贯性判断是否同主题;
步骤S3具体包括以下步骤:
S301,利用基于Transformer的双向编码器下句预测BERT-NSP模型,以两条对话文本为输入,添加第一个标记[CLS],对其进行变换输出每个字对应的隐藏向量,对电力业务单轮对话文本进行下句预测匹配概率计算,获得模型输出:
p=softmax(CWT)
式中,p为下句预测匹配概率矩阵;C为BERT模型第一个标志[CLS]的最终隐藏状态;W为全连接层权重矩阵;本模型实际是一个二分类问题,因此p为一个二维向量,分别表示下句预测为0和1的概率值,即不相关和相关的概率,下句预测概率PNS取该向量中表示两句相关的数值。
S302,计算上下两句单轮对话文本的余弦相似度,作为上下重复内容连贯性判断标准:
式中,S为相邻对话的余弦相似度;A=(a1,a2,…,an)和B=(b1,b2,…,bn)分别为上下两句文本词频向量化表示后获得的n维词频特征向量;
S303,融合上述两类预测结果,定义单轮对话语义相关性匹配度:
M=(1-α)PNS+αS
式中,M为单轮对话语义相关性匹配度;α为余弦相似度权重系数,M值是一个大于等于0的数,M越大表示两句匹配相关性越大,参考PNS的二分类取值标准,当M大于等于设定阈值时,则判定上下句相关,将上下俩句划归为同一对话主题,当M小于设定阈值时,则判定上下句不相关;其意义在于能够融合深度特征和相似度特征,综合考虑上下句的语言联系,提高匹配判断的准确性。α的作用是平衡深度特征和相似度特征的权重比例,对该系数进行寻优可获得单轮对话文本判断最优模型。
设定阈值为0.5。
S4,进行对话中断交叉处理,获得全部同主题对话集合;
参考图3,步骤S4具体包括以下步骤:
S401,分别设对话文本集合D中顺序取出的两条文本为di和dj,判断两条文本的间隔轮次;
S402,若间隔轮次在设定间隔允许范围内,则对两条文本进行单轮对话相关性匹配度M值判断;
S403,若间隔轮次不在设定间隔允许范围内,则对di进行链接@用户ID信息判断;若含有链接信息,就将含链接语句依次和被链接用户间隔轮次最近的上下两条对话文本分别进行相关性匹配度M值判断,根据匹配度判断结果进行同主题对话集合归纳;若不含链接信息,则该条文本所属主题对话集合已归纳完毕;
S404,重复步骤S401到S403,直至对话文本集合D为空,获得全部同主题对话集合。
设定间隔允许范围为3次及以内。根据对话文本研究经验,认为间隔轮次在3轮之外的对话一般无直接相关关系。
S5,进行供应商识别,在全部同主题对话集合的基础上,依据电力业务本体词典中的供应商信息类别,对每个主题对话集合提取其中供应商信息,采用向上就近原则识别其中隐式评价对象,再去除无关的冗余主题内容。
步骤S5具体包括以下步骤:
S501,若未识别到供应商信息,则判定该对话集合谈论对象为无关冗余内容,对设备供应商评价无价值,筛除无关冗余内容;
S502,若识别到一个供应商信息或多个相同供应商信息,则判定该对话集合评价对象为被识别供应商;
S503,出现两个及以上不同供应商信息,按出现顺序分别为厂家A,B,…,X,对集合内每条文本采用向上就近原则确定对应供应商,定义该对话集合自第一句至厂家B出现句之前评价对象为厂家A,厂家B出现句至厂家C出现句之前评价对象为厂家B,以此类推,若某厂家重复出现,则对该厂家的对话集进行合并。
以下以具体的应用例进一步进行阐述:
以电力采集运维领域对话文本为例进行验证研究,首先建立语料库,搜集了包括电力采集运维RTX工作群聊对话、《电网企业一线员工作业采集异常一本通》导则、采集异常文本在内的共23.8M文本数据;然后基于隐马尔科夫模型(hidden Markov model,HMM)对语料库进行分词等预处理。该过程是在通用词典和已有的电力设备缺陷本体词典基础上,识别新的本体词,由人工核查后补充形成了新的领域本体词典。格式及示例如表1所示,对本体词标注了词条属性和同义词、近义词,属性包括专有领域名词、供应商名称和事件关键词汇等主题归纳相关的。新增采集运维领域本体词典共计752条,包括在采集运维语料库中出现的专业词汇但原有本体词典未包含的专有领域名词词条539条,供应商名称类词汇106条,事件关键词汇107条。
表1电力领域本体词典示例
主题归纳数据集选取电力采集运维RTX工作群聊对话文本中的347对单轮对话文本,表2列出了其中13条对话内容。BERT-NSP模型参数使用12层Transformer单元110M个参数的BERT-Chinese预训练模型结构,自我注意力机制为12头,隐含层维度为768维,最大序列长度为128,学习率为3e-5,批量大小为32。基于BERT-NSP与余弦相似度加权的单轮对话下句预测分析对347对电力供应商的主题对话内容进行实验,对单轮对话语义相关性匹配度M中的余弦相似度权重系数α进行寻优,准确率如图2所示。当取值为0和1时分别代表BERT-NSP模型和余弦相似度模型,单轮对话判断准确率在α取0.04时最大为80.69%,超过0.04后准确率单调递减,模型准确率指标如表3所示。因此下述BERT-NSP与余弦相似度加权模型取余弦相似度权重系数α为0.04。
表2电力对话文本示例
表3单轮对话文本判断准确率
基于表3可知,本发明采用的单轮对话下句预测分析模型,在BERT-NSP判断两句深度特征相关性的基础上与语言特征相似度加权,能够提高单轮对话判断的准确性。该加权模型的确立同时也具有一定可解释性,对话过程中出现相同文本内容更倾向于为相同主题的讨论。
在单轮对话文本下句预测分析基础上,处理对话交叉中断情况。以表2电力对话文本为例,该段对话包含两个对话主题,分别为表计异常供应商讨论主题和陶瓷杯性价比讨论主题。比较对话交叉中断处理通过无处理、余弦相似度、BERT-NSP、BERT-NSP与余弦相似度加权模型后得到的多轮对话主题划分情况如表4所示,其中同供应商识别情况下不同对话主题以斜杠划分。
表4不同模型多轮对话主题划分情况
从表4可以看出,在多轮对话主题划分方面,仅使用余弦相似度计算的模型主题划分准确率最低,加权模型准确率最高。相比较而言,余弦相似度模型主要看重两句对话间的文本重复率,仅依靠两句中的重复内容来判断连贯性,忽视内在联系;仅使用BERT-NSP模型虽然能够达到较高准确率,但仍出现划分不完整的情况,针对划分错误的第4、7、13句分析可知,通过相同关键词“陶瓷杯”可以判断两句为同一主题;因此本发明的加权模型综合以上两者的优点,克服BERT模型忽略词语级联系的不足,更准确划分各主题的范围。从加权模型的对话集合匹配结果可见,采用图3对话交叉中断处理流程可以准确划分同主题内容,不仅对话间隔轮次在3句以内的同主题可以正确划分,如第4、13句那样通过链接@用户ID远距离对话也能准确划分主题。
最后,依据供应商识别方法,能够正确识别表计异常供应商讨论主题下A厂家的内容为(1)(2)(3)(5)(6)(8)(9)(10)(12),而B厂家的内容仅有(11),不属于该主题的无关内容(4)(7)(13)将从对话中删除。

Claims (6)

1.一种对话文本的主题识别方法,其特征是,包括以下步骤:
S1,在原有电力领域本体词典和通用词典的基础上进行对话文本预处理,包括分词、词性标注和词频特征提取;
S2,在原有电力领域本体词典和通用词典的基础上,新增属性条目,包括电力专有词汇、供应商名称词汇和事件关键词汇;本体词典标注了词条属性和同义词、近义词;
S3,单轮对话下句预测分析,利用上下句的连贯性判断是否同主题;所述步骤S3具体包括以下步骤:
S301,利用基于Transformer的双向编码器下句预测BERT-NSP模型;
S302,计算上下两句单轮对话文本的余弦相似度,作为上下重复内容连贯性判断标准;
S303,融合两类预测结果,定义单轮对话语义相关性匹配度;
S4,进行对话中断交叉处理,获得全部同主题对话集合;
S5,进行供应商识别,在全部同主题对话集合的基础上,依据电力业务本体词典中的供应商信息类别,对每个主题对话集合提取其中供应商信息,采用向上就近原则识别其中隐式评价对象,再去除无关的冗余主题内容。
2.根据权利要求1所述的一种对话文本的主题识别方法,其特征是,所述步骤S3具体包括以下步骤:
S301,利用基于Transformer的双向编码器下句预测BERT-NSP模型,以两条对话文本为输入,添加第一个标记[CLS],对其进行变换输出每个字对应的隐藏向量,对电力业务单轮对话文本进行下句预测匹配概率计算,获得模型输出:
p=softmax(CWT)
式中,p为下句预测匹配概率矩阵;C为BERT模型第一个标志[CLS]的最终隐藏状态;W为全连接层权重矩阵;本模型实际是一个二分类问题,因此p为一个二维向量,分别表示下句预测为0和1的概率值,即不相关和相关的概率,下句预测概率PNS取该向量中表示两句相关的数值;
S302,计算上下两句单轮对话文本的余弦相似度,作为上下重复内容连贯性判断标准:
式中,S为相邻对话的余弦相似度;A=(a1,a2,…,an)和B=(b1,b2,…,bn)分别为上下两句文本词频向量化表示后获得的n维词频特征向量;
S303,融合两类预测结果,定义单轮对话语义相关性匹配度:
M=(1-α)PNS+αS
式中,M为单轮对话语义相关性匹配度;α为余弦相似度权重系数,当M大于等于设定阈值时,则判定上下句相关,将上下俩句划归为同一对话主题,当M小于设定阈值时,则判定上下句不相关。
3.根据权利要求2所述的一种对话文本的主题识别方法,其特征是,所述设定阈值为0.5。
4.根据权利要求2或3所述的一种对话文本的主题识别方法,其特征是,所述步骤S4具体包括以下步骤:
S401,分别设对话文本集合D中顺序取出的两条文本为di和dj,判断两条文本的间隔轮次;
S402,若间隔轮次在设定间隔允许范围内,则对两条文本进行单轮对话相关性匹配度M值判断;
S403,若间隔轮次不在设定间隔允许范围内,则对di进行链接@用户ID信息判断;若含有链接信息,就将含链接语句依次和被链接用户间隔轮次最近的上下两条对话文本分别进行相关性匹配度M值判断,根据匹配度判断结果进行同主题对话集合归纳;若不含链接信息,则该条文本所属主题对话集合已归纳完毕;
S404,重复步骤S401到S403,直至对话文本集合D为空,获得全部同主题对话集合。
5.根据权利要求4所述的一种对话文本的主题识别方法,其特征是,所述设定间隔允许范围为3次及以内。
6.根据权利要求1所述的一种对话文本的主题识别方法,其特征是,所述步骤S5具体包括以下步骤:
S501,若未识别到供应商信息,则判定该对话集合谈论对象为无关冗余内容,对设备供应商评价无价值,筛除无关冗余内容;
S502,若识别到一个供应商信息或多个相同供应商信息,则判定该对话集合评价对象为被识别供应商;
S503,出现两个及以上不同供应商信息,按出现顺序分别为厂家A,B,…,X,对集合内每条文本采用向上就近原则确定对应供应商,定义该对话集合自第一句至厂家B出现句之前评价对象为厂家A,厂家B出现句至厂家C出现句之前评价对象为厂家B,以此类推,若某厂家重复出现,则对该厂家的对话集进行合并。
CN202011191264.1A 2020-10-30 2020-10-30 一种对话文本的主题识别方法 Active CN113641778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011191264.1A CN113641778B (zh) 2020-10-30 2020-10-30 一种对话文本的主题识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011191264.1A CN113641778B (zh) 2020-10-30 2020-10-30 一种对话文本的主题识别方法

Publications (2)

Publication Number Publication Date
CN113641778A CN113641778A (zh) 2021-11-12
CN113641778B true CN113641778B (zh) 2024-07-12

Family

ID=78415631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011191264.1A Active CN113641778B (zh) 2020-10-30 2020-10-30 一种对话文本的主题识别方法

Country Status (1)

Country Link
CN (1) CN113641778B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11837219B2 (en) * 2021-11-18 2023-12-05 International Business Machines Corporation Creation of a minute from a record of a teleconference

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632982A (zh) * 2020-10-29 2021-04-09 国网浙江省电力有限公司湖州供电公司 一种能用于供应商评价的对话文本情感分析方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2487739A1 (en) * 2002-05-28 2003-12-04 Vladimir Vladimirovich Nasypny Method for synthesising a self-learning system for knowledge acquisition for text-retrieval systems
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
US9165053B2 (en) * 2013-03-15 2015-10-20 Xerox Corporation Multi-source contextual information item grouping for document analysis
US9575952B2 (en) * 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
US10608968B2 (en) * 2017-12-01 2020-03-31 International Business Machines Corporation Identifying different chat topics in a communication channel using cognitive data science
CN110162787A (zh) * 2019-05-05 2019-08-23 西安交通大学 一种基于主题信息的类别预测方法及装置
CN110717339B (zh) * 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632982A (zh) * 2020-10-29 2021-04-09 国网浙江省电力有限公司湖州供电公司 一种能用于供应商评价的对话文本情感分析方法

Also Published As

Publication number Publication date
CN113641778A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
US7295965B2 (en) Method and apparatus for determining a measure of similarity between natural language sentences
CN113704451A (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
CN112307164A (zh) 信息推荐方法、装置、计算机设备和存储介质
US11989514B2 (en) Identifying high effort statements for call center summaries
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
JP2008123111A (ja) 文書類似性導出装置及びそれを用いた回答支援システム
US20220358379A1 (en) System, apparatus and method of managing knowledge generated from technical data
JP2020135135A (ja) 対話コンテンツ作成支援方法およびシステム
CN114064855A (zh) 一种基于变压器知识库的信息检索方法及系统
CN112632982B (zh) 一种能用于供应商评价的对话文本情感分析方法
CN118964641B (zh) 为企业构建ai知识库模型的方法及系统
CN113641778B (zh) 一种对话文本的主题识别方法
CN114065760B (zh) 基于预训练语言模型的法律文本类案检索方法及系统
CN117556050B (zh) 数据分类分级方法、装置、电子设备及存储介质
CN112308453B (zh) 风险识别模型训练方法、用户风险识别方法及相关装置
Iori et al. The direction of technical change in AI and the trajectory effects of government funding
CN118013956A (zh) 一种基于文本语义的电力营销稽查主题关联分析方法
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
CN118485046B (zh) 标注数据处理方法和装置、电子设备、计算机存储介质
CN118504556B (zh) 一种针对新闻的人物言论观点挖掘方法、设备及介质
CN118885646B (zh) 数据库检索方法、装置、电子设备及介质
US20250077376A1 (en) Systems and Methods for Testing Artificial Intelligence Systems
CN118551024B (zh) 问题回答方法、装置、存储介质及网关系统
Li et al. Intelligent Quality Inspection of Customer Service Voice Based on Convolutional Neural Network and Transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant