[go: up one dir, main page]

CN113987188A - 一种短文本分类方法、装置及电子设备 - Google Patents

一种短文本分类方法、装置及电子设备 Download PDF

Info

Publication number
CN113987188A
CN113987188A CN202111326798.5A CN202111326798A CN113987188A CN 113987188 A CN113987188 A CN 113987188A CN 202111326798 A CN202111326798 A CN 202111326798A CN 113987188 A CN113987188 A CN 113987188A
Authority
CN
China
Prior art keywords
short text
vector
keywords
knowledge information
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111326798.5A
Other languages
English (en)
Other versions
CN113987188B (zh
Inventor
夏书银
唐祚
张勇
付京成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111326798.5A priority Critical patent/CN113987188B/zh
Publication of CN113987188A publication Critical patent/CN113987188A/zh
Application granted granted Critical
Publication of CN113987188B publication Critical patent/CN113987188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种短文本分类方法、装置及电子设备,涉及数据处理技术领域,其技术方案要点是:确定短文本的知识信息与关键词;将短文本、知识信息与关键词嵌入向量空间进行拼接,获得短文本、知识信息与关键词的向量矩阵;采用双向记忆网络层对短文本向量矩阵进行处理获得短文本的语义信息;将短文本的语义信息与知识信息的向量矩阵或关键字的向量矩阵进行注意力计算获得知识信息或关键词的向量;利用卷积神经网络对向量与向量矩阵进行特征提取获得短文本分类结果。本发明解决了现有技术对于短文本分类方法中在面对短文本上下文语义缺失不能准确的进行文本分类问题,提升了文本分类的准确性。

Description

一种短文本分类方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,更具体地说,它涉及一种短文本分类方法、装置及电子设备。
背景技术
最近几年随着深度学习的发展,如卷积神经网络(CNN),循环神经网络(RNN)被广泛的应用于文本分类中,且在较长的文本中取得了不错的效果。但是由于数据的稀疏性以及模糊性的问题,传统的深度学习神经网络在短文本上遇到了巨大的挑战。为了解决数据稀疏和模糊的问题,当前工作的重点便是从短文本中获取更多的隐含信息去理解短文本。文本的表示模型主要分为显式表示与隐式表示,显式表示基于词性标注,知识库等多方面去创造有效的特征,易于人们主观理解但是显式表示的方式往往将各个特征信息独立开,而忽略了短文本的上下文信息。而隐式表示是将每个词映射成高维向量,用词向量矩阵来表示文本信息,便于神经网络模型学习到文本所蕴含的信息。但是文本中的一些实体信息,隐式的表示可能无法获得这一信息。例如{Anta will propose new products},隐式的表达方式获取不到Anta这一实体而将它归为生词的表示,但是Anta作为一个运动品牌的名字是可以对分类的倾向产生影响。
在以往的研究当中,提出了将显示与隐式的文本方式整合在一起的模型结构。但仍然有几点不足,第一,在概念化文本信息时,通过大型知识库获得了相应的权重信息,并且将这些信息整合到了神经模型当中,但是这些权重信息是静态的且与文本信息相独立开的。其次文本的关键词信息往往被忽略掉,特别是在情感二分类任务中获取知识信息较少的文本中。
发明内容
本发明的目的是提供一种短文本分类方法、装置及电子设备,解决现有技术对于短文本分类方法中在面对短文本上下文语义缺失的问题,不能准确的进行文本分类。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,本发明提供一种短文本分类方法,包括以下步骤:
确定短文本的知识信息与关键词;
将短文本、知识信息与关键词嵌入向量空间进行拼接,获得短文本、知识信息与关键词的向量矩阵;
采用双向记忆网络层对短文本向量矩阵进行处理获得短文本的语义信息;
将短文本的语义信息与知识信息的向量矩阵或关键字的向量矩阵进行注意力计算获得知识信息或关键词的向量;
利用卷积神经网络对向量与向量矩阵进行特征提取获得短文本分类结果。
为解决现有技术中对于短文本分类方法中在面对短文本上下文语义缺失的问题。因此,本发明通过确定短文本的知识信息与关键词来拓展短文本的表示范围,但是现有的分类方法对知识信息的嵌入仅仅是静态的,并没有关注到短文本上下文的一个语义信息,因此提出了一种基于上下文的自注意力机制,通过上下文信息有选择对知识信息进行嵌入;此外,在之前的分类方法中往往忽略了当知识信息不足时所产生的影响,因此,本发明提出了采用卷积神经网络对关键词与知识信息的向量与短文本的语义信息的特征信息提取出来,将知识信息与关键词的特征进行聚合分类,获得最终的短文本分类结果,实现对短文本的从不同粒度上产生更为细致的分类结果以此来提升分类的准确性。
进一步的,对短文本进行实体识别,获得短文本的实体集,对实体集进行识别确定短文本的知识信息。
进一步的,将短文本、知识信息与关键词输入到神经网络模型嵌入层,采用词向量模型对嵌入层的短文本、知识信息与关键词进行预训练,获得短文本、知识信息以及关键词的向量表示。
进一步的,将短文本与知识信息的向量表示在神经网络模型的上级子网络中进行拼接,获得知识信息的向量矩阵;
采用卷积神经网络对短文本与关键词预训练,获得短文本与关键词的字符级向量表示,将短文本与关键词的字符级向量表示在神经网络模型的下级子网络中进行拼接,获得字符级的关键词的向量矩阵。
进一步的,将短文本向量矩阵与字符级的短文本的向量矩阵均输入至双向记忆网络层进行处理,分别获得上下级子网络的短文本上下文的语义信息。
进一步的,在上级子网络中,将短文本上下文的语义信息与知识信息进行注意力计算,获得知识信息的自注意力结果,计算知识信息的自注意力结果与语义信息的乘积,对每个乘积进行拼接,获得知识信息的向量;
在下级子网络中,将短文本上下文的语义信息与关键词进行注意力计算,获得关键词的自注意力结果,计算关键词的自注意力结果与语义信息的乘积,对每个乘积进行拼接,获得关键词的向量。
进一步的,注意力计算的计算式为yi=softmax(a1(tanh(a2[ci;p]+b2)));其中,yi表示知识信息或关键词对于短文本的权重,tanh表示双曲正切函数,softmax表示将自注意力结果进行归一化处理,
Figure BDA0003347190030000031
表示权重矩阵,
Figure BDA0003347190030000032
表示权重向量,b2表示偏移向量,p表示中间结果,W表示向量,ci表示在上级子网络中表示第i个知识向量和在下级子网络中表示第i个关键字向量。
进一步的,在上级子网络中对知识信息的向量与短文本的向量矩阵进行拼接,通过二维卷积神经网络对拼接后的矩阵进行特征提取获得特征向量,将特征向量通过上级子网络的全连接层进行分类获得上级子网络的分类结果;
在下级子网络中对关键字的向量与关键词的向量矩阵进行拼接,通过二维卷积神经网络对拼接后的矩阵进行特征提取获得特征向量,将特征向量通过下级子网络的全连接层进行分类获得下级子网络的分类结果;
将上级子网络的分类结果与下级子网络的分类结果进行联合分类,获得短文本的分类结果。
第二方面,本发明提供一种基于关键词与知识信息的短文本分类装置,用以实现第一方面提供的分类方法,包括确定单元、拼接单元、处理单元、计算单元与分类单元;
所述确定单元,用于确定短文本的知识信息与关键词;
所述拼接单元,用于将短文本、知识信息与关键词嵌入向量空间进行拼接,获得短文本、知识信息与关键词的向量矩阵;
所述处理单元,用于采用双向记忆网络层对短文本向量矩阵进行处理获得短文本的语义信息;
所述计算单元,用于将短文本的语义信息与知识信息的向量矩阵或关键字的向量矩阵进行注意力计算获得知识信息或关键词的向量;
所述分类单元,用于利用卷积神经网络对向量与向量矩阵进行特征提取获得短文本分类结果。
第三方面,本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面提供的所述分类方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明首先将短文本概念化得到知识信息与提取短文本的关键词,提出了一种上下双级子网络的概念,在上级子网络中,使用预训练的词向量模型对文本信息与知识信息进行训练生成向量矩阵。然后引入一个基于短文本上下文的注意力机制,来度量知识信息对短文本的重要程度;将度量后的知识信息与语义信息嵌入到二维卷积网络中捕获特征最后进行分类。而在下级网络中,受字符级嵌入的启发,使用字符级嵌入对文本与关键词进行嵌入以此来获得不同粒度特征信息,然后在后续的操作上级子网络与下级子网络保持一致,最后将上级子网络和下级子网络的分类结果进行聚合分类获得最终文本分类结果。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一实施例提供的方法流程示意图;
图2为本发明一实施例提供的网络模型结构示意图;
图3为本发明一实施例提供的装置框架结构图;
图4为本发明一实施例提供的电子设备实体图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
需说明的是,当部件被称为“固定于”或“设置于”另一个部件,它可以直接在另一个部件上或者间接在该另一个部件上。当一个部件被称为是“连接于”另一个部件,它可以是直接或者间接连接至该另一个部件上。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例一
本实施例一所提的方法可应用于小于15个字符的短文本的分类,也可以应用于15-25个字符的短文本的分类,解决现有技术对于短文本分类方法中在面对短文本上下文语义缺失的问题,使得对短文本的分类更加准确。
如图1所示,本实施例一提供一种短文本分类方法,包括以下步骤:
步骤S10,确定短文本的知识信息与关键词。
具体的,对短文本信息进行概念化。使用现有的通用知识库(如Yago,Freebase和Probase),来实现这一目标。使用Probase知识库以及,因为Probase知识库所蕴含的信息更为广泛,能够更多地挖掘出短文本中的概念信息。利用Probase所提供的实体识别的网络接口,获得短文本的实体集E。然后对于每个实体e∈E。以isA关系为标准,从现有的知识库中获取其概念信息。例如,短文本“Yahoo fixes two flaws in mail system”,通过Probase中的实体识别网络接口获得实体集E={Yahoo mail},然后对Yahoo这个实体选取isA关系进行概念化获得概念集C={search engine engine company apps applicationservice}。
从短文本提取到关键词。本实施例一采用Yake关键词提取算法,以单词大写、词的位置、词频、上下文关系以及词在句子中出现的频率为特征的一种无监督关键词提取算法,通过关键词提取算法获得文本的关键字集K。例如短文本”Yahoo fixes two flaws inmail system”,通过关键词提取算法获得K={Yahoo,fixes,flaws}。
步骤S20,将短文本、知识信息与关键词嵌入向量空间进行拼接,获得短文本、知识信息与关键词的向量矩阵。
具体的,如图2所示,不同于其他短文本分类,仅仅只用了短文本的知识信息对文本特征进行扩充,本申请实施例还运用了文本的关键词信息,将关键词信息嵌入到下级子网络中进行分类,提出了将短文本、知识信息与关键词输入到神经网络模型上下子网络中的嵌入层进行拼接,获得短文本的向量矩阵。
步骤S30,采用双向记忆网络层对短文本向量矩阵进行处理获得短文本的语义信息。
具体的,在上级子网络与下级子网络的操作一致,这里以上级子网络为例进行说明。将输入单元获得的短文本词向量矩阵Ww={W1,W2,...,Wn}输入到LSTM网络,以此来获得上级子网络中短文本的上下文语义信息;同理,也可在下级子网络获得短文本的字符级上下文语义信息。
步骤S40,将短文本的语义信息与知识信息的向量矩阵或关键字的向量矩阵进行注意力计算获得知识信息或关键词的向量。
具体的,短文本的知识信息和关键词能够补充短文本的特征信息,有助于确定短文本的类标签。在上级子网络中,将短文本语义信息与知识信息编码注意力计算。而在下级子网络中,将短文本语义信息与关键词编码进行注意力计算,在此提出了一种上下文相关的注意力机制,根据短文本的上下文所蕴含的语义信息对概念或关键词的权重进行计算。
步骤S50,利用卷积神经网络对向量与向量矩阵进行特征提取获得短文本分类结果。
具体的,卷积神经网络(CNN)能够从短文本中提取出更多的特征信息。在上级子网络中我们将短文本的语义信息和知识信息的向量进行拼接处理作为上级子网络的输入,在下级子网络中我们将短文本的语义信息和关键词的向量进行拼接处理作为下级子网络的输入,利用卷积神经网络对上下级子网络的输入进行卷积、池化与分类处理,得到上下级子网络的分类结果,对上下级网络的分类结果做聚合分类处理,获得最终的短文本分类结果。
从上述技术方案可以看出,本申请实施例一的短文本分类方法,通过确定短文本的知识信息与关键词来拓展短文本的表示范围,但是现有的分类方法对知识信息的嵌入仅仅是静态的,并没有关注到短文本上下文的一个语义信息,因此提出了一种基于上下文的自注意力机制,通过上下文信息有选择对知识信息进行嵌入。此外,在之前的分类方法中往往忽略了当知识信息不足时所产生的影响,因此,本发明提出了采用卷积神经网络对关键词与知识信息的向量与短文本的语义信息的特征信息提取出来,将知识信息与关键词的特征进行聚合分类,获得最终的短文本分类结果,实现对短文本的从不同粒度上产生更为细致的分类结果以此来提升分类的准确性。
下面对本申请实施例一提供的短文本分类方法的各个步骤的可行执行方式进行描述。
在上述实施例一的基础上,本申请更进一步的一个实施例中,对短文本进行实体识别,获得短文本的实体集,对实体集进行识别确定短文本的知识信息。
具体的,此处如何确定短文本的知识信息已在上述步骤S10叙述清楚,此处不再叙述。
在上述实施例的基础上,本申请更进一步的一个实施例中,将短文本、知识信息与关键词输入到神经网络模型嵌入层,采用词向量模型对嵌入层的短文本、知识信息与关键词进行预训练,获得短文本、知识信息以及关键词的向量表示。
具体的,在上级子网络的嵌入层中,我们将单词和概念嵌入到高维向量空间。在这里我们使用Word2vec模型预训练的词向量来获得每个单词的向量表示。Ww,Wc分别表示为单词、知识信息的嵌入表示。具体公式如下
Figure BDA0003347190030000061
Figure BDA0003347190030000062
其中,需要说明的是一个短文本包含多个单词,比如张三今天去果园种植了许多果树;这句文本中,出现多个的词汇,如果园,果树与种植等;
Figure BDA0003347190030000063
在本申请的所有实施例中均表示拼接操作,m与n分别表示单词、知识信息的最大词个数,其中
Figure BDA0003347190030000064
为第i个单词的向量表示,
Figure BDA0003347190030000065
为第i个知识信息的向量表示,最终通过拼接操作获得短文本的向量表示Ww与知识信息的向量表示Wc。如果文本与知识信息的向量长度不够,使用0来进行填充。
Figure BDA0003347190030000071
Figure BDA0003347190030000072
在下级子网络中,我们使用一个标准卷积神经网络(CNN)来获得第i个单词的字符级向量表示
Figure BDA0003347190030000073
与第i个关键词的字符级向量表示
Figure BDA0003347190030000074
其中,t、v分别是单词、关键词的最大个数,通过与上级子网络同样的拼接操作获得字符级的短文本和关键词集合的向量矩阵Ew,Ek
在上述实施例一的基础上,本申请更进一步的一个实施例中,将短文本与知识信息的向量表示在神经网络模型的上级子网络中进行拼接,获得知识信息的向量矩阵;
采用卷积神经网络对短文本与关键词预训练,获得短文本与关键词的字符级向量表示,将短文本与关键词的字符级向量表示在神经网络模型的下级子网络中进行拼接,获得字符级的关键词的向量矩阵。
具体的,如何获得短文本、知识信息以及关键词的向量矩阵已在上述实施例的实施方式中说明,此处不再叙述。
在上述实施例一的基础上,本申请更进一步的一个实施例中,将短文本向量矩阵与字符级的短文本的向量矩阵均输入至双向记忆网络层进行处理,分别获得上下级子网络的短文本上下文的语义信息。
具体的,由于上级子网络与下级子网络获得向量矩阵的操作一致,因此以上级子网络为例进行说明。将输入单元获得的词向量矩阵Ww={W1,W2,...,Wn}输入到LSTM网络,以此来获得文本的上下文语义信息。前向的LSTM按照正常的顺序读取(W1~Wn),如下式(4),反向的LSTM按照逆序读取(Wn~W1),如下式(5):
Figure BDA0003347190030000075
Figure BDA0003347190030000076
Figure BDA0003347190030000077
其中,ht表示t时刻的神经元输出,wi表示第i个短文本向量。合并第t时刻每个正向输出
Figure BDA0003347190030000078
和反向输入
Figure BDA0003347190030000079
得到最终的ht,如上式(6),我们用Hsup表示上级子网络的语义表示,即最终的ht,即Hsup={h1,h2,...,ht}。同上级子网络的运算步骤相同,将Ew={E1,E2,...,Et}输入到下级子网络中的LSTM网络中获得下级子网络的语义表示Hsub
在下级子网络中,计算方式与上级子网络相同,下级子网络中的Q,K,V向量皆等于Hsub,通过与上级子网络相同的运算方式获得最终的Ek
在上述实施例一的基础上,本申请更进一步的一个实施例中,在上级子网络中,将短文本上下文的语义信息与知识信息进行注意力计算,获得知识信息的自注意力结果,计算知识信息的自注意力结果与语义信息的乘积,对每个乘积进行拼接,获得知识信息的向量;
在下级子网络中,将短文本上下文的语义信息与关键词进行注意力计算,获得关键词的自注意力结果,计算关键词的自注意力结果与语义信息的乘积,对每个乘积进行拼接,获得关键词的向量。
具体的,由于下级子网络的计算方式与上级子网络相同,因此以上级子网络为例进行解释说明,首先使用缩放点积注意力机制,去捕捉句子间的单词与单词间依赖关系,学习句子的内部结构。给定查询向量Q,键矩阵K和值矩阵V。其中Q,K,V是三个值相同的矩阵且都等于Hsup,2r表示缩放因子,r表示上级子网络的神经元个数。将计算所得的结果A,进行最大池化操作,如下式(8),以每个维度上的最大值来表示短文本的单词的依赖关系。具体公式如下所示:
Figure BDA0003347190030000081
p=maxpool(A) (8)
计算所得p之后,为了计算在上级子网络中知识信息对于文本的重要程度,我们提出了基于上下文的注意力计算,具体公式如下:
yi=softmax(a1(tanh(a2[ci;p]+b2))) (9)
Figure BDA0003347190030000082
yi表示概念对于文本的权重,较大的y表示此概念/关键词对于短文本的重要性更大。tanh是双曲正切函数,使用softmax函数将注意力结果归一到[0,1]的范围之内。
Figure BDA0003347190030000083
表示权重矩阵,
Figure BDA0003347190030000084
表示权重向量,R为向量空间表示,dr表示超参数,b2表示偏移向量。最后将计算所得权重yi乘以
Figure BDA0003347190030000085
并进行拼接操作得到最终的Wc,如上式(10)。
在上述实施例一的基础上,本申请更进一步的一个实施例中,注意力计算的计算式为yi=softmax(a1(tanh(a2[ci;p]+b2)));其中,yi表示知识信息或关键词对于短文本的权重,tanh表示双曲正切函数,softmax表示将自注意力结果进行归一化处理,
Figure BDA0003347190030000091
表示权重矩阵,
Figure BDA0003347190030000092
表示权重向量,b2表示偏移向量,p表示中间结果,W表示向量,ci表示在上级子网络中表示第i个知识向量和在下级子网络中表示第i个关键字向量。
具体的,上一个实施例已经解释了如何进行注意力计算,因此此处不再叙述。
在上述实施例一的基础上,本申请更进一步的一个实施例中,在上级子网络中对知识信息的向量与短文本的向量矩阵进行拼接,通过二维卷积神经网络对拼接后的矩阵进行特征提取获得特征向量,将特征向量通过上级子网络的全连接层进行分类获得上级子网络的分类结果;
在下级子网络中对关键字的向量与关键词的向量矩阵进行拼接,通过二维卷积神经网络对拼接后的矩阵进行特征提取获得特征向量,将特征向量通过下级子网络的全连接层进行分类获得下级子网络的分类结果;
将上级子网络的分类结果与下级子网络的分类结果进行联合分类,获得短文本的分类结果。
具体的,在上级子网络中我们将短文本的语义信息Hsup和Wc拼接作为输入即Wsup,在下级子网络中我们将Hsub和Ek拼接作为输入即Wsub。相应公式如下:
Figure BDA0003347190030000093
Figure BDA0003347190030000094
其中,
Figure BDA0003347190030000095
m表示词向量维度,nc/nk表示概念/关键词的个数,R为向量空间表示。接下来,使用CNN模型分别对上下级子网络进行卷积、池化、分类操作。
首先使用宽度固定为m,不同高度h的卷积核进行分别对Wsup,Wsub卷积操作,以此来来提取短文本的特征生成一组特征向量vi。将生成的特征向量[v1;vi]经过激活函数relu进行激活。具体公式如下:
Ssup=relu(w·vi+b) (13)
其中,w是与vi维度相同的权重矩阵,b表示偏移向量。通过相同的运算获得下级子网络的Ssub
在池化层,使用Max Pooling,将某区域中的最大值作为代表进行输出,从特征图中提取固定长度的向量Ti。以此来提高神经网络模型的泛化能力,并减少网络参数。在CNN池化操作之后,我们引入一个全连接的softmax(·)层分别对上下级进行分类操作。最终将上下级子网络的分类结果进行联合分类,获得最后的分类结果Output,如图2所示,具体公式如下:
Figure BDA0003347190030000101
综合上述技术方案,如图2所示,图2为所提出的短文本网络分类模型,模型总体由上下两级网络构成,上下级网络各包括四个单元。在上级网络中一共有四个单元,我们首先利用外部知识库(Probase)将短文本进行概念化,其次利用预训练的词向量生成相应的词向量矩阵,将文本的向量矩阵输入到LSTM网络中得到文本的语义表示。第三将语义表示与概念词向量矩阵经过动态的注意力机制得到知识信息的向量。最后将语义表示与知识信息的向量连接在一起通过CNN网络完成分类。而在下级网络中,我们利用Yake关键字自动提取算法,得到短文本中的关键词,并通过字符级特征生成对应的向量表示,下级网络中其他单元与上级子网络保持一致,用关键词信息替换知识念信息。最终将上下级网络的分类结果联合在一起,用一个输出层获取每个类的概率。
实施例二
基于同一构思,本实施例二提供了一种短文本分类装置,本实施例的短文本的分类装置可应用于计算机以及一些其它的电子设备,用以执行上述实施例一所述的短文本分类方法,如图3所示,其示出了本申请实施例二提供的短文本分类装置的结构框图,包括确定单元110、拼接单元120、处理单元130、计算单元140与分类单元150;
所述确定单元110,用于确定短文本的知识信息与关键词;
所述拼接单元120,用于将短文本、知识信息与关键词嵌入向量空间进行拼接,获得短文本、知识信息与关键词的向量矩阵;
所述处理单元130,用于采用双向记忆网络层对短文本向量矩阵进行处理获得短文本的语义信息;
所述计算单元140,用于将短文本的语义信息与知识信息的向量矩阵或关键字的向量矩阵进行注意力计算获得知识信息或关键词的向量;
所述分类单元150,用于利用卷积神经网络对向量与向量矩阵进行特征提取获得短文本分类结果。
从上述技术方案可以看出,本申请实施例二的短文本分类装置,通过确定短文本的知识信息与关键词来拓展短文本的表示范围,但是现有的分类方法对知识信息的嵌入仅仅是静态的,并没有关注到短文本上下文的一个语义信息,因此提出了一种基于上下文的自注意力机制,通过上下文信息有选择对知识信息进行嵌入。此外,在之前的分类方法中往往忽略了当知识信息不足时所产生的影响,因此,本发明提出了采用卷积神经网络对关键词与知识信息的向量与短文本的语义信息的特征信息提取出来,将知识信息与关键词的特征进行聚合分类,获得最终的短文本分类结果,实现对短文本的从不同粒度上产生更为细致的分类结果以此来提升分类的准确性。
可选的,确定单元110,还用于对短文本进行实体识别,获得短文本的实体集,对实体集进行识别确定短文本的知识信息。
可选的,拼接单元120,还用于将短文本、知识信息与关键词输入到神经网络模型嵌入层,采用词向量模型对嵌入层的短文本、知识信息与关键词进行预训练,获得短文本、知识信息以及关键词的向量表示。
可选的,拼接单元120包括第一拼接单元与第二拼接单元,第一拼接单元用于将短文本与知识信息的向量表示在神经网络模型的上级子网络中进行拼接,获得知识信息的向量矩阵;
第二拼接单元用于采用卷积神经网络对短文本与关键词预训练,获得短文本与关键词的字符级向量表示,将短文本与关键词的字符级向量表示在神经网络模型的下级子网络中进行拼接,获得字符级的关键词的向量矩阵。
可选的,计算单元140,用于将短文本向量矩阵与字符级的短文本的向量矩阵均输入至双向记忆网络层进行处理,分别获得上下级子网络的短文本上下文的语义信息。
可选的,计算单元140,还用于在上级子网络中,将短文本上下文的语义信息与知识信息进行注意力计算,获得知识信息的自注意力结果,计算知识信息的自注意力结果与语义信息的乘积,对每个乘积进行拼接,获得知识信息的向量;
在下级子网络中,将短文本上下文的语义信息与关键词进行注意力计算,获得关键词的自注意力结果,计算关键词的自注意力结果与语义信息的乘积,对每个乘积进行拼接,获得关键词的向量。
可选的,注意力计算的计算式为yi=softmax(a1(tanh(a2[ci;p]+b2)));其中,yi表示知识信息或关键词对于短文本的权重,tanh表示双曲正切函数,softmax表示将自注意力结果进行归一化处理,
Figure BDA0003347190030000111
表示权重矩阵,
Figure BDA0003347190030000112
表示权重向量,b2表示偏移向量,p表示中间结果,W表示向量,ci表示在上级子网络中表示第i个知识向量和在下级子网络中表示第i个关键字向量。
可选的,在上级子网络中对知识信息的向量与短文本的向量矩阵进行拼接,通过二维卷积神经网络对拼接后的矩阵进行特征提取获得特征向量,将特征向量通过上级子网络的全连接层进行分类获得上级子网络的分类结果;
在下级子网络中对关键字的向量与关键词的向量矩阵进行拼接,通过二维卷积神经网络对拼接后的矩阵进行特征提取获得特征向量,将特征向量通过下级子网络的全连接层进行分类获得下级子网络的分类结果;
将上级子网络的分类结果与下级子网络的分类结果进行联合分类,获得短文本的分类结果。
对于上述本申请实施例二提供的短文本分类装置的各个单元的可行执行方式均已在上述实施例一短文本分类方法中叙述,因此此处不再叙述。
实施例三
基于同一构思,如图4所示,本申请实施例三提供一种电子设备,包括存储器330、处理器310以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实现实施例一提供的所述分类方法的步骤。
图4为本发明实施例三提供的电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各实施例提供的文本分类方法,例如包括:确定短文本的知识信息与关键词;将短文本、知识信息与关键词嵌入向量空间进行拼接,获得短文本、知识信息与关键词的向量矩阵;采用双向记忆网络层对短文本向量矩阵进行处理获得短文本的语义信息;将短文本的语义信息与知识信息的向量矩阵和关键字的向量矩阵进行注意力计算获得短文本的知识信息或关键词的向量;利用卷积神经网络对短文本的向量与语义信息进行特征提取获得短文本分类结果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种短文本分类方法,其特征在于,包括以下步骤:
确定短文本的知识信息与关键词;
将短文本、知识信息与关键词嵌入向量空间进行拼接,获得短文本、知识信息与关键词的向量矩阵;
采用双向记忆网络层对短文本向量矩阵进行处理获得短文本的语义信息;
将短文本的语义信息与知识信息的向量矩阵或关键字的向量矩阵进行注意力计算获得知识信息或关键词的向量;
利用卷积神经网络对向量与向量矩阵进行特征提取获得短文本分类结果。
2.根据权利要求1所述的一种短文本分类方法,其特征在于,对短文本进行实体识别,获得短文本的实体集,对实体集进行识别确定短文本的知识信息。
3.根据权利要求2所述的一种短文本分类方法,其特征在于,将短文本、知识信息与关键词输入到神经网络模型嵌入层,采用词向量模型对嵌入层的短文本、知识信息与关键词进行预训练,获得短文本、知识信息以及关键词的向量表示。
4.根据权利要求3所述的一种短文本分类方法,其特征在于,将短文本与知识信息的向量表示在神经网络模型的上级子网络中进行拼接,获得知识信息的向量矩阵;
采用卷积神经网络对短文本与关键词预训练,获得短文本与关键词的字符级向量表示,将短文本与关键词的字符级向量表示在神经网络模型的下级子网络中进行拼接,获得字符级的关键词的向量矩阵。
5.根据权利要求4所述的一种短文本分类方法,其特征在于,将短文本向量矩阵与字符级的短文本的向量矩阵均输入至双向记忆网络层进行处理,分别获得上下级子网络的短文本上下文的语义信息。
6.根据权利要求4-5任一项所述的一种短文本分类方法,其特征在于,在上级子网络中,将短文本上下文的语义信息与知识信息进行注意力计算,获得知识信息的自注意力结果,计算知识信息的自注意力结果与语义信息的乘积,对每个乘积进行拼接,获得知识信息的向量;
在下级子网络中,将短文本上下文的语义信息与关键词进行注意力计算,获得关键词的自注意力结果,计算关键词的自注意力结果与语义信息的乘积,对每个乘积进行拼接,获得关键词的向量。
7.根据权利要求6所述的一种短文本分类方法,其特征在于,
注意力计算的计算式为yi=softmax(a1(tanh(a2[ci;p]+b2)));其中,yi表示知识信息或关键词对于短文本的权重,tanh表示双曲正切函数,softmax表示将自注意力结果进行归一化处理,
Figure FDA0003347190020000021
表示权重矩阵,
Figure FDA0003347190020000022
表示权重向量,b2表示偏移向量,p表示中间结果,W表示向量,ci表示在上级子网络中表示第i个知识向量和在下级子网络中表示第i个关键字向量。
8.根据权利要求6所述的一种短文本分类方法,其特征在于,
在上级子网络中对知识信息的向量与短文本的向量矩阵进行拼接,通过二维卷积神经网络对拼接后的矩阵进行特征提取获得特征向量,将特征向量通过上级子网络的全连接层进行分类获得上级子网络的分类结果;
在下级子网络中对关键字的向量与关键词的向量矩阵进行拼接,通过二维卷积神经网络对拼接后的矩阵进行特征提取获得特征向量,将特征向量通过下级子网络的全连接层进行分类获得下级子网络的分类结果;
将上级子网络的分类结果与下级子网络的分类结果进行联合分类,获得短文本的分类结果。
9.一种基于关键词与知识信息的短文本分类装置,其特征在于,包括确定单元、拼接单元、处理单元、计算单元与分类单元;
所述确定单元,用于确定短文本的知识信息与关键词;
所述拼接单元,用于将短文本、知识信息与关键词嵌入向量空间进行拼接,获得短文本、知识信息与关键词的向量矩阵;
所述处理单元,用于采用双向记忆网络层对短文本向量矩阵进行处理获得短文本的语义信息;
所述计算单元,用于将短文本的语义信息与知识信息的向量矩阵或关键字的向量矩阵进行注意力计算获得知识信息或关键词的向量;
所述分类单元,用于利用卷积神经网络对向量与向量矩阵进行特征提取获得短文本分类结果。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述分类方法的步骤。
CN202111326798.5A 2021-11-10 2021-11-10 一种短文本分类方法、装置及电子设备 Active CN113987188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111326798.5A CN113987188B (zh) 2021-11-10 2021-11-10 一种短文本分类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111326798.5A CN113987188B (zh) 2021-11-10 2021-11-10 一种短文本分类方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113987188A true CN113987188A (zh) 2022-01-28
CN113987188B CN113987188B (zh) 2022-07-08

Family

ID=79747702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111326798.5A Active CN113987188B (zh) 2021-11-10 2021-11-10 一种短文本分类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113987188B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943232A (zh) * 2022-05-23 2022-08-26 国泰君安证券股份有限公司 基于指示词实现金融领域合同要素抽取分析的方法、装置、处理器及其计算机可读存储介质
CN114996455A (zh) * 2022-06-08 2022-09-02 浙江工业大学 一种基于双知识图谱的新闻标题短文本分类方法
CN115048515A (zh) * 2022-06-09 2022-09-13 广西力意智能科技有限公司 文档分类方法、装置、设备和存储介质
CN115617990A (zh) * 2022-09-28 2023-01-17 浙江大学 基于深度学习算法的电力设备缺陷短文本分类方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
KR20180112590A (ko) * 2017-04-04 2018-10-12 한국전자통신연구원 멀티미디어 지식 베이스 구축 시스템 및 방법
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN110321562A (zh) * 2019-06-28 2019-10-11 广州探迹科技有限公司 一种基于bert的短文本匹配方法及装置
CN111460142A (zh) * 2020-03-06 2020-07-28 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN113515632A (zh) * 2021-06-30 2021-10-19 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于图路径知识萃取的文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
KR20180112590A (ko) * 2017-04-04 2018-10-12 한국전자통신연구원 멀티미디어 지식 베이스 구축 시스템 및 방법
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN110321562A (zh) * 2019-06-28 2019-10-11 广州探迹科技有限公司 一种基于bert的短文本匹配方法及装置
CN111460142A (zh) * 2020-03-06 2020-07-28 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN113515632A (zh) * 2021-06-30 2021-10-19 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于图路径知识萃取的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵云飞: "融合主题模型与词向量的短文本分类方法研究", 《中国优秀硕士学位论文全文库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943232A (zh) * 2022-05-23 2022-08-26 国泰君安证券股份有限公司 基于指示词实现金融领域合同要素抽取分析的方法、装置、处理器及其计算机可读存储介质
CN114996455A (zh) * 2022-06-08 2022-09-02 浙江工业大学 一种基于双知识图谱的新闻标题短文本分类方法
CN114996455B (zh) * 2022-06-08 2025-03-04 浙江工业大学 一种基于双知识图谱的新闻标题短文本分类方法
CN115048515A (zh) * 2022-06-09 2022-09-13 广西力意智能科技有限公司 文档分类方法、装置、设备和存储介质
CN115617990A (zh) * 2022-09-28 2023-01-17 浙江大学 基于深度学习算法的电力设备缺陷短文本分类方法和系统
CN115617990B (zh) * 2022-09-28 2023-09-05 浙江大学 基于深度学习算法的电力设备缺陷短文本分类方法和系统

Also Published As

Publication number Publication date
CN113987188B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN111126069B (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
US12079696B2 (en) Machine learning model training method and device, and expression image classification method and device
CN113987188B (zh) 一种短文本分类方法、装置及电子设备
CN110222140B (zh) 一种基于对抗学习和非对称哈希的跨模态检索方法
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN111259144A (zh) 多模型融合文本匹配方法、装置、设备和存储介质
CN111368037B (zh) 基于Bert模型的文本相似度计算方法和装置
CN107341510B (zh) 基于稀疏正交的双图非负矩阵分解的图像聚类方法
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN113407660A (zh) 非结构化文本事件抽取方法
Liang et al. An expressive deep model for human action parsing from a single image
JP6107531B2 (ja) 特徴抽出プログラム及び情報処理装置
CN115168579A (zh) 一种基于多头注意力机制和二维卷积操作的文本分类方法
CN110968697A (zh) 文本分类方法、装置、设备及可读存储介质
CN111723572A (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN111488732A (zh) 一种变形关键词检测方法、系统及相关设备
CN113761188A (zh) 文本标签确定方法、装置、计算机设备和存储介质
CN111898704A (zh) 对内容样本进行聚类的方法和装置
CN110674716B (zh) 图像识别方法、装置和存储介质
Younis et al. A new parallel bat algorithm for musical note recognition.
Wu et al. Text classification using triplet capsule networks
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant