CN111177383B - 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 - Google Patents
一种融合文本语法结构和语义信息的文本实体关系自动分类方法 Download PDFInfo
- Publication number
- CN111177383B CN111177383B CN201911345630.1A CN201911345630A CN111177383B CN 111177383 B CN111177383 B CN 111177383B CN 201911345630 A CN201911345630 A CN 201911345630A CN 111177383 B CN111177383 B CN 111177383B
- Authority
- CN
- China
- Prior art keywords
- sentence
- vector
- text
- entity
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合文本语法结构和语义信息的文本实体关系自动分类方法。该方法的具体实施步骤如下:(1)、对文本集预处理得到句子初始向量;(2)、提取句中词语与实体及关系的相关度,更新句子向量;(3)、将(2)的句子向量输入双向门循环单元神经网络,得到融合语义信息的句子向量;(4)、将(2)的句子向量输入图注意力神经网络,得到融合语法结构信息的句子向量;(5)、将(3)的输出和(4)的输出进行拼接,更新句子向量;(6)、将(5)的句子向量输入全连接神经网络层,得到句子的特征向量,经softmax变换输出实体关系分类向量。本方法能够有效缓解实体关系分类中语义特征、语法特征难以表示及人工特征选择误差大的问题。
Description
技术领域
本发明涉及文本挖掘和深度学习领域,更具体的说,涉及一种融合文本语法结构和语义信息的文本实体关系自动分类方法。
背景技术
传统的利用机器学习的实体关系分类方法,如支持向量机,需要构造大量的词汇、句法和语义特征,并且这些特征无法很好的进行跨领域的复用,极大的限制了方法的使用范围。传统利用神经网络进行实体关系分类的方法,如双向循环记忆神经网络和卷积神经网络,仅简单使用地文本中词汇与向量之间的直接映射,忽略了实体及关系本身对于句子中词汇的影响,造成实体及关系的有效信息无法被充分地利用,因而分类准确性不高;一些利用句子语法结构的实体关系分类的神经网络方法,如基于最短依存路径的神经网络方法,忽略句子中其他成分对实体关系本身的影响情况,造成实体之外的词汇信息丢失,无法有效地获取除实体外的环境词对实体关系的正向影响。
发明内容
针对现有技术存在的缺陷,本发明的目的是提供一种融合文本语法结构和语义信息的文本实体关系自动分类方法。利用文本实体特征、关系(谓语动词)特征、句子上下文语义特征及语法结构特征,并向量化将其融合拼接进行文本中实体关系自动分类,有效地缓解实体关系分类中语义特征提取难、语法特征难以表示及人工特征选择误差大的问题。该方法可以应用于构建知识图谱、开发自动问答系统及信息检索等领域。
为了达到上述目的,本发明的构思如下:
利用注意力神经网络提取句中词语与实体及关系的相关度信息,降低相关度小的噪音词对关系分类的影响;利用双向门循环单元神经网络提取文本上下文语义信息;利用图注意力神经网络提取文本语法特征信息。通过文本的词汇相关度特征、上下文语义特征及语法特征互补的方式,完成对文本中实体关系的自动分类。
根据上述的发明思想,本发明采用下述技术方案:
一种融合文本语法结构和语义信息的文本实体关系自动分类方法,具体步骤如下:
(1)获取互联网公开的文本集信息并进行预处理,得到句子的初始向量;
(2)从步骤(1)得到的句子初始向量中,提取句中词语与实体及关系的相关度,更新句子向量;
(3)将步骤(2)得到的句子向量输入到双向门循环单元神经网络,得到融合语义信息的句子向量;
(4)将步骤(2)得到的句子向量输入到图注意力神经网络,得到融合语法结构信息的句子向量;
(5)对每个句子,将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接,更新句子向量;
(6)将步骤(5)得到的句子向量输入到全连接神经网络层,得到句子的特征向量;该特征向量经过softmax变换输出实体关系分类向量,其每一维表示句中实体关系属于对应类别的概率。
所述步骤(1)中获取互联网公开的文本训练集信息并进行预处理,得到句子的初始向量,其过程如下:
对词语缩写形式还原;使用StandfordCoreNLP工具对数据文本进行切分词,词性标注、去除文本中的副词,形容词;构建句子词汇间的邻接矩阵和依存语法分析树;利用glove词向量映射出句子中每个词语的向量表示,得到句子的初始向量S0={w1,w2,...,wn},其中n为句子的最大长度,wi为句中每个词的向量,维度为300维。
所述步骤(2)中从步骤(1)得到的句子初始向量中提取句中词语与实体及关系的相关度,其过程如下:
(2-1)依照步骤(1)输出的句子向量分S0={w1,w2,...,wn},输入句中词语与两个实体的所构建的相对位置矩阵E1pos和E2pos,E1pos为句中词语与实体l的相对位置,E1pos={pos1,pos2,...,posn},实体1在句中的位置e1,则posi=i-e1,把posi重新映射到预设维度为20的张量上,其中张量采用均匀分布随机初始化生成;同理计算实体2相对位置矩阵E2pos,将S0、E1pos和E2pos进行拼接,得到更新后的S0,其维度为340;
(2-2)从(2-1)更新后的S0中抽取出代表实体1、实体2和关系的向量化表示分别为We1、We2与wr;计算Ae1=f(S0,we1),其中f为矩阵的内积运算,Ae1为句子中每个词语与实体1所计算出的相关度,Ae1={a1,a2,...,an},ai为句中第i词语与实体1的相关度表示;同理构造Ae2和Ar,三者的维度均为句子的长度n;对Ae1、Ae2和Ar三个向量的各个分量分别使用如下softmax进行归一化处理后得到三个新的向量A1,A2和A3:
把A1,A2和A3三个向量各个对应分量求和取平均得到句子的词语与实体及关系的相关度句子向量更新计算公式为S0=A×S0。
所述步骤(3)中将步骤(2)得到的句子向量输入到双向门循环单元神经网络,得到融合语义信息的句子向量,其过程如下:
将(2-2)更新后的句子表示S0={w1,w2,...,wn}输入双向门循环单元神经网络,得到语义有效信息为H={h1,h2,...,hn},hi为GRU各个隐藏层的最终输出;双向门循环单元神经网络的参数包括:隐层数为2,输出空间维度为units=128,故总的输出空间维度为n*256;学习率为0.0001,丢弃率为0.3。
所述步骤(4)中将步骤(2)得到的句子向量输入到图注意力神经网络,得到融合语法结构信息的句子向量,其过程如下:
对于步骤(2)中所得到的邻接矩阵adj的具体表示如下:
其中n为文本句子中的单词个数,令ae1,i=1和ae2,i=1;将(2-2)更新后的句子表示S0={w1,w2,...,wn}和邻接矩阵adj输入于图注意力神经网络,相关设置包括Attentionhead=32,每个head学习不同表示空间中的特征并输出8维的特征向量,即总输出是对每个head进行拼接后得到8*32维度的向量;丢弃率为0.4;激活函数使用relu函数,初始化器使用的使Glorot均匀分布初始化器,得到的最终结果使用拼接的方式进行输出,最后输出得到每个句子的语法结构信息G={g1,g2,...,gn},G的维度为n*256。
所述步骤(5)中对每个句子,将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接,其过程如下:
(5-1)利用注意力神经网络提取步骤(3)的输出H={h1,h2,...,hn}中对关系影响最大的特征成分,即att=Attention(q,H),q为当前分类任务所需要匹配的特征向量,att的维度为256;
(5-2)将步骤(4)输出的语法结构信息G进行全局最大池化,保留语法结构中最显著的特征信息,输出为g=GlobalMaxPooling1D(G),得到全局语法特征的最大值,g的维度大小为256;
(5-3)对句中的语义信息att与语法信息g进行拼接处理;对att与g在最后一个维度上进行拼接,得到融合语法和语义关系的句子向量c=concat(att,g)。
所述步骤(6)中将步骤(5)得到的句子向量输入到全连接神经网络层,得到句子的特征向量;该特征向量经过softmax变换输出实体关系分类向量,其每一维表示句中实体关系属于对应类别的概率,其过程如下:
将(5-3)输出的句子向量c表示输入到神经网络全连接神经层,全连接层包含两层,其维度分别是300与m,m为预定分类类别的数量,输出为一个m维的张量result;经过result=softmax(result),得到的result在每一维对应的概率值均在0到1之间,为该实体对属于对应类别的概率。
与现有技术相比,本发明具有如下的优点:
本发明方法将文本实体特征、关系特征、句子上下文语义特征及语法结构特征相融合并向量化,有效地缓解实体关系分类中语义特征提取难、语法特征难以表示及人工特征选择误差大的问题。
附图说明
图1是融合文本语法结构和语义信息的神经网络实体文本关系自动分类的流程图。
具体实施方式
以下结合附图对本发明的实施方法进一步的详细描述。
如图1所示,一种融合文本语法结构和语义信息的文本实体关系自动分类方法,具体步骤如下:
步骤(1):获取互联网公开的文本训练集信息并进行预处理,得到句子的初始向量。
获取互联网公开ACL数据集SemEval2010_task8数据集特征为:包含19类关系,其中主要关系分为{Message-Topic(e1,e2),Product-Producer(e1,e2),Instrument-Agency(e1,e2),Entity-Destination(e1,e2),Cause-Effect(e1,e2),Component-Whole(e1,e2),Entity-Origin(e1,e2),Member-Collection(e1,e2),Content-Container(e1,e2)}这9类关系,其中e1与e2存在顺序关系,外加一个other类关系,即实体间的关系并不再上述9*2种范围内。具体的统计结果请参考表1。
句子样例:“<e1>People</e1>have been moving back into<e2>downtown</e2>.”关系:Entity-Destination(e1,e2)。
对获取的互联网文本数据集信息进行预处理。对词语之间的缩写形式还原;使用StanfordCoreNLP工具对数据文本进行切分词,词性标注及构建依存语法分析树;去除文本中的副词,形容词;构建句子词汇间的邻接矩阵;构建句子中词汇与句中实体的相对位置矩阵;构建实体与谓语动词在句子中的位置标识矩阵。
使用Glove预训练好的词向量对数据集的文本数据进行向量化转换,其中用于调整方法中参数的训练集为8000条句子,测试集为2717条句子。具体请参考表1。
表1互联网公开ACL数据集SemEval2010_task8数据集统计结果
每个词向量w表示形式类似如下一串数字,其维度为300:
0.04269 -0.4018 0.014288 0.41628 0.017165 0.071732 0.0069246 0.18107
-0.15412 0.14933 -0.030493 0.29918 0.029479 -0.036147 -0.0644250.083918
-0.12398 -0.10077 -0.0054142 0.3371 -0.25612 0.44388
提取句子中实体及实体对之间的词汇集合,包含词语的个数为n,通过对句中每个词对词向量的映射得到n×m的向量,即句子向量表示为S0={w1,w2,…,wn}。
步骤(2):从步骤(1)得到的句子初始向量中提取句中词语与实体及关系的相关度,更新句子向量。
提取句子中词汇与句中实体的相对位置矩阵,具体E1pos={pos1,pos2,…,posn},posi=i-e1,其中若句子的原本长度<n,则用数值n+1补齐,然后通过位置向量映射层,其中位置向量使用Glorot均匀分布初始化器的方式进行矩阵初始化(它从[-limit,limit]中的均匀分布中抽取样本,其中limit是sqrt(6/(fan_in+fan_out)),fan_in是权值张量中的输入单位的数量,fan_out是权值张量中的输出单位的数量)。把长度为n的E1pos映射为形状为n*20的位置向量矩阵。同理构建E2pos。
将S0、E1pos和E2pos进行拼接,得到更新后的S0=[S0,E1pos,E2pos],S0维度为n*340。
训练实体关系分类方法,用于对进行预处理后的数据文本信息抽取部分文本根据融合文本语法结构和语义信息的文本实体关系自动分类方法进行训练,得到实体关系分类方法。
从S0中抽取出代表实体1、实体2和关系(谓语动词)的向量化表示分别为we1、we2与wr。
使用词向量的乘积来衡量句中词语之间的相关度信息。Ae1=f(S0,we1),其中f为矩阵的内积运算,Ae1为句子中每个词语与实体1所计算出的相关度构成,其具体表示为Ae1={a1,a2,...,an},其中ai为句中第i词语与实体1的相关度表示,同理构造Ae2和Ar。三者的维度均为句子的长度n。对Ae1、Ae2和Ar三个向量的各个分量分别使用如下softmax进行归一化处理后得到三个新的向量A1,A2和A3:
把A1,A2和A3三个向量各个对应分量求和取平均得到句子的词语与实体及关系的相关度句子向量更新计算公式为S0=A×S0。
步骤(3):将步骤(2)得到的句子向量输入到双向门循环单元神经网络,得到融合语义信息的句子向量。
利用双向门循环单元神经网络(双向GRU)对文本信息进行语义信息提取,具体如下:输入信息为上一步得到的最终输出的句子表示S0={w1,w2,...,wn}。得到语义有效信息为H={h1,h2,...,hn},hi为GRU各个隐藏层的最终输出。双向门循环单元神经网络的参数包括:隐层数为2,输出空间维度为units=128,故总的输出空间维度为n*256;学习率为0.0001,丢弃率为0.3。
步骤(4):将步骤(2)得到的句子向量输入到图注意力神经网络,得到融合语法结构信息的句子向量。
利用图注意力神经网络对文本进行语法特征信息的提取。输入为S0={w1,w2,...,wn}与邻接矩阵adj,其中adj的表示如下:
其中n为文本句子中的单词个数,令ae1,i=1和ae2,i=1。将步骤(3)更新后的句子表示S0={w1,w2,...,wn}和邻接矩阵adj输入于图注意力神经网络,相关设置包括Attentionhead=32(每个head学习不同表示空间中的特征),每个head的输出为8维的特征向量,即总输出是对每个head进行拼接后得到8*32维度的向量;丢弃率为0.4;激活函数使用relu函数,初始化器使用的使Glorot均匀分布初始化器,得到的最终结果使用拼接的方式进行输出,最后输出得到每个句子的语法结构信息G={g1,g2,...,gn},其中G的维度为n*256。
步骤(5):对每个句子,将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接,更新句子向量。
利用注意力神经网络提取步骤(3)的输出片={h1,h2,...,hn}中对关系影响最大的特征成分,即att=Attention(q,H),q为当前分类任务所需要匹配的特征向量,att的维度为256。
将步骤(4)输出的语法结构信息G进行全局最大池化,最大化保留语法结构特征信息,输出为g=GlobalMaxPooling1D(G),得到全局语法特征的最大值,g的维度大小为256。
对句中的语义信息att与语法信息g进行拼接处理。对att与g在最后一个维度上进行拼接。最后得到用于关系分类的语法与语义的融合表示c=concat(att,g)。
步骤(6):将步骤(5)得到的句子向量输入到全连接神经网络层,得到句子的特征向量。该特征向量经过softmax变换输出实体关系分类向量,其每一维表示句中实体关系属于对应类别的概率。
把步骤(5)得到的c输入到全连接层,进一步提取相应的特征,其中全连接层包含两层,其维度分别是300与19。最终隐藏层输出的结果是一个19维(与所需分类类别一致)的张量result。经过result=softmax(result),得到的result在每一维度上的概率即为对应分到19类的概率值。
对于测试用例,具体如下:
将数据集中的测试集文本句向量输入到融合文本语法结构和语义信息的文本实体关系自动分类方法中。
输入为S={w1,w2,...,wn},S为句子向量,相对位置矩阵E1pos和E2pos,邻接矩阵adj。
输出为文本句子实体关系分类的结果。以互联网公开ACL数据集SemEval2010_task8数据集为例,它包含19类关系。对于每个文本句子,输出为该句子的实体对及关系分类向量,该向量为19维,每一维表示关于属于对应类别的概率。
请参考表2,本发明使用的方法在ACL数据集SemEval2010_task8数据集上的取得F1值为83.1%,高于SVM(支持向量机)、MV-RNN(矩阵-向量递归神经网络)、FCM(模糊聚类算法)、CNN(卷积神经网络)以及BILSTM(双向长短时记忆循环神经网络)。
表2本发明的方法与其他方法在测试集上统计F1值的对比结果
方法 | F1值 |
SVM | 82.2% |
MVRNN | 82.4% |
FCM | 83.0% |
CNN | 82.7% |
BILSTM | 82.7% |
方法 | 83.1% |
本发明将句子语法结构与语义信息相融合进行文本中实体关系自动分类,有效的解决实体关系分类中语义特征提取难、语法特征难以表示及人工特征选择误差大的问题。
Claims (2)
1.一种融合文本语法结构和语义信息的文本实体关系自动分类方法,其特征在于,具体步骤如下:
(1)获取互联网公开的文本集信息并进行预处理,得到句子的初始向量;
(2)从步骤(1)得到的句子初始向量中,提取句中词语与实体及关系的相关度,更新句子向量;
(3)将步骤(2)得到的句子向量输入到双向门循环单元神经网络,得到融合语义信息的句子向量;
(4)将步骤(2)得到的句子向量输入到图注意力神经网络,得到融合语法结构信息的句子向量;
(5)对每个句子,将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接,更新句子向量;
所述进行拼接的过程如下:
(5-1)利用注意力神经网络提取步骤(3)的输出H={h1,h2,...,hn}中对关系影响最大的特征成分,即att=Attention(q,H),q为当前分类任务所需要匹配的特征向量,att的维度为256;
(5-2)将步骤(4)输出的语法结构信息G进行全局最大池化,保留语法结构中最显著的特征信息,输出为g=GlobalMaxPooling1D(G),得到全局语法特征的最大值,g的维度大小为256;
(5-3)对句中的语义信息att与语法信息g进行拼接处理;对att与g在最后一个维度上进行拼接,得到融合语法和语义关系的句子向量c=concat(att,g);
(6)将步骤(5)得到的句子向量输入到全连接神经网络层,得到句子的特征向量;该特征向量经过softmax变换输出实体关系分类向量,其每一维表示句中实体关系属于对应类别的概率;
所述步骤(1)中获取互联网公开的文本训练集信息并进行预处理,得到句子的初始向量,其过程如下:
对词语缩写形式还原;使用StandfordCoreNLP工具对数据文本进行切分词,词性标注、去除文本中的副词,形容词;构建句子词汇间的邻接矩阵和依存语法分析树;利用glove词向量映射出句子中每个词语的向量表示,得到句子的初始向量S0={w1,w2,...,wn},其中n为句子的最大长度,wi为句中每个词的向量,维度为300维;
所述步骤(2)中从步骤(1)得到的句子初始向量中提取句中词语与实体及关系的相关度,其过程如下:
(2-1)依照步骤(1)输出的句子向量S0={w1,w2,...,wn},输入句中词语与两个实体的所构建的相对位置矩阵E1pos和E2pos,E1pos为句中词语与实体1的相对位置,E1pos={pos1,pos2,...,posn},实体1在句中的位置e1,则posi=i-e1,把posi重新映射到预设维度为20的张量上,其中张量采用均匀分布随机初始化生成;同理计算实体2相对位置矩阵E2pos,将S0、E1pos和E2pos进行拼接,得到更新后的S0,其维度为340;
(2-2)从(2-1)更新后的S0中抽取出代表实体1、实体2和关系的向量化表示分别为we1、we2与wr;计算Ae1=f(S0,we1),其中f为矩阵的内积运算,Ae1为句子中每个词语与实体1所计算出的相关度,Ae1={a1,a2,...,an},ai为句中第i词语与实体1的相关度表示;同理构造Ae2和Ar,三者的维度均为句子的长度n;对Ae1、Ae2和Ar三个向量的各个分量分别使用如下softmax进行归一化处理后得到三个新的向量A1,A2和A3:
把A1,A2和A3三个向量各个对应分量求和取平均得到句子的词语与实体及关系的相关度句子向量更新计算公式为S0=A×S0;
所述步骤(3)中将步骤(2)得到的句子向量输入到双向门循环单元神经网络,得到融合语义信息的句子向量,其过程如下:
将步骤(2-2)更新后的句子向量表示S0={w1,w2,...,wn}输入双向门循环单元神经网络,得到语义有效信息为H={h1,h2,...,hn},hi为GRU各个隐藏层的最终输出;双向门循环单元神经网络的参数包括:隐层数为2,输出空间维度为units=128,故总的输出空间维度为n*256;学习率为0.0001,丢弃率为0.3;
所述步骤(4)中将步骤(2)得到的句子向量输入到图注意力神经网络,得到融合语法结构信息的句子向量,其过程如下:
对于步骤(2)中所得到的邻接矩阵adj的具体表示如下:
其中n为文本句子中的单词个数,令ae1,i=1和ae2,i=1;将步骤(2-2)更新后的句子向量表示S0={w1,w2,...,wn}和邻接矩阵adj输入于图注意力神经网络,相关设置包括Attention head=32,每个head学习不同表示空间中的特征并输出8维的特征向量,即总输出是对每个head进行拼接后得到8*32维度的向量;丢弃率为0.4;激活函数使用relu函数,初始化器使用的使Glorot均匀分布初始化器,得到的最终结果使用拼接的方式进行输出,最后输出得到每个句子的语法结构信息G={g1,g2,...,gn},G的维度为n*256。
2.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法,其特征在于,所述步骤(6)中将步骤(5)得到的句子向量输入到全连接神经网络层,得到句子的特征向量;该特征向量经过softmax变换输出实体关系分类向量,其每一维表示句中实体关系属于对应类别的概率,其过程如下:
将(5-3)输出的句子向量c表示输入到神经网络全连接神经层,全连接层包含两层,其维度分别是300与m,m为预定分类类别的数量,输出为一个m维的张量result;经过result=softmax(result),得到的result在每一维对应的概率值均在0到1之间,对于每个文本句子,输出为该句子的实体对及关系分类向量,每一维表示关于属于对应类别的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345630.1A CN111177383B (zh) | 2019-12-24 | 2019-12-24 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345630.1A CN111177383B (zh) | 2019-12-24 | 2019-12-24 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177383A CN111177383A (zh) | 2020-05-19 |
CN111177383B true CN111177383B (zh) | 2024-01-16 |
Family
ID=70655604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911345630.1A Active CN111177383B (zh) | 2019-12-24 | 2019-12-24 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177383B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783422B (zh) | 2020-06-24 | 2022-03-04 | 北京字节跳动网络技术有限公司 | 一种文本序列生成方法、装置、设备和介质 |
CN111783474B (zh) * | 2020-07-16 | 2023-04-07 | 厦门市美亚柏科信息股份有限公司 | 一种评论文本观点信息处理方法、装置及存储介质 |
CN111813916B (zh) * | 2020-07-21 | 2024-03-05 | 华润数字科技有限公司 | 一种智能问答方法、装置、计算机设备和介质 |
CN112131887B (zh) * | 2020-09-22 | 2024-03-08 | 河南合众伟奇云智科技有限公司 | 一种基于语义要素的低资源文本识别算法 |
CN112800774B (zh) * | 2021-01-15 | 2023-07-18 | 华南理工大学 | 基于注意力机制的实体关系抽取方法、装置、介质和设备 |
CN113643212B (zh) * | 2021-08-27 | 2024-04-05 | 复旦大学 | 一种基于图神经网络的深度图降噪方法 |
CN113779220B (zh) * | 2021-09-13 | 2023-06-23 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
CN113901174A (zh) * | 2021-10-12 | 2022-01-07 | 北京沃东天骏信息技术有限公司 | 一种文本摘要抽取方法和装置 |
CN114328924A (zh) * | 2021-12-29 | 2022-04-12 | 杭州电子科技大学 | 一种基于预训练模型结合句法子树的关系分类方法 |
CN114580385A (zh) * | 2022-03-15 | 2022-06-03 | 中南大学 | 一种结合语法的文本语义相似度计算方法 |
CN118733689A (zh) * | 2024-05-31 | 2024-10-01 | 中国科学院深圳先进技术研究院 | 地理实体关系抽取方法、装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6847980B1 (en) * | 1999-07-03 | 2005-01-25 | Ana B. Benitez | Fundamental entity-relationship models for the generic audio visual data signal description |
JP2005092616A (ja) * | 2003-09-18 | 2005-04-07 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
CN104008092A (zh) * | 2014-06-10 | 2014-08-27 | 复旦大学 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
CN107180247A (zh) * | 2017-05-19 | 2017-09-19 | 中国人民解放军国防科学技术大学 | 基于选择性注意力卷积神经网络的关系分类器及其方法 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108021544A (zh) * | 2016-10-31 | 2018-05-11 | 富士通株式会社 | 对实体词的语义关系进行分类的方法、装置和电子设备 |
CN109344244A (zh) * | 2018-10-29 | 2019-02-15 | 山东大学 | 一种融合区分度信息的神经网络关系分类方法及其实现系统 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110413999A (zh) * | 2019-07-17 | 2019-11-05 | 新华三大数据技术有限公司 | 实体关系抽取方法、模型训练方法及相关装置 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US20140082003A1 (en) * | 2012-09-17 | 2014-03-20 | Digital Trowel (Israel) Ltd. | Document mining with relation extraction |
-
2019
- 2019-12-24 CN CN201911345630.1A patent/CN111177383B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6847980B1 (en) * | 1999-07-03 | 2005-01-25 | Ana B. Benitez | Fundamental entity-relationship models for the generic audio visual data signal description |
JP2005092616A (ja) * | 2003-09-18 | 2005-04-07 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
CN104008092A (zh) * | 2014-06-10 | 2014-08-27 | 复旦大学 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
CN108021544A (zh) * | 2016-10-31 | 2018-05-11 | 富士通株式会社 | 对实体词的语义关系进行分类的方法、装置和电子设备 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
CN107180247A (zh) * | 2017-05-19 | 2017-09-19 | 中国人民解放军国防科学技术大学 | 基于选择性注意力卷积神经网络的关系分类器及其方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN109344244A (zh) * | 2018-10-29 | 2019-02-15 | 山东大学 | 一种融合区分度信息的神经网络关系分类方法及其实现系统 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110413999A (zh) * | 2019-07-17 | 2019-11-05 | 新华三大数据技术有限公司 | 实体关系抽取方法、模型训练方法及相关装置 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
Non-Patent Citations (1)
Title |
---|
刘峰, 高赛 ,于碧辉, 郭放达.基于Multi-head Attention和Bi-LSTM的实体关系分类.计算机系统应用.2019,第28卷(第6期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111177383A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177383B (zh) | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108920445B (zh) | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 | |
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
Sun et al. | Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN112163426A (zh) | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 | |
CN112765312B (zh) | 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN111259144A (zh) | 多模型融合文本匹配方法、装置、设备和存储介质 | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN111709233A (zh) | 基于多注意力卷积神经网络的智能导诊方法及系统 | |
CN107301246A (zh) | 基于超深卷积神经网络结构模型的中文文本分类方法 | |
WO2017193685A1 (zh) | 社交网络中数据的处理方法和装置 | |
CN110879938A (zh) | 文本情感分类方法、装置、设备和存储介质 | |
CN110717330A (zh) | 基于深度学习的词句级短文本分类方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN111966825A (zh) | 一种基于机器学习的电网设备缺陷文本分类方法 | |
CN112949740A (zh) | 一种基于多级度量的小样本图像分类方法 | |
CN113987188B (zh) | 一种短文本分类方法、装置及电子设备 | |
CN107832290A (zh) | 中文语义关系的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |