CN107818081A - 基于深度语义模型与语义角色标注的句子相似度评估方法 - Google Patents
基于深度语义模型与语义角色标注的句子相似度评估方法 Download PDFInfo
- Publication number
- CN107818081A CN107818081A CN201710876254.3A CN201710876254A CN107818081A CN 107818081 A CN107818081 A CN 107818081A CN 201710876254 A CN201710876254 A CN 201710876254A CN 107818081 A CN107818081 A CN 107818081A
- Authority
- CN
- China
- Prior art keywords
- similarity
- semantic
- mrow
- sentence
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 title claims description 34
- 238000004364 calculation method Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 241000282414 Homo sapiens Species 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 6
- 244000025254 Cannabis sativa Species 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于深度语义模型与语义角色标注的句子相似度评估方法,将文本字符串映射到低语义空间中的特征向量,利用余弦相似度来度量两个句子之间的相似度;已有的语义角色进行保留,其他的语义角色统一进行处理;根据谓词之间的相似度的大小对句子对进行谓词的配对,得到谓词匹配对,进一步得到语义角色之间的相似计算值;将一个句子的多个谓词中每一谓词的多个语义角色进行语义搭配,计算语义角色的相似度,将深度语义模型计算出的相似度和基于语义角色计算出的相似度两部分进行线性组合作为句子的最终相似度。本发明结合语义角色,比皮尔逊相关系数提升2.226%,比SemEval2017评测官网上排名第一的结果高出0.266%。
Description
技术领域
本发明涉及一种自然语言处理技术,具体为一种基于深度语义模型与语义角色标注的句子相似度评估方法。
背景技术
句子相似度(Sentence Similarity Computing)是测量两个句子之间的语义等价性,是自然语言处理领域中十分重要而又较为基础的研究工作。如在基于实例的机器翻译中通过句子相似度计算匹配相似的句子作为翻译的候选集合、在自动问答系统中问题与答案的匹配、在信息过滤中,用于剔除可能的垃圾信息、在自动文摘中通过相似度抽取文摘句子、在分类或聚类中,用来判定句子或文档的类别等。
目前研究句子的相似度方法有吕学强等人提出的基于词形、词序匹配的方法;秦兵等人提出基于关键词的方法;潘谦红等人提出基于属性论的方法;李彬等人提出的使用语义依存计算的方法;穗志方等人提出的基于骨架依存树的方法;车万翔等人提出的改进编辑距离的方法;程传鹏等人提出的基于知网的句子相似度计算方法等等。
目前计算句子相似度的方法可分为三种:(1)基于词语特征的方法,如向量空间模型、词形、词序等;(3)基于语义的方法:如基于语义字典的方法等;(3)基于句法分析的方法,如基于依存句法分析的句子相似度计算等。
基于词语特征的方法只用了句子的表层信息,对于含有同义词、反义词等词汇的句子得不到很好的处理。基于语义字典的方法,在一定程度上解决了基于词语特征方法的不足,但这种方法依赖于语义字典的完备性,忽略了句子词语之间的相互作用关系和句子深层次的句法结构。而基于依存句法分析的方法能够挖掘句子的深层次的信息、获取句子的组织结构和词语间的依存关系,但目前使用的依存句法的方法只利用了句子的有效搭配对,忽略了其他词语对句子相似度的影响。
发明内容
针对现有技术中基于语义角色标注的句子相似度计算建立在以动词为核心的框架的相似度上,存在不能够充分利用动词及其支配的成分信息等不足,本发明提出了基于深度语义模型与语义角色标注的句子相似度计算的方法,从句子的句子结构、语义层面进行分析。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于深度语义模型与语义角色标注的句子相似度评估方法,包括以下步骤:
1)建立深度语义模型:将相对较短的文本字符串映射到低语义空间中的特征向量,获取每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的相似度;
2)语义角色分类处理:A0、A1、A2已有的语义角色进行保留,其他的语义角色统一作为一类语义角色进行处理;A0、A1、A2均为公开的语义角色标识;
3)谓词相似度计算:在语义角色分类基础上,针对多谓词句子,根据谓词之间的相似度的大小对句子对进行谓词的配对,得到谓词匹配对,分别针对多个谓词匹配对进行语义角色的计算,得到语义角色之间的相似计算值;
4)基于语义角色的句子相似度计算:根据语义角色之间相似度计算值将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配,计算语义角色的相似度,即转化为谓词之间以及相同语义角色之间的相似度计算;
5)句子相似度计算:将深度语义模型计算出的相似度和基于语义角色计算出的相似度两部分进行线性组合作为句子的最终相似度。
深度语义模型模型包括词哈希层、隐藏层以及输出层三部分,各个层的函数如下所示:
l1=W1x (1)
li=f(Wili-1+bi),i=2,...,N-1 (2)
y=f(WNlN-1+bN) (3)
其中,x为输入向量,y为输出向量,li,i=1,...,N-1为隐藏层的输出,Wi表示第i权重,bi表示第i个偏置,f(*)表示tanh激活函数;
由词哈希层生成的特征向量通过隐藏层进行投影,并在输出层形成语义特征向量;
在获取了每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的语义相似性。
谓词配对方法如下:
通过DSSM模型进行计算句子A中第i个谓词和句子B中第j个谓词之间的相似度为Sij,得到两个句子谓词之间两两之间的相似度矩阵N:
其中n、m分别为两个句子中谓词的个数;
谓词配对的具体算法如下:
301)按行搜索矩阵N中的所有元素,找到相似度最大的元素,作为句子A和句子B第一个谓词匹配对;
302)删除相似度最大的元素所对应的行与列,保证每一个谓词只与另一个谓词唯一配对;
303)将剩下的元素放在一起作为一个新的矩阵Ni,判断中元素是否为空,若是,则谓词配对结束,否则继续执行步骤301),直到所有谓词都找到唯一的配对谓词。
查找谓词匹配对时,针对SemEval2017评测官网中给定的测试语料只从矩阵N中查找相似度最大的前4个谓词,若矩阵的行或列低于4维,则根据实际情况查找谓词匹配对。
基于语义角色的句子相似度计算:将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配,计算语义角色的相似度,即转化为谓词之间以及相同语义角色之间的相似度计算,具体为:
设A、B句子中相似度最大的谓词分别为A1、B1,针对每一个谓词匹配对的相似度定义为:
其中,n、m分别为句子A和句子B中所对应谓词的语义角色的个数,为语义角色ri、rj之间的相似度,S(VA1,VB1)表示两个谓词之间的相似度,α为语义角色相似度在全句中所占的比重;
基于语义角色的相似度定义为:
其中,count(V)为句子A、B间谓词的匹配对,∑S(Ai,Bj)为公式(4)中每一个谓词匹配对所对应的语义角色相似度的和。
句子相似度计算步骤中,将上述两部分进行线性组合作为句子的最终相似度为:
将基于DSSM模型计算出的相似度记为S1,将基于语义角色计算出的相似度记为S2,则句子的相似度为:
S(A,B)=β×S1+(1-β)×S2 (6)
上式中β表示基于DSSM的句子相似度在句子最终的相似度所占权重。
本发明具有以下有益效果及优点:
1.本发明提出了基于深度语义模型与语义角色标注的句子相似度计算的方法,从句子的句子结构、语义层面进行分析,还利用上句子中的谓词以及其支配的成分信息。
2.本发明方法充分利用句子结构信息、谓词信息,在baselines的实验基础之上,结合语义角色,皮尔逊相关系数提升了2.226%,比SemEval2017评测官网上排名第一的结果高出0.266%(SemEval是Semantic Evaluation的简称,是对计算语义分析系统进行一系列的评估,主要是探讨语言中意义的本质。SemEval2017中任务一是对句子相似度进行计算的评估)。
附图说明
图1为本发明方法流程图;
图2为本发明方法涉及的DSSM模型。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
如图1所法,本发明一种基于深度语义模型与语义角色标注的句子相似度评估方法,包括以下步骤:
1)建立深度语义模型:将相对较短的文本字符串映射到低语义空间中的特征向量,获取了每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的语义相似度;
2)语义角色分类处理:A0、A1、A2(A0、A1、A2为公开的语义角色标识)已有的语义角色进行保留,其他的语义角色统一作为一类语义角色进行处理;
3)谓词相似度计算:在语义角色分类基础上,针对多谓词句子,根据谓词之间的相似度的大小对句子对进行谓词的配对,得到谓词匹配对,分别针对多个谓词匹配对进行语义角色的计算,得到语义角色之间的相似计算值;
4)基于语义角色的句子相似度计算:在步骤3)的基础上将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配,计算语义角色的相似度,即转化为谓词之间以及相同语义角色之间的相似度计算;
5)句子相似度计算:将DSSM模型计算出的相似度和基于语义角色计算出的相似度两部分进行线性组合作为句子的最终相似度。
本发明提出了基于语义角色标注的句子相似度计算,以不同的语义角色为基本单元,综合考虑句子中多个动词语义与角色的相似度。
步骤1)中,深度语义模型(Deep Structured Model,简称DSSM)如图2所示,是一种基于深度学习的技术,主要用于文本的语义理解,它将相对较短的文本字符串(例如句子)映射到低语义空间中的特征向量。这些向量可以通过比较文档和查询的相似性用于文档的检索,该方法优于其他用于文档检索的结果。
DSSM使用典型的深神经网络(DNN)体系结构来表示语义向量空间中的一个句子(文档)。DNN是采用词袋向量作为输入,而DSSM采用一种新的词哈希(word harshing)来减少词袋向量的维度。词哈希是将每一个词的开头和结尾分别加上一个“#”,然后以三个字符为一个单位,作为网络的输入。如词“cat”,开头、结尾分别加上“#”变成“#cat#”,三个字符为一个单位,变成“#ca”、“cat”、“at#”。以这种方式表示词,共有3073种情况,然后将这3073种表示形式表示成向量的形式作为神经网络的输入。
DSSM模型主要包括三部分,分别为:词哈希层、隐藏层、输出层各个层的函数如下所示:
l1=W1x (1)
li=f(Wili-1+bi),i=2,...,N-1 (2)
y=f(WNlN-1+bN) (3)
x表示输入向量,y表示输出向量,li,i=1,...,N-1表示隐藏层的输出,Wi表示第i权重,bi表示第i个偏置,f()表示tanh激活函数。由词哈希层生成的特征向量通过隐藏层进行投影,并在输出层形成语义特征向量。在获取了每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的语义相似性。除了可以计算句子之间的相似度,该模型还可以计算词语之间的相似度。图2表示的DSSM模型,其中Q表示一个问句,D表示待候选句子集合,R表示两个向量之间的余弦相似度,P表示候选句子集合中选取某一个句子的概率。在本发明句子相似度计算中,D只选一个句子,且不需要计算概率值P。
步骤2)中,语义角色分类处理,不同的语法理论体系会有不同的语义角色的分类,孟琮等编纂的《动词用法词典》把名词宾语按其与动词的格关系分为14类,李临定《现代汉语句型》中划分了21类等等。语义角色的种类繁多,但由于句子相似度研究是在模拟人的判断过程,因此可以将语义角色进行分类处理。本发明将原有的语义角色A0、A1、A2进行保留,其他的语义角统一作为一类语义角色进行处理,标记为o_srl。
步骤3)中,谓词相似度计算,通常情况下,一个句子会含有多个谓词,如果将两个句子中的所有谓词两两进行相似度的计算,不仅会使多谓词的长句时复杂度很大,而且会使实验结果受到不同程度的影响。因此针对多谓词问题,本发明提出了依据谓词之间的相似度的大小对句子对进行谓词的配对。
设句子A中第i个谓词和句子B中第j个谓词之间的相似度为Sij,可以得到两个句子谓词之间两两之间的相似度矩阵N(谓词之间的相似度是通过DSSM模型进行计算的):
其中m、n分别为两个句子中谓词的个数,谓词配对的具体算法如下:
301)按行搜索矩阵N中的所有元素,找到相似度最大的元素,作为句子A和句子B第一个谓词匹配对;
302)删除步骤301)中的找到的相似度最大的元素所对应的行与列,即保证每一个谓词只与另一个谓词唯一配对;
303)将步骤302)中剩下的元素放在一起作为一个新的矩阵N,判断矩阵N中元素是否为空,若是,则谓词配对结束,否则继续执行步骤301),直到所有谓词都找到唯一的配对谓词。
通过上述的方法可以找到p(p=min(n,m))对谓词匹配对,分别针对这p个对进行语义角色的计算。
本发明对谓词相似度与语义角色相似度综合算法进行了改进,主要部分得相似度值对次要部分得相似度值起到制约的作用。因此,如果两个句子中的谓词相似度比较低,那么谓词所对应的语义角色的相似度对于句子整体的相似度所起到的作用也降低,因此在查找谓词匹配对时,针对SemEval2017评测官网中给定的测试语料只从矩阵N中查找相似度最大的前4个谓词,若矩阵的行或列低于4维,则根据实际情况查找谓词匹配对。
步骤4)中基于语义角色的句子相似度计算,一个句子一般含有多个谓词,每一个谓词一般也包括多个语义角色,本发明将谓词与语义角色这种结构称之为语义搭配。计算语义角色的相似度即转化为谓词之间以及相同语义角色之间的相似度计算,例如:
句子A:
A man is shaved in front of a lecture hall
语义角色分析的结果为:
[A0 A man]is[V shaved][o_srl in front of a lecture hall]
句子B:
A man is sitting in the grass
语义角色分析的结果为:
[A0 A man]is[V sitting][o_srl in the grass]
句子A中的[shaved,A0,A man]与句子B中的[sitting,A0,A man]可以作为一个语义搭配对进行相似度计算,即为语义角色A0之间的相似度。同理,[shaved,o_srl,in frontof a lecture hall]和[sitting,o_srl,in the grass]计算出的语义角色作为其他语义角色之间的相似度。
针对每一个谓词匹配对的相似度定义为(以A、B句子中相似度最大的谓词为例):
上式中,n、m分别为句子A和句子B中所对应谓词的语义角色的个数,为语义角色ri、rj之间的相似度,S(VA1,VB1)表示两个谓词之间的相似度,α为语义角色相似度在全句中所占的比重。语义角色之间的相似度是用DSSM模型进行计算的。
基于语义角色的相似度定义为:
上式中count(V)为句子A、B间谓词的匹配对,∑S(Ai,Bj)为公式(4)中的所有谓词所对应的语义角色相似度的和。
步骤5)中句子相似度计算的结果由两部分组成:基于DSSM模型计算出的相似度和基于语义角色计算出的相似度,将上述两部分进行线性组合作为句子的最终相似度。
将基于DSSM模型计算出的相似度记为S1,将基于语义角色计算出的相似度记为S2,则句子的相似度为:
S(A,B)=β×S1+(1-β)×S2 (6)
上式中β表示基于DSSM的句子相似度在句子最终的相似度所占权重,取值为0.6。
如图1所示,输入句子对,分两部分进行句子相似度的计算,一部分基于DSSM句子相似度计算,另一部分是基于语义角色进行句子相似度计算,最终将两部分的实验结果线性组合作为最终的句子相似度。
例如:
句子A:
[A0 A man]is[V shaved][o_srl in front of a lecture hall]
句子B:
[A0 A man]is[V sitting][o_srl in the grass]
谓词匹配对为:shaved、sitting
谓词相对应的语义语义角色为:
A0:A man A man
o_srl:in front of a lecture hall in the grass
上述的谓词匹配对、语义角色分别进行相似度的计算,将计算的结果进行线性组合,得到基于语义角色标注的句子相似度S1。
将上述例子中的两个句子利用现有的基于DSSM模型的工具sent2vec进行句子相似度的计算,记为S2。
将上述两个方向进行相似度计算的结果S1、S2进行线性组合作为最终的句子相似度。
在SemEval2017语料的上的实验结果为:
表1实验结果
baseline实验基于DSSM模型得出的一个实验结果。本发明所选用的语义角色标注的工具在在CoNLL2005Shared Task的test_wsj数据集F值达到了88.25%。
在baselines的实验基础之上,结合语义角色,皮尔逊相关系数提升了2.226%,比SemEval2017评测官网上排名第一(ruthva)的结果高出0.266%。对语义角色识别的结果进行了部分识别错误的修正,修正过后的皮尔逊相关系数达到了0.85936,比baseline提升了2.416%。实验结果说明把语义角色识别融入到句子相似度的计算中可以弥补目前方法在利用语义信息方面的缺陷,并最终提升句子相似度的计算结果。
Claims (6)
1.一种基于深度语义模型与语义角色标注的句子相似度评估方法,其特征在于包括以下步骤:
1)建立深度语义模型:将文本字符串映射到低语义空间中的特征向量,获取每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的相似度;
2)语义角色分类处理:A0、A1、A2已有的语义角色进行保留,其他的语义角色统一作为一类语义角色进行处理;A0、A1、A2均为公开的语义角色标识;
3)谓词相似度计算:在语义角色分类基础上,针对多谓词句子,根据谓词之间的相似度的大小对句子对进行谓词的配对,得到谓词匹配对,分别针对多个谓词匹配对进行语义角色的计算,得到语义角色之间的相似计算值;
4)基于语义角色的句子相似度计算:根据语义角色之间相似度计算值将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配,计算语义角色的相似度,即转化为谓词之间以及相同语义角色之间的相似度计算;
5)句子相似度计算:将深度语义模型计算出的相似度和基于语义角色计算出的相似度两部分进行线性组合作为句子的最终相似度。
2.根据权利要求1所述的基于深度语义模型与语义角色标注的句子相似度评估方法,其特征在于:深度语义模型模型包括词哈希层、隐藏层以及输出层三部分,各个层的函数如下所示:
l1=W1x (1)
li=f(Wili-1+bi),i=2,...,N-1 (2)
y=f(WNlN-1+bN) (3)
其中,x为输入向量,y为输出向量,li,i=1,...,N-1为隐藏层的输出,Wi表示第i权重,bi表示第i个偏置,f(*)表示tanh激活函数;
由词哈希层生成的特征向量通过隐藏层进行投影,并在输出层形成语义特征向量;
在获取了每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的语义相似性。
3.根据权利要求1所述的基于深度语义模型与语义角色标注的句子相似度评估方法,其特征在于:谓词配对方法如下:
通过DSSM模型进行计算句子A中第i个谓词和句子B中第j个谓词之间的相似度为Sij,得到两个句子谓词之间两两之间的相似度矩阵N:
<mrow>
<mi>N</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>S</mi>
<mn>11</mn>
</msub>
</mtd>
<mtd>
<mo>...</mo>
</mtd>
<mtd>
<msub>
<mi>S</mi>
<mrow>
<mn>1</mn>
<mi>m</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>...</mo>
</mtd>
<mtd>
<mo>...</mo>
</mtd>
<mtd>
<mo>...</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>S</mi>
<mrow>
<mi>n</mi>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mo>...</mo>
</mtd>
<mtd>
<msub>
<mi>S</mi>
<mrow>
<mi>n</mi>
<mi>m</mi>
</mrow>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中n、m分别为两个句子中谓词的个数;
谓词配对的具体算法如下:
301)按行搜索矩阵N中的所有元素,找到相似度最大的元素,作为句子A和句子B第一个谓词匹配对;
302)删除相似度最大的元素所对应的行与列,保证每一个谓词只与另一个谓词唯一配对;
303)将剩下的元素放在一起作为一个新的矩阵Ni,判断中元素是否为空,若是,则谓词配对结束,否则继续执行步骤301),直到所有谓词都找到唯一的配对谓词。
4.根据权利要求3所述的基于深度语义模型与语义角色标注的句子相似度评估方法,其特征在于:查找谓词匹配对时,针对SemEval2017评测官网中给定的测试语料只从矩阵N中查找相似度最大的前4个谓词,若矩阵的行或列低于4维,则根据实际情况查找谓词匹配对。
5.根据权利要求1所述的基于深度语义模型与语义角色标注的句子相似度评估方法,其特征在于:基于语义角色的句子相似度计算:将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配,计算语义角色的相似度,即转化为谓词之间以及相同语义角色之间的相似度计算,具体为:
设A、B句子中相似度最大的谓词分别为A1、B1,针对每一个谓词匹配对的相似度定义为:
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>B</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&alpha;</mi>
<mo>&times;</mo>
<mfrac>
<mrow>
<mi>&Sigma;</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>r</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>r</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mrow>
<mi>A</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mrow>
<mi>B</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,n、m分别为句子A和句子B中所对应谓词的语义角色的个数,为语义角色ri、rj之间的相似度,S(VA1,VB1)表示两个谓词之间的相似度,α为语义角色相似度在全句中所占的比重;
基于语义角色的相似度定义为:
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>&Sigma;</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,count(V)为句子A、B间谓词的匹配对,∑S(Ai,Bj)为公式(4)中每一个谓词匹配对所对应的语义角色相似度的和。
6.根据权利要求1所述的基于深度语义模型与语义角色标注的句子相似度评估方法,其特征在于句子相似度计算步骤中,将上述两部分进行线性组合作为句子的最终相似度为:
将基于DSSM模型计算出的相似度记为S1,将基于语义角色计算出的相似度记为S2,则句子的相似度为:
S(A,B)=β×S1+(1-β)×S2 (6)
上式中β表示基于DSSM的句子相似度在句子最终的相似度所占权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876254.3A CN107818081A (zh) | 2017-09-25 | 2017-09-25 | 基于深度语义模型与语义角色标注的句子相似度评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876254.3A CN107818081A (zh) | 2017-09-25 | 2017-09-25 | 基于深度语义模型与语义角色标注的句子相似度评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107818081A true CN107818081A (zh) | 2018-03-20 |
Family
ID=61607137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710876254.3A Pending CN107818081A (zh) | 2017-09-25 | 2017-09-25 | 基于深度语义模型与语义角色标注的句子相似度评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818081A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765240A (zh) * | 2019-10-31 | 2020-02-07 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN112559713A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本相关性判断方法及装置、模型、电子设备、可读介质 |
CN113609304A (zh) * | 2021-07-20 | 2021-11-05 | 广州大学 | 一种实体匹配方法和装置 |
CN115062619A (zh) * | 2022-08-11 | 2022-09-16 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
CN116306663A (zh) * | 2022-12-27 | 2023-06-23 | 华润数字科技有限公司 | 语义角色标注方法、装置、设备以及介质 |
CN118035712A (zh) * | 2024-04-12 | 2024-05-14 | 数据空间研究院 | 一种基于nlp的数据收集合规识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103562907A (zh) * | 2011-05-10 | 2014-02-05 | 日本电气株式会社 | 用于评估同义表达的设备、方法和程序 |
-
2017
- 2017-09-25 CN CN201710876254.3A patent/CN107818081A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103562907A (zh) * | 2011-05-10 | 2014-02-05 | 日本电气株式会社 | 用于评估同义表达的设备、方法和程序 |
Non-Patent Citations (4)
Title |
---|
PO-SEN HUANG ET AL.: "Learning Deep Structured Semantic Models for Web Search using Clickthrough Data", 《CIKM’13》 * |
张丹 等: "引入层次成分分析的依存句法分析", 《沈阳航空航天大学学报》 * |
李茹 等: "基于框架语义分析的汉语句子相似度计算", 《计算机研究与发展》 * |
田堃 等: "基于语义角色标注的汉语句子相似度算法", 《中文信息学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765240A (zh) * | 2019-10-31 | 2020-02-07 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN110765240B (zh) * | 2019-10-31 | 2023-06-20 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN112559713A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本相关性判断方法及装置、模型、电子设备、可读介质 |
CN112559713B (zh) * | 2020-12-24 | 2023-12-01 | 北京百度网讯科技有限公司 | 文本相关性判断方法及装置、模型、电子设备、可读介质 |
CN113609304A (zh) * | 2021-07-20 | 2021-11-05 | 广州大学 | 一种实体匹配方法和装置 |
CN113609304B (zh) * | 2021-07-20 | 2023-05-23 | 广州大学 | 一种实体匹配方法和装置 |
CN115062619A (zh) * | 2022-08-11 | 2022-09-16 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
CN115062619B (zh) * | 2022-08-11 | 2022-11-22 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
CN116306663A (zh) * | 2022-12-27 | 2023-06-23 | 华润数字科技有限公司 | 语义角色标注方法、装置、设备以及介质 |
CN116306663B (zh) * | 2022-12-27 | 2024-01-02 | 华润数字科技有限公司 | 语义角色标注方法、装置、设备以及介质 |
CN118035712A (zh) * | 2024-04-12 | 2024-05-14 | 数据空间研究院 | 一种基于nlp的数据收集合规识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
Liu et al. | Measuring similarity of academic articles with semantic profile and joint word embedding | |
CN107818081A (zh) | 基于深度语义模型与语义角色标注的句子相似度评估方法 | |
Xie et al. | Topic enhanced deep structured semantic models for knowledge base question answering | |
CN105868313A (zh) | 一种基于模板匹配技术的知识图谱问答系统及方法 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN110134925A (zh) | 一种中文专利文本相似度计算方法 | |
CN101634983A (zh) | 一种文本分类方法和装置 | |
CN101777042A (zh) | 基于神经网络和标签库的语句相似度算法 | |
CN105260488B (zh) | 一种用于语义理解的文本序列迭代方法 | |
CN114706972B (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
CN113963748B (zh) | 一种蛋白质知识图谱向量化方法 | |
Hussein | Arabic document similarity analysis using n-grams and singular value decomposition | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN105975547A (zh) | 基于内容与位置特征的近似web文档检测方法 | |
Hussein | Visualizing document similarity using n-grams and latent semantic analysis | |
CN105740310A (zh) | 一种用于问答系统中的自动答案摘要方法及系统 | |
Agrawal et al. | Semantic analysis of natural language queries using domain ontology for information access from database | |
CN118277509A (zh) | 基于知识图谱的数据集检索方法 | |
Derici et al. | A closed-domain question answering framework using reliable resources to assist students | |
Li et al. | Neural factoid geospatial question answering | |
Giordani et al. | Automatic generation and reranking of sql-derived answers to nl questions | |
CN118245564B (zh) | 一种支持语义查重查新的特征比对库构建方法及装置 | |
Zhang et al. | An approach for named entity disambiguation with knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180320 |