CN107818081A

CN107818081A - 基于深度语义模型与语义角色标注的句子相似度评估方法

Info

Publication number: CN107818081A
Application number: CN201710876254.3A
Authority: CN
Inventors: 周俏丽; 杨凤玲
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2018-03-20

Abstract

本发明涉及一种基于深度语义模型与语义角色标注的句子相似度评估方法，将文本字符串映射到低语义空间中的特征向量，利用余弦相似度来度量两个句子之间的相似度；已有的语义角色进行保留，其他的语义角色统一进行处理；根据谓词之间的相似度的大小对句子对进行谓词的配对，得到谓词匹配对，进一步得到语义角色之间的相似计算值；将一个句子的多个谓词中每一谓词的多个语义角色进行语义搭配，计算语义角色的相似度，将深度语义模型计算出的相似度和基于语义角色计算出的相似度两部分进行线性组合作为句子的最终相似度。本发明结合语义角色，比皮尔逊相关系数提升2.226％，比SemEval2017评测官网上排名第一的结果高出0.266％。

Description

基于深度语义模型与语义角色标注的句子相似度评估方法

技术领域

本发明涉及一种自然语言处理技术，具体为一种基于深度语义模型与语义角色标注的句子相似度评估方法。

背景技术

句子相似度(Sentence Similarity Computing)是测量两个句子之间的语义等价性，是自然语言处理领域中十分重要而又较为基础的研究工作。如在基于实例的机器翻译中通过句子相似度计算匹配相似的句子作为翻译的候选集合、在自动问答系统中问题与答案的匹配、在信息过滤中，用于剔除可能的垃圾信息、在自动文摘中通过相似度抽取文摘句子、在分类或聚类中，用来判定句子或文档的类别等。

目前研究句子的相似度方法有吕学强等人提出的基于词形、词序匹配的方法；秦兵等人提出基于关键词的方法；潘谦红等人提出基于属性论的方法；李彬等人提出的使用语义依存计算的方法；穗志方等人提出的基于骨架依存树的方法；车万翔等人提出的改进编辑距离的方法；程传鹏等人提出的基于知网的句子相似度计算方法等等。

目前计算句子相似度的方法可分为三种：(1)基于词语特征的方法，如向量空间模型、词形、词序等；(3)基于语义的方法：如基于语义字典的方法等；(3)基于句法分析的方法，如基于依存句法分析的句子相似度计算等。

基于词语特征的方法只用了句子的表层信息，对于含有同义词、反义词等词汇的句子得不到很好的处理。基于语义字典的方法，在一定程度上解决了基于词语特征方法的不足，但这种方法依赖于语义字典的完备性，忽略了句子词语之间的相互作用关系和句子深层次的句法结构。而基于依存句法分析的方法能够挖掘句子的深层次的信息、获取句子的组织结构和词语间的依存关系，但目前使用的依存句法的方法只利用了句子的有效搭配对，忽略了其他词语对句子相似度的影响。

发明内容

针对现有技术中基于语义角色标注的句子相似度计算建立在以动词为核心的框架的相似度上，存在不能够充分利用动词及其支配的成分信息等不足，本发明提出了基于深度语义模型与语义角色标注的句子相似度计算的方法，从句子的句子结构、语义层面进行分析。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于深度语义模型与语义角色标注的句子相似度评估方法，包括以下步骤：

1)建立深度语义模型：将相对较短的文本字符串映射到低语义空间中的特征向量，获取每个句子的语义特征向量之后，利用余弦相似度来度量两个句子之间的相似度；

2)语义角色分类处理：A0、A1、A2已有的语义角色进行保留，其他的语义角色统一作为一类语义角色进行处理；A0、A1、A2均为公开的语义角色标识；

3)谓词相似度计算：在语义角色分类基础上，针对多谓词句子，根据谓词之间的相似度的大小对句子对进行谓词的配对，得到谓词匹配对，分别针对多个谓词匹配对进行语义角色的计算，得到语义角色之间的相似计算值；

4)基于语义角色的句子相似度计算：根据语义角色之间相似度计算值将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配，计算语义角色的相似度，即转化为谓词之间以及相同语义角色之间的相似度计算；

5)句子相似度计算：将深度语义模型计算出的相似度和基于语义角色计算出的相似度两部分进行线性组合作为句子的最终相似度。

深度语义模型模型包括词哈希层、隐藏层以及输出层三部分，各个层的函数如下所示：

l₁＝W₁x (1)

l_i＝f(W_il_i-1+b_i),i＝2,...,N-1 (2)

y＝f(W_Nl_N-1+b_N) (3)

其中，x为输入向量，y为输出向量，l_i,i＝1,...,N-1为隐藏层的输出，W_i表示第i权重，b_i表示第i个偏置，f(*)表示tanh激活函数；

由词哈希层生成的特征向量通过隐藏层进行投影，并在输出层形成语义特征向量；

在获取了每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的语义相似性。

谓词配对方法如下：

通过DSSM模型进行计算句子A中第i个谓词和句子B中第j个谓词之间的相似度为S_ij，得到两个句子谓词之间两两之间的相似度矩阵N：

其中n、m分别为两个句子中谓词的个数；

谓词配对的具体算法如下：

301)按行搜索矩阵N中的所有元素，找到相似度最大的元素，作为句子A和句子B第一个谓词匹配对；

302)删除相似度最大的元素所对应的行与列，保证每一个谓词只与另一个谓词唯一配对；

303)将剩下的元素放在一起作为一个新的矩阵N_i，判断中元素是否为空，若是，则谓词配对结束，否则继续执行步骤301)，直到所有谓词都找到唯一的配对谓词。

查找谓词匹配对时，针对SemEval2017评测官网中给定的测试语料只从矩阵N中查找相似度最大的前4个谓词，若矩阵的行或列低于4维，则根据实际情况查找谓词匹配对。

基于语义角色的句子相似度计算：将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配，计算语义角色的相似度，即转化为谓词之间以及相同语义角色之间的相似度计算，具体为：

设A、B句子中相似度最大的谓词分别为A₁、B₁，针对每一个谓词匹配对的相似度定义为：

其中，n、m分别为句子A和句子B中所对应谓词的语义角色的个数，为语义角色r_i、r_j之间的相似度，S(V_A1,V_B1)表示两个谓词之间的相似度，α为语义角色相似度在全句中所占的比重；

基于语义角色的相似度定义为：

其中，count(V)为句子A、B间谓词的匹配对，∑S(A_i,B_j)为公式(4)中每一个谓词匹配对所对应的语义角色相似度的和。

句子相似度计算步骤中，将上述两部分进行线性组合作为句子的最终相似度为：

将基于DSSM模型计算出的相似度记为S₁，将基于语义角色计算出的相似度记为S₂，则句子的相似度为：

S(A,B)＝β×S₁+(1-β)×S₂ (6)

上式中β表示基于DSSM的句子相似度在句子最终的相似度所占权重。

本发明具有以下有益效果及优点：

1.本发明提出了基于深度语义模型与语义角色标注的句子相似度计算的方法，从句子的句子结构、语义层面进行分析，还利用上句子中的谓词以及其支配的成分信息。

2.本发明方法充分利用句子结构信息、谓词信息，在baselines的实验基础之上，结合语义角色，皮尔逊相关系数提升了2.226％，比SemEval2017评测官网上排名第一的结果高出0.266％(SemEval是Semantic Evaluation的简称，是对计算语义分析系统进行一系列的评估，主要是探讨语言中意义的本质。SemEval2017中任务一是对句子相似度进行计算的评估)。

附图说明

图1为本发明方法流程图；

图2为本发明方法涉及的DSSM模型。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

如图1所法，本发明一种基于深度语义模型与语义角色标注的句子相似度评估方法，包括以下步骤：

1)建立深度语义模型：将相对较短的文本字符串映射到低语义空间中的特征向量，获取了每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的语义相似度；

2)语义角色分类处理：A0、A1、A2(A0、A1、A2为公开的语义角色标识)已有的语义角色进行保留，其他的语义角色统一作为一类语义角色进行处理；

4)基于语义角色的句子相似度计算：在步骤3)的基础上将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配，计算语义角色的相似度，即转化为谓词之间以及相同语义角色之间的相似度计算；

5)句子相似度计算：将DSSM模型计算出的相似度和基于语义角色计算出的相似度两部分进行线性组合作为句子的最终相似度。

本发明提出了基于语义角色标注的句子相似度计算，以不同的语义角色为基本单元，综合考虑句子中多个动词语义与角色的相似度。

步骤1)中，深度语义模型(Deep Structured Model，简称DSSM)如图2所示，是一种基于深度学习的技术，主要用于文本的语义理解，它将相对较短的文本字符串(例如句子)映射到低语义空间中的特征向量。这些向量可以通过比较文档和查询的相似性用于文档的检索，该方法优于其他用于文档检索的结果。

DSSM使用典型的深神经网络(DNN)体系结构来表示语义向量空间中的一个句子(文档)。DNN是采用词袋向量作为输入，而DSSM采用一种新的词哈希(word harshing)来减少词袋向量的维度。词哈希是将每一个词的开头和结尾分别加上一个“#”，然后以三个字符为一个单位，作为网络的输入。如词“cat”，开头、结尾分别加上“#”变成“#cat#”，三个字符为一个单位，变成“#ca”、“cat”、“at#”。以这种方式表示词，共有3073种情况，然后将这3073种表示形式表示成向量的形式作为神经网络的输入。

DSSM模型主要包括三部分，分别为：词哈希层、隐藏层、输出层各个层的函数如下所示：

l₁＝W₁x (1)

l_i＝f(W_il_i-1+b_i),i＝2,...,N-1 (2)

y＝f(W_Nl_N-1+b_N) (3)

x表示输入向量，y表示输出向量，l_i,i＝1,...,N-1表示隐藏层的输出，W_i表示第i权重，b_i表示第i个偏置，f()表示tanh激活函数。由词哈希层生成的特征向量通过隐藏层进行投影,并在输出层形成语义特征向量。在获取了每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的语义相似性。除了可以计算句子之间的相似度，该模型还可以计算词语之间的相似度。图2表示的DSSM模型，其中Q表示一个问句，D表示待候选句子集合，R表示两个向量之间的余弦相似度，P表示候选句子集合中选取某一个句子的概率。在本发明句子相似度计算中，D只选一个句子，且不需要计算概率值P。

步骤2)中，语义角色分类处理，不同的语法理论体系会有不同的语义角色的分类，孟琮等编纂的《动词用法词典》把名词宾语按其与动词的格关系分为14类，李临定《现代汉语句型》中划分了21类等等。语义角色的种类繁多，但由于句子相似度研究是在模拟人的判断过程，因此可以将语义角色进行分类处理。本发明将原有的语义角色A0、A1、A2进行保留，其他的语义角统一作为一类语义角色进行处理，标记为o_srl。

步骤3)中，谓词相似度计算，通常情况下，一个句子会含有多个谓词，如果将两个句子中的所有谓词两两进行相似度的计算，不仅会使多谓词的长句时复杂度很大，而且会使实验结果受到不同程度的影响。因此针对多谓词问题，本发明提出了依据谓词之间的相似度的大小对句子对进行谓词的配对。

设句子A中第i个谓词和句子B中第j个谓词之间的相似度为S_ij，可以得到两个句子谓词之间两两之间的相似度矩阵N(谓词之间的相似度是通过DSSM模型进行计算的)：

其中m、n分别为两个句子中谓词的个数，谓词配对的具体算法如下：

302)删除步骤301)中的找到的相似度最大的元素所对应的行与列，即保证每一个谓词只与另一个谓词唯一配对；

303)将步骤302)中剩下的元素放在一起作为一个新的矩阵N，判断矩阵N中元素是否为空，若是，则谓词配对结束，否则继续执行步骤301)，直到所有谓词都找到唯一的配对谓词。

通过上述的方法可以找到p(p＝min(n,m))对谓词匹配对，分别针对这p个对进行语义角色的计算。

本发明对谓词相似度与语义角色相似度综合算法进行了改进，主要部分得相似度值对次要部分得相似度值起到制约的作用。因此，如果两个句子中的谓词相似度比较低，那么谓词所对应的语义角色的相似度对于句子整体的相似度所起到的作用也降低，因此在查找谓词匹配对时，针对SemEval2017评测官网中给定的测试语料只从矩阵N中查找相似度最大的前4个谓词，若矩阵的行或列低于4维，则根据实际情况查找谓词匹配对。

步骤4)中基于语义角色的句子相似度计算，一个句子一般含有多个谓词，每一个谓词一般也包括多个语义角色，本发明将谓词与语义角色这种结构称之为语义搭配。计算语义角色的相似度即转化为谓词之间以及相同语义角色之间的相似度计算，例如：

句子A：

A man is shaved in front of a lecture hall

语义角色分析的结果为：

[A0 A man]is[V shaved][o_srl in front of a lecture hall]

句子B：

A man is sitting in the grass

语义角色分析的结果为：

[A0 A man]is[V sitting][o_srl in the grass]

句子A中的[shaved，A0，A man]与句子B中的[sitting，A0，A man]可以作为一个语义搭配对进行相似度计算，即为语义角色A0之间的相似度。同理，[shaved，o_srl，in frontof a lecture hall]和[sitting，o_srl，in the grass]计算出的语义角色作为其他语义角色之间的相似度。

针对每一个谓词匹配对的相似度定义为(以A、B句子中相似度最大的谓词为例)：

上式中，n、m分别为句子A和句子B中所对应谓词的语义角色的个数，为语义角色r_i、r_j之间的相似度，S(V_A1,V_B1)表示两个谓词之间的相似度，α为语义角色相似度在全句中所占的比重。语义角色之间的相似度是用DSSM模型进行计算的。

基于语义角色的相似度定义为：

上式中count(V)为句子A、B间谓词的匹配对，∑S(A_i,B_j)为公式(4)中的所有谓词所对应的语义角色相似度的和。

步骤5)中句子相似度计算的结果由两部分组成：基于DSSM模型计算出的相似度和基于语义角色计算出的相似度，将上述两部分进行线性组合作为句子的最终相似度。

S(A,B)＝β×S₁+(1-β)×S₂ (6)

上式中β表示基于DSSM的句子相似度在句子最终的相似度所占权重，取值为0.6。

如图1所示，输入句子对，分两部分进行句子相似度的计算，一部分基于DSSM句子相似度计算，另一部分是基于语义角色进行句子相似度计算，最终将两部分的实验结果线性组合作为最终的句子相似度。

例如：

句子A：

[A0 A man]is[V shaved][o_srl in front of a lecture hall]

句子B：

[A0 A man]is[V sitting][o_srl in the grass]

谓词匹配对为：shaved、sitting

谓词相对应的语义语义角色为：

A0：A man A man

o_srl：in front of a lecture hall in the grass

上述的谓词匹配对、语义角色分别进行相似度的计算，将计算的结果进行线性组合，得到基于语义角色标注的句子相似度S₁。

将上述例子中的两个句子利用现有的基于DSSM模型的工具sent2vec进行句子相似度的计算，记为S₂。

将上述两个方向进行相似度计算的结果S₁、S₂进行线性组合作为最终的句子相似度。

在SemEval2017语料的上的实验结果为：

表1实验结果

baseline实验基于DSSM模型得出的一个实验结果。本发明所选用的语义角色标注的工具在在CoNLL2005Shared Task的test_wsj数据集F值达到了88.25％。

在baselines的实验基础之上，结合语义角色，皮尔逊相关系数提升了2.226％，比SemEval2017评测官网上排名第一(ruthva)的结果高出0.266％。对语义角色识别的结果进行了部分识别错误的修正，修正过后的皮尔逊相关系数达到了0.85936，比baseline提升了2.416％。实验结果说明把语义角色识别融入到句子相似度的计算中可以弥补目前方法在利用语义信息方面的缺陷，并最终提升句子相似度的计算结果。

Claims

1.一种基于深度语义模型与语义角色标注的句子相似度评估方法，其特征在于包括以下步骤：

1)建立深度语义模型：将文本字符串映射到低语义空间中的特征向量，获取每个句子的语义特征向量之后，利用余弦相似度来度量两个句子之间的相似度；

2.根据权利要求1所述的基于深度语义模型与语义角色标注的句子相似度评估方法，其特征在于：深度语义模型模型包括词哈希层、隐藏层以及输出层三部分，各个层的函数如下所示：

l₁＝W₁x (1)

l_i＝f(W_il_i-1+b_i),i＝2,...,N-1 (2)

y＝f(W_Nl_N-1+b_N) (3)

3.根据权利要求1所述的基于深度语义模型与语义角色标注的句子相似度评估方法，其特征在于：谓词配对方法如下：

其中n、m分别为两个句子中谓词的个数；

谓词配对的具体算法如下：

4.根据权利要求3所述的基于深度语义模型与语义角色标注的句子相似度评估方法，其特征在于：查找谓词匹配对时，针对SemEval2017评测官网中给定的测试语料只从矩阵N中查找相似度最大的前4个谓词，若矩阵的行或列低于4维，则根据实际情况查找谓词匹配对。

5.根据权利要求1所述的基于深度语义模型与语义角色标注的句子相似度评估方法，其特征在于：基于语义角色的句子相似度计算：将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配，计算语义角色的相似度，即转化为谓词之间以及相同语义角色之间的相似度计算，具体为：

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>B</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&alpha;</mi> <mo>&times;</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mrow> <mi>A</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>V</mi> <mrow> <mi>B</mi> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

基于语义角色的相似度定义为：

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

6.根据权利要求1所述的基于深度语义模型与语义角色标注的句子相似度评估方法，其特征在于句子相似度计算步骤中，将上述两部分进行线性组合作为句子的最终相似度为：

S(A,B)＝β×S₁+(1-β)×S₂ (6)