CN113065002A

CN113065002A - 一种基于知识图谱和上下文语境的中文语义消歧方法

Info

Publication number: CN113065002A
Application number: CN202110417960.8A
Authority: CN
Inventors: 刘子宇; 张华平; 雷玉新; 杨耀飞
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-02
Anticipated expiration: 2041-04-19
Also published as: CN113065002B

Abstract

本发明涉及一种基于知识图谱和上下文语境的中文语义消歧方法，属于自然语言处理技术领域。本发明通过构建消歧知识图谱和基于上下文语境的语义消歧，可以在没有显式语义标注的由原句和完成消歧修改后的结果组成的获取数据集中抽取歧义词实体和消歧词实体以及它们之间的关系，同时将上下文语境作为消歧词实体的属性，从而将消歧知识沉淀于知识图谱，赋能语义消歧工作。本发明可以在新的待消歧文本中准确地发现已登录的歧义词。本发明实现了上下文语境的向量表示和基于向量的相似度计算，使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境。

Description

一种基于知识图谱和上下文语境的中文语义消歧方法

技术领域

本发明涉及一种中文语义消歧方法，具体涉及一种基于知识图谱和上下文语境的中文语义消歧方法，属于自然语言处理技术领域。

背景技术

语义消歧，是自然语言处理任务的一个核心与难点问题，影响了几乎所有任务的性能，比如搜索引擎、意见挖掘、文本理解与产生、推理等。消歧，即根据上下文确定对象语义的过程，其中，所述“对象”可以是一个词语或一个词组。目前，语义消歧的方法包括基于词典的方法、有监督的方法和无监督或半监督的方法等。这些方法虽然在某些领域取得了不错效果，但是，还没有可以很好地适应主要由中文口语组成的影视剧台词的语义消歧方法。

基于词典的语义消歧方法是最基础的方法之一，给定某个待消歧词及其上下文，该方法的思想是计算语义词典中各个词义的定义与上下文之间的覆盖度，选择覆盖度最大的作为待消歧词在其上下文下的正确词义。但是，由于词典中词义的定义通常比较简洁，使得与待消歧词的上下文得到的覆盖度可能为零，从而造成消歧性能不高。

有监督的消歧方法，通过使用词义标注语料来建立消歧模型，研究的重点在于特征的表示。虽然有监督的消歧方法能够取得较好的消歧性能，但需要大量的人工标注语料，费时费力。

为了避免需要大规模的语料，半监督或无监督方法仅需要少量或不需要人工标注语料。有方法仅需要使用少量的人工标注语料作为种子数据，另有方法从词对齐的双语语料抽取种子数据。也有方法根据词的不同歧义往往也体现在句法搭配上的差异这一思想，通过计算“语义优选强度”和“选择关联度”在大规模语料中自动获取句法结构的语义优选，然后用之于语义消歧。

一般说来，虽然半监督或无监督方法不需要大量的人工标注数据，但依赖于一个大规模的未标注语料，以及在该语料上的句法分析结果。另一方面，待消歧词的覆盖度可能会受影响。比如有的方法仅考察某部分特殊结构的句法，只能对动词、动词的主词或宾语、形容词修饰的名词等少数特定句法位置上的词进行消歧，而不能覆盖所有歧义词。

常见的上下文特征可以归纳为三个类型：

(1)词汇特征通常指待消歧词上下窗口内出现的词及其词性；

(2)句法特征利用待消歧词在上下文中的句法关系特征，如动－宾关系、是否带主/宾语、主/宾语组块类型、主/宾语中心词等；

(3)语义特征在句法关系的基础上添加了语义类信息，如主/宾语中心词的语义类，甚至还可以是语义角色标注类信息。

近年来，随着深度学习在自然语言处理领域的应用，出现了很多基于深度学习方法的语义消歧方法。深度学习方法可以自动地提取分类所需要的低层次或者高层次特征，从而减少特征提取方面的工作量。

发明内容

本发明的目的是为了解决现有技术无法准确的获取歧义词，同时对此特定领域适应性不强的技术问题，创造性地提出一种基于知识图谱和上下文语境的中文语义消歧方法。

本发明的创新点在于：构建消歧知识图谱和基于上下文语境的语义消歧。在由原句和完成消歧修改后的结果组成的获取数据集的基础上，从中进行歧义词的发掘并且抽取歧义词(或词组)和消歧后词语(或词组)的关系，来构建包含歧义词修改方法及其发生修改时上下文语境的消歧知识图谱，并利用此知识图谱在待消歧文本中发现歧义词，并根据歧义词上下文语境进行消歧修改建议的推荐。

本发明是通过以下技术方案实现的。

首先，定义消歧知识图谱：

一般意义上的知识图谱是一种揭示实体之间关系的语义网络，由若干条知识组成，每条知识表示为一个(实体1，关系，实体2)或(实体，属性，属性值)的三元组。本发明所述消歧知识图谱的定义如下：

一条知识的表示方式为三元组T＝(V_a,R,V_d)，V_a为歧义词，即包含多种语义的词语或词组，V_a是由若干个词语组成的列表；R表示关系“可被替换成”，即V_a可被替换成V_b；V_d为V_a的消歧词，即将V_a替换成的无歧义的词语或词组，V_d由若干个词语组成的列表，V_d有两个属性，分别为T在获取数据集中出现的频次和T在获取数据集中时所处的上下文语境的全集。

一种基于知识图谱和上下文语境的中文语义消歧方法，包括如下步骤：

步骤1：构建消歧知识图谱，包括以下步骤；

步骤1.1：对获取的数据集进行预处理。获取的数据集包含训练集和验证集。

其中，训练集共有L个由未消歧句子和消歧句子组成的元组，对每一个元组中的每一个句子进行去除符号、分词等操作，得到由2个列表组成的元组P＝(S_a,S_d)，L个元组P组成集合G。

步骤1.2：抽取歧义词及其替换方法，以及发生替换时的上下文语境，对步骤1.1获得的集合G中的每一个元组P进行以下处理：

步骤1.2.1：计算S_a和S_d中共同出现的词组成的集合H＝S_a∩S_d。

步骤1.2.2：计算I_a＝S_a–H和I_d＝S_d-H，I_a表示只在S_a中出现的词，I_d表示只在S_d中出现的词；若I_a和I_d有任意一个为空，则结束操作。

步骤1.2.3：将I_a中出现的元素在S_a中出现时的位置相邻的元素进行组合，形成列表I′_a＝[V_a1V_a2…V_ax],x≥1。

步骤1.2.4：将I_d中出现的元素在S_d中出现的位置相邻的元素进行组合，形成列表I′_d＝[V_d1V_d2…V_dy],y≥1。

步骤1.2.5：将I′_a和I′_d中的元素进行对齐操作(比如，I′_a中的第1个元素和I′_d中的第1个元素对应，依此类推)，形成z个三元组T＝(V_a,R,V_d)，z＝min(x,y)。若x和y不相等，则舍弃I′_a和I′_d二者中元素数量多的列表中相较另一个列表多余的元素。

因为本步骤形成的所有三元组中R的含义相同，均为关系“可被替换成”，则在存储时只考虑V_a和V_b，形成以V_a为键的字典D或D′；D或D′中一个V_a对应的值为以与V_a对应的全部V_b为键、T＝(V_a,R,V_d)对应的出现频次和T出现时的上下文语境为值的字典。

其中，所包含的上下文语境是上句、本句、下句这3句话的字典为D，所包含的上下文语境是本句1句话的字典为D′，字典D或D′的键的个数为N。

步骤1.3：抽取歧义词不变时的上下文语境，关于步骤1.2中获得的字典D或D′的每一个值V_a和步骤1.1获得的集合G中的元组P＝(S_a,S_d)，针对每一个V_a进行如下操作：

步骤1.3.1：判断V_a是否同时存在于任意P的S_a和S_d中，若没有这种情况则结束操作；若有，则跳转到步骤3.2；

步骤1.3.2：将V_a出现在S_a中时的所有上下文语境存入字典D或D′中，即在字典D或D′中键V_a对应的值(为字典)中增加键V_a，对应的值是上下文语境出现的频次和所有上下文语境；

步骤1.4：将上下文语境表示成索引形式，针对步骤1.3中获得的字典D或D′中出现的每一个上下文语境，共e个，从0开始编号以形成索引，即一个上下文语境对应一个编号，将步骤1.3得到的字典D或D′中的上下文语境文本替换成对应的编号。

步骤1.5：使用BERT预训练模型，将字典D原本用文本表示的e个上下文语境用维度为d的向量c表示，根据式(1)拼接所有的向量c，得到上下文语境矩阵C：

其中，c_i表示第i个上下文语境的向量，T表示矩阵转置。

同理，由字典D′得到的上下文语境矩阵为C′。

至此，消歧知识图谱完成构建。

步骤2：进行基于上下文语境的语义消歧，包括以下步骤：

步骤2.1：加载消歧知识图谱，包括步骤1中得到的字典D和D′、矩阵C和C′；

步骤2.2：获取待消歧句子列表，共有M个句子；

步骤2.3：将列表中的步骤2.2中的M个待消歧句子进行分词，得到M个列表Q；

步骤2.4：初始化变量j＝1，其中，j表示第j个列表，取值范围为1≤j≤M；

步骤2.5：从第j个列表Q_j中发现歧义词，针对字典D中每一个键V_a，判断V_a是否存在于Q_j中，只有当V_a的每一个元素都存在于Q_j中且这些元素在V_a中和在Q_j中的顺序一致，才认为V_a是存在于Q_j中；若存在，将V_a放入集合U_j中；如果集合U_j不为空，即Q_j存在歧义词，则转到步骤2.6；如果集合U_j为空,，即Q_j不存在歧义词，则跳转到步骤2.7。

步骤2.6：对于步骤2.5中获得的U_j中的每一个元素V_a进行语义消歧，并给出修改建议。

具体步骤如下：

步骤2.6.1:使用BERT预训练模型，将V_a在Q_j所处位置的上下文语境用向量f表示；

步骤2.6.2:根据V_a在词典D中相关的全部上下文语境的编号，在矩阵C中获得由编号对应行组成的表示与V_a相关的三句上下文语境集合的多维向量F，在矩阵C′中获得由编号对应行组成的表示与V_a相关的单句上下文语境集合的多维向量F′；

步骤2.6.3:根据式(2)计算向量f和多维向量F中每一个向量的相似度，获取V_a在Q_j中的上下文与在消歧知识图谱中出现的三句上下文语境的相似度向量g。同理，计算向量f和多维向量F′中每一个向量的相似度，获取V_a在Q_j中的上下文与在消歧知识图谱中出现的单句上下文语境的相似度向量g′；

其中，‖f‖表示f的模，‖F‖表示F的模，F^T表示F的转置矩阵。

步骤2.6.4:根据式(3)计算g和g′的混合相似度，将混合相似度最高的上下文语境所对应的V_b作为修改建议输出，跳转到步骤2.8；

mix_similarity＝(1-α)g+αg′ (3)

其中，α为预设的单句上下文语境相似度占混合相似的比例；

步骤2.7：输出“无歧义”的修改建议，跳转到步骤2.8；

步骤2.8：j值增加1，判断j的值，若1≤j≤M，跳转至步骤2.5，否则当j>M，跳转至步骤2.9。

步骤2.9：保存消歧结果，使步骤2.3中的每一个列表Q都有与之对应的修改建议。

其中，修改建议包括是否建议修改和Q中命中的每一个歧义词(如果有)推荐修改成的消歧词。

有益效果

本发明方法，与现有技术相比，具有以下优点：

1.结合知识图谱相关技术，本发明可以在没有显式语义标注的由原句和完成消歧修改后的结果组成的获取数据集中抽取歧义词实体和消歧词实体以及它们之间的关系，同时将上下文语境作为消歧词实体的属性，从而将消歧知识沉淀于知识图谱，赋能语义消歧工作；

2.借助消歧知识图谱，本发明可以在新的待消歧文本中准确地发现已登录的歧义词；

3.结合BERT相关技术，本发明实现了上下文语境的向量表示和基于向量的相似度计算，使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境；

附图说明

图1是本发明方法依托的消歧知识图谱的整体架构；

图2是本发明方法步骤1构建消歧知识图谱的具体实施流程图；

图3是本发明方法步骤2进行基于上下文语境的语义消歧的具体实施流程图。

具体实施方式

下面结合附图和实施例，对本发明方法做进一步详细说明。应当理解，此处所描述的具体实施例，仅仅用以解释本发明，并不用于限定本发明。

实施例

针对由中文口语组成的影视剧台词的语义消歧为例。

在本发明方法具体实施时，步骤1中获取数据集指的是一个由53部影视剧台词组成的数据集，其中1部影视剧为测试集，其他为训练集，组织形式和具体内容示例如表1所示：

表1数据集示例

原句	消歧句
		妈要抱孙子	妈要获得孙子
他找打是吧	他欠揍是吧
		……	……

本实施例是基于本方法，可以将消歧知识沉淀于知识图谱，赋能语义消歧工作；可以在新的待消歧文本中准确地发现已登录的歧义词；实现了上下文语境的向量表示和基于向量的相似度计算，使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境；针对由中文口语组成的影视剧台词的语义消歧这特定领域，本发明更具有适应性，能够为实际的台词消歧工作提供有力提效抓手。

本发明的所提出的消歧知识图谱结构如图1所示，其中的每一条知识以三元组(实体1，关系，实体2)的形式表示；

其中，实体1为“歧义词”，即包含多种语义的词语或词组；

实体2为实体1的“消歧词”，即将实体1替换成的无歧义的词语或词组；实体2有两个属性，分别为该三元组在获取数据集中出现的频次和该三元组在获取数据集中时所处的上下文语境的全集。

关系为“可被替换成”，即实体1可被替换成实体2；

消歧知识图谱对应步骤1中的消歧知识图谱；

图2是本发明所述一种基于知识图谱和上下文语境的中文语义消歧方法的步骤1构建消歧知识图谱的具体实施流程图；

图3是本发明所述一种基于知识图谱和上下文语境的中文语义消歧方法的步骤2进行基于上下文语境的语义消歧的具体实施流程图。

在上述获取数据集的基础上，可以构建消歧知识图谱，对应本发明提出的方法的步骤1，示例如表2所示；

表2消歧知识图谱示例

其中一个歧义词的其中一个消歧词对应多个上下文语境，一个上下文语境包含两种情况，其中一种只包含本句的内容，另外一种包含上句、本句、下句3句的内容。

基于上述消歧知识图谱，对测试集进行基于上下文语境的语义消歧，对应本发明提出的方法的步骤2，结果示例如表3所示；

表3测试集消歧结果示例

其中，状态的解释如表4所示；

表4状态解释

其中，概率的阈值在本实施例中被设定为0.9。

对上述测试集进行语义消歧的结果进行评估，评估指标准确率定义为“所有输入的句子给出正确建议的占比”，基线定义为“将所有输入的句子直接给出无需修改的建议”，本实施例和基线的评估对比如表5所示，本方法相较基线准确率有所提高；

表5实验结果对比

方法	准确率
		基线	86.0769％
本发明所述方法	93.6925％

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于知识图谱和上下文语境的中文语义消歧方法，其特征在于：

首先定义消歧知识图谱：一条知识的表示方式为三元组T＝(V_a，R，V_d)，V_a为歧义词，即包含多种语义的词语或词组，V_a是由若干个词语组成的列表；R表示关系“可被替换成”，即V_a可被替换成V_b；V_d为V_a的消歧词，即将V_a替换成的无歧义的词语或词组，V_d由若干个词语组成的列表，V_d有两个属性，分别为T在获取数据集中出现的频次和T在获取数据集中时所处的上下文语境的全集；

包括如下步骤：

步骤1：构建消歧知识图谱，包括以下步骤；

步骤1.1：对获取的数据集进行预处理；获取的数据集包含训练集和验证集；

其中，训练集共有L个由未消歧句子和消歧句子组成的元组，对每一个元组中的每一个句子进行包括去除符号、分词的操作，得到由2个列表组成的元组P＝(S_a，S_d)，L个元组P组成集合G；

步骤1.2.1：计算S_a和S_d中共同出现的词组成的集合H＝S_a∩S_d；

步骤1.2.2：计算I_a＝S_a-H和I_d＝S_d-H，I_a表示只在S_a中出现的词，I_d表示只在Sd中出现的词；若I_a和I_d有任意一个为空，则结束操作；

步骤1.2.3：将I_a中出现的元素在S_a中出现时的位置相邻的元素进行组合，形成列表I′_a＝[V_a1 V_a2…V_ax]，x≥1；

步骤1.2.4：将I_d中出现的元素在S_d中出现的位置相邻的元素进行组合，形成列表I′_d＝[V_d1 V_d2…V_dy]，y≥1；

步骤1.2.5：将I′_a和I′_d中的元素进行对齐操作，形成z个三元组T＝(V_a，R，V_d)，z＝min(x，y)；若x和y不相等，则舍弃I′_a和I′_d二者中元素数量多的列表中相较另一个列表多余的元素；

本步骤形成的所有三元组中R的含义相同，均为关系“可被替换成”，则在存储时只考虑V_a和V_b，形成以V_a为键的字典D或D′；D或D′中一个V_a对应的值为以与V_a对应的全部V_b为键、T＝(V_a，R，V_d)对应的出现频次和T出现时的上下文语境为值的字典；其中，所包含的上下文语境是上句、本句、下句这3句话的字典为D，所包含的上下文语境是本句1句话的字典为D′，字典D或D′的键的个数为N；

步骤1.3：抽取歧义词不变时的上下文语境，关于步骤1.2中获得的字典D或D′的每一个值V_a和步骤1.1获得的集合G中的元组P＝(S_a，S_d)，针对每一个V_a进行如下操作：

步骤1.3.2：将V_a出现在S_a中时的所有上下文语境存入字典D或D′中，即在字典D或D′中键V_a对应的值中增加键V_a，对应的值是上下文语境出现的频次和所有上下文语境；

步骤1.4：将上下文语境表示成索引形式，针对步骤1.3中获得的字典D或D′中出现的每一个上下文语境，共e个，从0开始编号以形成索引，即一个上下文语境对应一个编号，将步骤1.3得到的字典D或D′中的上下文语境文本替换成对应的编号；

其中，c_i表示第i个上下文语境的向量，T表示矩阵转置；

同理，由字典D′得到的上下文语境矩阵为C′；

步骤2：进行基于上下文语境的语义消歧，包括以下步骤：

步骤2.2：获取待消歧句子列表，共有M个句子；

步骤2.5：从第j个列表Q_j中发现歧义词，针对字典D中每一个键V_a，判断V_a是否存在于Q_j中，只有当V_a的每一个元素都存在于Q_j中且这些元素在V_a中和在Q_j中的顺序一致，才认为V_a是存在于Q_j中；若存在，将V_a放入集合U_j中；如果集合U_j不为空，即Q_j存在歧义词，则转到步骤2.6；如果集合U_j为空，，即Q_j不存在歧义词，则跳转到步骤2.7；

步骤2.6：对于步骤2.5中获得的U_j中的每一个元素V_a进行语义消歧，并给出修改建议；

步骤2.7：输出“无歧义”的修改建议，跳转到步骤2.8；

步骤2.8：j值增加1，判断j的值，若1≤j≤M，跳转至步骤2.5，否则当j＞M，跳转至步骤2.9；

步骤2.9：保存消歧结果，使步骤2.3中的每一个列表Q都有与之对应的修改建议；

其中，修改建议包括是否建议修改和Q中命中的每一个歧义词推荐修改成的消歧词。

2.如权利要求1所述的一种基于知识图谱和上下文语境的中文语义消歧方法，其特征在于，步骤2.6包括以下步骤：

步骤2.6.1：使用BERT预训练模型，将V_a在Q_j所处位置的上下文语境用向量f表示；

步骤2.6.2：根据V_a在词典D中相关的全部上下文语境的编号，在矩阵C中获得由编号对应行组成的表示与V_a相关的三句上下文语境集合的多维向量F，在矩阵C′中获得由编号对应行组成的表示与V_a相关的单句上下文语境集合的多维向量F′；

步骤2.6.3：根据式(2)计算向量f和多维向量F中每一个向量的相似度，获取V_a在Q_j中的上下文与在消歧知识图谱中出现的三句上下文语境的相似度向量g；同理，计算向量f和多维向量F′中每一个向量的相似度，获取V_a在Q_j中的上下文与在消歧知识图谱中出现的单句上下文语境的相似度向量g′；

其中，||f||表示f的模，||F||表示F的模，F^T表示F的转置矩阵；

步骤2.6.4：根据式(3)计算g和g′的混合相似度，将混合相似度最高的上下文语境所对应的V_b作为修改建议输出，跳转到步骤2.8；

mix-similarity＝(1-α)g+αg′ (3)

其中，α为预设的单句上下文语境相似度占混合相似的比例。