CN113065002A - 一种基于知识图谱和上下文语境的中文语义消歧方法 - Google Patents
一种基于知识图谱和上下文语境的中文语义消歧方法 Download PDFInfo
- Publication number
- CN113065002A CN113065002A CN202110417960.8A CN202110417960A CN113065002A CN 113065002 A CN113065002 A CN 113065002A CN 202110417960 A CN202110417960 A CN 202110417960A CN 113065002 A CN113065002 A CN 113065002A
- Authority
- CN
- China
- Prior art keywords
- context
- disambiguation
- dictionary
- vector
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 34
- 238000012986 modification Methods 0.000 claims abstract description 18
- 230000004048 modification Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000006386 neutralization reaction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000012795 verification Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001376 precipitating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于知识图谱和上下文语境的中文语义消歧方法,属于自然语言处理技术领域。本发明通过构建消歧知识图谱和基于上下文语境的语义消歧,可以在没有显式语义标注的由原句和完成消歧修改后的结果组成的获取数据集中抽取歧义词实体和消歧词实体以及它们之间的关系,同时将上下文语境作为消歧词实体的属性,从而将消歧知识沉淀于知识图谱,赋能语义消歧工作。本发明可以在新的待消歧文本中准确地发现已登录的歧义词。本发明实现了上下文语境的向量表示和基于向量的相似度计算,使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境。
Description
技术领域
本发明涉及一种中文语义消歧方法,具体涉及一种基于知识图谱和上下文语境的中文语义消歧方法,属于自然语言处理技术领域。
背景技术
语义消歧,是自然语言处理任务的一个核心与难点问题,影响了几乎所有任务的性能,比如搜索引擎、意见挖掘、文本理解与产生、推理等。消歧,即根据上下文确定对象语义的过程,其中,所述“对象”可以是一个词语或一个词组。目前,语义消歧的方法包括基于词典的方法、有监督的方法和无监督或半监督的方法等。这些方法虽然在某些领域取得了不错效果,但是,还没有可以很好地适应主要由中文口语组成的影视剧台词的语义消歧方法。
基于词典的语义消歧方法是最基础的方法之一,给定某个待消歧词及其上下文,该方法的思想是计算语义词典中各个词义的定义与上下文之间的覆盖度,选择覆盖度最大的作为待消歧词在其上下文下的正确词义。但是,由于词典中词义的定义通常比较简洁,使得与待消歧词的上下文得到的覆盖度可能为零,从而造成消歧性能不高。
有监督的消歧方法,通过使用词义标注语料来建立消歧模型,研究的重点在于特征的表示。虽然有监督的消歧方法能够取得较好的消歧性能,但需要大量的人工标注语料,费时费力。
为了避免需要大规模的语料,半监督或无监督方法仅需要少量或不需要人工标注语料。有方法仅需要使用少量的人工标注语料作为种子数据,另有方法从词对齐的双语语料抽取种子数据。也有方法根据词的不同歧义往往也体现在句法搭配上的差异这一思想,通过计算“语义优选强度”和“选择关联度”在大规模语料中自动获取句法结构的语义优选,然后用之于语义消歧。
一般说来,虽然半监督或无监督方法不需要大量的人工标注数据,但依赖于一个大规模的未标注语料,以及在该语料上的句法分析结果。另一方面,待消歧词的覆盖度可能会受影响。比如有的方法仅考察某部分特殊结构的句法,只能对动词、动词的主词或宾语、形容词修饰的名词等少数特定句法位置上的词进行消歧,而不能覆盖所有歧义词。
常见的上下文特征可以归纳为三个类型:
(1)词汇特征通常指待消歧词上下窗口内出现的词及其词性;
(2)句法特征利用待消歧词在上下文中的句法关系特征,如动-宾关系、是否带主/宾语、主/宾语组块类型、主/宾语中心词等;
(3)语义特征在句法关系的基础上添加了语义类信息,如主/宾语中心词的语义类,甚至还可以是语义角色标注类信息。
近年来,随着深度学习在自然语言处理领域的应用,出现了很多基于深度学习方法的语义消歧方法。深度学习方法可以自动地提取分类所需要的低层次或者高层次特征,从而减少特征提取方面的工作量。
发明内容
本发明的目的是为了解决现有技术无法准确的获取歧义词,同时对此特定领域适应性不强的技术问题,创造性地提出一种基于知识图谱和上下文语境的中文语义消歧方法。
本发明的创新点在于:构建消歧知识图谱和基于上下文语境的语义消歧。在由原句和完成消歧修改后的结果组成的获取数据集的基础上,从中进行歧义词的发掘并且抽取歧义词(或词组)和消歧后词语(或词组)的关系,来构建包含歧义词修改方法及其发生修改时上下文语境的消歧知识图谱,并利用此知识图谱在待消歧文本中发现歧义词,并根据歧义词上下文语境进行消歧修改建议的推荐。
本发明是通过以下技术方案实现的。
首先,定义消歧知识图谱:
一般意义上的知识图谱是一种揭示实体之间关系的语义网络,由若干条知识组成,每条知识表示为一个(实体1,关系,实体2)或(实体,属性,属性值)的三元组。本发明所述消歧知识图谱的定义如下:
一条知识的表示方式为三元组T=(Va,R,Vd),Va为歧义词,即包含多种语义的词语或词组,Va是由若干个词语组成的列表;R表示关系“可被替换成”,即Va可被替换成Vb;Vd为Va的消歧词,即将Va替换成的无歧义的词语或词组,Vd由若干个词语组成的列表,Vd有两个属性,分别为T在获取数据集中出现的频次和T在获取数据集中时所处的上下文语境的全集。
一种基于知识图谱和上下文语境的中文语义消歧方法,包括如下步骤:
步骤1:构建消歧知识图谱,包括以下步骤;
步骤1.1:对获取的数据集进行预处理。获取的数据集包含训练集和验证集。
其中,训练集共有L个由未消歧句子和消歧句子组成的元组,对每一个元组中的每一个句子进行去除符号、分词等操作,得到由2个列表组成的元组P=(Sa,Sd),L个元组P组成集合G。
步骤1.2:抽取歧义词及其替换方法,以及发生替换时的上下文语境,对步骤1.1获得的集合G中的每一个元组P进行以下处理:
步骤1.2.1:计算Sa和Sd中共同出现的词组成的集合H=Sa∩Sd。
步骤1.2.2:计算Ia=Sa–H和Id=Sd-H,Ia表示只在Sa中出现的词,Id表示只在Sd中出现的词;若Ia和Id有任意一个为空,则结束操作。
步骤1.2.3:将Ia中出现的元素在Sa中出现时的位置相邻的元素进行组合,形成列表I′a=[Va1Va2…Vax],x≥1。
步骤1.2.4:将Id中出现的元素在Sd中出现的位置相邻的元素进行组合,形成列表I′d=[Vd1Vd2…Vdy],y≥1。
步骤1.2.5:将I′a和I′d中的元素进行对齐操作(比如,I′a中的第1个元素和I′d中的第1个元素对应,依此类推),形成z个三元组T=(Va,R,Vd),z=min(x,y)。若x和y不相等,则舍弃I′a和I′d二者中元素数量多的列表中相较另一个列表多余的元素。
因为本步骤形成的所有三元组中R的含义相同,均为关系“可被替换成”,则在存储时只考虑Va和Vb,形成以Va为键的字典D或D′;D或D′中一个Va对应的值为以与Va对应的全部Vb为键、T=(Va,R,Vd)对应的出现频次和T出现时的上下文语境为值的字典。
其中,所包含的上下文语境是上句、本句、下句这3句话的字典为D,所包含的上下文语境是本句1句话的字典为D′,字典D或D′的键的个数为N。
步骤1.3:抽取歧义词不变时的上下文语境,关于步骤1.2中获得的字典D或D′的每一个值Va和步骤1.1获得的集合G中的元组P=(Sa,Sd),针对每一个Va进行如下操作:
步骤1.3.1:判断Va是否同时存在于任意P的Sa和Sd中,若没有这种情况则结束操作;若有,则跳转到步骤3.2;
步骤1.3.2:将Va出现在Sa中时的所有上下文语境存入字典D或D′中,即在字典D或D′中键Va对应的值(为字典)中增加键Va,对应的值是上下文语境出现的频次和所有上下文语境;
步骤1.4:将上下文语境表示成索引形式,针对步骤1.3中获得的字典D或D′中出现的每一个上下文语境,共e个,从0开始编号以形成索引,即一个上下文语境对应一个编号,将步骤1.3得到的字典D或D′中的上下文语境文本替换成对应的编号。
步骤1.5:使用BERT预训练模型,将字典D原本用文本表示的e个上下文语境用维度为d的向量c表示,根据式(1)拼接所有的向量c,得到上下文语境矩阵C:
其中,ci表示第i个上下文语境的向量,T表示矩阵转置。
同理,由字典D′得到的上下文语境矩阵为C′。
至此,消歧知识图谱完成构建。
步骤2:进行基于上下文语境的语义消歧,包括以下步骤:
步骤2.1:加载消歧知识图谱,包括步骤1中得到的字典D和D′、矩阵C和C′;
步骤2.2:获取待消歧句子列表,共有M个句子;
步骤2.3:将列表中的步骤2.2中的M个待消歧句子进行分词,得到M个列表Q;
步骤2.4:初始化变量j=1,其中,j表示第j个列表,取值范围为1≤j≤M;
步骤2.5:从第j个列表Qj中发现歧义词,针对字典D中每一个键Va,判断Va是否存在于Qj中,只有当Va的每一个元素都存在于Qj中且这些元素在Va中和在Qj中的顺序一致,才认为Va是存在于Qj中;若存在,将Va放入集合Uj中;如果集合Uj不为空,即Qj存在歧义词,则转到步骤2.6;如果集合Uj为空,,即Qj不存在歧义词,则跳转到步骤2.7。
步骤2.6:对于步骤2.5中获得的Uj中的每一个元素Va进行语义消歧,并给出修改建议。
具体步骤如下:
步骤2.6.1:使用BERT预训练模型,将Va在Qj所处位置的上下文语境用向量f表示;
步骤2.6.2:根据Va在词典D中相关的全部上下文语境的编号,在矩阵C中获得由编号对应行组成的表示与Va相关的三句上下文语境集合的多维向量F,在矩阵C′中获得由编号对应行组成的表示与Va相关的单句上下文语境集合的多维向量F′;
步骤2.6.3:根据式(2)计算向量f和多维向量F中每一个向量的相似度,获取Va在Qj中的上下文与在消歧知识图谱中出现的三句上下文语境的相似度向量g。同理,计算向量f和多维向量F′中每一个向量的相似度,获取Va在Qj中的上下文与在消歧知识图谱中出现的单句上下文语境的相似度向量g′;
其中,‖f‖表示f的模,‖F‖表示F的模,FT表示F的转置矩阵。
步骤2.6.4:根据式(3)计算g和g′的混合相似度,将混合相似度最高的上下文语境所对应的Vb作为修改建议输出,跳转到步骤2.8;
mix_similarity=(1-α)g+αg′ (3)
其中,α为预设的单句上下文语境相似度占混合相似的比例;
步骤2.7:输出“无歧义”的修改建议,跳转到步骤2.8;
步骤2.8:j值增加1,判断j的值,若1≤j≤M,跳转至步骤2.5,否则当j>M,跳转至步骤2.9。
步骤2.9:保存消歧结果,使步骤2.3中的每一个列表Q都有与之对应的修改建议。
其中,修改建议包括是否建议修改和Q中命中的每一个歧义词(如果有)推荐修改成的消歧词。
有益效果
本发明方法,与现有技术相比,具有以下优点:
1.结合知识图谱相关技术,本发明可以在没有显式语义标注的由原句和完成消歧修改后的结果组成的获取数据集中抽取歧义词实体和消歧词实体以及它们之间的关系,同时将上下文语境作为消歧词实体的属性,从而将消歧知识沉淀于知识图谱,赋能语义消歧工作;
2.借助消歧知识图谱,本发明可以在新的待消歧文本中准确地发现已登录的歧义词;
3.结合BERT相关技术,本发明实现了上下文语境的向量表示和基于向量的相似度计算,使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境;
附图说明
图1是本发明方法依托的消歧知识图谱的整体架构;
图2是本发明方法步骤1构建消歧知识图谱的具体实施流程图;
图3是本发明方法步骤2进行基于上下文语境的语义消歧的具体实施流程图。
具体实施方式
下面结合附图和实施例,对本发明方法做进一步详细说明。应当理解,此处所描述的具体实施例,仅仅用以解释本发明,并不用于限定本发明。
实施例
针对由中文口语组成的影视剧台词的语义消歧为例。
在本发明方法具体实施时,步骤1中获取数据集指的是一个由53部影视剧台词组成的数据集,其中1部影视剧为测试集,其他为训练集,组织形式和具体内容示例如表1所示:
表1数据集示例
原句 | 消歧句 |
妈要抱孙子 | 妈要获得孙子 |
他找打是吧 | 他欠揍是吧 |
…… | …… |
本实施例是基于本方法,可以将消歧知识沉淀于知识图谱,赋能语义消歧工作;可以在新的待消歧文本中准确地发现已登录的歧义词;实现了上下文语境的向量表示和基于向量的相似度计算,使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境;针对由中文口语组成的影视剧台词的语义消歧这特定领域,本发明更具有适应性,能够为实际的台词消歧工作提供有力提效抓手。
本发明的所提出的消歧知识图谱结构如图1所示,其中的每一条知识以三元组(实体1,关系,实体2)的形式表示;
其中,实体1为“歧义词”,即包含多种语义的词语或词组;
实体2为实体1的“消歧词”,即将实体1替换成的无歧义的词语或词组;实体2有两个属性,分别为该三元组在获取数据集中出现的频次和该三元组在获取数据集中时所处的上下文语境的全集。
关系为“可被替换成”,即实体1可被替换成实体2;
消歧知识图谱对应步骤1中的消歧知识图谱;
图2是本发明所述一种基于知识图谱和上下文语境的中文语义消歧方法的步骤1构建消歧知识图谱的具体实施流程图;
图3是本发明所述一种基于知识图谱和上下文语境的中文语义消歧方法的步骤2进行基于上下文语境的语义消歧的具体实施流程图。
在上述获取数据集的基础上,可以构建消歧知识图谱,对应本发明提出的方法的步骤1,示例如表2所示;
表2消歧知识图谱示例
其中一个歧义词的其中一个消歧词对应多个上下文语境,一个上下文语境包含两种情况,其中一种只包含本句的内容,另外一种包含上句、本句、下句3句的内容。
基于上述消歧知识图谱,对测试集进行基于上下文语境的语义消歧,对应本发明提出的方法的步骤2,结果示例如表3所示;
表3测试集消歧结果示例
其中,状态的解释如表4所示;
表4状态解释
其中,概率的阈值在本实施例中被设定为0.9。
对上述测试集进行语义消歧的结果进行评估,评估指标准确率定义为“所有输入的句子给出正确建议的占比”,基线定义为“将所有输入的句子直接给出无需修改的建议”,本实施例和基线的评估对比如表5所示,本方法相较基线准确率有所提高;
表5实验结果对比
方法 | 准确率 |
基线 | 86.0769% |
本发明所述方法 | 93.6925% |
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (2)
1.一种基于知识图谱和上下文语境的中文语义消歧方法,其特征在于:
首先定义消歧知识图谱:一条知识的表示方式为三元组T=(Va,R,Vd),Va为歧义词,即包含多种语义的词语或词组,Va是由若干个词语组成的列表;R表示关系“可被替换成”,即Va可被替换成Vb;Vd为Va的消歧词,即将Va替换成的无歧义的词语或词组,Vd由若干个词语组成的列表,Vd有两个属性,分别为T在获取数据集中出现的频次和T在获取数据集中时所处的上下文语境的全集;
包括如下步骤:
步骤1:构建消歧知识图谱,包括以下步骤;
步骤1.1:对获取的数据集进行预处理;获取的数据集包含训练集和验证集;
其中,训练集共有L个由未消歧句子和消歧句子组成的元组,对每一个元组中的每一个句子进行包括去除符号、分词的操作,得到由2个列表组成的元组P=(Sa,Sd),L个元组P组成集合G;
步骤1.2:抽取歧义词及其替换方法,以及发生替换时的上下文语境,对步骤1.1获得的集合G中的每一个元组P进行以下处理:
步骤1.2.1:计算Sa和Sd中共同出现的词组成的集合H=Sa∩Sd;
步骤1.2.2:计算Ia=Sa-H和Id=Sd-H,Ia表示只在Sa中出现的词,Id表示只在Sd中出现的词;若Ia和Id有任意一个为空,则结束操作;
步骤1.2.3:将Ia中出现的元素在Sa中出现时的位置相邻的元素进行组合,形成列表I′a=[Va1 Va2…Vax],x≥1;
步骤1.2.4:将Id中出现的元素在Sd中出现的位置相邻的元素进行组合,形成列表I′d=[Vd1 Vd2…Vdy],y≥1;
步骤1.2.5:将I′a和I′d中的元素进行对齐操作,形成z个三元组T=(Va,R,Vd),z=min(x,y);若x和y不相等,则舍弃I′a和I′d二者中元素数量多的列表中相较另一个列表多余的元素;
本步骤形成的所有三元组中R的含义相同,均为关系“可被替换成”,则在存储时只考虑Va和Vb,形成以Va为键的字典D或D′;D或D′中一个Va对应的值为以与Va对应的全部Vb为键、T=(Va,R,Vd)对应的出现频次和T出现时的上下文语境为值的字典;其中,所包含的上下文语境是上句、本句、下句这3句话的字典为D,所包含的上下文语境是本句1句话的字典为D′,字典D或D′的键的个数为N;
步骤1.3:抽取歧义词不变时的上下文语境,关于步骤1.2中获得的字典D或D′的每一个值Va和步骤1.1获得的集合G中的元组P=(Sa,Sd),针对每一个Va进行如下操作:
步骤1.3.1:判断Va是否同时存在于任意P的Sa和Sd中,若没有这种情况则结束操作;若有,则跳转到步骤3.2;
步骤1.3.2:将Va出现在Sa中时的所有上下文语境存入字典D或D′中,即在字典D或D′中键Va对应的值中增加键Va,对应的值是上下文语境出现的频次和所有上下文语境;
步骤1.4:将上下文语境表示成索引形式,针对步骤1.3中获得的字典D或D′中出现的每一个上下文语境,共e个,从0开始编号以形成索引,即一个上下文语境对应一个编号,将步骤1.3得到的字典D或D′中的上下文语境文本替换成对应的编号;
步骤1.5:使用BERT预训练模型,将字典D原本用文本表示的e个上下文语境用维度为d的向量c表示,根据式(1)拼接所有的向量c,得到上下文语境矩阵C:
其中,ci表示第i个上下文语境的向量,T表示矩阵转置;
同理,由字典D′得到的上下文语境矩阵为C′;
步骤2:进行基于上下文语境的语义消歧,包括以下步骤:
步骤2.1:加载消歧知识图谱,包括步骤1中得到的字典D和D′、矩阵C和C′;
步骤2.2:获取待消歧句子列表,共有M个句子;
步骤2.3:将列表中的步骤2.2中的M个待消歧句子进行分词,得到M个列表Q;
步骤2.4:初始化变量j=1,其中,j表示第j个列表,取值范围为1≤j≤M;
步骤2.5:从第j个列表Qj中发现歧义词,针对字典D中每一个键Va,判断Va是否存在于Qj中,只有当Va的每一个元素都存在于Qj中且这些元素在Va中和在Qj中的顺序一致,才认为Va是存在于Qj中;若存在,将Va放入集合Uj中;如果集合Uj不为空,即Qj存在歧义词,则转到步骤2.6;如果集合Uj为空,,即Qj不存在歧义词,则跳转到步骤2.7;
步骤2.6:对于步骤2.5中获得的Uj中的每一个元素Va进行语义消歧,并给出修改建议;
步骤2.7:输出“无歧义”的修改建议,跳转到步骤2.8;
步骤2.8:j值增加1,判断j的值,若1≤j≤M,跳转至步骤2.5,否则当j>M,跳转至步骤2.9;
步骤2.9:保存消歧结果,使步骤2.3中的每一个列表Q都有与之对应的修改建议;
其中,修改建议包括是否建议修改和Q中命中的每一个歧义词推荐修改成的消歧词。
2.如权利要求1所述的一种基于知识图谱和上下文语境的中文语义消歧方法,其特征在于,步骤2.6包括以下步骤:
步骤2.6.1:使用BERT预训练模型,将Va在Qj所处位置的上下文语境用向量f表示;
步骤2.6.2:根据Va在词典D中相关的全部上下文语境的编号,在矩阵C中获得由编号对应行组成的表示与Va相关的三句上下文语境集合的多维向量F,在矩阵C′中获得由编号对应行组成的表示与Va相关的单句上下文语境集合的多维向量F′;
步骤2.6.3:根据式(2)计算向量f和多维向量F中每一个向量的相似度,获取Va在Qj中的上下文与在消歧知识图谱中出现的三句上下文语境的相似度向量g;同理,计算向量f和多维向量F′中每一个向量的相似度,获取Va在Qj中的上下文与在消歧知识图谱中出现的单句上下文语境的相似度向量g′;
其中,||f||表示f的模,||F||表示F的模,FT表示F的转置矩阵;
步骤2.6.4:根据式(3)计算g和g′的混合相似度,将混合相似度最高的上下文语境所对应的Vb作为修改建议输出,跳转到步骤2.8;
mix-similarity=(1-α)g+αg′ (3)
其中,α为预设的单句上下文语境相似度占混合相似的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417960.8A CN113065002B (zh) | 2021-04-19 | 2021-04-19 | 一种基于知识图谱和上下文语境的中文语义消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417960.8A CN113065002B (zh) | 2021-04-19 | 2021-04-19 | 一种基于知识图谱和上下文语境的中文语义消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065002A true CN113065002A (zh) | 2021-07-02 |
CN113065002B CN113065002B (zh) | 2022-10-14 |
Family
ID=76567006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110417960.8A Active CN113065002B (zh) | 2021-04-19 | 2021-04-19 | 一种基于知识图谱和上下文语境的中文语义消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065002B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901836A (zh) * | 2021-11-16 | 2022-01-07 | 东莞理工学院 | 基于上下文语义的词义消歧方法、装置及相关设备 |
CN119047468A (zh) * | 2024-11-01 | 2024-11-29 | 成都亿橙科技有限公司 | 基于nlp意图识别的智能创作方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916887A (zh) * | 2006-09-06 | 2007-02-21 | 哈尔滨工程大学 | 基于替换词技术的无指导词义消歧方法 |
US20110119047A1 (en) * | 2009-11-19 | 2011-05-19 | Tatu Ylonen Oy Ltd | Joint disambiguation of the meaning of a natural language expression |
CN105630770A (zh) * | 2015-12-23 | 2016-06-01 | 华建宇通科技(北京)有限责任公司 | 一种基于sc文法的分词标音连写方法及装置 |
CN112214999A (zh) * | 2020-09-30 | 2021-01-12 | 内蒙古科技大学 | 一种基于图模型和词向量相结合的词义消歧方法及装置 |
-
2021
- 2021-04-19 CN CN202110417960.8A patent/CN113065002B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916887A (zh) * | 2006-09-06 | 2007-02-21 | 哈尔滨工程大学 | 基于替换词技术的无指导词义消歧方法 |
US20110119047A1 (en) * | 2009-11-19 | 2011-05-19 | Tatu Ylonen Oy Ltd | Joint disambiguation of the meaning of a natural language expression |
CN105630770A (zh) * | 2015-12-23 | 2016-06-01 | 华建宇通科技(北京)有限责任公司 | 一种基于sc文法的分词标音连写方法及装置 |
CN112214999A (zh) * | 2020-09-30 | 2021-01-12 | 内蒙古科技大学 | 一种基于图模型和词向量相结合的词义消歧方法及装置 |
Non-Patent Citations (2)
Title |
---|
STEFAN ZWICKLBAUER ET AL.: "Search-based entity disambiguation with document-centric knowledge bases", 《PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON KNOWLEDGE TECHNOLOGIES AND DATA-DRIVEN BUSINESS》 * |
鹿文鹏等: "基于领域知识的图模型词义消歧方法", 《自动化学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901836A (zh) * | 2021-11-16 | 2022-01-07 | 东莞理工学院 | 基于上下文语义的词义消歧方法、装置及相关设备 |
CN113901836B (zh) * | 2021-11-16 | 2024-09-17 | 东莞理工学院 | 基于上下文语义的词义消歧方法、装置及相关设备 |
CN119047468A (zh) * | 2024-11-01 | 2024-11-29 | 成都亿橙科技有限公司 | 基于nlp意图识别的智能创作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113065002B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069298B (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
US7478033B2 (en) | Systems and methods for translating Chinese pinyin to Chinese characters | |
US11068653B2 (en) | System and method for context-based abbreviation disambiguation using machine learning on synonyms of abbreviation expansions | |
CN103646112B (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN110991180A (zh) | 一种基于关键词和Word2Vec的命令识别方法 | |
US20060253273A1 (en) | Information extraction using a trainable grammar | |
CN104484319A (zh) | 用于自动化文本校正的方法和系统 | |
CN107844608B (zh) | 一种基于词向量的句子相似度比较方法 | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN108319583A (zh) | 从中文语料库提取知识的方法与系统 | |
Patil et al. | Issues and challenges in marathi named entity recognition | |
Sarkar et al. | A practical part-of-speech tagger for Bengali | |
CN113963748A (zh) | 一种蛋白质知识图谱向量化方法 | |
CN110569503A (zh) | 一种基于词统计与WordNet的义项表示与消歧方法 | |
CN118797005A (zh) | 智能问答方法、装置、电子设备、存储介质及产品 | |
CN107168953A (zh) | 海量文本中基于词向量表征的新词发现方法及系统 | |
CN113065002A (zh) | 一种基于知识图谱和上下文语境的中文语义消歧方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
Barari et al. | CloniZER spell checker adaptive language independent spell checker | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
Li et al. | New word discovery algorithm based on n-gram for multi-word internal solidification degree and frequency | |
Rehman et al. | An artificial neural network approach for sentence boundary disambiguation in Urdu language text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |