[go: up one dir, main page]

CN101866337B - 词性标注系统、用于训练词性标注模型的装置及其方法 - Google Patents

词性标注系统、用于训练词性标注模型的装置及其方法 Download PDF

Info

Publication number
CN101866337B
CN101866337B CN200910132711.3A CN200910132711A CN101866337B CN 101866337 B CN101866337 B CN 101866337B CN 200910132711 A CN200910132711 A CN 200910132711A CN 101866337 B CN101866337 B CN 101866337B
Authority
CN
China
Prior art keywords
speech
word
speech tagging
node
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910132711.3A
Other languages
English (en)
Other versions
CN101866337A (zh
Inventor
胡长建
赵凯
邱立坤
沈国阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Renesas Electronics China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN200910132711.3A priority Critical patent/CN101866337B/zh
Priority to JP2010077274A priority patent/JP5128629B2/ja
Publication of CN101866337A publication Critical patent/CN101866337A/zh
Application granted granted Critical
Publication of CN101866337B publication Critical patent/CN101866337B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种词性标注系统,包括:词性标注模型训练装置,用于基于词性层次树利用词性标注训练集中已标注的第一文本来逐层逐节点地训练词性标注模型;以及词性标注装置,用于使用训练的词性标注模型对待标注的文本进行词性标注。本发明还涉及一种词性标注方法、一种用于训练词性标注模型的装置及其方法。根据本发明的系统和方法,实现了大规模标注集中的词性的标注并提高了词性标注的精度。

Description

词性标注系统、用于训练词性标注模型的装置及其方法
技术领域
本发明涉及自然语言处理领域,具体地,涉及一种词性标注系统,用于训练词性标注模型的装置及其方法。 
背景技术
随着互联网的广泛普及以及社会的日益信息化,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理技术是应对上述需求的核心技术之一。词性标注是给文本中的每个词标注上正确的词性,它是自然语言处理的基础。由于词性标注的结果直接影响自然语言处理的上层处理领域(比如,词频统计、句法分析、组块分析、语义分析等),因此获得高效和准确的词性标注方法和系统非常重要。 
词性标注是自然语言处理领域的一个序列标注问题,而条件随机域模型(Conditional Random Fields-CRFs)被广泛应用于处理自然语言中的序列标注问题。条件随机域从本质上讲是一种用于在给定输入结点值时计算制定输出结点值的条件概率的无向图模型,它具有表达元素长距离依赖性和交叠性特征的能力,可以用于处理全局性关联较强的信息抽取工作。因此它有效地避免了像最大熵(MaximumEntropy-ME)和隐马尔可夫模型(Hidden Markov Model-HMM)等有向图模型的强相关性假设,客服了它们出现的标注偏置问题,是目前处理序列数据标注问题的最好的统计机器学习模型。要获得一个比较好的词性标注模型,需要引入更加丰富的特征以及采用大规模标注集进行训练。然而CRFs的训练过程是一个非常耗时和耗费计算资源的工作,并且其训练时间以及计算资源的需求将随标注标签数量指数增长。 因此CRFs模型很少用在具有大标注集合的大规模系统应用中(比如词性标注系统),通常用在特征较少并且小规模训练语料的应用环境中。考虑到词性标注的高准确性要求,如何将CRFs模型应用到具有大规模标注集和大规模训练语料特征的词性标注工作是一个急待解决的问题。 
对于上述问题,存在着一些相关解决方案,例如:文献1(1.Cohn T,Smith A,Osborne M.Scaling conditional randomfields using error-correcting codes.In Proc.the 43rd Annual Meeting ofthe Association for Computational Linguistics(ACL′05),Ann Arbor,Michigan:Association for Computational Linguistics,June 2005,pp.10-17.)给出了一种将CRFs应用到大标注集合的方法。该文献引入误差修正输出码(Error Correcting Output Code-ECOC,ECOC是一种系综方法,先定义冗余判决函数,称为译码过程-coding,然后基于上述判决函数构造最终分类函数即解码过程-decoding)来解决大标注集下的CRF训练问题。具体过程如下: 
训练过程(编码过程) 
1)假定标注集有m个标签(例如,NN-名词,VB-动词,JJ-形容词,RB-副词),人工选定一个ECOC,假定其长度为n,该修正码的目的就是将标签映射为一个n比特的向量,示例如下: 
Figure G2009101327113D00021
表1 
通过上述编码,该方法就将原来的标注问题(也可以看作多分类问题),转变成n个相互独立的二值分类问题,每一个列编码就对应着一个二值分类器,比如黑色框选定的第三个分类器,它的目的就是将标注为 “NN,JJ”的词和标注为“VB,RB”的词区分开来。 
2)构建二值分类器的训练语料(通过修改原始语料来实现,简单来说就是将训练语料中的标注标签修改为对应编码中的值,比如要为上述第三个分类器构造语料,那么只需将原始语料中的所有标注为“NN”,“JJ”重新标注为“1”,而所有“VB”,“RB”替换为“0”)。得到修改后的语料后,该方法采用传统的CRFs训练方法来训练对应的二值分类器。 
模型使用过程(解码过程) 
1)给定任何一个句子,例如“NEC Develops word-leading technologyto prevent IP phone spam”. 
2)对上述句子使用上述训练出来的所有二值分类器进行分别标注,并记录标注结果,假定标注结果如下: 
Figure G2009101327113D00031
如上述所示,对于每一个词都会对应一个n比特的向量,采用比较常用的策略就可以对比该向量和上述表1中的编码向量,进而寻找出一个匹配的标签并用它来标注该词。比如对于词“Develops”,其对应的n比特向量和“VB”对应的编码最为接近,那么该系统就将Develops标注为“VB-动词”。 
目前的技术并不能很有效地解决将CRF应用到大规模标注集的词性标注问题,使得该方法离实际应用还有距离,具体来说:1)文献1的方法的性能很大程度上取决于ECOC编码的选取,但是 选取一个理想的ECOC是比较困难的。 
2)上述的方案对训练耗时巨大以及高端的计算资源的严重依赖并没有从根本上解决。文献[1]中的训练过程要训练n个二值分类器,其中n的大小取决于ECOC选取,针对词性标注问题,这个值比较大,对应的训练时间仍然很长,而且对高端计算资源的依赖依然存在。另外在解码过程中,由于要对所有二值分类器的逐个使用,再加上编码匹配过程的繁琐,使得训练模型的应用也非常耗时,也存在高端计算资源的依赖问题。 
发明内容
本发明是引入词性分层、分类的技术,并结合层叠CRFs模型来解决传统CRF难以应用到大规模标注集下的词性标注问题。本发明可以自动从训练集中分析词性之间的内在联系,并依据这些内在联系构建词性层次树来组织所有的词性。根据这个词性层次树,本发明引入层叠CRFs模型,进而使得每层的标记个数得以减少,并详细设定了各模型之间的引入关系,最后能够自动训练出用于大规模标注集的层叠CRFs词性标注模型。考虑到训练集可能存在的稀疏问题,本发明还基于构词规则训练出对于未登录词的词性猜测模型,以进一步提高本发明的词性标注的精度。 
根据本发明第一方面,提出了一种词性标注系统,包括:词性标注模型训练装置,用于基于词性层次树利用词性标注训练集中已标注的第一文本来逐层逐节点地训练词性标注模型;以及词性标注装置,用于使用训练的词性标注模型对待标注的文本进行词性标注。 
根据本发明第二方面,提出了一种词性标注方法,包括:词性标注模型训练步骤,基于词性层次树利用词性标注训练集中已标注的第一文本来逐层逐节点地训练词性标注模型;以及词性标注步骤,使用训练的词性标注模型对待标注的文本进行词性标注。 
根据本发明第三方面,提出了一种用于训练词性标注模型的装置,包括:CRF模型训练语料构造单元,用于利用词性层次树将从词性标注训练集中已标注的第一文本逐层逐节点地标注为第二文本来构 造CRF模型训练语料;以及CRF模型训练单元,用于利用CRF模型训练语料构造单元每次标注的第二文本相应地逐层逐节点地训练CRF模型以得到词性标注模型。 
根据本发明第四方面,提出了一种用于训练词性标注模型的方法,包括:CRF模型训练语料构造步骤,利用词性层次树将从词性标注训练集中已标注的第一文本逐层逐节点地标注为第二文本来构造CRF模型训练语料;以及CRF模型训练步骤,利用CRF模型训练语料构造步骤每次标注的第二文本相应地逐层逐节点地训练CRF模型以得到词性标注模型。 
本发明根本上解决了CRFs用于大标注集的词性标注问题,具体来说: 
1)使得CRFs模型能够用到大标注集的词性标注工作,并且解决了对训练时间巨大和高端计算资源的依赖性问题,本发明提出的系统和方法能够在普通PC机上训练出词性标注模型; 
2)提高了词性标注的精度,原因有二:其一,词性序列标注是一个全局关联性较强的工作,因此引入CRFs模型能够有效地实现了全局最优,能够提高词性标注精度;其二,引入基于构词规则的未登录词词性猜测机制,能够有效地解决训练集的稀疏问题,也能够提高词性标注的整体精度; 
3)本发明提到的方法是全自动方法,能够大大地减少训练和优化词性标注模型的人工成本。 
附图说明
图1a示出了根据本发明第一实施例的词性标注系统的示意图; 
图1b是根据本发明第一实施例的词性标注方法的流程图; 
图2示出了根据本发明的词性层次树构建装置的示意图; 
图3示出了根据本发明的词性层次树构建方法的流程图; 
图4a是词性层次树的一个示例结构图; 
图4b和4c是词性层次树的数据结构的一个示例; 
图5a示出了根据本发明的词性标注模型训练装置的示意结构图; 
图5b示出了根据本发明的词性标注模型训练方法的流程图; 
图6a示出了根据本发明的词性标注装置的示意图; 
图6b是根据本发明的词性标注方法的流程图; 
图7a示出了根据本发明第二实施例的词性标注系统的示意图; 
图7b是根据本发明第二实施例的词性标注方法的流程图; 
图8a示出了根据本发明第三实施例的词性标注系统的示意图; 
图8b是根据本发明第三实施例的词性标注方法的流程图。 
具体实施方式
下面,将参考附图描述本发明的优选实施例。在附图中,相同的元件将由相同的参考符号或数字表示。此外,在本发明的下列描述中,将省略对已知功能和配置的具体描述,以避免使本发明的主题不清楚。 
图1a是根据本发明第一实施例的词性标注系统的示意结构图。词性标注系统1中的词性标注训练集10包括大量的已标注的文本,即,已标注的文本集合。词性层次树构建装置14用于基于词性标注训练集10中的已标注文本来分析词性之间的关联关系,并根据分析的关联关系构建词性层次树15来层次化组织词性标注训练集中出现的标注的词性,这种关联关系例如可以是词性之间的相似度。词性标注模型训练装置12用于训练生成词性标注模型13,该词性标注模型训练装置从词性标注训练集10中读取已标注的文本,并根据词性层次树15中的词性结构层次信息,构建模型训练过程以训练用于词性标注的CRFs词性标注模型13,其中训练得到的词性标注模型是层叠的词性标注模型。词性标注装置22用于根据得到的词性标注模型对未标注文本中的词的词性进行标注。 
虽然图1a所示的词性标注系统包括词性层次树构建装置14,但是,可以理解地是该词性标注系统也可以不包括该词性层次树构建装置,而是使用已经构建的词性层次树来对待标注文本进行词性标注。该词性层次树例如可以是手工构建的层次树。以及,该词性标注系统可以仅包括词性标注模型训练装置12来生成用于词性标注的词性标注模型13。 
词性层次树15将词性以树状结构分层组织。图4a示出了词性层次树的一个示例结构,在该示例中该词性层次树一共有4层,0,1,2,3,其中第2和第3层的节点数为6个。词性层次树的叶节点对应的是真实的词性,其余节点是任意设定的虚类名。图4b和4c示出了图4a的词性层次树的数据结构的一个例子。 
图1b示出了词性标注方法的流程图。在S101,词性层次树构建装置14构建词性层次树15来层次化组织词性标注训练集中出现的标注的词性。在S102,词性标注模型训练装置12从词性标注训练集10中读取已标注的文本,并根据词性层次树15中的词性结构层次信息,生成词性标注模型13,该词性标注模型13是层叠结构的标注模型。在S103,词性标注装置22利用生成的词性标注模型13对输入的文本进行词性标注。 
下面首先结合图2和图3对如何生成词性层次树15进行描述。 
图2是根据本发明的词性层次树构建装置14的示意结构图。其中词性特征模板选择单元140用于选择表征词性的语法表现的词性特征模板,可以有多种方式表征词性的语法,例如可以选取已标注文本中的当前词的前词,前词词性,后词和后词词性这几种特征来作为词性特征模板。特征向量构建单元141用于根据选择出的词性特征模板,针对词性标注训练集10中出现的每一个词性构建对应的特征向量。相似度计算单元142用于利用构建的特征向量对词性标注训练集10中的任意两个词性计算其相似度。聚类单元143用于根据计算的相似度使用传统层次聚类算法对词性标注训练集10中的所有词性进行聚类,并根据预定规则生成词性层次树15。 
图3示出了词性层次树构建装置生成词性层次树的方法的流程图。在S301,词性特征模板选择单元140选择词性的特征作为词性特征模板,例如选择已标注文本中的当前词的前词,前词词性,后词和后词词性这几种特征。对于香港/ns 评出/v 十/m 大/a 杰出/a 青年/n这一已标注好的文本,选择的当前词为“评出”,当前词词性为“v”,其词性特征表示如下: 
Figure DEST_PATH_GA20171931200910132711301D00011
在S302,特征向量构建单元141针对词性标注训练集10中出现的所有词性,根据词性特征模板构建对应的特征向量。例如,词性标注训练集中共有dz个词,lz个词性,给定上述选定的词性的特征,那么该模块为任意一个词性x构建如下向量: 
1)x<前词>前词向量-向量维数为dz,向量对应元素表征x词性的词前面出现特定词的频次 
2)x<前词词性>前词词性向量-向量维数为lz,向量对应元素表征x词性的词前面出现特定词性的频次 
3)x<后词>后词向量-向量维数为dz,向量对应元素表征x词性的词后面出现特定词的频次 
4)x<后词词性>后词词性向量-向量维数为lz,向量对应元素表征x词性的词后面出现特定词性的频次 
在S303,相似度计算单元142用于对词性标注训练集10中的任意两个词性根据下列步骤计算其相似度。例如,对于词性x1和词性x2, 
1)首先分别计算两个词性(x1,x2)的对应特征向量的相似度: 
Simc(x1<前词>,x2<前词>), 
Simc(x1<前词词性>,x2<前词词性>), 
Simc(x1<后词>,x2<后词>), 
Simc(x1<后词词性>,x2<后词词性>) 
2)使用下面公式计算总体相似度 
Sim(x1,x2)=w1*Simc(x1<前词>,x2<前词>)+ 
             w2*Simc(x1<前词词性>,x2<前词词性>)+ 
             w3*Simc(x1<后词>,x2<后词>)+ 
             w4*Simc(x1<后词词性>,x2<后词词性>) 
    其中w1+w2+w3+w4=1 
在步骤S304,聚类单元143根据计算出的相似度利用层次聚类算法(例如,K-means聚类算法)来对所有词性进行聚类,并根据预定规则生成层次树。在本发明中,该预定规则可以是限定每层的节点数小于n(n为正整数)。例如,n等于8。 
下面将结合图5a和图5b描述如何生成词性标注模型。图5a是根据本发明的词性标注模型训练装置12的结构图。词性标注模型训练装置12包括:CRF模型训练语料构造单元121,CRF模型训练单元122和逻辑电路120。CRF模型训练语料构造单元121根据词性层次树15对从词性标注训练集10中读取的训练文本进行逐层逐节点地标注。CRF模型训练单元122根据CRF模型训练语料构造单元121每次标注的训练文本相应地逐层逐节点地训练CRF模型。逻辑电路120控制CRF模型训练语料构造单元121和CRF模型训练单元122进行词性标注模型训练。逻辑电路120装载有词性层次树的层次数目,并在CRF模型训练语料构造单元121和CRF模型训练单元122每层处理完成之后,将层数增加1,直到对词性层次树的最后一层的所有节点结束处理。 
图5b是词性标注模型训练装置生成词性标注模型的方法的流程图。该流程图包括一个双层循环的嵌套训练方法。该方法采用自顶到下的训练模式。上一层的训练结果对下一层有影响,同层之间的训练可以独立进行。假设词性层次树共有n层,第i层有mi个节点,当前节点是j。首先在S601,逻辑电路120将第i层初始赋值为0。在S602,逻辑电路120将节点j赋值为1。之后在S603,CRF模型训练语料构造单元121构造<i,j>CRF模型训练语料,将原始词性标注训练集10中的已标注文本中的词性标注标签替换为该标签在词性层次树中的当前节点的子节点名称。在S604,CRF模型训练单元122利用<i,j>CRF模型训练语料和选择的特征模板训练<i,j>CRF模型,其中,在i=0时,CRF模型训练单元122选择的特征模板包括前后各两个词、当前词的前字和后字以及前后各两个词之间的共现(co-occurrence);在i>0时,除了使用第0层用到的特征模板之外,还使用包括上一层标注结果中的前后各两个词的词性,以及词性之间的共现、词与词性之间的共现的特征模板。在 S605,将j值增加1并在S606判断j是否大于mi,如果j小于mi则继续执行S603,否则在S607将i值增加1并执行S602,直到已经对词性层次树中的所有层的节点执行了S603和S604,从而训练得到可以应用于大规模标注集的层叠词性标注模型。 
例如,给定一个标注完好的句子: 
香港/ns  评出/v  十/m  大/a  杰出/a  青年/n 
在第0层,构造<0,1>CRF模型训练语料。首先对上述句子重新标注。参见图4a示出的词性层次树,该0层第1个节点的子节点分别是“label1”,“label2”,“label3”和“label4”。而图4a中的实际词性“v”对应到词性层次树中的第一层节点名称是“label1”,那么所有在原始训练集中标注为“v”的词,都将重新标注该词为“label1”。 
在第0层对上述句子重新标注后,得到如下句子: 
香港/label3  评出/label1  十/label2  大/label1  杰出/label1青年/label3 
在0层,训练CRF模型。选择的特征模板包括“香港”,“评出”等词的前后各两个词、当前词的前字和后字以及前后各两个词之间的共现(共现指两个词在一定上下文中同时出现的情况)。 
之后,在第1层对上述句子再次重新标注。对第1层第1个节点<1,1>,进行<1,1>CRF模型训练语料构造。参见图4a的词性层次树,由于<1,1>节点的子节点包括“label11,label12”,所以,将0层词性标注为“label1”的词进一步细标为“label11,label12”,即当前节点的子节点名称集合 
对于0层标注结果:香港/label3  评出/label1  十/label2  大/label1  杰出/label1  青年/label3,在<1,1>节点重标后的训练语料为: 
香港/label3  评出/label12  十/label2  大/label11  杰出/label11青年/label3 
之后进行<1,1>节点CRF模型训练。其中选择的特征模板除了第0层的特征模板之外,还包括上一层标注结果中的前后各两个词的词性,以及词性之间的共现、词与词性之间的共现。例如,对于“评 出”一词,其前后各两个词“香港”和“十”的词性“label3”“label2”,上述词性之间的共现、词与词性之间的共现。 
类似地,对<1,2>节点,<1,3>节点,<1,4>节点分别地进行上述的CRF模型训练预料构造和CRF模型训练。直到对所有层的所有节点执行了CRF模型训练语料构造和CRF模型训练。 
图6a示出了词性标注装置的结构图。参见图6a,词性标注装置22包括逻辑电路222,CRF模型特征构造单元220和CRF词性标注单元221。逻辑电路222根据层叠的词性标注模型,控制CRF模型特征构造单元220和CRF词性标注单元221进行词性标注。CRF模型特征构造单元220在逻辑电路222的控制下,为待标注文本应用<i,j>CRF模型逐层逐节点地构造特征,CRF词性标注单元221在逻辑电路222的控制下根据特征构造单元220每次构造的特征数据,相应地逐层逐节点地进行词性标注。 
图6b是词性标注装置执行层叠CRF词性标注方法的流程图。假设词性标注模型共有n层,第i层有mi个节点,当前节点是j。首先在S901,逻辑电路222将第i层初始赋值为0。在S902,逻辑电路222将节点j赋值为1。之后在S903,CRF模型特征构造单元220为应用<i,j>CRF模型构造特征数据,根据训练词性标注模型过程中设定的特征模板,构建CRFs模型的输入特征数据,针对不同的层i,使用以下两种不同的方法之一: 
1)i等于0的时候,执行CRF模型的特征模板填充过程,即,直接从输入的待标注文本中提取相关的特征信息,并填充到模板,生成对应的CRFs模型的输入特征数据。 
2)i不等于0的时候,除了0层中获取的相关的特征信息,还包括从利用i-1层CRF模型对待标注文本进行标注的结果中抽取对应的特征信息,生成对应的CRFs模型的输入特征数据。 
在S904,基于获得的特征数据,利用词性标注模型10的<i,j>CRF模型对待标注文本进行标注。 
在S905,将j值增加1并在S906判断j是否大于mi,如果j小于mi则继续执行S903,否则在S907将i值增加1并执行S902,直到已经对词性层 次树中的所有层的节点执行了S903和S904。由此通过逐层地对文本进行词性标注,实现了大规模标注集的词性标注。 
下面给出一个简单示例,来进一步说明整个标注过程: 
给定一个待标注文本:北京  入围  十  大  宜居  城市。 
第0层(应用<0,1>CRFs模型) 
标注后的结果为:北京/label3  入围/label1  十/label2  大/label1  宜居/label1  城市/label3 
第1层(应用所有该层的CRFs模型) 
1.通过<1,1>CRFs模型得到北京/label3  入围/label12  十/label2  大/label11  宜居/label11  城市/label3 
2.应用<1,2>CRFs模型...... 
…… 
第1层结束后的标注结果为: 
北京/label32  入围/label12  十/label21  大/label11  宜居/label11  城市/label31 
第2层 
1.通过<2,1>CRFs模型得到: 
北京/label32  入围/label12  十/label21  大/a  宜居/a城市/label31 
2.应用<2,1>CRFs模型...... 
最终能够得到完整的标注结果: 
北京/ns  入围/v  十/m  大/a  宜居/a  城市/n 
图7a是本发明第二实施例的词性标注系统的示意结构图。与图1a所示的词性标注系统相比较,该词性标注系统还包括评估装置16,调整装置17和测试集构建装置18。测试集构建装置18用于从词性标注训练集10中随机选择一个词性标注文本集合作为待标注文本集合的测试集。评估装置16用于对利用词性标注模型对待标注的测试集进行词性标注后的结果进行评估,即,根据测试的结果评测标注精度。 调整装置17用于根据评估装置的评估结果对词性层次树构建装置14进行调整,从而生成更优性能的词性层次树。 
图7b示出了词性标注系统执行词性标注的方法的流程图。参考图7b,在S701,测试集构建装置18从词性标注训练集10中随机提取一个子集作为测试集。在S702,词性标注系统利用训练好的词性标注模型13对测试集进行词性标注。在S703,评估装置16对标注词性的测试集的精度进行评估并将评估结果发送到调整装置17。之后在S704,调整装置17根据评估结果判词性标注模型的性能,并在词性标注模型的性能不满足预定条件时,执行S705,对词性层次树构建装置14中使用的W1,W2,W3和W4的阈值进行调整以改变聚类结果。在S706调整装置利用启发式规则对聚类结果进行调整。启发式规则例如是:“n”和“ns”应该分到不同的组中。 
图8a是根据本发明第三实施例的词性标注系统的结构图。对于未登录词,由于训练语料中不存在对应的训练数据,因此对这类词的标注往往精度比较低,进而影响整体标注精度。本发明的词性标注系统可以对未登陆词的词性进行修正,从而提高系统词性标注的整体精度。与图1a所示的词性标注系统相比较,该词性标注系统还包括未登陆词词性猜测模型构建装置19和未登陆词词性修正装置21。未登陆词词性猜测模型构建装置19用于从现有的词性标注训练集10中学习构词规则,并基于学习的构词规则创建未登陆词词性猜测模型20。未登陆词词性修正装置21用于利用未登陆词词性猜测模型来对利用词性标注模型13标注词性的文本进行未登陆词的词性修正。 
图8b示出了根据本发明第三实施例的词性标注方法。参考图8b,在S801,未登陆词词性猜测模型构建装置19首先对词性标注训练集中的词进行直接成分切分并对直接成分的属性进行分析(即,对每一个词性标注训练集中的词找出其直接成分,并对直接成分的属性进行标注)以得到词成分序列。 
下面对直接成分的定义进行简单解释。构成一个大单位的小单位称之为大单位的成分,相应地直接构成一个大单位的小单位称为直接成分。词性标注训练集中的词本身属于词,而不是比词更小的组成成 分,所以直接成分及直接成分属性分析不同于一般意义上的词语切分和词性标注,而是对每一个由两字及两个以上的字构成的词性标注训练集中的词都切成比它低一级的单位,比如两字词,低一级的单位就是构成该两字词的单个字符(语素),而对于三字及三字以上的,则将它切分为字典中存在的词(最大匹配)以及剩余的单个语素,比如“科学技术部”,假定字典中存在“科学”,“技术”两个词,而不存在“科学技术”,“技术部”等,那么它切分后就是“科学/技术/部”,假定词典中存在“科学”,“技术部”,“技术”等词,那么切分后就是“科学/技术部”。因此,这里的直接成分可能是词,也可能是语素。直接成分的属性主要指的是语法属性,以词性标记的形式显示,包括所有可能的词性标记。 
表1给出“冷暴力、扫射”两个词的直接成分切分和属性分析结果: 
  直接成分   直接成分长度  (字节)   直接成分属性
  冷   2   A
  暴力   4   N
     
  扫   2   V
  射   2   V
表1.词直接成分切分与直接成分属性分析结果示例得到对应的序列: 
冷暴力→冷2a N_B暴力4n N_E 
扫射→扫2v V_B射2v V_E;对于未登录词为“冷射”,那么得到的词成分序列为:冷2a射2v 
在S802,未登陆词词性猜测模型构建装置19选择词性特征模板。 
在S803,未登陆词词性猜测模型构建装置19利用选择的词性特征模板对生成的词成分序列进行转换,并通过已知的机器学习算法生成未登陆词词性猜测模型20。例如,利用未登陆词词性猜测模型20 得到“冷射”整个词的词性:POS(冷2a V_B,射2v V_E)=V。 
在S804,词性标注系统利用生成的未登陆词词性猜测模型20对基于词性标注模型13标注的文本中的未登陆词进行重新标注。 
假设对于词成分序列“扫2v V_B射2v V_E”,选择的特征模板是: 
//Part-of-speech of the constituent word 
U01:%x[-1,2]//the former one constituent′s second 
feature(/)(″/″denotes a null feature) 
U02:%x[0,2]//the current constituent′s second feature(a) 
//Length of the constituent word 
U03:%x[1,1]//the next one constituent′s first feature(2,2) 
//The constituent word itself 
U04:%x[0,0]//the current one constituent′s zero feature 
那么对词成分序列“扫2v V_B射2v V_E”进行转换,将其转换为CRF等机器学习方法的输入数据: 
if(T(-1,2)=′/′)tag=′V_B′ 
if(T(0,2)=′v′)tag=′V_B′ 
if(T(1,1)=′2′)tag=′V_B′ 
if(T(0,0)=’扫’)tag=’V_B’ 
if(T(-1,2)=′v′)tag=′V_E′ 
if(T(0,2)=′v′)tag=′V_E′ 
if(T(1,1)=′2′)tag=′V_E′ 
if(T(0,0)=’射’)tag=’V_E’ 
虽然利用生成的未登陆词词性猜测模型20对基于词性标注模型13最终标注得到的文本中的未登陆词进行重新标注,但是也可以利用生成的未登陆词词性猜测模型20对基于词性标注模型13在当前层标注的文本中的未登陆词进行重新标注,即用以修改当前层的词性标记结果,之后用于下一层的特征数据。 
本发明以中文文本为例,对具体实施方式进行了说明,但是很清 楚地,本发明也可以同样用于对英语、日语以及其它语言的词性标注。 
尽管已经参照具体实施例,对本发明进行了描述,但本发明不应当由这些实施例来限定,而应当仅由所附权利要求来限定。应当清楚,在不偏离本发明的范围和精神的前提下,本领域普通技术人员可以对实施例进行改变或修改。 

Claims (18)

1.一种词性标注系统,包括:
词性标注模型训练装置,用于基于词性层次树利用词性标注训练集中已标注的第一文本来逐层逐节点地训练词性标注模型;以及
词性标注装置,用于使用训练的词性标注模型对待标注的文本进行词性标注,
其中词性标注模型训练装置包括:
CRF模型训练语料构造单元,用于利用词性层次树将从词性标注训练集中已标注的第一文本逐层逐节点地标注为第二文本来构造CRF模型训练语料;以及
CRF模型训练单元,用于利用CRF模型训练语料构造单元每次标注的第二文本相应地逐层逐节点地训练CRF模型以得到词性标注模型;
其中CRF模型训练单元以下列方式选择特征模板来逐层逐节点地训练CRF模型:
(a)当前层是第0层,特征模板包括第二文本中每一个词的前后各两个词、当前词的前字和后字以及前后各两个词之间的共现;和
(b)当前层不是第0层,特征模板包括第0层选择的特征模板和上一层的第二文本中的每一个词的前后各两个词的词性,以及词性之间的共现、词与词性之间的共现。
2.如权利要求1所述的词性标注系统,其中CRF模型训练语料构造单元通过将第一文本中的标注词性替换为与该词性在词性层次树中的位置相对应的当前节点的子节点名称来进行逐层逐节点地标注。
3.如权利要求1所述的词性标注系统,其中词性标注装置包括:
CRF模型特征构造单元,用于针对待标注文本为应用CRF模型逐层逐节点地构造特征数据;以及
CRF词性标注单元,用于根据特征数据构造单元每次构造的特征数据相应地逐层逐节点地进行词性标注;
其中CRF模型特征构造单元按照下列方式构建CRF模型的特征数据:
(a)当前层是第0层,从待标注文本中提取用于填充在训练CRF模型时第0层选择的特征模板的特征数据;和
(b)当前层不是第0层,使用第0层的特征数据以及从利用上一层CRFs模型对待标注文本进行标注后的第二文本中抽取特征数据。
4.如权利要求1所述的词性标注系统,还包括:
词性层次树构建装置,用于通过对词性标注训练集中的已标注文本的词性之间的关系进行分析来构建词性层次树。
5.如权利要求4所述的词性标注系统,其中词性层次树构建装置包括:
词性特征模板选择单元,用于选择表征词性特征的特征模板;
特征向量构建单元,用于根据选择的特征模板,为词性标注训练集中的词性构建对应的特征向量;
相似度计算单元,用于利用特征向量计算词性之间的相似度;以及
聚类单元,用于根据相似度对词性进行聚类,以生成词性层次树。
6.如权利要求5所述的词性标注系统,还包括:
测试集构造装置,用于从词性标注训练集中随机选择已标注词性的文本集合作为测试集;
评估装置,用于对利用词性标注模型对来自测试集中的待标注文本进行词性标注的结果进行评估;以及
调整装置,用于根据评估结果对词性层次树进行调整。
7.如权利要求6所述的词性标注系统,其中调整装置对词性层次树构建装置在计算词性之间的相似度时使用的阈值进行调整。
8.如权利要求1所述的词性标注系统,还包括:
未登陆词词性猜测模型构造装置,用于从词性标注训练集中学习构词规则并构造未登陆词词性猜测模型;以及
未登陆词词性修正装置,用于使用未登陆词词性猜测模型对未登陆词进行词性标注,并对使用词性标注模型标注词性的未登陆词的词性进行修正。
9.一种词性标注方法,包括:
词性标注模型训练步骤,基于词性层次树利用词性标注训练集中已标注的第一文本来逐层逐节点地训练词性标注模型;以及
词性标注步骤,使用训练的词性标注模型对待标注的文本进行词性标注,
其中词性标注模型训练步骤包括:
CRF模型训练语料构造步骤,利用词性层次树将从词性标注训练集中已标注的第一文本逐层逐节点地标注为第二文本来构造CRF模型训练语料;以及
CRF模型训练步骤,利用CRF模型训练语料构造步骤每次标注的第二文本相应地逐层逐节点地训练CRF模型以得到词性标注模型;
其中CRF模型训练步骤以下列方式选择特征模板来逐层逐节点地训练CRF模型:
(a)当前层是第0层,特征模板包括第二文本中每一个词的前后各两个词、当前词的前字和后字以及前后各两个词之间的共现;和
(b)当前层不是第0层,特征模板包括第0层选择的特征模板和上一层的第二文本中的每一个词的前后各两个词的词性,以及词性之间的共现、词与词性之间的共现。
10.如权利要求9所述的词性标注方法,其中CRF模型训练语料构造步骤包括通过将第一文本中的标注词性替换为与该词性在词性层次树中的位置相对应的当前节点的子节点名称来进行逐层逐节点地标注的步骤。
11.如权利要求9所述的词性标注方法,其中词性标注步骤包括:
CRF模型特征构造步骤,针对待标注文本为应用CRF模型逐层逐节点地构造特征数据;以及
CRF词性标注步骤,根据特征数据构造步骤每次构造的特征数据相应地逐层逐节点地进行词性标注;
其中CRF模型特征构造步骤按照下列方式构构造CRF模型的特征数据:
(1)当前层是第0层,从待标注文本中提取用于填充在训练CRF模型时第0层选择的特征模板的特征数据;和
(2)当前层不是第0层,使用第0层的特征数据以及从利用上一层CRFs模型对待标注文本进行标注后的第二文本中抽取特征数据。
12.如权利要求9所述的词性标注方法,还包括:
词性层次树构建步骤,通过对词性标注训练集中的已标注文本的词性之间的关系进行分析来构建词性层次树。
13.如权利要求12所述的词性标注方法,其中词性层次树构建步骤包括:
词性特征模板选择步骤,选择表征词性特征的特征模板;
特征向量构建步骤,根据选择的特征模板,为词性标注训练集中的词性构建对应的特征向量;
相似度计算步骤,利用特征向量计算词性之间的相似度;以及
聚类步骤,根据相似度对词性进行聚类,以生成词性层次树。
14.如权利要求13所述的词性标注方法,还包括:
测试集构造步骤,从词性标注训练集中随机选择已标注词性的文本集合作为测试集;
评估步骤,对利用词性标注模型对来自测试集中的待标注文本进行词性标注的结果进行评估;以及
调整步骤,根据评估结果对词性层次树进行调整。
15.如权利要求14所述的词性标注方法,其中调整步骤包括对词性层次树构建步骤在计算词性之间的相似度时使用的阈值进行调整的步骤。
16.如权利要求9所述的词性标注方法,还包括:
未登陆词词性猜测模型构造步骤,从词性标注训练集中学习构词规则并构造未登陆词词性猜测模型;以及
未登陆词词性修正步骤,使用未登陆词词性猜测模型对未登陆词进行词性标注,并对使用词性标注模型标注词性的未登陆词的词性进行修正。
17.一种用于训练词性标注模型的装置,包括:
CRF模型训练语料构造单元,用于利用词性层次树将从词性标注训练集中已标注的第一文本逐层逐节点地标注为第二文本来构造CRF模型训练语料;以及
CRF模型训练单元,用于利用CRF模型训练语料构造单元每次标注的第二文本相应地逐层逐节点地训练CRF模型以得到词性标注模型;
其中CRF模型训练单元以下列方式选择特征模板来逐层逐节点地训练CRF模型:
(a)当前层是第0层,特征模板包括第二文本中每一个词的前后各两个词、当前词的前字和后字以及前后各两个词之间的共现;和
(b)当前层不是第0层,特征模板包括第0层选择的特征模板和上一层的第二文本中的每一个词的前后各两个词的词性,以及词性之间的共现、词与词性之间的共现。
18.一种用于训练词性标注模型的方法,包括:
CRF模型训练语料构造步骤,利用词性层次树将从词性标注训练集中已标注的第一文本逐层逐节点地标注为第二文本来构造CRF模型训练语料;以及
CRF模型训练步骤,利用CRF模型训练语料构造步骤每次标注的第二文本相应地逐层逐节点地训练CRF模型以得到词性标注模型;
其中CRF模型训练步骤以下列方式选择特征模板来逐层逐节点地训练CRF模型:
(a)当前层是第0层,特征模板包括第二文本中每一个词的前后各两个词、当前词的前字和后字以及前后各两个词之间的共现;和
(b)当前层不是第0层,特征模板包括第0层选择的特征模板和上一层的第二文本中的每一个词的前后各两个词的词性,以及词性之间的共现、词与词性之间的共现。
CN200910132711.3A 2009-04-14 2009-04-14 词性标注系统、用于训练词性标注模型的装置及其方法 Expired - Fee Related CN101866337B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200910132711.3A CN101866337B (zh) 2009-04-14 2009-04-14 词性标注系统、用于训练词性标注模型的装置及其方法
JP2010077274A JP5128629B2 (ja) 2009-04-14 2010-03-30 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910132711.3A CN101866337B (zh) 2009-04-14 2009-04-14 词性标注系统、用于训练词性标注模型的装置及其方法

Publications (2)

Publication Number Publication Date
CN101866337A CN101866337A (zh) 2010-10-20
CN101866337B true CN101866337B (zh) 2014-07-02

Family

ID=42958068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910132711.3A Expired - Fee Related CN101866337B (zh) 2009-04-14 2009-04-14 词性标注系统、用于训练词性标注模型的装置及其方法

Country Status (2)

Country Link
JP (1) JP5128629B2 (zh)
CN (1) CN101866337B (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164426B (zh) * 2011-12-13 2015-10-28 北大方正集团有限公司 一种命名实体识别的方法及装置
CN103902525B (zh) * 2012-12-28 2016-09-21 国网新疆电力公司信息通信公司 维吾尔语词性标注方法
CN103150381B (zh) * 2013-03-14 2016-03-02 北京理工大学 一种高精度汉语谓词识别方法
CN103530282B (zh) * 2013-10-23 2016-07-13 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN103631961B (zh) * 2013-12-17 2017-01-18 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN104391836B (zh) * 2014-11-07 2017-07-21 百度在线网络技术(北京)有限公司 处理用于句法分析的特征模板的方法及装置
CN105930415A (zh) * 2016-04-19 2016-09-07 昆明理工大学 一种基于支持向量机的越南语词性标注方法
CN105955955B (zh) * 2016-05-05 2018-08-28 东南大学 一种基于纠错输出编码的无需消歧的无监督词性标注方法
CN108241662B (zh) * 2016-12-23 2021-12-28 北京国双科技有限公司 数据标注的优化方法及装置
CN106778887B (zh) * 2016-12-27 2020-05-19 瑞安市辉煌网络科技有限公司 基于条件随机场确定句子标记序列的终端及方法
CN106844346B (zh) * 2017-02-09 2020-08-25 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107239444B (zh) * 2017-05-26 2019-10-08 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107526724A (zh) * 2017-08-22 2017-12-29 北京百度网讯科技有限公司 用于标注语料的方法及装置
CN109726386B (zh) * 2017-10-30 2023-05-09 中国移动通信有限公司研究院 一种词向量模型生成方法、装置和计算机可读存储介质
CN109766523A (zh) * 2017-11-09 2019-05-17 普天信息技术有限公司 词性标注方法和标注系统
CN107832425B (zh) * 2017-11-13 2020-03-06 中科鼎富(北京)科技发展有限公司 一种多轮迭代的语料标注方法、装置及系统
CN108182448B (zh) * 2017-12-22 2020-08-21 北京中关村科金技术有限公司 一种标注策略的选择方法及相关装置
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN110348465B (zh) * 2018-04-03 2022-10-18 富士通株式会社 用于标注样本的方法
CN109033084B (zh) * 2018-07-26 2022-10-28 国信优易数据股份有限公司 一种语义层次树构建方法以及装置
CN109344406B (zh) * 2018-09-30 2023-06-20 创新先进技术有限公司 词性标注方法、装置和电子设备
CN109657230B (zh) * 2018-11-06 2023-07-28 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN110175236B (zh) * 2019-04-24 2023-07-21 平安科技(深圳)有限公司 用于文本分类的训练样本生成方法、装置和计算机设备
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110321433B (zh) * 2019-06-26 2023-04-07 创新先进技术有限公司 确定文本类别的方法及装置
US11205052B2 (en) 2019-07-02 2021-12-21 Servicenow, Inc. Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework
CN110457683B (zh) * 2019-07-15 2023-04-07 北京百度网讯科技有限公司 模型优化方法、装置、计算机设备及存储介质
CN110427487B (zh) * 2019-07-30 2022-05-17 中国工商银行股份有限公司 一种数据标注方法、装置及存储介质
CN110532391B (zh) * 2019-08-30 2022-07-05 网宿科技股份有限公司 一种文本词性标注的方法及装置
CN110781667B (zh) * 2019-10-25 2021-10-08 北京中献电子技术开发有限公司 面向神经网络机器翻译的日语动词识别、词性标注方法
CN111160034B (zh) * 2019-12-31 2024-02-27 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111401067B (zh) * 2020-03-18 2023-07-14 上海观安信息技术股份有限公司 一种蜜罐仿真数据的生成方法及装置
JP2021162917A (ja) * 2020-03-30 2021-10-11 ソニーグループ株式会社 情報処理装置及び情報処理方法
CN113495884A (zh) * 2020-04-08 2021-10-12 阿里巴巴集团控股有限公司 样本标注的一致性处理方法、装置及电子设备
CN112017786A (zh) * 2020-07-02 2020-12-01 厦门市妇幼保健院(厦门市计划生育服务中心) 基于es的自定义分词器
CN111859862B (zh) * 2020-07-22 2024-03-22 海尔优家智能科技(北京)有限公司 文本的数据标注方法和装置、存储介质及电子装置
CN111950274A (zh) * 2020-07-31 2020-11-17 中国工商银行股份有限公司 一种专业领域语料的中文分词方法及装置
CN112016325B (zh) * 2020-09-04 2024-10-29 北京声智科技有限公司 语音合成方法及电子设备
CN112163424B (zh) * 2020-09-17 2024-07-19 中国建设银行股份有限公司 数据的标注方法、装置、设备和介质
CN112148877B (zh) * 2020-09-23 2023-07-04 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备
CN113158659B (zh) * 2021-02-08 2024-03-08 银江技术股份有限公司 一种基于司法文本的涉案财物计算方法
CN114676775B (zh) * 2022-03-24 2025-02-11 腾讯科技(深圳)有限公司 样本信息标注方法、装置、设备、程序以及存储介质
CN115146642B (zh) * 2022-07-21 2023-08-29 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4328362B2 (ja) * 2007-03-06 2009-09-09 日本電信電話株式会社 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体
CN101075251A (zh) * 2007-06-18 2007-11-21 中国电子科技集团公司第五十四研究所 一种基于数据挖掘的文本搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Applying Conditional Random Fields to Japanese Morphological Analysis;Taku Kudo,ET AL;《In Proc.of EMNLP》;20041231;1-8 *
JP特开2008-217592A 2008.09.18
Taku Kudo,ET AL.Applying Conditional Random Fields to Japanese Morphological Analysis.《In Proc.of EMNLP》.2004,230-237.

Also Published As

Publication number Publication date
JP5128629B2 (ja) 2013-01-23
JP2010250814A (ja) 2010-11-04
CN101866337A (zh) 2010-10-20

Similar Documents

Publication Publication Date Title
CN101866337B (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN109359293B (zh) 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN105843801B (zh) 多译本平行语料库的构建系统
Kobayashi et al. Top-down RST parsing utilizing granularity levels in documents
CN112417880A (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN111753514B (zh) 一种专利申请文本的自动生成方法和装置
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN112417854A (zh) 中文文档抽取式摘要方法
Mabona et al. Neural generative rhetorical structure parsing
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN103678271B (zh) 一种文本校正方法及用户设备
CN103544309A (zh) 一种中文垂直搜索的检索串拆分方法
CN113312453A (zh) 一种面向跨语言对话理解的模型预训练系统
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN111814493B (zh) 机器翻译方法、装置、电子设备和存储介质
CN110222338B (zh) 一种机构名实体识别方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN114154505A (zh) 一种面向电力规划评审领域的命名实体识别方法
CN118395987A (zh) 一种基于bert的多神经网络的滑坡危险性评估命名实体识别方法
Xia et al. Reasonfuse: Reason path driven and global–local fusion network for numerical table-text question answering
CN116611428A (zh) 基于编辑对齐算法的非自回归解码越南语文本正则化方法
WO2022231522A1 (en) Explainable recommendation system and method
CN103150376B (zh) 一种行业应用软件词根表的构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140702

Termination date: 20170414