CN105630770A

CN105630770A - 一种基于sc文法的分词标音连写方法及装置

Info

Publication number: CN105630770A
Application number: CN201510994505.9A
Authority: CN
Inventors: 黄河燕; 黄静
Original assignee: ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd; Beijing Institute of Technology BIT
Current assignee: ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd; Beijing Institute of Technology BIT
Priority date: 2015-12-23
Filing date: 2015-12-25
Publication date: 2016-06-01

Abstract

本发明涉及一种基于SC文法的分词标音连写方法及装置，属于计算机计算机科学中的机器翻译技术领域。本发明首先基于SC文法的分词歧义规则，利用自然语言中的邻接约束条件，建立歧义切分规则库，以排除不合法切分来提高分词精度；其次基于SC文法的分词连写规则库和连写语料统计库，连写语料统计库用来连写那些无法表示为规则的连写知识；最后基于SC文法的字典库，利用字典进行正向最大匹配来进行分词，发生歧义的字段调用分词歧义规则来获得正确的切分结果，解析该词的上下文语境获得正确的词性标注和标音。对比现有技术，本发明提高了分词的准确性，并且分词歧义规则库、组合歧义词库、连写规则库、字典库和连写语料统计库易于扩展和维护。

Description

一种基于SC文法的分词标音连写方法及装置

技术领域

本发明涉及一种分词标音连写方法及装置，特别涉及一种汉盲翻译系统中基于SC文法的分词标音连写方法及装置，属于计算机科学中的机器翻译技术领域。

背景技术

机器翻译是指利用电子计算机将一种自然语言转换成另一种自然语言表达的过程。汉盲翻译系统把中文信息自动翻译为盲文字符，这对盲人的教育、生活等起到非常大的帮助。盲文是一种特殊形式的拼音文字，要实现汉字到盲文的翻译，首先应将汉语进行分词连写，再转换成拼音，然后由拼音转换成盲文，所以汉语分词标音的准确性就在很大程度上决定了汉盲翻译的准确性。分词连写是汉语盲文独有的重要规则。分词是把一个一个的词分开来写；连写是按照盲文的特殊性，避免音节结构过于松散，便于摸读，将一些词连起来写。分词连写，必须遵循汉语语法、语言的逻辑性、习惯性和音节长短程度的基本规则。在汉语转换成拼音的过程中，由于汉字有多音字问题，但词的多音现象就比字的多音现象少得多，三字以上的词很少有多音现象，所以正确的分词连写可大大减少多音现象。但单独的多音字问题还是会存在，如何正确地给多音字标音就必须利用上下文语境进行自然语言分析处理。所以在汉字到盲文的转换过程有两个难点：1、提高汉语分词连写的正确性；2、结合上下文的语境分析给多音字正确标音。由于国内目前针对汉语到盲文的翻译还停留在人工阶段，为了给盲人带来更多更好的教育素材，繁重的翻译工作带来了准确率的降低，因此迫切需要一套针对汉语到盲文的高准确率的分词标音连写方法，从而为汉盲翻译打下夯实的基础。

发明内容

本发明的目的是为解决实现汉盲机器翻译的问题，提出一种基于SC文法的分词标音连写方法及装置，实现快速、准确的分词标音连写。

本发明的思想是：1、基于SC文法的分词歧义规则，利用自然语言中的邻接约束条件，建立歧义切分规则库，以排除不合法切分来提高分词精度；2、基于SC文法的分词连写规则库和连写语料统计库，按照盲文的特殊性，避免音节结构过于松散，便于盲人摸读，将一些词连起来写。连写语料统计库用来连写那些无法表示为规则的连写知识；3、基于SC文法的字典库，利用字典进行正向最大匹配来进行分词，发生歧义的字段调用分词歧义规则来获得正确的切分结果，解析该词的上下文语境获得正确的词性标注和标音。

本发明的目的是通过以下技术方案实现的：

一种基于SC文法的分词标音连写方法，基于字典库、组合歧义词库、分词歧义规则库、连写规则库和连写语料统计库，包括以下步骤：

(1)接收待分词标音的汉语字符串和文章体裁类型；

所述字符串为纯汉字字符串，即为不包含数字、标点符号、ASCII码字符等特殊符号的字符串；如果字符串中包含非汉字字符，对其进行分割，对分割后的非汉字子串单独处理，如直接生成词节点并赋予相应类型，对汉字字串转步骤(2)经过分词标音连写后与其他经处理的非汉字子串合并后输出即可。

(2)对汉语字符串基于字典库进行分词，并对分词后的词块进行词性标注和标音；

(3)根据文章体裁类型，调用相应的连写规则库，基于连写规则库中的盲文分词连写规则对步骤(2)的词块进行组合连写；

(4)基于连写语料统计库对组合后的词块进行二次组合连写；

(5)将生成的分词标音连写后的汉语字符串输出。

所述字典库用于汉语分词、词性标注和标音，包括汉语单词符号、语法语义属性标识符、上下文区分函数、单词的拼音。

所述字典库通过以下过程构建：根据汉语字典知识定义一套语法语义属性分类体系，并进行收录，语言工程人员在调试语料的过程中进一步完善。

所述基于字典库进行分词通过以下过程完成：

a.参照字典库，利用正向最大匹配算法对语句进行拆分得到词块；

b.根据词块的交叉特征进行交叉歧义判断；

c.基于组合歧义词库对词块进行歧义判断；

d.根据歧义规则，通过推理消除歧义；

e.输出分词结果。

所述交叉歧义是形如字串AXB，其中AX构成一个词，同时XB也构成一个词，这类歧义现象即为交叉歧义。其中，A、X、B的长度大于等于一个字长。如“有时间”、“不同情况”、“大脑袋”等均存在交叉歧义。

所述组合歧义词库用于识别存在组合歧义的词块，库里收录的是存在组合歧义的二字词，组合歧义词是形如AB的词串，其中A,B分别独立成词，如句子“他将来上海。”中的“将来”就是组合歧义词。

所述组合歧义词库通过以下过程构建：语言工程师在调试大批量语料的过程中逐步收录。

所述分词歧义规则库用于推理消除歧义词块，得到正确的分词结果，包括歧义词块、条件函数、正确分词操作。

所述分词歧义规则库通过以下过程构建：语言工程师在调试大批量语料的过程中逐步总结完善规则。分词歧义规则库细分为交叉歧义规则和组合歧义规则两类，具有交叉歧义的词块调用交叉歧义规则推理消歧，具有组合歧义的词块调用组合歧义规则推理消歧。

所述基于组合歧义词库对词块进行歧义判断通过以下过程完成：

a.对当前词块，利用二分查找算法查询组合歧义词库；

b.根据查询结果，输出组合歧义标志。

所述根据歧义规则，通过推理消除歧义通过以下过程完成：

a.对当前含歧义标志的词块，匹配歧义规则中的歧义词块部分；

b.若匹配成功，进行条件函数检查；

c.若条件检查满足，执行正确分词操作；

d.输出正确的分词结果。

所述对分词后的词块进行词性标注和标音通过以下过程完成：

a.对当前的词块,从字典库中取出该词块的字典信息；

b.逐条进行上下文函数检查；

c.若上下文检查满足，取出该条的词性和拼音。

所述连写规则库用于对分词并标注后的词块进行组合连写，包括规则词块部分、条件函数、连写操作。根据不同的文章体裁，连写规则库细分为文言文规则库和现代文规则库。

所述连写规则库通过以下过程构建：根据盲文出版物中定义的连写规则进行逐条收录，语言工程人员在调试语料的过程中进一步完善。

所述基于连写规则对词块进行组合连写通过以下过程完成：

a.对当前若干词块,匹配连写规则中的词块部分；

b.若匹配成功，进行条件函数检查；

c.若条件检查满足，执行正确连写操作；

d输出连写后的分词结果。

所述连写语料统计库用于对根据连写规则组合后的词块进行二次组合连写，库里收录的是需要组合连写的词块，如“三大纪律”。连写语料统计库细分为基础词库和用户词库，其中基础词库收录了一些通用的连写词块，用户词库包括用户自定义需要连写的词块。

所述连写语料统计库通过以下过程构建：根据盲文出版物中定义的一些具体连写词块进行收录，语言工程人员在调试语料的过程中进一步完善。

所述基于连写语料统计库对组合后的词块进行二次组合连写通过以下过程完成：

a.对当前词块，按照用户词库、基础词库的顺序进行匹配；

b.若匹配成功，执行连写组合；

c.输出连写后的词块结果；

一种基于SC文法的分词标音连写装置，基于字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库，包括依次连接的分词模块、词性标注及标音模块、一次组合连写模块和二次组合连写模块，分词模块、词性标注及标音模块分别与字典库相连，分词模块还与组合歧义词库和分词歧义规则库分别相连，一次组合连写模块与连写规则库相连，二次组合连写模块与连写语料统计库相连；

分词模块用于对输入汉语字符串基于字典库进行分割，拆分成独立的词块，并在分割的过程中对得到的词块基于交叉歧义特征以及组合歧义词库判断是否存在歧义，并对存在歧义的词基于分词歧义规则库消除切分歧义，得到正确的词块；

词性标注及标音模块用于对分词后的词块基于字典库通过上下文函数检查对分词模块得到的词块进行正确的词性标注和标音从而得到词块的正确词性和拼音；

一次组合连写模块用于对词性标注后的词块进行组合连写，该模块基于连写规则库通过对条件函数进行检查得到连写组合后的词块；

二次组合连写模块用于对一次组合连写后的词块进行连写语料统计库的查询匹配操作得到连写组合后的词块，并将带有词性标注和标音的词块输出。

作为优选，所述字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库均可以根据时代的发展不断更改完善，从而提高分词的准确性。

有益效果

盲文是一种特殊形式的拼音文字，所以汉语分词标音的准确性就在很大程度上决定了汉盲翻译的准确性。本发明设计的基于SC文法的字典结构提高了多音字标音的准确性，基于SC文法的分词、连写规则提高了分词的准确性，并且分词歧义规则库、组合歧义词库、连写规则库、字典库和连写语料统计库易于扩展和维护。

附图说明

以下结合附图和发明实例对本发明作详细描述：

图1是本发明实施例一种基于SC文法的分词标音连写方法流程示意图；

图2是分词过程的流程图；

图3是词性标注和标音过程的流程图；

图4是分词连写过程的流程图；

图5是本发明实施例一种基于SC文法的分词标音连写装置组成结构示意图。

具体实施方式

下面结合附图与实施例对本发明进行详细说明。

一种基于SC文法的分词标音连写方法，流程如图1所示，包括以下步骤：

⑴接受收待分词标音的汉语字符串和文章体裁类型；

下面以接受的文章体裁类型为现代文、汉语字符串内容为“2008年，小李晋升为这个项目的总工程师”为例，说明本发明方法的实施过程。

⑵对汉语字符串基于字典库进行分词，并对分词后的词块进行词性标注和标音。如图2所示，该内容通过以下过程实现：

2.1基于字典对汉语字符串进行正向最大匹配，切分出词块。

结合字典最大词长信息和在句中的最大可能边长，确定一个最优最大边长N，在词典中查找。如句子“2008年，小李晋升为这个项目的总工程师。”“年”在字典中的最大词长为3，因为字典里收录的以年开头的词最长的是3个字的。“年”在句子中的最大可能边长为1，因为后面是非汉字符，从而确定该句子中“年”的最优最大边长N为1。若词典中有这样的一个N字词，则匹配成功，匹配字段作为一个词被切分出来；如果词典中找不到这样的一个N字词，则匹配失败。匹配字段去掉最后一个汉字，剩下的N－l个字符作为新的匹配字段，进行新的匹配，如此进行下去，直至切分到成功为止。即完成一轮匹配切分出一个词。如此往复，直到所有的词都被切分出来。

2.2词块歧义判断

如果切分出来的词是多于一个汉字，即N>1，则进行交叉歧义的判断，取该词的第二个汉字作为词首，以词长>＝N为边长，执行上述的词切分操作，如果能找到这样的词，就说明交叉歧义存在，调用分词歧义规则推理消歧。如上面的句子中切分到“项目”时，以“目”为词首，词长为2时，发现“目的”也是词，这就说明“项目”存在交叉歧义。

如果当前词长大于1为2，那该词有可能存在组合歧义，查询组合歧义词库判定其是否存在组合歧义。对于示例字符串，由于“项目”不在组合歧义词库中，所以“项目”只有交叉歧义。如果“项目”在组合歧义词库中，则“项目”同时具有交叉歧义和组合歧义。

2.3推理消歧

根据当前词的歧义标志类型调用相应的分词歧义规则推理消歧。所述的歧义规则库包含了在某些特定词、词类或属性情况下的歧义切分规则，如组合歧义规则：“NP(将来),NP(PLA)→DWD(A)”，其中，“NP(将来),NP(PLA)”是歧义规则的第一部分，即歧义词块部分。“DWD(A)”是歧义规则的第三部分，即正确分词操作部分，此规则中作为歧义规则的第二部分，即条件函数部分为空；该规则表示当A词块“将来”的后面跟一个B词块，即表示地点(PLA)的名词(NP)时，该A词块要切分开“DWD(A)”。如句子“他将来上海。”经过步骤2.1、2.2后发现“将来”具有组合歧义，匹配规则“NP(将来),NP(PLA)→DWD(A)”成功，“将来”的正确切分为“将/来”。交叉歧义规则和组合歧义规则的表示形式一样，只是内容不同而已。对于上述的句子“项目”有交叉歧义，调用交叉歧义规则进行推理消歧。歧义规则库中没有匹配相应规则，但本发明中的分词算法是基于正向的最大匹配，所以根据正向最长优先原则，得到正确词切分为“项目”。

对后面的汉字字符串按上面的步骤进行下去，直到切分出所有词为止。上面的句子切分后的词块为：

2008/年/，/小/李/晋升/为/这/个/项目/的/总/工程师/。/

2.4词性标注和标音

如图3所示为对词块进行词性标注和标音的过程，具体为：

对每个汉字词块查询字典，取出该词的字典信息，如当前句子的第一个汉字词块“年”在字典中的表示如下：

$年

TIM:(NCGEN,nian)S(L,(1,1),[AP；Q；WH；R])“nian2”

AP:(AGEN)“nian2”

其中，“$年”是汉语词的第一部分，即汉语单词符号部分。“TIM:(NCGEN,nian)”是汉语词的第二部分，即语法语义属性标识符部分；它表示“年”在句子中可以当时间词(TIM)。“S(L,(1,1),[AP；Q；WH；R])”是汉语词的第三部分，即上下文区分函数部分。它表示，如果“年”在句子中作为时间词(TIM)，则其左边第一个词必须是形容词(AP)或数词(Q)或疑问词(WH)或代词(R)。“nian2”是汉语词的第四部分，即单词的拼音部分。

上面的句子，“2008”是数词(Q)，满足“年”的第一条，取出词性TIM和拼音“nian2”。如此进行下去，上面的句子的词性标注和标音结果为：

2008/Q/2008年/TIM/nian2，/BD/,小/AP/xiao3李/R/li3晋升/VP/jin4sheng1为/SV/wei2这/R/zhe4个/L/ge4项目/NP/xiang4mu4的/DEF/de0总/AP/zong3工程师/NP/gong1cheng2shi1。/BD/。

对词块进行词性标注和标音后，将通过如图4所述过程进行分词连写，具体如下：

⑶根据文章体裁类型，调用相应的连写规则库，基于连写规则库中的盲文分词连写规则对步骤(2)的词块进行组合连写；

这是现代文体裁文章，调用现代文连写规则，从左到右依次取出分词标注后的词块，当前词块为“2008/Q/2008”时，匹配成功规则

S1{label:Q}S2{label:NP/L/TIM,length:1}||S1,S2

其中，“S1{label:Q}S2{label:NP/L/TIM,length:1}”是规则的第一部分，即规则词块部分。它表示规则中的第一个词块是数词(Q)，第二个词块是词长(length)为1的名词(NP)或量词(L)或时间词(TIM)。当前规则没有条件函数，“S1,S2”是规则的第三部分，即连写操作部分，它表示需要把词块S1和S2连写在一起。所以词块“2008/Q/2008年/TIM/nian2”需要连写。连写后的新词块表示为“2008年/QCH/2008nian2”，QCH标志表示该词块是连写后的词块。取出下一可能连写词块“小/AP/xiao3”，匹配连写规则，依次执行如上步骤，从而得到一次组合连写后的词块：

2008年/QCH/2008nian2，/BD/,小李/QCH/xiao3li3晋升/VP/jin4sheng1为/SV/wei2这个/QCH/zhe4ge4项目/NP/xiang4mu4的/DEF/de0总工程师/QCH/zong3gong1cheng2shi1。/BD/。

⑷基于连写语料统计库对组合后的词块进行二次组合连写；

从左到右依次取出经过一次连写组合后的词块，按最长最优原则匹配用户词库，基础词库中的词块，匹配成功后进行组合连写，得到二次组合连写后的词块。

2008年/QCH/nian2，/BD/,小李/QCH/xiao3li3晋升/VP/jin4sheng1为/SV/wei2这个/QCH/zhe4ge4项目/NP/xiang4mu4的/DEF/de0总工程师/QCH/zong3gong1cheng2shi1。/BD/。

⑸将生成的分词标音连写后的汉语字符串输出。

基于上述一种基于SC文法的分词标音连写方法，实现了一种基于SC文法的分词标音连写装置，如图5所示，从图中可以看出，该装置基于字典库、连写语料统计库、连写规则库、组合歧义词库和分词歧义规则库，包括分词模块、词性标注及标音模块、一次组合连写模块和二次组合连写模块，分词模块、词性标注及标音模块分别与字典库相连，分词模块还与组合歧义词库和分词歧义规则库分别相连，一次组合连写模块与连写规则库相连，二次组合连写模块与连写语料统计库相连；

伴随时间的推移，人们会不断的改变现有此的用法以及不断的创造出新词，因此所述字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库均可以维护，使其根据时代的发展内容不断更改完善，从而提高分词的准确性。

实验结果

基于SC文法的分词标音连写方法有效地解决了汉盲转换过程中的汉语分词歧义、连写和多音字的正确标音问题，实现了汉语到盲文的高效智能翻译转换。翻译准确率高于90％。

本发明采用人工智能技术，有机地融合了规则和实例等多种分析处理策略，高效准确地对汉语句子进行分词标音连写，提高了汉盲翻译的正确性。本发明设计了一种基于SC文法的，可扩展性好的，表示效率高的，人性化的规则表示语言，该规则表示具有普适性，可扩展到其他自然语言处理问题的解决上。

Claims

1.一种基于SC文法的分词标音连写方法，其特征在于：基于字典库、组合歧义词库、分词歧义规则库、连写规则库和连写语料统计库，包括以下步骤：

步骤一、接收待分词标音的汉语字符串和文章体裁类型；

步骤二、对汉语字符串基于字典库进行分词，并对分词后的词块进行词性标注和标音；

步骤三、根据文章体裁类型，调用相应的连写规则库，基于连写规则库中的盲文分词连写规则对步骤(2)的词块进行组合连写；

步骤四、基于连写语料统计库对组合后的词块进行二次组合连写；

步骤五、将生成的分词标音连写后的汉语字符串输出。

2.根据权利要求1所述的一种基于SC文法的分词标音连写方法，其特征在于，所述字典库用于汉语分词、词性标注和标音，包括汉语单词符号、语法语义属性标识符、上下文区分函数、单词的拼音。

3.根据权利要求1所述的一种基于SC文法的分词标音连写方法，其特征在于，所述基于字典库进行分词通过以下过程完成：：

b.根据词块的交叉特征进行交叉歧义判断；

c.基于组合歧义词库对词块进行歧义判断；

d.根据歧义规则，通过推理消除歧义；

e.输出分词结果。

4.根据权利要求3所述的一种基于SC文法的分词标音连写方法，其特征在于，所述组合歧义词库用于识别存在组合歧义的词块，库里收录的是存在组合歧义的词。

5.根据权利要求3-4任一所述的一种基于SC文法的分词标音连写方法，其特征在于，所述分词歧义规则库用于推理消除歧义词块，得到正确的分词结果，包括歧义词块、条件函数、正确分词操作，所述根据歧义规则，通过推理消除歧义通过以下过程完成：

b.若匹配成功，进行条件函数检查；

c.若条件检查满足，执行正确分词操作；

d.输出正确的分词结果。

6.根据权利要求1所述的一种基于SC文法的分词标音连写方法，其特征在于，所述对分词后的词块进行词性标注和标音通过以下过程完成：

a.对当前的词块,从字典库中取出该词块的字典信息；

b.逐条进行上下文函数检查；

c.若上下文检查满足，取出该条的词性和拼音。

7.根据权利要求1所述的一种基于SC文法的分词标音连写方法，其特征在于，所述连写规则库用于对分词并标注后的词块进行组合连写，包括规则词块部分、条件函数、连写操作；根据不同的文章体裁，连写规则库细分为文言文规则库和现代文规则库；所述基于连写规则对词块进行组合连写通过以下过程完成：

a.对当前若干词块,匹配连写规则中的词块部分；

b.若匹配成功，进行条件函数检查；

c.若条件检查满足，执行正确连写操作；

d.输出连写后的分词结果。

8.根据权利要求1所述的一种基于SC文法的分词标音连写方法，其特征在于，所述连写语料统计库用于对根据连写规则组合后的词块进行二次组合连写，库里收录的是需要组合连写的词块；连写语料统计库细分为基础词库和用户词库，其中基础词库收录了一些通用的连写词块，用户词库包括用户自定义需要连写的词块；所述基于连写语料统计库对组合后的词块进行二次组合连写通过以下过程完成：

a.对当前词块，按照用户词库、基础词库的顺序进行匹配；

b.若匹配成功，执行连写组合；

c.输出连写后的词块结果。

9.一种基于SC文法的分词标音连写装置，其特征在于，基于字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库，包括依次连接的分词模块、词性标注及标音模块、一次组合连写模块和二次组合连写模块，分词模块、词性标注及标音模块分别与字典库相连，分词模块还与组合歧义词库和分词歧义规则库分别相连，一次组合连写模块与连写规则库相连，二次组合连写模块与连写语料统计库相连；

10.根据权利要求9所述的一种基于SC文法的分词标音连写装置，其特征在于，所述字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库均可以维护，使其根据时代的发展内容不断更改完善，从而提高分词的准确性。