[go: up one dir, main page]

CN105630770A - 一种基于sc文法的分词标音连写方法及装置 - Google Patents

一种基于sc文法的分词标音连写方法及装置 Download PDF

Info

Publication number
CN105630770A
CN105630770A CN201510994505.9A CN201510994505A CN105630770A CN 105630770 A CN105630770 A CN 105630770A CN 201510994505 A CN201510994505 A CN 201510994505A CN 105630770 A CN105630770 A CN 105630770A
Authority
CN
China
Prior art keywords
word
word segmentation
ambiguity
ligature
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510994505.9A
Other languages
English (en)
Inventor
黄河燕
黄静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Beijing Institute of Technology BIT
Original Assignee
ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd, Beijing Institute of Technology BIT filed Critical ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Priority to CN201510994505.9A priority Critical patent/CN105630770A/zh
Publication of CN105630770A publication Critical patent/CN105630770A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于SC文法的分词标音连写方法及装置,属于计算机计算机科学中的机器翻译技术领域。本发明首先基于SC文法的分词歧义规则,利用自然语言中的邻接约束条件,建立歧义切分规则库,以排除不合法切分来提高分词精度;其次基于SC文法的分词连写规则库和连写语料统计库,连写语料统计库用来连写那些无法表示为规则的连写知识;最后基于SC文法的字典库,利用字典进行正向最大匹配来进行分词,发生歧义的字段调用分词歧义规则来获得正确的切分结果,解析该词的上下文语境获得正确的词性标注和标音。对比现有技术,本发明提高了分词的准确性,并且分词歧义规则库、组合歧义词库、连写规则库、字典库和连写语料统计库易于扩展和维护。

Description

一种基于SC文法的分词标音连写方法及装置
技术领域
本发明涉及一种分词标音连写方法及装置,特别涉及一种汉盲翻译系统中基于SC文法的分词标音连写方法及装置,属于计算机科学中的机器翻译技术领域。
背景技术
机器翻译是指利用电子计算机将一种自然语言转换成另一种自然语言表达的过程。汉盲翻译系统把中文信息自动翻译为盲文字符,这对盲人的教育、生活等起到非常大的帮助。盲文是一种特殊形式的拼音文字,要实现汉字到盲文的翻译,首先应将汉语进行分词连写,再转换成拼音,然后由拼音转换成盲文,所以汉语分词标音的准确性就在很大程度上决定了汉盲翻译的准确性。分词连写是汉语盲文独有的重要规则。分词是把一个一个的词分开来写;连写是按照盲文的特殊性,避免音节结构过于松散,便于摸读,将一些词连起来写。分词连写,必须遵循汉语语法、语言的逻辑性、习惯性和音节长短程度的基本规则。在汉语转换成拼音的过程中,由于汉字有多音字问题,但词的多音现象就比字的多音现象少得多,三字以上的词很少有多音现象,所以正确的分词连写可大大减少多音现象。但单独的多音字问题还是会存在,如何正确地给多音字标音就必须利用上下文语境进行自然语言分析处理。所以在汉字到盲文的转换过程有两个难点:1、提高汉语分词连写的正确性;2、结合上下文的语境分析给多音字正确标音。由于国内目前针对汉语到盲文的翻译还停留在人工阶段,为了给盲人带来更多更好的教育素材,繁重的翻译工作带来了准确率的降低,因此迫切需要一套针对汉语到盲文的高准确率的分词标音连写方法,从而为汉盲翻译打下夯实的基础。
发明内容
本发明的目的是为解决实现汉盲机器翻译的问题,提出一种基于SC文法的分词标音连写方法及装置,实现快速、准确的分词标音连写。
本发明的思想是:1、基于SC文法的分词歧义规则,利用自然语言中的邻接约束条件,建立歧义切分规则库,以排除不合法切分来提高分词精度;2、基于SC文法的分词连写规则库和连写语料统计库,按照盲文的特殊性,避免音节结构过于松散,便于盲人摸读,将一些词连起来写。连写语料统计库用来连写那些无法表示为规则的连写知识;3、基于SC文法的字典库,利用字典进行正向最大匹配来进行分词,发生歧义的字段调用分词歧义规则来获得正确的切分结果,解析该词的上下文语境获得正确的词性标注和标音。
本发明的目的是通过以下技术方案实现的:
一种基于SC文法的分词标音连写方法,基于字典库、组合歧义词库、分词歧义规则库、连写规则库和连写语料统计库,包括以下步骤:
(1)接收待分词标音的汉语字符串和文章体裁类型;
所述字符串为纯汉字字符串,即为不包含数字、标点符号、ASCII码字符等特殊符号的字符串;如果字符串中包含非汉字字符,对其进行分割,对分割后的非汉字子串单独处理,如直接生成词节点并赋予相应类型,对汉字字串转步骤(2)经过分词标音连写后与其他经处理的非汉字子串合并后输出即可。
(2)对汉语字符串基于字典库进行分词,并对分词后的词块进行词性标注和标音;
(3)根据文章体裁类型,调用相应的连写规则库,基于连写规则库中的盲文分词连写规则对步骤(2)的词块进行组合连写;
(4)基于连写语料统计库对组合后的词块进行二次组合连写;
(5)将生成的分词标音连写后的汉语字符串输出。
所述字典库用于汉语分词、词性标注和标音,包括汉语单词符号、语法语义属性标识符、上下文区分函数、单词的拼音。
所述字典库通过以下过程构建:根据汉语字典知识定义一套语法语义属性分类体系,并进行收录,语言工程人员在调试语料的过程中进一步完善。
所述基于字典库进行分词通过以下过程完成:
a.参照字典库,利用正向最大匹配算法对语句进行拆分得到词块;
b.根据词块的交叉特征进行交叉歧义判断;
c.基于组合歧义词库对词块进行歧义判断;
d.根据歧义规则,通过推理消除歧义;
e.输出分词结果。
所述交叉歧义是形如字串AXB,其中AX构成一个词,同时XB也构成一个词,这类歧义现象即为交叉歧义。其中,A、X、B的长度大于等于一个字长。如“有时间”、“不同情况”、“大脑袋”等均存在交叉歧义。
所述组合歧义词库用于识别存在组合歧义的词块,库里收录的是存在组合歧义的二字词,组合歧义词是形如AB的词串,其中A,B分别独立成词,如句子“他将来上海。”中的“将来”就是组合歧义词。
所述组合歧义词库通过以下过程构建:语言工程师在调试大批量语料的过程中逐步收录。
所述分词歧义规则库用于推理消除歧义词块,得到正确的分词结果,包括歧义词块、条件函数、正确分词操作。
所述分词歧义规则库通过以下过程构建:语言工程师在调试大批量语料的过程中逐步总结完善规则。分词歧义规则库细分为交叉歧义规则和组合歧义规则两类,具有交叉歧义的词块调用交叉歧义规则推理消歧,具有组合歧义的词块调用组合歧义规则推理消歧。
所述基于组合歧义词库对词块进行歧义判断通过以下过程完成:
a.对当前词块,利用二分查找算法查询组合歧义词库;
b.根据查询结果,输出组合歧义标志。
所述根据歧义规则,通过推理消除歧义通过以下过程完成:
a.对当前含歧义标志的词块,匹配歧义规则中的歧义词块部分;
b.若匹配成功,进行条件函数检查;
c.若条件检查满足,执行正确分词操作;
d.输出正确的分词结果。
所述对分词后的词块进行词性标注和标音通过以下过程完成:
a.对当前的词块,从字典库中取出该词块的字典信息;
b.逐条进行上下文函数检查;
c.若上下文检查满足,取出该条的词性和拼音。
所述连写规则库用于对分词并标注后的词块进行组合连写,包括规则词块部分、条件函数、连写操作。根据不同的文章体裁,连写规则库细分为文言文规则库和现代文规则库。
所述连写规则库通过以下过程构建:根据盲文出版物中定义的连写规则进行逐条收录,语言工程人员在调试语料的过程中进一步完善。
所述基于连写规则对词块进行组合连写通过以下过程完成:
a.对当前若干词块,匹配连写规则中的词块部分;
b.若匹配成功,进行条件函数检查;
c.若条件检查满足,执行正确连写操作;
d输出连写后的分词结果。
所述连写语料统计库用于对根据连写规则组合后的词块进行二次组合连写,库里收录的是需要组合连写的词块,如“三大纪律”。连写语料统计库细分为基础词库和用户词库,其中基础词库收录了一些通用的连写词块,用户词库包括用户自定义需要连写的词块。
所述连写语料统计库通过以下过程构建:根据盲文出版物中定义的一些具体连写词块进行收录,语言工程人员在调试语料的过程中进一步完善。
所述基于连写语料统计库对组合后的词块进行二次组合连写通过以下过程完成:
a.对当前词块,按照用户词库、基础词库的顺序进行匹配;
b.若匹配成功,执行连写组合;
c.输出连写后的词块结果;
一种基于SC文法的分词标音连写装置,基于字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库,包括依次连接的分词模块、词性标注及标音模块、一次组合连写模块和二次组合连写模块,分词模块、词性标注及标音模块分别与字典库相连,分词模块还与组合歧义词库和分词歧义规则库分别相连,一次组合连写模块与连写规则库相连,二次组合连写模块与连写语料统计库相连;
分词模块用于对输入汉语字符串基于字典库进行分割,拆分成独立的词块,并在分割的过程中对得到的词块基于交叉歧义特征以及组合歧义词库判断是否存在歧义,并对存在歧义的词基于分词歧义规则库消除切分歧义,得到正确的词块;
词性标注及标音模块用于对分词后的词块基于字典库通过上下文函数检查对分词模块得到的词块进行正确的词性标注和标音从而得到词块的正确词性和拼音;
一次组合连写模块用于对词性标注后的词块进行组合连写,该模块基于连写规则库通过对条件函数进行检查得到连写组合后的词块;
二次组合连写模块用于对一次组合连写后的词块进行连写语料统计库的查询匹配操作得到连写组合后的词块,并将带有词性标注和标音的词块输出。
作为优选,所述字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库均可以根据时代的发展不断更改完善,从而提高分词的准确性。
有益效果
盲文是一种特殊形式的拼音文字,所以汉语分词标音的准确性就在很大程度上决定了汉盲翻译的准确性。本发明设计的基于SC文法的字典结构提高了多音字标音的准确性,基于SC文法的分词、连写规则提高了分词的准确性,并且分词歧义规则库、组合歧义词库、连写规则库、字典库和连写语料统计库易于扩展和维护。
附图说明
以下结合附图和发明实例对本发明作详细描述:
图1是本发明实施例一种基于SC文法的分词标音连写方法流程示意图;
图2是分词过程的流程图;
图3是词性标注和标音过程的流程图;
图4是分词连写过程的流程图;
图5是本发明实施例一种基于SC文法的分词标音连写装置组成结构示意图。
具体实施方式
下面结合附图与实施例对本发明进行详细说明。
一种基于SC文法的分词标音连写方法,流程如图1所示,包括以下步骤:
⑴接受收待分词标音的汉语字符串和文章体裁类型;
下面以接受的文章体裁类型为现代文、汉语字符串内容为“2008年,小李晋升为这个项目的总工程师”为例,说明本发明方法的实施过程。
⑵对汉语字符串基于字典库进行分词,并对分词后的词块进行词性标注和标音。如图2所示,该内容通过以下过程实现:
2.1基于字典对汉语字符串进行正向最大匹配,切分出词块。
结合字典最大词长信息和在句中的最大可能边长,确定一个最优最大边长N,在词典中查找。如句子“2008年,小李晋升为这个项目的总工程师。”“年”在字典中的最大词长为3,因为字典里收录的以年开头的词最长的是3个字的。“年”在句子中的最大可能边长为1,因为后面是非汉字符,从而确定该句子中“年”的最优最大边长N为1。若词典中有这样的一个N字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样的一个N字词,则匹配失败。匹配字段去掉最后一个汉字,剩下的N-l个字符作为新的匹配字段,进行新的匹配,如此进行下去,直至切分到成功为止。即完成一轮匹配切分出一个词。如此往复,直到所有的词都被切分出来。
2.2词块歧义判断
如果切分出来的词是多于一个汉字,即N>1,则进行交叉歧义的判断,取该词的第二个汉字作为词首,以词长>=N为边长,执行上述的词切分操作,如果能找到这样的词,就说明交叉歧义存在,调用分词歧义规则推理消歧。如上面的句子中切分到“项目”时,以“目”为词首,词长为2时,发现“目的”也是词,这就说明“项目”存在交叉歧义。
如果当前词长大于1为2,那该词有可能存在组合歧义,查询组合歧义词库判定其是否存在组合歧义。对于示例字符串,由于“项目”不在组合歧义词库中,所以“项目”只有交叉歧义。如果“项目”在组合歧义词库中,则“项目”同时具有交叉歧义和组合歧义。
2.3推理消歧
根据当前词的歧义标志类型调用相应的分词歧义规则推理消歧。所述的歧义规则库包含了在某些特定词、词类或属性情况下的歧义切分规则,如组合歧义规则:“NP(将来),NP(PLA)→DWD(A)”,其中,“NP(将来),NP(PLA)”是歧义规则的第一部分,即歧义词块部分。“DWD(A)”是歧义规则的第三部分,即正确分词操作部分,此规则中作为歧义规则的第二部分,即条件函数部分为空;该规则表示当A词块“将来”的后面跟一个B词块,即表示地点(PLA)的名词(NP)时,该A词块要切分开“DWD(A)”。如句子“他将来上海。”经过步骤2.1、2.2后发现“将来”具有组合歧义,匹配规则“NP(将来),NP(PLA)→DWD(A)”成功,“将来”的正确切分为“将/来”。交叉歧义规则和组合歧义规则的表示形式一样,只是内容不同而已。对于上述的句子“项目”有交叉歧义,调用交叉歧义规则进行推理消歧。歧义规则库中没有匹配相应规则,但本发明中的分词算法是基于正向的最大匹配,所以根据正向最长优先原则,得到正确词切分为“项目”。
对后面的汉字字符串按上面的步骤进行下去,直到切分出所有词为止。上面的句子切分后的词块为:
2008/年/,/小/李/晋升/为/这/个/项目/的/总/工程师/。/
2.4词性标注和标音
如图3所示为对词块进行词性标注和标音的过程,具体为:
对每个汉字词块查询字典,取出该词的字典信息,如当前句子的第一个汉字词块“年”在字典中的表示如下:
$年
TIM:(NCGEN,nian)S(L,(1,1),[AP;Q;WH;R])“nian2”
AP:(AGEN)“nian2”
其中,“$年”是汉语词的第一部分,即汉语单词符号部分。“TIM:(NCGEN,nian)”是汉语词的第二部分,即语法语义属性标识符部分;它表示“年”在句子中可以当时间词(TIM)。“S(L,(1,1),[AP;Q;WH;R])”是汉语词的第三部分,即上下文区分函数部分。它表示,如果“年”在句子中作为时间词(TIM),则其左边第一个词必须是形容词(AP)或数词(Q)或疑问词(WH)或代词(R)。“nian2”是汉语词的第四部分,即单词的拼音部分。
上面的句子,“2008”是数词(Q),满足“年”的第一条,取出词性TIM和拼音“nian2”。如此进行下去,上面的句子的词性标注和标音结果为:
2008/Q/2008年/TIM/nian2,/BD/,小/AP/xiao3李/R/li3晋升/VP/jin4sheng1为/SV/wei2这/R/zhe4个/L/ge4项目/NP/xiang4mu4的/DEF/de0总/AP/zong3工程师/NP/gong1cheng2shi1。/BD/。
对词块进行词性标注和标音后,将通过如图4所述过程进行分词连写,具体如下:
⑶根据文章体裁类型,调用相应的连写规则库,基于连写规则库中的盲文分词连写规则对步骤(2)的词块进行组合连写;
这是现代文体裁文章,调用现代文连写规则,从左到右依次取出分词标注后的词块,当前词块为“2008/Q/2008”时,匹配成功规则
S1{label:Q}S2{label:NP/L/TIM,length:1}||S1,S2
其中,“S1{label:Q}S2{label:NP/L/TIM,length:1}”是规则的第一部分,即规则词块部分。它表示规则中的第一个词块是数词(Q),第二个词块是词长(length)为1的名词(NP)或量词(L)或时间词(TIM)。当前规则没有条件函数,“S1,S2”是规则的第三部分,即连写操作部分,它表示需要把词块S1和S2连写在一起。所以词块“2008/Q/2008年/TIM/nian2”需要连写。连写后的新词块表示为“2008年/QCH/2008nian2”,QCH标志表示该词块是连写后的词块。取出下一可能连写词块“小/AP/xiao3”,匹配连写规则,依次执行如上步骤,从而得到一次组合连写后的词块:
2008年/QCH/2008nian2,/BD/,小李/QCH/xiao3li3晋升/VP/jin4sheng1为/SV/wei2这个/QCH/zhe4ge4项目/NP/xiang4mu4的/DEF/de0总工程师/QCH/zong3gong1cheng2shi1。/BD/。
⑷基于连写语料统计库对组合后的词块进行二次组合连写;
从左到右依次取出经过一次连写组合后的词块,按最长最优原则匹配用户词库,基础词库中的词块,匹配成功后进行组合连写,得到二次组合连写后的词块。
2008年/QCH/nian2,/BD/,小李/QCH/xiao3li3晋升/VP/jin4sheng1为/SV/wei2这个/QCH/zhe4ge4项目/NP/xiang4mu4的/DEF/de0总工程师/QCH/zong3gong1cheng2shi1。/BD/。
⑸将生成的分词标音连写后的汉语字符串输出。
基于上述一种基于SC文法的分词标音连写方法,实现了一种基于SC文法的分词标音连写装置,如图5所示,从图中可以看出,该装置基于字典库、连写语料统计库、连写规则库、组合歧义词库和分词歧义规则库,包括分词模块、词性标注及标音模块、一次组合连写模块和二次组合连写模块,分词模块、词性标注及标音模块分别与字典库相连,分词模块还与组合歧义词库和分词歧义规则库分别相连,一次组合连写模块与连写规则库相连,二次组合连写模块与连写语料统计库相连;
分词模块用于对输入汉语字符串基于字典库进行分割,拆分成独立的词块,并在分割的过程中对得到的词块基于交叉歧义特征以及组合歧义词库判断是否存在歧义,并对存在歧义的词基于分词歧义规则库消除切分歧义,得到正确的词块;
词性标注及标音模块用于对分词后的词块基于字典库通过上下文函数检查对分词模块得到的词块进行正确的词性标注和标音从而得到词块的正确词性和拼音;
一次组合连写模块用于对词性标注后的词块进行组合连写,该模块基于连写规则库通过对条件函数进行检查得到连写组合后的词块;
二次组合连写模块用于对一次组合连写后的词块进行连写语料统计库的查询匹配操作得到连写组合后的词块,并将带有词性标注和标音的词块输出。
伴随时间的推移,人们会不断的改变现有此的用法以及不断的创造出新词,因此所述字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库均可以维护,使其根据时代的发展内容不断更改完善,从而提高分词的准确性。
实验结果
基于SC文法的分词标音连写方法有效地解决了汉盲转换过程中的汉语分词歧义、连写和多音字的正确标音问题,实现了汉语到盲文的高效智能翻译转换。翻译准确率高于90%。
本发明采用人工智能技术,有机地融合了规则和实例等多种分析处理策略,高效准确地对汉语句子进行分词标音连写,提高了汉盲翻译的正确性。本发明设计了一种基于SC文法的,可扩展性好的,表示效率高的,人性化的规则表示语言,该规则表示具有普适性,可扩展到其他自然语言处理问题的解决上。

Claims (10)

1.一种基于SC文法的分词标音连写方法,其特征在于:基于字典库、组合歧义词库、分词歧义规则库、连写规则库和连写语料统计库,包括以下步骤:
步骤一、接收待分词标音的汉语字符串和文章体裁类型;
步骤二、对汉语字符串基于字典库进行分词,并对分词后的词块进行词性标注和标音;
步骤三、根据文章体裁类型,调用相应的连写规则库,基于连写规则库中的盲文分词连写规则对步骤(2)的词块进行组合连写;
步骤四、基于连写语料统计库对组合后的词块进行二次组合连写;
步骤五、将生成的分词标音连写后的汉语字符串输出。
2.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述字典库用于汉语分词、词性标注和标音,包括汉语单词符号、语法语义属性标识符、上下文区分函数、单词的拼音。
3.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述基于字典库进行分词通过以下过程完成::
a.参照字典库,利用正向最大匹配算法对语句进行拆分得到词块;
b.根据词块的交叉特征进行交叉歧义判断;
c.基于组合歧义词库对词块进行歧义判断;
d.根据歧义规则,通过推理消除歧义;
e.输出分词结果。
4.根据权利要求3所述的一种基于SC文法的分词标音连写方法,其特征在于,所述组合歧义词库用于识别存在组合歧义的词块,库里收录的是存在组合歧义的词。
5.根据权利要求3-4任一所述的一种基于SC文法的分词标音连写方法,其特征在于,所述分词歧义规则库用于推理消除歧义词块,得到正确的分词结果,包括歧义词块、条件函数、正确分词操作,所述根据歧义规则,通过推理消除歧义通过以下过程完成:
a.对当前含歧义标志的词块,匹配歧义规则中的歧义词块部分;
b.若匹配成功,进行条件函数检查;
c.若条件检查满足,执行正确分词操作;
d.输出正确的分词结果。
6.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述对分词后的词块进行词性标注和标音通过以下过程完成:
a.对当前的词块,从字典库中取出该词块的字典信息;
b.逐条进行上下文函数检查;
c.若上下文检查满足,取出该条的词性和拼音。
7.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述连写规则库用于对分词并标注后的词块进行组合连写,包括规则词块部分、条件函数、连写操作;根据不同的文章体裁,连写规则库细分为文言文规则库和现代文规则库;所述基于连写规则对词块进行组合连写通过以下过程完成:
a.对当前若干词块,匹配连写规则中的词块部分;
b.若匹配成功,进行条件函数检查;
c.若条件检查满足,执行正确连写操作;
d.输出连写后的分词结果。
8.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述连写语料统计库用于对根据连写规则组合后的词块进行二次组合连写,库里收录的是需要组合连写的词块;连写语料统计库细分为基础词库和用户词库,其中基础词库收录了一些通用的连写词块,用户词库包括用户自定义需要连写的词块;所述基于连写语料统计库对组合后的词块进行二次组合连写通过以下过程完成:
a.对当前词块,按照用户词库、基础词库的顺序进行匹配;
b.若匹配成功,执行连写组合;
c.输出连写后的词块结果。
9.一种基于SC文法的分词标音连写装置,其特征在于,基于字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库,包括依次连接的分词模块、词性标注及标音模块、一次组合连写模块和二次组合连写模块,分词模块、词性标注及标音模块分别与字典库相连,分词模块还与组合歧义词库和分词歧义规则库分别相连,一次组合连写模块与连写规则库相连,二次组合连写模块与连写语料统计库相连;
分词模块用于对输入汉语字符串基于字典库进行分割,拆分成独立的词块,并在分割的过程中对得到的词块基于交叉歧义特征以及组合歧义词库判断是否存在歧义,并对存在歧义的词基于分词歧义规则库消除切分歧义,得到正确的词块;
词性标注及标音模块用于对分词后的词块基于字典库通过上下文函数检查对分词模块得到的词块进行正确的词性标注和标音从而得到词块的正确词性和拼音;
一次组合连写模块用于对词性标注后的词块进行组合连写,该模块基于连写规则库通过对条件函数进行检查得到连写组合后的词块;
二次组合连写模块用于对一次组合连写后的词块进行连写语料统计库的查询匹配操作得到连写组合后的词块,并将带有词性标注和标音的词块输出。
10.根据权利要求9所述的一种基于SC文法的分词标音连写装置,其特征在于,所述字典库、组合歧义词库、连写语料统计库、连写规则库和分词歧义规则库均可以维护,使其根据时代的发展内容不断更改完善,从而提高分词的准确性。
CN201510994505.9A 2015-12-23 2015-12-25 一种基于sc文法的分词标音连写方法及装置 Pending CN105630770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510994505.9A CN105630770A (zh) 2015-12-23 2015-12-25 一种基于sc文法的分词标音连写方法及装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2015109773353 2015-12-23
CN201510977335 2015-12-23
CN201510994505.9A CN105630770A (zh) 2015-12-23 2015-12-25 一种基于sc文法的分词标音连写方法及装置

Publications (1)

Publication Number Publication Date
CN105630770A true CN105630770A (zh) 2016-06-01

Family

ID=56045727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510994505.9A Pending CN105630770A (zh) 2015-12-23 2015-12-25 一种基于sc文法的分词标音连写方法及装置

Country Status (1)

Country Link
CN (1) CN105630770A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368474A (zh) * 2017-07-07 2017-11-21 浙江理工大学 一种汉文到盲文的自动高效翻译转换方法
CN107424612A (zh) * 2017-07-28 2017-12-01 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
CN108255815A (zh) * 2018-02-07 2018-07-06 苏州金螳螂文化发展股份有限公司 文本的分词方法和装置
CN109271625A (zh) * 2018-08-28 2019-01-25 江苏省基础地理信息中心 一种汉语地名的拼音拼写规范化方法
CN110222182A (zh) * 2019-06-06 2019-09-10 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN111274806A (zh) * 2020-01-20 2020-06-12 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置
CN113065002A (zh) * 2021-04-19 2021-07-02 北京理工大学 一种基于知识图谱和上下文语境的中文语义消歧方法
US11074419B1 (en) * 2020-07-06 2021-07-27 Morgan Stanley Services Group Inc. Systems and methods for providing online content in braille
CN113887233A (zh) * 2021-08-31 2022-01-04 阿里巴巴达摩院(杭州)科技有限公司 文本处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591414A (zh) * 2004-06-03 2005-03-09 华建电子有限责任公司 一种汉语到盲文的自动翻译转换方法
US20080027933A1 (en) * 1999-10-20 2008-01-31 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
CN101135940A (zh) * 2007-09-07 2008-03-05 中国科学院计算技术研究所 一种盲文计算机点字输入系统和装置以及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027933A1 (en) * 1999-10-20 2008-01-31 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
CN1591414A (zh) * 2004-06-03 2005-03-09 华建电子有限责任公司 一种汉语到盲文的自动翻译转换方法
CN101135940A (zh) * 2007-09-07 2008-03-05 中国科学院计算技术研究所 一种盲文计算机点字输入系统和装置以及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陈优阳: "汉盲翻译中的分词连写处理算法研究", 《网络安全技术与应用》 *
黄河燕 等: "基于多知识分析的汉盲转换算法", 《语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368474B (zh) * 2017-07-07 2020-08-04 浙江理工大学 一种汉文到盲文的自动高效翻译转换方法
CN107368474A (zh) * 2017-07-07 2017-11-21 浙江理工大学 一种汉文到盲文的自动高效翻译转换方法
CN107424612B (zh) * 2017-07-28 2021-07-06 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
CN107424612A (zh) * 2017-07-28 2017-12-01 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
CN108255815A (zh) * 2018-02-07 2018-07-06 苏州金螳螂文化发展股份有限公司 文本的分词方法和装置
CN109271625A (zh) * 2018-08-28 2019-01-25 江苏省基础地理信息中心 一种汉语地名的拼音拼写规范化方法
CN109271625B (zh) * 2018-08-28 2023-07-14 江苏省基础地理信息中心 一种汉语地名的拼音拼写规范化方法
CN110222182A (zh) * 2019-06-06 2019-09-10 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN110222182B (zh) * 2019-06-06 2022-12-27 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN111274806A (zh) * 2020-01-20 2020-06-12 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置
CN111274806B (zh) * 2020-01-20 2020-11-06 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置
US11074419B1 (en) * 2020-07-06 2021-07-27 Morgan Stanley Services Group Inc. Systems and methods for providing online content in braille
CN113065002A (zh) * 2021-04-19 2021-07-02 北京理工大学 一种基于知识图谱和上下文语境的中文语义消歧方法
CN113065002B (zh) * 2021-04-19 2022-10-14 北京理工大学 一种基于知识图谱和上下文语境的中文语义消歧方法
CN113887233A (zh) * 2021-08-31 2022-01-04 阿里巴巴达摩院(杭州)科技有限公司 文本处理方法及装置

Similar Documents

Publication Publication Date Title
CN105630770A (zh) 一种基于sc文法的分词标音连写方法及装置
Candito et al. Benchmarking of statistical dependency parsers for french
Benajiba et al. ANERsys 2.0: Conquering the NER task for the Arabic language by combining the maximum entropy with POS-tag information.
Zhu et al. Improving Chinese named entity recognition by large-scale syntactic dependency graph
CN113221559B (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN103500160A (zh) 一种基于滑动语义串匹配的句法分析方法
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN106445921A (zh) 利用二次互信息的中文文本术语抽取方法
Gamallo et al. Dependency parsing with finite state transducers and compression rules
CN106202037A (zh) 基于组块的越南语短语树构建方法
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Novák et al. Morphological annotation of Old and Middle Hungarian corpora
Li et al. Parallel Aligned Treebanks at LDC: New Challenges Interfacing Existing Infrastructures.
Boutsis et al. A system for recognition of named entities in Greek
Khoufi et al. Chunking Arabic texts using conditional random fields
CN115358218A (zh) 一种基于深度学习的标识符规范化方法
CN115617965A (zh) 一种语言结构大数据的快速检索方法
Yang et al. Automatic error detection and correction of text: The state of the art
Duo et al. Transition based neural network dependency parsing of Tibetan
Saleh et al. Zaman and raqm: extracting temporal and numerical expressions in arabic
WO2008017188A1 (fr) Système et procédé pour réaliser un support d'enseignement de cours de langue
Jacksi et al. The Kurdish Language corpus: state of the art
Guo et al. Research on Knowledge Representation and Automatic Recognition of Dynamic Words for Chinese Automatic Syntactic Analysis
Liang et al. Fast and Accurate Resume Parsing Method Based on Multi-Task Learning
Hung-Ngo et al. A visualizing annotation tool for semi-automatically building a bilingual corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160601

WD01 Invention patent application deemed withdrawn after publication