CN102135956B - 一种基于词位标注的藏文分词方法 - Google Patents
一种基于词位标注的藏文分词方法 Download PDFInfo
- Publication number
- CN102135956B CN102135956B CN201110116500.8A CN201110116500A CN102135956B CN 102135956 B CN102135956 B CN 102135956B CN 201110116500 A CN201110116500 A CN 201110116500A CN 102135956 B CN102135956 B CN 102135956B
- Authority
- CN
- China
- Prior art keywords
- syllable
- marked
- tibetan
- syllables
- lexeme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000002372 labelling Methods 0.000 claims abstract description 5
- 230000007613 environmental effect Effects 0.000 claims 6
- 230000011218 segmentation Effects 0.000 abstract description 34
- 238000012545 processing Methods 0.000 abstract description 11
- 230000010365 information processing Effects 0.000 abstract description 4
- 230000006798 recombination Effects 0.000 abstract description 2
- 238000005215 recombination Methods 0.000 abstract description 2
- 239000002245 particle Substances 0.000 description 8
- 230000008602 contraction Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- UTRLJOWPWILGSB-UHFFFAOYSA-N 1-[(2,5-dioxopyrrol-1-yl)methoxymethyl]pyrrole-2,5-dione Chemical compound O=C1C=CC(=O)N1COCN1C(=O)C=CC1=O UTRLJOWPWILGSB-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011172 small scale experimental method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词位标注的藏文分词方法,属于藏文信息处理领域。本方法为:1)对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;3)对每个藏文音节,根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。
Description
技术领域
本发明涉及计算机及藏文信息处理领域,更具体地说,涉及藏文分词领域,提供了一种基于词位标注的藏文分词方法。
背景技术
随着计算机对藏文支持能力的增强,以及我国少数民族地区信息化进程的逐步推进,越来越多的藏文信息开始通过计算机进行存储和传播,藏文信息处理的研究也从操作系统支持、排版印刷、输入法和字库等基础的文字层面逐步转向文字识别、文语转换、文本校正、信息检索、机器翻译等文本层面。然而,藏文是一种拼音文字,其各音节之间由音节点分隔,但是词与词之间却没有分隔标记,同汉语类似,分词是藏文信息处理的基础。藏文音节(藏字)的结构如图1所示,藏文句子由多个藏文音节构成,如图2所示。
经过多年的发展,研究人员已经提出了多种藏文分词方法,包括基于字符串匹配的方法、基于格助词和接续特征的方法。
基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待分析的文字序列与词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配,也可以同时从两个方向进行切分,发现切分歧义,并进行切分歧义消解。
基于格助词和接续特征的方法充分利用藏文的语言特性进行分词。利用字切分特征和字性库先‘认字’,利用标点符号和关联词将藏文的段落分成句子,在单个句子中利用格助词将句子‘分块’,再用词典进行块内分词。该方法的技术特点是,综合运用藏文字、词、句等各类形态特征,在藏文格助词、接续特征、字性知识库以及词典的支持下,采用逐级定位的确定性算法实现藏文的自动分词。
现有的藏文分词方法虽然在小规模实验中取得了较好的效果,但由于藏文语言文字的特点,存在将两个藏字紧缩为一个藏字等等同汉语不同的情况,在方法实现中需要考虑很多细节问题;同时,上述方法在切分的各个阶段,包括断句、分块、块内分词等都存在切分歧义的情况,导致切分精度不高;另外,上述方法都依赖于藏文词典,对新词术语、命名实体等未登录词的处理效果不尽如人意。
发明内容
针对现有藏文分词方法中对切分歧义及未登录词等两个重要问题处理效果较差的问题,本发明的目的在于提供一种藏文分词的方法,以期在整体上取得更好的分词结果。
所述方法包括以下步骤:
A.对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;
B.对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;
C.对每个藏文音节,根据其所处上下文环境采用优选方法从知识库中查找并选择一个词位标签赋予该音节,词位标签为如下五种之一:词首,词中,词尾,独立,紧缩;
D.将所有被标记为“紧缩”的音节还原为两个音节,并依前后顺序分别标记为“词尾”和“独立”;
E.将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;如果被标记为词首的音节与其后面第一个被标记为词尾的音节之间有一个或者多个被标记为词中的音节,则将被标记为词首的音节与其后面第一个被标记为词尾的音节以及二者之间一个或者多个被标记为词中的音节合并为一个词;
F.将所有被标记为“独立”的音节以及所有未被合并的音节作为单音节词;
G.将经过以上处理的藏文词序列作为分词结果输出。
所述标点符号包括:藏文单垂符、双垂符、四垂符、句间空格等。
所述上下文环境包括:该音节之前的一个或者多个音节,该音节之后的一个或者多个音节。
所述词位标签共五种:词首、词中、词尾、独立、紧缩。各词位标签的具体含义为:在由多个音节构成的藏文词中,第一个音节为“词首”,最后一个音节为“词尾”,它们之间的所有音节都为“词中”;若一个词由单个音节构成,则此音节将被标记为“独立”;藏文中存在部分音节是由两个音节按照语法规则合并形成的紧缩音节,此时该音节将被标记为“紧缩”。
所述知识库包含了所有的藏文音节在不同的上下文环境中被标记为五种词位标签之一的概率值,该概率值通过预先对语料进行统计获得。语料由一批藏文文本组成,每个藏文文本包含若干藏文句子,每个藏文句子包含若干藏文音节,每个音节对应一个词位标签。在语料中,每个音节的词位标签由人工标注而成。对语料的统计,首先计算一个音节在一个上下文环境中被标记为五种词位标签之一的次数,并计算该音节与该上下文环境在语料中同现的总次数,前者除以后者即为该音节在该上下文环境中被标记为该词位标签的概率值。
所述优选方法是指当前音节在当前上下文环境中有多个词位标签可选时,根据预先统计的概率值,取概率值最大的词位标签作为当前音节的词位标签。
所述紧缩音节是指,藏文中部分词如属格助词作格助词位格助词饰集词离合词终结词等,可以省略音节点直接黏附于其前面的音节后,与其前面的音节一起合并形成一个新的音节,这个新的音节即被称为紧缩音节。
与现有技术相比,本发明的积极效果为:
本发明能够平衡地看待词表词和未登录词的识别问题。将藏文文本中所有的词都采用统一的音节标注过程来实现。在构建所需的知识库时,既不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块,又避免了采用藏文格助词和接续特征所引起的各种歧义,使得系统的设计大大简化。在音节标注过程中,所有的音节根据预定义的特征进行词位特征的学习,获得一个知识库,然后在待切分的藏文文本上,根据音节所处的上下文环境,得到一个词位的分类结果。最后根据词位标签的定义,获得最终的分词结果。整个过程中,没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。知识库的构建过程中考虑了音节所处的上下文环境,实质上体现了相邻音节之间的结合紧密程度。
附图说明
图1是一个典型的藏文音节的结构图;藏文的音节可以有一个或多个基本字符组成,最多可以有七个;这七个基本字符里有一个基字和一个元音符号,其它的字符分别加在基字的上、下、前、后、再后。在一个音节里面,除了基字之外,其它部分都可能不出现。最简单的藏文音节只包含一个基字,而不包含其他组成部分;
图2是一个典型的藏文句子的结构图;藏文句子中以音节点分隔相邻音节,句子以空格或者藏文的单垂符、双垂符、四垂符等结束;
图3是本发明方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图3所示,本发明所述的分词方法300的具体流程是:对于输入的藏文文本302,步骤304根据标点符号和空格将藏文文本切分为一系列的藏文句子;对于切分出来的每个藏文句子,步骤306以藏文音节点为标志将句子切分为一系列藏文音节;对每个音节,步骤308从知识库310中查找当前音节在当前的上下文中可能的词位标签及相应的概率值,若标签不唯一,则选择概率值最大的词位标签作为当前音节的标签;步骤312将被标记为“紧缩”标签的藏文音节拆分成两个音节并分别标记为“词尾”和“独立”;步骤314将所有被标记为“词首”的音节与其后面第一个被标记为“词尾”的音节以及二者之间一个或者多个被标记为“词中”的音节合并为一个词;步骤316将所有被标记为“独立”的音节以及所有未被合并的音节作为单音节词;步骤318将经过以上处理的藏文词序列作为分词结果输出。
在具体的实施过程中,将五种词位标签分别以一个大写英文字母表示:B表示词首,M表示词中,E表示词尾,S表示独立,J表示紧缩。单音节词对应的词位标签序列是S,双音节词对应的词位标签序列是BE;三音节词对应的词位标签序列是BME;四音节词对应的词位标签序列是BMME;五音节词对应的此为标签序列是BMMME;由更多音节构成的词,其对应的词位标签序列可以类推,首标签为B,尾标签为E,中间是多个M标签。
下面结合附图和具体实施例来对本发明提供的技术方案进行详细描述。
实施例一:一个典型的藏文句子的分词过程
对于输入的藏文文本302:
步骤304根据藏文的单垂符将其切分为一个藏文句子;
步骤306将藏文句子切分成一系列藏文音节(这里以斜线隔开),切分之后的结果为:
步骤308对每个音节贴词位标签,这里将词位标签放在斜线后面表示,贴标签之后的结果为:
步骤312将标记为J的音节拆分并还原为两个音节,处理之后的结果为(以下划线标出该步骤所影响的部分,下同):
步骤314将所有被标记为B的音节与其后面被标记为E的音节合并为一个词,处理之后的结果为:
步骤316将所有被标记为S的音节以及所有未被合并的音节作为单音节词,处理之后的结果为:
步骤318将以上结果作为最终分词结果输出。
实施例二:另一个典型的藏文句子的分词过程
对于输入的藏文文本302:
步骤304根据藏文的单垂符将其切分为一个藏文句子;
步骤306将藏文句子切分成一系列藏文音节(这里以斜线隔开),切分之后的结果为:
步骤308对每个音节贴词位标签,这里将词位标签放在斜线后面表示,贴标签之后的结果为:
步骤312将标记为J的音节拆分并还原为两个音节,处理之后的结果为:
步骤314将所有被标记为B的音节与其后面被标记为E的音节以及二者之间一个或者多个被标记为M的音节合并为一个词,处理之后的结果为:
步骤316将所有被标记为S的音节以及所有未被合并的音节作为单音节词,处理之后的结果为:
步骤318将以上结果作为最终分词结果输出。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于词位标注的藏文分词方法,其步骤为:
1)以标点符号为标志,将输入的藏文文本切分为一系列藏文句子;
2)对每个藏文句子,以藏文音节点为标志,将其切分为一系列藏文音节;
3)对每个藏文音节,根据藏文音节所处上下文环境从知识库中查找并选择一个词位标签赋予该音节,如果该音节在当前上下文环境中有多个词位标签可选,则取概率值最大的词位标签作为该音节的词位标签;所述词位标签包括:词首、词中、词尾、独立、紧缩;所述知识库包含藏文音节在不同的上下文环境中被标记为五种所述词位标签之一的概率值;所述知识库的建立方法为:
a)选取一批藏文文本,作为训练语料;
b)对训练语料中的每个音节进行词位标签标注;
c)对对标注的训练语料进行统计,首先计算一个音节在某一上下文环境中被标记为五种所述词位标签之一的次数n,并计算该音节与该上下文环境在训练语料中同现的总次数N,然后利用n除以N得到该音节在该上下文环境中被标记为所标注词位标签的概率值;
4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;
5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;
6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。
2.如权利要求1所述的方法,其特征在于所述上下文环境包括:当前音节之前的一个或者多个音节,当前音节之后的一个或者多个音节。
3.如权利要求1所述的方法,其特征在于所述标点符号包括:藏文单垂符、双垂符、四垂符、句间空格。
4.如权利要求1所述的方法,其特征在于将所有被标记为紧缩的音节还原为两个音节,依前后顺序,将所还原后的两音节中前面音节标记为词尾,将后面音节标记为独立。
5.如权利要求1所述的方法,其特征在于如果被标记为词首的音节与其后面第一个被标记为词尾的音节之间有一个或者多个被标记为词中的音节,则将被标记为词首的音节与其后面第一个被标记为词尾的音节以及二者之间一个或者多个被标记为词中的音节合并为一个词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110116500.8A CN102135956B (zh) | 2011-05-06 | 2011-05-06 | 一种基于词位标注的藏文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110116500.8A CN102135956B (zh) | 2011-05-06 | 2011-05-06 | 一种基于词位标注的藏文分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102135956A CN102135956A (zh) | 2011-07-27 |
CN102135956B true CN102135956B (zh) | 2015-09-30 |
Family
ID=44295744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110116500.8A Expired - Fee Related CN102135956B (zh) | 2011-05-06 | 2011-05-06 | 一种基于词位标注的藏文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102135956B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239294B (zh) * | 2014-09-10 | 2017-06-06 | 华建宇通科技(北京)有限责任公司 | 藏汉翻译系统的多策略藏语长句切分方法 |
CN104573055B (zh) * | 2015-01-21 | 2017-11-03 | 南京烽火星空通信发展有限公司 | 一种网络账号快速检索的分词方法 |
CN105023029B (zh) * | 2015-06-29 | 2018-09-14 | 中国科学院软件研究所 | 一种联机手写藏文音节识别方法及装置 |
CN105512106B (zh) * | 2015-12-09 | 2018-04-06 | 江苏科技大学 | 一种汉语离合词的自动识别方法 |
CN107315733A (zh) * | 2016-11-24 | 2017-11-03 | 海南州云藏藏文信息技术有限公司 | 智能藏文词性自动标注系统 |
CN106598943A (zh) * | 2016-11-24 | 2017-04-26 | 海南州云藏藏文信息技术有限公司 | 智能藏文自动分词系统 |
CN107330430B (zh) * | 2017-06-27 | 2020-12-04 | 司马大大(北京)智能系统有限公司 | 藏文字符识别装置与方法 |
CN117494732A (zh) * | 2023-11-17 | 2024-02-02 | 北京网智天元大数据科技有限公司 | 融合藏文构件元素特征的藏汉神经机器翻译方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055593A (zh) * | 2007-06-15 | 2007-10-17 | 中国科学院软件研究所 | 藏文网页及其编码的识别方法 |
CN101114282A (zh) * | 2007-07-12 | 2008-01-30 | 华为技术有限公司 | 一种分词处理方法及设备 |
CN101937459A (zh) * | 2010-08-31 | 2011-01-05 | 东南大学 | 基于通用音节结构的藏文字符排序装置和方法 |
-
2011
- 2011-05-06 CN CN201110116500.8A patent/CN102135956B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055593A (zh) * | 2007-06-15 | 2007-10-17 | 中国科学院软件研究所 | 藏文网页及其编码的识别方法 |
CN101114282A (zh) * | 2007-07-12 | 2008-01-30 | 华为技术有限公司 | 一种分词处理方法及设备 |
CN101937459A (zh) * | 2010-08-31 | 2011-01-05 | 东南大学 | 基于通用音节结构的藏文字符排序装置和方法 |
Non-Patent Citations (2)
Title |
---|
信息处理用藏文分词单位研究;关白;《中文信息学报》;20100531;第24卷(第3期);124-128 * |
面向信息处理的藏文分词规范研究;扎西加等;《中文信息学报》;20090731;第23卷(第4期);113-117,123 * |
Also Published As
Publication number | Publication date |
---|---|
CN102135956A (zh) | 2011-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102135956B (zh) | 一种基于词位标注的藏文分词方法 | |
US8660834B2 (en) | User input classification | |
Chen et al. | Chinese named entity recognition with conditional random fields | |
Van de Kauter et al. | LeTs Preprocess: The multilingual LT3 linguistic preprocessing toolkit | |
CN105404621B (zh) | 一种用于盲人读取汉字的方法及系统 | |
Chea et al. | Khmer word segmentation using conditional random fields | |
CN105138514A (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN106528524A (zh) | 一种基于MMseg算法与逐点互信息算法的分词方法 | |
Luu et al. | A pointwise approach for Vietnamese diacritics restoration | |
CN104331400B (zh) | 一种蒙古文编码转换方法和装置 | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Alhanini et al. | The enhancement of arabic stemming by using light stemming and dictionary-based stemming | |
WO2014189400A1 (en) | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets | |
Jahan et al. | Named entity recognition in indian languages using gazetteer method and hidden markov model: A hybrid approach | |
Kapočiūtė-Dzikienė et al. | Character-based machine learning vs. language modeling for diacritics restoration | |
JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
Phyu et al. | Burmese word segmentation with Character Clustering and CRFs | |
Whitelaw et al. | Named entity recognition using a character-based probabilistic approach | |
Hlaing | Manually constructed context-free grammar for Myanmar syllable structure | |
Nghiem et al. | Improving vietnamese pos tagging by integrating a rich feature set and support vector machines | |
KR20140049148A (ko) | 형태소 분할에 기반한 품사 태깅 방법 및 그 장치 | |
Yang et al. | Automatic error detection and correction of text: The state of the art | |
CN106815187B (zh) | 一种新术语识别方法 | |
Zeldes | A characterwise windowed approach to Hebrew morphological segmentation | |
JP2006127405A (ja) | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150930 |
|
CF01 | Termination of patent right due to non-payment of annual fee |