CN113673226A - 一种汉字拼音到通用盲文拼音的修正方法 - Google Patents
一种汉字拼音到通用盲文拼音的修正方法 Download PDFInfo
- Publication number
- CN113673226A CN113673226A CN202010404561.3A CN202010404561A CN113673226A CN 113673226 A CN113673226 A CN 113673226A CN 202010404561 A CN202010404561 A CN 202010404561A CN 113673226 A CN113673226 A CN 113673226A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- initial
- braille
- character string
- final
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012937 correction Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 238000012423 maintenance Methods 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000013519 translation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种汉字拼音到通用盲文拼音的修正方法。为解决汉字拼音和通用盲文拼音的差异,实现汉字盲文的数字化,本发明提出了“ng、yo”拼音的修正处理、“y、w”声母的修正处理、“iou、uen、uei”韵母的修正处理、声母“j、q、x”和“u”开头韵母组合的修正处理、声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,当计算机读入一个汉字拼音字符串,通过这些修正处理,输出为通用盲文拼音字符串,实现汉字拼音到通用盲文拼音的转化。本发明为汉语盲文计算机翻译系统提供了预处理,为汉字盲文ASCII码的统一生成奠定基础。
Description
技术领域
本发明涉及一种拼音修正方法,尤其是一种汉字拼音到通用盲文拼音的修正方法。
背景技术
盲文又称为点字,是专门为盲人设计、靠触觉来感知的一种特殊文字,是盲人摸读和书写的文字符号。目前,国际通用的一个盲文点字由三行两列的6个点按一定的规律排列组合而成,有 64种表现形式,称为一“方”。在信息爆炸的互联网时代,纸质盲文图书存在知识承载量少、资讯严重滞后、体积大且笨重等劣势,很难继续担负传播知识和培养人才的历史使命。因此,盲文数字化是必然趋势,意义重大。
相对于英文盲文,它可以从英文字母生成盲文点字,然而,我国的汉字盲文与英文盲文有显著不同,它是必须先把汉字转化成拼音,再由拼音生成盲文点字。长期以来,汉字盲文主要有现行盲文和双拼盲文并存,以现行盲文为主。现行盲文主要由声母方和韵母方组成,为了节省盲文篇幅,它通常没有声调方。只有针对生僻字或特殊的多音字时,现行盲文才有声调方,标调率极低,盲人需要依据上下文猜测读音,阅读效率很低。而且,现行盲文这种按需标调原则,使得拼音标调的随意性很大,几乎没有规律可循,造成计算机自动处理盲文非常困难,难以适应信息化时代盲人文化教育和盲文信息化的需要。
为此,近年来我国正在大力推广通用盲文。它以汉字拼音为基础,一个汉字的通用盲文字由一个声母方、一个韵母方和一个声调方组成,也可以无声母方或无声调方。它采用全标调的策略,较好消除声调不明确带来的歧义,方便盲人更加精确地摸读盲文。
然而,通用盲文拼音体系和汉语拼音体系存在着一定的区别。汉语拼音体系的声母有23个,韵母有24个,声调有5个,然而,通用盲文拼音体系的声母有21个,韵母有36个,声调有5个。即,通用盲文拼音体系与汉语拼音拼音体系并不完全一致,不能从汉语拼音直接得到盲文拼音,进而生成盲文点字。
为此,如何实现汉字拼音和通用盲文拼音的一致性表达,是通用盲文数字化和信息化必须解决的首要问题。
我们详细研究了通用盲文拼音体系和汉语拼音体系的异同,发现以下几个方面必须进行处理,才能有效实现通用盲文拼音体系和汉语拼音体系的一致性表达。
1. 盲文拼音体系中没有“y和w”声母。
2. “iou、uei、uen”要省略韵腹“o和e”,写为“iu、ui、un”与汉字拼音体系一致。
3. “yo、eg”的拼音处理。
4. 声母“j、q、x”和“u”开头韵母组合的修正处理。
5. 声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理。
这几个方面有些是独立的,有些是相互关联的,需要联合处理。
由于汉字拼音在计算机中已经普遍应用,然而通用盲文拼音是2018年7月1日国家新发布的盲文规范。在考虑盲文点字特殊性前提下,如何实现汉字拼音和通用盲文拼音的一致性表达是通用盲文数字化必须解决的重要问题。
申请人查阅了相关公开文献,专利一种盲文信息统计系统(CN108491441A)提及了汉语音节(声、韵、调)的统计,没有解决通用盲文拼音体系和汉语拼音体系的一致性表达。文献“国家通用盲文方案研究”分析了盲文语料库和汉语数据库,没能解决通用盲文拼音体系和汉语拼音体系的异同。文献“通用盲文与现行盲文摸读比较研究”认为摸读正确率上通用盲文显著高于现行盲文,没有涉及通用盲文拼音体系和汉语拼音体系的转化。
发明内容
为了克服上述现有技术的不足,本发明提供了一种汉字拼音到通用盲文拼音的修正方法,实现汉字拼音和通用盲文拼音的一致性表达。
本发明所采用的技术方案是:一种汉字拼音到通用盲文拼音的修正方法,包括“ng、yo”拼音的修正处理、“y、w”声母的修正处理、“iou、uen、uei”韵母的修正处理、声母“j、q、x”和“u”开头韵母组合的修正处理、声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,当读入一个汉字拼音字符串,通过这些修正处理,输出为通用盲文拼音字符串,实现汉字拼音到通用盲文拼音的转化。
所述的汉字拼音到通用盲文拼音的转化,具体步骤有:第一步,读入一个汉字拼音字符串;第二步,判断是否是“ng、yo”,如果是,进行“ng、yo”拼音的修正处理后,进入第三步,如果不是,直接进入第三步 ;第三步,判断是否是有“y、w”声母,如果不是,进入第四步,如果是,进行“y、w”声母的修正处理,进而,判断是否是有“iou、uen、uei”韵母,如果是,进行“iou、uen、uei”韵母的修正处理,如果不是,输出通用盲文拼音字符串。第四步,判断是否是声母“j、q、x”和“u”开头韵母组合,如果不是,进入第五步,如果是,进行声母“j、q、x”和“u”开头韵母组合的修正处理;第五步,判断是否是声母“z、c、s、zh、ch、sh、r”和韵母“i”组合,如果是,进行母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,如果不是,输出为通用盲文拼音字符串。
所述的“ng、yo”拼音的修正处理,把“ng”拼音修正处理为“en”和把“yo”拼音修正处理为“you”后,进入第三步。
所述的“y、w”声母的修正处理,当声母为“y”时,把声母“y”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,则需要将“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串,若不是“u”,判断韵母的第一个字母是否是“i”,如果是“i”,韵母字母不变,输出修正后的拼音字符串;若不是“i”,需要对韵母首位添加“i”,输出修正后的拼音字符串;当声母为“w”时,把声母“w”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,韵母字母不变,输出修正后的拼音字符串;若不是“u”,需要对韵母首位添加“u”,输出修正后的拼音字符串;
所述的“iou、uen、uei”韵母的修正处理,将“iou、uen、uei”这三个韵母的第一个字母和第三个字母组合,去掉中间的元音字母,形成新的韵母组合“iu、ui、un”,输出修正后的拼音字符串。
所述的声母“j、q、x”和“u”开头韵母组合的修正处理,保持声母“j、q、x”不变,把“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串。
所述的声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,保持声母“z、c、s、zh、ch、sh、r”不变,把“i”的字符位置空,输出修正后的拼音字符串。
与现有技术相比,本发明的有益效果是:经过“ng、yo”拼音的修正处理、“y、w”声母的修正处理、“iou、uen、uei”韵母的修正处理、声母“j、q、x”和“u”开头韵母组合的修正处理、声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,有效实现通用盲文拼音体系和汉语拼音体系的一致性表达, 把汉字拼音转化通用盲文拼音,为汉语盲文计算机翻译系统提供了预处理,为汉字盲文ASCII码的统一生成奠定基础。
附图说明
图1是本发明的汉字拼音到通用盲文拼音修正方法的整体流程示意图。
图2是本发明针对声母是“y、w”的修正处理流程示意图。
图3是本发明针对韵母为“iou、uen、uei”三者之一的修正处理流程示意图。
图4是本发明针对韵母第一个字母是“u”且声母是“j、q、x”情形修正处理流程示意图。
具体实施方式
下面结合附图对本发明进一步说明。
汉语拼音体系的声母有23个,韵母有24个,声调有5个,然而,通用盲文拼音体系的声母有21个,韵母有36个,声调有5个。即,通用盲文拼音体系与汉语拼音拼音体系并不完全一致,不能从汉语拼音直接得到盲文拼音,进而生成盲文点字。为此,需要实现通用盲文拼音体系和汉语拼音体系的一致性表达,把汉字拼音转化通用盲文拼音。
如图1所示,本发明提出一种汉字拼音到通用盲文拼音修正方法,第一步,读入一个汉字拼音字符串;第二步,判断是否是“ng、yo”,如果是,进行“ng、yo”拼音的修正处理后,进入第三步,如果不是,直接进入第三步 ;第三步,判断是否是有“y、w”声母,如果不是,进入第四步,如果是,进行“y、w”声母的修正处理,进而,判断是否是有“iou、uen、uei”韵母,如果是,进行“iou、uen、uei”韵母的修正处理后输出通用盲文拼音字符串,如果不是,直接输出通用盲文拼音字符串;第四步,判断是否是声母“j、q、x”和“u”开头韵母组合,如果不是,进入第五步,如果是,进行声母“j、q、x”和“u”开头韵母组合的修正处理,输出通用盲文拼音字符串;第五步,判断是否是声母“z、c、s、zh、ch、sh、r”和韵母“i”组合,如果是,进行母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理后输出通用盲文拼音字符串,如果不是,直接输出为通用盲文拼音字符串。
如图1所示,读入一个汉字拼音字符串,判断是否是“ng、yo”,如果是,把“ng”拼音修正处理为“en”和把“yo”拼音修正处理为“you”后,进入第三步,如果不是,直接进入第三步。
如图1、图2和图3所示,判断是否是有“y、w”声母,如果不是,进入第四步。如果是,当声母为“y”时,把声母“y”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,则需要将“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串,若不是“u”,判断韵母的第一个字母是否是“i”,如果是“i”,韵母字母不变,输出修正后的拼音字符串;若不是“i”,需要对韵母首位添加“i”,输出修正后的拼音字符串;当声母为“w”时,把声母“w”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,韵母字母不变,输出修正后的拼音字符串;若不是“u”,需要对韵母首位添加“u”,输出修正后的拼音字符串;进而,判断是否是有“iou、uen、uei”韵母,如果不是,输出通用盲文拼音字符串;如果是,将“iou、uen、uei”这三个韵母的第一个字母和第三个字母组合,去掉中间的元音字母,形成新的韵母组合“iu、ui、un”,输出通用盲文拼音字符串。
如图1和图4所示,判断是否是声母“j、q、x”和“u”开头韵母组合,如果不是,进入第五步,如果是,保持声母“j、q、x”不变,把“u”置为“v”,并且保持之后的韵母字母不变,输出通用盲文拼音字符串。
如图1所示,判断是否是声母“z、c、s、zh、ch、sh、r”和韵母“i”组合,如果不是,输出为通用盲文拼音字符串,如果是,进行母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,保持声母“z、c、s、zh、ch、sh、r”不变,把“i”的字符位置空,输出通用盲文拼音字符串。
本发明的具体实施实例如下。
实例1:读入“ng”汉字拼音字符串,把“ng”改为“en”,输出为通用盲文拼音字符串。
实例2:读入“yo”汉字拼音字符串,把“yo”改为“you”,接着把“you”改为“iou”,然后把“iou”改为“iu”,输出为通用盲文拼音字符串。
实例3:读入“yun”汉字拼音字符串,把“yun”改为“vn”,输出为通用盲文拼音字符串。
实例4:读入“wu”汉字拼音字符串,把“wu”改为“u”,输出为通用盲文拼音字符串。
实例5:读入“wen”汉字拼音字符串,把“wen”改为“uen”,接着把“uen”改为“un”,输出为通用盲文拼音字符串。
实例6:读入“jun”汉字拼音字符串,把“jun”改为“jvn”,输出为通用盲文拼音字符串。
实例7:读入“zhi”汉字拼音字符串,把“zhi”改为“zh”,输出为通用盲文拼音字符串。
实例8:读入“te”汉字拼音字符串,直接输出为通用盲文拼音字符串。
Claims (7)
1.权利要求1一种汉字拼音到通用盲文拼音的修正方法,其特征在于:包括“ng、yo”拼音的修正处理、“y、w”声母的修正处理、“iou、uen、uei”韵母的修正处理、声母“j、q、x”和“u”开头韵母组合的修正处理、声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,当读入一个汉字拼音字符串,通过这些修正处理,输出为通用盲文拼音字符串,实现汉字拼音到通用盲文拼音的转化。
2.根据权利要求1所述的汉字拼音到通用盲文拼音的转化,其特征在于:
第一步,读入一个汉字拼音字符串;
第二步,判断是否是“ng、yo”,如果是,进行“ng、yo”拼音的修正处理后,进入第三步,如果不是,直接进入第三步 ;
第三步,判断是否是有“y、w”声母,如果不是,进入第四步,如果是,进行“y、w”声母的修正处理,进而,判断是否是有“iou、uen、uei”韵母,如果是,进行“iou、uen、uei”韵母的修正处理,如果不是,直接输出通用盲文拼音字符串;
第四步,判断是否是声母“j、q、x”和“u”开头韵母组合,如果不是,进入第五步,如果是,进行声母“j、q、x”和“u”开头韵母组合的修正处理;
第五步,判断是否是声母“z、c、s、zh、ch、sh、r”和韵母“i”组合,如果是,进行母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,如果不是,输出为通用盲文拼音字符串。
3.根据权利要求1所述的“ng、yo”拼音的修正处理,其特征在于:把“ng”拼音修正处理为“en”和把“yo”拼音修正处理为“you”后,进入第三步。
4.根据权利要求1所述的“y、w”声母的修正处理,其特征在于:当声母为“y”时,把声母“y”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,则需要将“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串,若不是“u”,判断韵母的第一个字母是否是“i”,如果是“i”,韵母字母不变,输出修正后的拼音字符串;若不是“i”,需要对韵母首位添加“i”,输出修正后的拼音字符串;
当声母为“w”时,把声母“w”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,韵母字母不变,输出修正后的拼音字符串;若不是“u”,需要对韵母首位添加“u”,输出修正后的拼音字符串。
5.根据权利要求1所述的“iou、uen、uei”韵母的修正处理,其特征在于:将“iou、uen、uei”这三个韵母的第一个字母和第三个字母组合,去掉中间的元音字母,形成新的韵母组合“iu、ui、un”,输出修正后的拼音字符串。
6.根据权利要求1所述的声母“j、q、x”和“u”开头韵母组合的修正处理,其特征在于:保持声母“j、q、x”不变,把“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串。
7.根据权利要求1所述的声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,其特征在于:保持声母“z、c、s、zh、ch、sh、r”不变,把“i”的字符位置空,输出修正后的拼音字符串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404561.3A CN113673226A (zh) | 2020-05-13 | 2020-05-13 | 一种汉字拼音到通用盲文拼音的修正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404561.3A CN113673226A (zh) | 2020-05-13 | 2020-05-13 | 一种汉字拼音到通用盲文拼音的修正方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673226A true CN113673226A (zh) | 2021-11-19 |
Family
ID=78537054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010404561.3A Pending CN113673226A (zh) | 2020-05-13 | 2020-05-13 | 一种汉字拼音到通用盲文拼音的修正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673226A (zh) |
-
2020
- 2020-05-13 CN CN202010404561.3A patent/CN113673226A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102214238B (zh) | 一种汉语词语相近性匹配装置及方法 | |
US20050010391A1 (en) | Chinese character / Pin Yin / English translator | |
Bhattacharya et al. | Inflectional morphology synthesis for bengali noun, pronoun and verb systems | |
US20100262418A1 (en) | Method and apparatus of computer processing of a brahmic script | |
CN1577325A (zh) | 繁体中文字/简体中文字翻译方法 | |
US20050027547A1 (en) | Chinese / Pin Yin / english dictionary | |
McEnery et al. | A new agenda for corpus linguistics-working with all of the world's languages | |
CN103616960A (zh) | 六元音字母双拼输入法 | |
CN103376910A (zh) | 无重码双拼输入法 | |
CN111581991B (zh) | 一种基于端到端神经机器翻译的汉盲翻译方法及系统 | |
CN113673226A (zh) | 一种汉字拼音到通用盲文拼音的修正方法 | |
CN103246354A (zh) | 以通用语文字编码表达汉字的输入法及其键盘 | |
Bradley et al. | The many writing systems of Mansi: challenges in transcription and transliteration | |
Gutkin et al. | Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities | |
CN107451105B (zh) | 一种基于新型汉字全息编码规则的明盲文转换系统 | |
CN106325540B (zh) | 一种滇东北次方言苗文的简笔输入法及其应用 | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
CN108459735A (zh) | 声韵双击触摸屏汉语拼音输入方法 | |
CN103984420A (zh) | 一种基于拼音的藏文智能输入法 | |
CN101901062B (zh) | 基于音素编码的计算机汉字信息处理方法 | |
EP1221082B1 (en) | Use of english phonetics to write non-roman characters | |
Joshi et al. | Input Scheme for Hindi Using Phonetic Mapping | |
CN1612095A (zh) | 双拼输入法 | |
CN107066104B (zh) | 电脑汉英互读互译键盘最佳键位 | |
Gafni | A Universal System for Automatic Text-to-Phonetics Conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211119 |
|
WD01 | Invention patent application deemed withdrawn after publication |