[go: up one dir, main page]

CN113673226A - 一种汉字拼音到通用盲文拼音的修正方法 - Google Patents

一种汉字拼音到通用盲文拼音的修正方法 Download PDF

Info

Publication number
CN113673226A
CN113673226A CN202010404561.3A CN202010404561A CN113673226A CN 113673226 A CN113673226 A CN 113673226A CN 202010404561 A CN202010404561 A CN 202010404561A CN 113673226 A CN113673226 A CN 113673226A
Authority
CN
China
Prior art keywords
pinyin
initial
braille
character string
final
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010404561.3A
Other languages
English (en)
Inventor
王丹英
杨文珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Interactive Perception Technology Co ltd
Original Assignee
Hangzhou Interactive Perception Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Interactive Perception Technology Co ltd filed Critical Hangzhou Interactive Perception Technology Co ltd
Priority to CN202010404561.3A priority Critical patent/CN113673226A/zh
Publication of CN113673226A publication Critical patent/CN113673226A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种汉字拼音到通用盲文拼音的修正方法。为解决汉字拼音和通用盲文拼音的差异,实现汉字盲文的数字化,本发明提出了“ng、yo”拼音的修正处理、“y、w”声母的修正处理、“iou、uen、uei”韵母的修正处理、声母“j、q、x”和“u”开头韵母组合的修正处理、声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,当计算机读入一个汉字拼音字符串,通过这些修正处理,输出为通用盲文拼音字符串,实现汉字拼音到通用盲文拼音的转化。本发明为汉语盲文计算机翻译系统提供了预处理,为汉字盲文ASCII码的统一生成奠定基础。

Description

一种汉字拼音到通用盲文拼音的修正方法
技术领域
本发明涉及一种拼音修正方法,尤其是一种汉字拼音到通用盲文拼音的修正方法。
背景技术
盲文又称为点字,是专门为盲人设计、靠触觉来感知的一种特殊文字,是盲人摸读和书写的文字符号。目前,国际通用的一个盲文点字由三行两列的6个点按一定的规律排列组合而成,有 64种表现形式,称为一“方”。在信息爆炸的互联网时代,纸质盲文图书存在知识承载量少、资讯严重滞后、体积大且笨重等劣势,很难继续担负传播知识和培养人才的历史使命。因此,盲文数字化是必然趋势,意义重大。
相对于英文盲文,它可以从英文字母生成盲文点字,然而,我国的汉字盲文与英文盲文有显著不同,它是必须先把汉字转化成拼音,再由拼音生成盲文点字。长期以来,汉字盲文主要有现行盲文和双拼盲文并存,以现行盲文为主。现行盲文主要由声母方和韵母方组成,为了节省盲文篇幅,它通常没有声调方。只有针对生僻字或特殊的多音字时,现行盲文才有声调方,标调率极低,盲人需要依据上下文猜测读音,阅读效率很低。而且,现行盲文这种按需标调原则,使得拼音标调的随意性很大,几乎没有规律可循,造成计算机自动处理盲文非常困难,难以适应信息化时代盲人文化教育和盲文信息化的需要。
为此,近年来我国正在大力推广通用盲文。它以汉字拼音为基础,一个汉字的通用盲文字由一个声母方、一个韵母方和一个声调方组成,也可以无声母方或无声调方。它采用全标调的策略,较好消除声调不明确带来的歧义,方便盲人更加精确地摸读盲文。
然而,通用盲文拼音体系和汉语拼音体系存在着一定的区别。汉语拼音体系的声母有23个,韵母有24个,声调有5个,然而,通用盲文拼音体系的声母有21个,韵母有36个,声调有5个。即,通用盲文拼音体系与汉语拼音拼音体系并不完全一致,不能从汉语拼音直接得到盲文拼音,进而生成盲文点字。
为此,如何实现汉字拼音和通用盲文拼音的一致性表达,是通用盲文数字化和信息化必须解决的首要问题。
我们详细研究了通用盲文拼音体系和汉语拼音体系的异同,发现以下几个方面必须进行处理,才能有效实现通用盲文拼音体系和汉语拼音体系的一致性表达。
1. 盲文拼音体系中没有“y和w”声母。
2. “iou、uei、uen”要省略韵腹“o和e”,写为“iu、ui、un”与汉字拼音体系一致。
3. “yo、eg”的拼音处理。
4. 声母“j、q、x”和“u”开头韵母组合的修正处理。
5. 声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理。
这几个方面有些是独立的,有些是相互关联的,需要联合处理。
由于汉字拼音在计算机中已经普遍应用,然而通用盲文拼音是2018年7月1日国家新发布的盲文规范。在考虑盲文点字特殊性前提下,如何实现汉字拼音和通用盲文拼音的一致性表达是通用盲文数字化必须解决的重要问题。
申请人查阅了相关公开文献,专利一种盲文信息统计系统(CN108491441A)提及了汉语音节(声、韵、调)的统计,没有解决通用盲文拼音体系和汉语拼音体系的一致性表达。文献“国家通用盲文方案研究”分析了盲文语料库和汉语数据库,没能解决通用盲文拼音体系和汉语拼音体系的异同。文献“通用盲文与现行盲文摸读比较研究”认为摸读正确率上通用盲文显著高于现行盲文,没有涉及通用盲文拼音体系和汉语拼音体系的转化。
发明内容
为了克服上述现有技术的不足,本发明提供了一种汉字拼音到通用盲文拼音的修正方法,实现汉字拼音和通用盲文拼音的一致性表达。
本发明所采用的技术方案是:一种汉字拼音到通用盲文拼音的修正方法,包括“ng、yo”拼音的修正处理、“y、w”声母的修正处理、“iou、uen、uei”韵母的修正处理、声母“j、q、x”和“u”开头韵母组合的修正处理、声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,当读入一个汉字拼音字符串,通过这些修正处理,输出为通用盲文拼音字符串,实现汉字拼音到通用盲文拼音的转化。
所述的汉字拼音到通用盲文拼音的转化,具体步骤有:第一步,读入一个汉字拼音字符串;第二步,判断是否是“ng、yo”,如果是,进行“ng、yo”拼音的修正处理后,进入第三步,如果不是,直接进入第三步 ;第三步,判断是否是有“y、w”声母,如果不是,进入第四步,如果是,进行“y、w”声母的修正处理,进而,判断是否是有“iou、uen、uei”韵母,如果是,进行“iou、uen、uei”韵母的修正处理,如果不是,输出通用盲文拼音字符串。第四步,判断是否是声母“j、q、x”和“u”开头韵母组合,如果不是,进入第五步,如果是,进行声母“j、q、x”和“u”开头韵母组合的修正处理;第五步,判断是否是声母“z、c、s、zh、ch、sh、r”和韵母“i”组合,如果是,进行母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,如果不是,输出为通用盲文拼音字符串。
所述的“ng、yo”拼音的修正处理,把“ng”拼音修正处理为“en”和把“yo”拼音修正处理为“you”后,进入第三步。
所述的“y、w”声母的修正处理,当声母为“y”时,把声母“y”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,则需要将“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串,若不是“u”,判断韵母的第一个字母是否是“i”,如果是“i”,韵母字母不变,输出修正后的拼音字符串;若不是“i”,需要对韵母首位添加“i”,输出修正后的拼音字符串;当声母为“w”时,把声母“w”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,韵母字母不变,输出修正后的拼音字符串;若不是“u”,需要对韵母首位添加“u”,输出修正后的拼音字符串;
所述的“iou、uen、uei”韵母的修正处理,将“iou、uen、uei”这三个韵母的第一个字母和第三个字母组合,去掉中间的元音字母,形成新的韵母组合“iu、ui、un”,输出修正后的拼音字符串。
所述的声母“j、q、x”和“u”开头韵母组合的修正处理,保持声母“j、q、x”不变,把“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串。
所述的声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,保持声母“z、c、s、zh、ch、sh、r”不变,把“i”的字符位置空,输出修正后的拼音字符串。
与现有技术相比,本发明的有益效果是:经过“ng、yo”拼音的修正处理、“y、w”声母的修正处理、“iou、uen、uei”韵母的修正处理、声母“j、q、x”和“u”开头韵母组合的修正处理、声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,有效实现通用盲文拼音体系和汉语拼音体系的一致性表达, 把汉字拼音转化通用盲文拼音,为汉语盲文计算机翻译系统提供了预处理,为汉字盲文ASCII码的统一生成奠定基础。
附图说明
图1是本发明的汉字拼音到通用盲文拼音修正方法的整体流程示意图。
图2是本发明针对声母是“y、w”的修正处理流程示意图。
图3是本发明针对韵母为“iou、uen、uei”三者之一的修正处理流程示意图。
图4是本发明针对韵母第一个字母是“u”且声母是“j、q、x”情形修正处理流程示意图。
具体实施方式
下面结合附图对本发明进一步说明。
汉语拼音体系的声母有23个,韵母有24个,声调有5个,然而,通用盲文拼音体系的声母有21个,韵母有36个,声调有5个。即,通用盲文拼音体系与汉语拼音拼音体系并不完全一致,不能从汉语拼音直接得到盲文拼音,进而生成盲文点字。为此,需要实现通用盲文拼音体系和汉语拼音体系的一致性表达,把汉字拼音转化通用盲文拼音。
如图1所示,本发明提出一种汉字拼音到通用盲文拼音修正方法,第一步,读入一个汉字拼音字符串;第二步,判断是否是“ng、yo”,如果是,进行“ng、yo”拼音的修正处理后,进入第三步,如果不是,直接进入第三步 ;第三步,判断是否是有“y、w”声母,如果不是,进入第四步,如果是,进行“y、w”声母的修正处理,进而,判断是否是有“iou、uen、uei”韵母,如果是,进行“iou、uen、uei”韵母的修正处理后输出通用盲文拼音字符串,如果不是,直接输出通用盲文拼音字符串;第四步,判断是否是声母“j、q、x”和“u”开头韵母组合,如果不是,进入第五步,如果是,进行声母“j、q、x”和“u”开头韵母组合的修正处理,输出通用盲文拼音字符串;第五步,判断是否是声母“z、c、s、zh、ch、sh、r”和韵母“i”组合,如果是,进行母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理后输出通用盲文拼音字符串,如果不是,直接输出为通用盲文拼音字符串。
如图1所示,读入一个汉字拼音字符串,判断是否是“ng、yo”,如果是,把“ng”拼音修正处理为“en”和把“yo”拼音修正处理为“you”后,进入第三步,如果不是,直接进入第三步。
如图1、图2和图3所示,判断是否是有“y、w”声母,如果不是,进入第四步。如果是,当声母为“y”时,把声母“y”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,则需要将“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串,若不是“u”,判断韵母的第一个字母是否是“i”,如果是“i”,韵母字母不变,输出修正后的拼音字符串;若不是“i”,需要对韵母首位添加“i”,输出修正后的拼音字符串;当声母为“w”时,把声母“w”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,韵母字母不变,输出修正后的拼音字符串;若不是“u”,需要对韵母首位添加“u”,输出修正后的拼音字符串;进而,判断是否是有“iou、uen、uei”韵母,如果不是,输出通用盲文拼音字符串;如果是,将“iou、uen、uei”这三个韵母的第一个字母和第三个字母组合,去掉中间的元音字母,形成新的韵母组合“iu、ui、un”,输出通用盲文拼音字符串。
如图1和图4所示,判断是否是声母“j、q、x”和“u”开头韵母组合,如果不是,进入第五步,如果是,保持声母“j、q、x”不变,把“u”置为“v”,并且保持之后的韵母字母不变,输出通用盲文拼音字符串。
如图1所示,判断是否是声母“z、c、s、zh、ch、sh、r”和韵母“i”组合,如果不是,输出为通用盲文拼音字符串,如果是,进行母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,保持声母“z、c、s、zh、ch、sh、r”不变,把“i”的字符位置空,输出通用盲文拼音字符串。
本发明的具体实施实例如下。
实例1:读入“ng”汉字拼音字符串,把“ng”改为“en”,输出为通用盲文拼音字符串。
实例2:读入“yo”汉字拼音字符串,把“yo”改为“you”,接着把“you”改为“iou”,然后把“iou”改为“iu”,输出为通用盲文拼音字符串。
实例3:读入“yun”汉字拼音字符串,把“yun”改为“vn”,输出为通用盲文拼音字符串。
实例4:读入“wu”汉字拼音字符串,把“wu”改为“u”,输出为通用盲文拼音字符串。
实例5:读入“wen”汉字拼音字符串,把“wen”改为“uen”,接着把“uen”改为“un”,输出为通用盲文拼音字符串。
实例6:读入“jun”汉字拼音字符串,把“jun”改为“jvn”,输出为通用盲文拼音字符串。
实例7:读入“zhi”汉字拼音字符串,把“zhi”改为“zh”,输出为通用盲文拼音字符串。
实例8:读入“te”汉字拼音字符串,直接输出为通用盲文拼音字符串。

Claims (7)

1.权利要求1一种汉字拼音到通用盲文拼音的修正方法,其特征在于:包括“ng、yo”拼音的修正处理、“y、w”声母的修正处理、“iou、uen、uei”韵母的修正处理、声母“j、q、x”和“u”开头韵母组合的修正处理、声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,当读入一个汉字拼音字符串,通过这些修正处理,输出为通用盲文拼音字符串,实现汉字拼音到通用盲文拼音的转化。
2.根据权利要求1所述的汉字拼音到通用盲文拼音的转化,其特征在于:
第一步,读入一个汉字拼音字符串;
第二步,判断是否是“ng、yo”,如果是,进行“ng、yo”拼音的修正处理后,进入第三步,如果不是,直接进入第三步 ;
第三步,判断是否是有“y、w”声母,如果不是,进入第四步,如果是,进行“y、w”声母的修正处理,进而,判断是否是有“iou、uen、uei”韵母,如果是,进行“iou、uen、uei”韵母的修正处理,如果不是,直接输出通用盲文拼音字符串;
第四步,判断是否是声母“j、q、x”和“u”开头韵母组合,如果不是,进入第五步,如果是,进行声母“j、q、x”和“u”开头韵母组合的修正处理;
第五步,判断是否是声母“z、c、s、zh、ch、sh、r”和韵母“i”组合,如果是,进行母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,如果不是,输出为通用盲文拼音字符串。
3.根据权利要求1所述的“ng、yo”拼音的修正处理,其特征在于:把“ng”拼音修正处理为“en”和把“yo”拼音修正处理为“you”后,进入第三步。
4.根据权利要求1所述的“y、w”声母的修正处理,其特征在于:当声母为“y”时,把声母“y”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,则需要将“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串,若不是“u”,判断韵母的第一个字母是否是“i”,如果是“i”,韵母字母不变,输出修正后的拼音字符串;若不是“i”,需要对韵母首位添加“i”,输出修正后的拼音字符串;
当声母为“w”时,把声母“w”的字符位置空,接着判断韵母的第一个字母是否是“u”,若是“u”,韵母字母不变,输出修正后的拼音字符串;若不是“u”,需要对韵母首位添加“u”,输出修正后的拼音字符串。
5.根据权利要求1所述的“iou、uen、uei”韵母的修正处理,其特征在于:将“iou、uen、uei”这三个韵母的第一个字母和第三个字母组合,去掉中间的元音字母,形成新的韵母组合“iu、ui、un”,输出修正后的拼音字符串。
6.根据权利要求1所述的声母“j、q、x”和“u”开头韵母组合的修正处理,其特征在于:保持声母“j、q、x”不变,把“u”置为“v”,并且保持之后的韵母字母不变,输出修正后的拼音字符串。
7.根据权利要求1所述的声母“z、c、s、zh、ch、sh、r”和韵母“i”组合的修正处理,其特征在于:保持声母“z、c、s、zh、ch、sh、r”不变,把“i”的字符位置空,输出修正后的拼音字符串。
CN202010404561.3A 2020-05-13 2020-05-13 一种汉字拼音到通用盲文拼音的修正方法 Pending CN113673226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010404561.3A CN113673226A (zh) 2020-05-13 2020-05-13 一种汉字拼音到通用盲文拼音的修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010404561.3A CN113673226A (zh) 2020-05-13 2020-05-13 一种汉字拼音到通用盲文拼音的修正方法

Publications (1)

Publication Number Publication Date
CN113673226A true CN113673226A (zh) 2021-11-19

Family

ID=78537054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010404561.3A Pending CN113673226A (zh) 2020-05-13 2020-05-13 一种汉字拼音到通用盲文拼音的修正方法

Country Status (1)

Country Link
CN (1) CN113673226A (zh)

Similar Documents

Publication Publication Date Title
CN102214238B (zh) 一种汉语词语相近性匹配装置及方法
US20050010391A1 (en) Chinese character / Pin Yin / English translator
Bhattacharya et al. Inflectional morphology synthesis for bengali noun, pronoun and verb systems
US20100262418A1 (en) Method and apparatus of computer processing of a brahmic script
CN1577325A (zh) 繁体中文字/简体中文字翻译方法
US20050027547A1 (en) Chinese / Pin Yin / english dictionary
McEnery et al. A new agenda for corpus linguistics-working with all of the world's languages
CN103616960A (zh) 六元音字母双拼输入法
CN103376910A (zh) 无重码双拼输入法
CN111581991B (zh) 一种基于端到端神经机器翻译的汉盲翻译方法及系统
CN113673226A (zh) 一种汉字拼音到通用盲文拼音的修正方法
CN103246354A (zh) 以通用语文字编码表达汉字的输入法及其键盘
Bradley et al. The many writing systems of Mansi: challenges in transcription and transliteration
Gutkin et al. Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities
CN107451105B (zh) 一种基于新型汉字全息编码规则的明盲文转换系统
CN106325540B (zh) 一种滇东北次方言苗文的简笔输入法及其应用
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
CN108459735A (zh) 声韵双击触摸屏汉语拼音输入方法
CN103984420A (zh) 一种基于拼音的藏文智能输入法
CN101901062B (zh) 基于音素编码的计算机汉字信息处理方法
EP1221082B1 (en) Use of english phonetics to write non-roman characters
Joshi et al. Input Scheme for Hindi Using Phonetic Mapping
CN1612095A (zh) 双拼输入法
CN107066104B (zh) 电脑汉英互读互译键盘最佳键位
Gafni A Universal System for Automatic Text-to-Phonetics Conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211119

WD01 Invention patent application deemed withdrawn after publication