CN102053719A - 华文汉字输入法 - Google Patents
华文汉字输入法 Download PDFInfo
- Publication number
- CN102053719A CN102053719A CN2010102105404A CN201010210540A CN102053719A CN 102053719 A CN102053719 A CN 102053719A CN 2010102105404 A CN2010102105404 A CN 2010102105404A CN 201010210540 A CN201010210540 A CN 201010210540A CN 102053719 A CN102053719 A CN 102053719A
- Authority
- CN
- China
- Prior art keywords
- chinese
- chinese character
- word
- character
- input method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 133
- 150000001875 compounds Chemical class 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- -1 fire Substances 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 claims description 3
- 241000251468 Actinopterygii Species 0.000 claims description 2
- 244000025254 Cannabis sativa Species 0.000 claims description 2
- 235000013305 food Nutrition 0.000 claims description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 2
- 239000010931 gold Substances 0.000 claims description 2
- 229910052737 gold Inorganic materials 0.000 claims description 2
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 239000000463 material Substances 0.000 claims description 2
- 210000000056 organ Anatomy 0.000 claims description 2
- 230000000630 rising effect Effects 0.000 claims description 2
- 239000002689 soil Substances 0.000 claims description 2
- 241000894007 species Species 0.000 claims description 2
- 230000002269 spontaneous effect Effects 0.000 claims description 2
- 239000004575 stone Substances 0.000 claims description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 2
- 239000002023 wood Substances 0.000 claims description 2
- 230000035800 maturation Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract description 8
- 241001672694 Citrus reticulata Species 0.000 abstract description 3
- 230000008676 import Effects 0.000 description 18
- 230000010365 information processing Effects 0.000 description 7
- 238000005520 cutting process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000033764 rhythmic process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000033228 biological regulation Effects 0.000 description 4
- 210000000481 breast Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005267 amalgamation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 229910052755 nonmetal Inorganic materials 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
华文汉字输入法以普通话语音系统和《汉语拼音方案》为汉字定音标准;取国际通行体系及字母,用26个拉丁字母和23个国际通用字母构成49字母拼音文字式汉字编码方案;将声母、韵母单字母化,读音固定,按声韵搭配规律变音,采用省韵和声母变音解决个别音节同调字多的问题;字母标调,轻声按实际发音标调;按汉字造字规律,将同音同调字分为4个大类28个意类,对27个实意类设置意母,用意母定字,完整保持汉字音、形、意特征;按照标准化原则把同音同调且同义字分为标准字和异体字,解决超大字符集汉字输入问题;标准字分繁体和简体,与华文汉字编码一一对应,均按字母排序,输入不选字;用基本笔画构成码辅助输入知形不知音的汉字。
Description
所属技术领域
本发明涉及一种拼音文字式华文汉字输入法,同时又是一种汉语信息处理技术,通过这种拼音文字式的汉字编码的输入、存储和处理,提出一种汉字标准化建议,实现汉字无重码输入,汉字标准字繁体与简体的对称转换,个性化自然语音和儿化音的输出,同时,为克服拼音编码输入法无法输入知形不知音的缺点,提出一种汉字字形辅助输入法,用汉字笔画构成码进行相似字形汉字检索与学习。
背景技术
目前,已申请专利的汉字输入法,按输入设备和技术手段分,有三类:一是依据汉字编码通过键盘输入;二是手写或扫描输入,再按字形转换成编码或直接转换成汉字;三是通过语音识别系统将人说的话语转换成汉字或汉字编码。其中,键盘输入又可根据编码方式的不同分成三类:一种是纯拼音的编码,一种是纯字形的编码,第三种是拼音加字形的编码。拼音加字形的编码中,大多以区分汉字部首为主,或偏“形”或偏“音”,或“形”“音”结合,虽有与“意”结合者,没有用意符完全区分和表示汉字基本意义的,不能充分反映汉字的造字理据。虽然这些输入法在输入的速度、效率、转换的准确率等方面有长足的进步,但各种类型的输入方法都还有一些影响汉字输入和信息处理的问题,如编码存在重码,输入需要选字,进行汉字信息处理时不能简单地区分同音字和多音字,需要字库、词库和语料库等大量的辅助资源和复杂的软件处理过程支撑,如字、词、语及其联想检索和词的切分等,不能处理超大字符集中的当用字,不能区分国家规定的标准字和异体字,不能限制异体字的使用,相应输入法也不能按汉字编码顺序对汉字进行有实用意义的排序,不能同时满足信息的生产、获取、转换、组织、存储、处理(分析、计算、识别、检索等)、表达、评价的综合技术要求和人们日益增长的信息处理速度、效率、可靠程度、设备的经济实用性等全方位的需求。
目前,汉字输入依然存在万“码”奔腾、万“码”齐喑的局面,现有的任何一种汉字输入法都不能同时满足各种人群的需要;在汉语汉字教学的对外交流和推广中,如何选择一种普遍适用的汉字输入法,也是一件为难之事。由于现有的输入法都存在重码问题,个性化语音输出难以实现。由于没有进行汉字标准化整理,现有输入法不能解决非对称繁简汉字相互转换的问题,如“前后”和“太后”应分别转换成“前後”和“太后”,现有输入法只能根据当时的输入需要输入,不能在输入后进行转换。所有输入法都带有联想功能,但联想功能也存在选字的问题。
五十年的实践证明,《汉语拼音方案》不能方便表示音节的声调,也不能表示特殊读音的音节,如ü、□、□等音节,用汉语拼音不能方便区别和输入同音字,也不能按□、hm、hng、ng、m等音节的拼写形式输入对应音节的汉字,即用《汉语拼音方案》输入汉字不仅存在大量的重码,还存在有字无码的现象,如微软拼音“噷hm”须输入“hen”,“哼hng”须输入“heng”,“嗯n、ng”须输入“en”,“欸ê”须输入“ea”等。
汉字难学、难认,但学会了终生难忘,识读速度快。汉字难以进入计算机,语音输入因同音词问题准确率较低,因为分词问题不能快速进行智能化处理,智能语音输出难以完美实现,需要以浪费资源、时间为代价,还需人工干预。
目前,大陆使用简体字,台湾、香港、澳门和海外一些国家和地区使用繁体字,还不能统一使用一种字形体系,不同地区无论输入繁体还是简体,输入法也各不相同,在一定时期内还不能实现输入法的统一,也没有一种输入法能作为现阶段繁体与简体同码存储、按需转换的统一平台,为两岸的经贸交流架起一座深入沟通、都能接受的桥梁。
发明内容
为了解决现有输入法不区分标准字与异体字,不区分标准字简体与繁体,不限制使用异体字的问题;为了解决汉字编码重码和输入汉字需要选字的问题;为了解决标准字繁体与简体非对称转换,两岸及海外使用简繁两种不同形式汉字的问题;为了解决汉字信息处理过程中需要先进行词的切分,切分词不一定准确符合作者原意,切分词时还需要进行人工干预的问题;为了解决用汉字文档输出汉语自然语音需要大量的字库、词库、语句语料库,不能实现个性化自然语音和儿化音语音输出的问题;为了解决现有输入法中的任何一种都不能同时适合各种人群需要的问题;为了解决汉字不能按读音自动排序的问题,以及为了解决未来新增汉语新意汉字如何在字符集中表示,汉语国际化,现有汉字编码不能准确定音、定形、定意和当用汉字不定量,解决汉字定形、定音、定意、定量不准确的问题,以及在文字学、数学、物理、化学、生物学、工程技术等领域的文档中输入专用字母困难等一系列问题或不足,本发明提供一种拼音文字式汉字输入法解决方案——华文汉字输入法。
华文汉字输入法方案内容开始:——————————————————————
华文汉字输入法方案由三部分组成:第一部分,总则,说明本发明方案的主旨;第二部分,华文汉字输入法,解决知音知意的汉字输入、繁简转换、异体字限制使用和语音输出等技术问题,适于边思考边写文章;第三部分,华文汉字字形辅助输入法,解决只知形不知音意的汉字输入、学习汉字的技术问题,适于照文录入,也适于学习不认识的汉字。
第一部分:总则
华文汉字输入法以普通话语音系统为语音标准,以1958年2月11日中华人民共和国第一届全国人民代表大会第五次会议通过的《汉语拼音方案》为汉字定音标准;根据中华民族承传下来7000多年的龙的精神,采世界优秀拼音文字之所长,取国际通行的字母体系中的通用字母和符号,经过拼音文字体系化处理,在26个拉丁字母的基础上,另外选用23个以希腊字母为主的国际通用字母,如“αβγ”等,组成49字母的拼音文字式汉字输入法体系;在保持《汉语拼音方案》中单字母声母、单字母韵母的情况下,将《汉语拼音方案》确定的声母、韵母全部单字母化,固定零声母,固定声母、韵母读音,根据声母与韵母相互搭配时读音互补的规律进行韵母变音,减少韵母数量,使汉语音节系统化、最简化,采用省略韵母和声母变音方式解决个别音节同声调字多的问题;采用字母标调法,选择4个与音调特征象形的字母作为调母,为阴平、阳平、上声、去声标调,轻声按实际发音标调;采用意母定字法,按照汉字造字规律,将同音节同声调汉字分成4个大类28个意类,人:女、人、手、口、心、身、目,生活:衣、食、住、行、言、病、物,生物:鸟、马、兽、虫、鱼、草、木,自然:水、火、金、玉、石、土、常意,除常意类外,设置27个意母与之对应,利用在这28个意类中汉字表意的互补规律,完整保持汉字音、形、意特征,实现汉字编码对汉字的准确化表音、简单化表形、标准化表意;对汉字进行初步标准化整理,按照约定俗成的原则,将相同音节、相同声调、相同释义的汉字分成标准字和异体字,解决超大字符集汉字输入问题;根据繁简对应关系和实际情况将标准字分成繁体和简体,使构成的拼音式华文汉字编码与标准汉字繁体及简体一一对应,使异体字与标准字华文汉字编码对应,实现标准字及其异体字按华文字母序排序。将43种汉字基本笔画布设在软键盘或计算机键盘上,无需考虑笔顺,按字的笔画构成输入所有笔画,由华文汉字输入法系统对基本笔画按对应字母顺序排列,形成笔画构成码,按笔画构成码检索要输入的汉字和与之相似的汉字,显示汉字属性,实现辅助输入知形不知音汉字和学习汉字的目的。
第二部分:华文汉字输入法
一、字母表
华文汉字输入法共有49个字母,分大写和小写,读音符合国际化及约定俗成原则,如表1所示。
表1 华文汉字输入法字母表
二、声母表
用22个字母表示汉语普通话的22个声母,除零声母外,声母按照不同的发音部位分为6组,如表2所示。
表2 华文汉字输入法声母表
注:范例中,调母加粗者表示声母与该调拼合才发音节音。
三、韵母表
用23个韵母字母和3个声母字母表示汉语普通话的44个韵母语音,韵母按发音方式分为四呼和鼻音,如表3所示。
表3 华文汉字输入法韵母表
表5 华文汉字输入法意母简表
表6 华文汉字输入法意母详表
六、拼音规则
1.拼写规则
四、调母表
用4个字母表示汉语普通话的4个调母,如表4所示。轻声不设调母,而是归入相近声调中。
表4 华文汉字输入法调母表
五、意母表
按照汉字造字规律和形声化演进规律,利用汉字的表形、表音、表意特点,华文汉字输入法将同一音节同一声调的汉字按形意分成4个大类28个意类。第一类为人类,包括人的性别、身体器官及其行为、性状;第二类为生活类,包括人和生物的生活、行为、需求及其性状;第三类为生物类,包括除人类以外的生物及其行为、性状;第四类为自然类,包括自然现象、物质及其性状。每个大类分7个意类,除常意类无字母,其它27个意类各设一个意母,意母不发音,简表如表5所示,详表如表6所示。音节同调汉字过多的问题,所以,声母与韵母拼合构成的文字音节共有446个,其中有20个音节的拼写形式不同但读音相同。
声母+韵母+调母+意母
2.拼读规则
按声、韵、调的顺序连拼直读,即做出声母口形发韵母和声调的读音,意母不发音。音节字、单字母字等没有标调母,其读音需要特别记忆。
3.正词规则
(1)正词:用华文汉字编码书写普通话,原则上按字连写构成单纯词或结构词,按词分写构成语句,如“人类生存的环境需要大家共同来保护。”,写成华文汉字编码就是 复合词可按汉语语音节律特点分写成多个单纯词,如 (隔字符);不能分写又不符合语音节律的,连写,或者在两部分间加短横或下划线。如(非金属)、(下划线)。
(5)引文:在华文文本中书写字母、字符或引用其他拼音形式的语言文字,或者不需要将一些华文字转换成汉字,均须在引文的两端加引文号“’”。如汉语中引用英语:“微软(Microsoft)的文字处理系统是Word”,“我的MP3是新的”,写成华文则分别是:
(8)移行:华文词在一行的末尾写不完时要移行,移行按字分开,中间加连字符“-”,连字符可在行尾,也可以在下一行行首;为避免歧义,也可以将整个词移到下一行。
七、华文汉字输入法的优点和特点
(1)拼音形式,汉字特点,读音准确,变音固定:既具有拼音文字准确定音的优点,又具有汉字表意的优点,意母与偏旁部首对应,字母的读音和变音固定,规律性强,而且简单易记。
(2)汉字字形标准化,汉字使用规范化:通过意类的限定,按国家规定的规范汉字标准对汉字字形做了标准化,合并了同音同调同义的汉字,分化了同音同调意义繁多而原本习惯由多个汉字表示意义的字,规定了意义合并或分化后的标准字形繁体和简体;对汉字的使用做了规范化,标准字无论繁体还是简体,都可直接输入计算机,而异体字则需要选择输入,杜绝了异体字的任意使用。
(3)简单易学,记忆量少,易于推广:规则简单一贯,不常用的字不必强记,用音节字和省略意母的方法表示汉语虚词或意义较多的常用字,常用字不用记也因常用而记住,作为输入法,利于学习和推广,还利于汉语普通话的推广。
(4)平均码短,输入自然:最大码长为4,最小码长为1,动态平均码长为2.3,由于不用考虑拆字、拼形,和一般拼音文字一样地输入,输入汉字快捷,符合人——机输入工程心理学要求。
(5)单字无重码,有编码空间:对汉字作了标准化整理,克服了汉字同音同义有多个字、一字多音、同音多字意义交叉等现象对文章理解的干扰。标准字繁体和简体空间各50398个,繁简体与华文汉字编码一一对应,通过汉字标准化,可确定标准汉字的数量,今后新增标准汉字均可在50398字符空间内扩展。
(6)按词表达,突出语法,无歧义性:汉字不能分词表达,词与词的语法关系被隐藏,华文汉字编码为拼音文字式编码,可按词分写,词与词关系明显,汉语语法特征得到表现,易于对词句的准确理解和记忆,克服了汉字不按词分写的缺点和因此带来的歧义性。
(7)现有设备,经济便捷:无需改造现有设备,直接通过软件可以实现华文汉字输入法方案,省略了词库、语料库,对现有输入法存在的查词、联想等繁索处理过程有简化作用,输入、处理均可节约时间。
(8)易于校验,出错率低,传输可靠:按拼写格式形成的文本有严格的字母组合规律,一旦出错,容易被输入法系统自动校验出来。按正词法拼写的汉语信息,使信息传输的可靠性提高。
(9)字母通用,易国际化:本方案字母为国际上文字学、数学、物理、化学、生物学、工程技术等领域广泛应用的字母,按国际通行读音习惯把它们统一到汉语和汉字输入法中,利于中国人和外国人学习和使用,利于汉语的国际化。
(10)文字感强,可阅读可注音,可存储可处理:本方案是一种拼音文字式汉字输入方案,可以像一般拼音文字一样地阅读,也可以用来给汉字注音,还可以存储到计算机上进行各种汉语信息处理。汉字存在双字节码和四字节码混合一起的现象,处理时难度大。华文汉字编码都是统一的单字节码,处理方便快捷。汉字存在大量的一字多音现象,词的切分是文字信息处理的前提,而汉字句子中词的切分又存在准确率问题。华文则按词分写和存储,准确率达到百分之百(写错除外),无需进行词的切分。
(11)自然语音输出,方便个性语音输出:若按华文汉字编码存储文档,可通过编码中的音节和声调查代码表组合成一个字的语音文件名,进而逐字播放文档的语音文件,形成自然的语音输出。通过选择不同人的语音文件,可以实现个性化语音输出,像选字体一样方便。
第三部分:华文汉字字形辅助输入法
汉字是表意文字,是二维平面的“图画”,存在众多的多音字、异体字,一个人一生都不能认完所有的汉字,在照打别人的文章时,遇上不认识的汉字是非常正常的事。汉字不是拼音文字,表音功能不强,尤其是标音不准,遇上不认识的字,不能像拼音文字那样按字母录入,用拼音输入法就会因不知道读音而犯愁。同样地,用字形输入法也会遇到因笔画顺序拆分不对而不能录入的问题。所以,任何一种汉字输入法都需要另一种输入法作辅助。华文汉字输入法是拼音加表意的输入法,当遇上不会读的字时,也需要一种字形输入法作辅助。目前,字形输入法有很多,不乏好用的,但它们的规则都太复杂,学习起来都有一些难度,儿童不易学懂,老人不容易记住,不适合儿童和老人使用,也不适合初学汉字的外国人使用。
华文汉字输入法采用汉字基本笔画作为遇上不会读的字时的字形辅助输入方法和学习手段,具体方案如下:
一、汉字基本笔画表
根据汉字超大字符集74000多个汉字的字形,汉字共有43种基本笔画,如表7所示。
表7 汉字基本笔画表
二、汉字基本笔画键盘布局
为了易于找到笔画并对笔画特征进行区别,将汉字基本笔画分成16类,每类笔画相似,分别布置在键盘的16个区域,汉字基本笔画键盘布局如附图所示。
三、笔画区分原则
(1)笔画不分大小、长短,但分走势、形态。
(2)横与斜横、竖与斜竖不易区别,虽各分置两键,但其笔画代码对应相同,以降低对笔画判别不清造成的查字难度,如遇横画不能分清是横还是斜横时,输入横或斜横都一样,竖画也如此对待。
四、华文汉字字形辅助输入法原理特征
1.原理特征
无论汉字字形如何变化,构成汉字的基本笔画是固定的,数量是有限的,仅有43种;无论基本笔画在二维平面上的位置、大小如何变化,无论基本笔画的书写顺序怎样变化,每一个字的基本笔画构成是固定的;当两个或多个汉字的基本笔画构成相同时,它们之间一定有相似之处,如“开”、“井”、“亓”,也许还是一个字的多种写法,如“鸏”与将具有相同笔画构成的汉字一起检索出来,有利于汉字的对比学习;人们都能掌握汉字笔画书写顺序的基本要求,但总有一些字的笔顺是模糊的,小孩子初学写字时一定需要笔画书写顺序基本要求的指导。
2.方法特征
华文汉字输入法采用汉字基本笔画作为遇上不会读的字时的字形辅助输入方法和学习手段,其方法特征是:不考虑笔画顺序,只考虑笔画构成,只要按字形输入一个字所具备的所有笔画,华文汉字输入法系统就能将笔画转换成对应的华文汉字输入法字母,并按字母顺序对笔画码进行重新排序,形成笔画构成码,并在“华文汉字字形辅助输入法汉字属性表”中找到一个或多个与其有相同笔画构成码的汉字字头,并把这些汉字列表显示在选择框中,点选哪个字,哪个字的属性就会显示出来供学习,双击哪个字,哪个字就会被输入到指定位置。
3.华文汉字字形辅助输入法汉字属性表结构
汉字属性依序包括笔画构成码、汉字字头、正确笔顺、华文汉字编码、字性(繁体、简体、异体)、释义等内容。对应的读音通过“华文汉字编码”转换成语音播放。
(1)单音汉字属性结构
笔画构成码::汉字字头::正确笔顺::华文汉字编码::字性::释义
例如:
juy::小::uyj::::T::释义......
(注:为便于理解,释义用汉字表示,下同。)
(2)多音汉字属性结构
无论字性属于标准字繁体、标准字简体还是异体字,字形辅助输入法将列出一个汉字作为标准字的所有读音和释义,同时,列出作为异体字对应的所有标准字及其读音和与标准字的关系。多音字汉字属性结构与单音汉字属性结构相同,各读音之间用“/”隔开。
笔画构成码::汉字字头::正确笔顺::华文汉字编码1::字性1::释义1/华文汉字编码2::字性2::释义2......
例如:
五、华文汉字字形辅助输入法的特点
本输入法最大的特点就是不用准确按笔顺输入,特别适用于不知道汉字笔顺的人,尤其是识字阶段的儿童和外国人,他们刚刚接触汉字笔画,还没有掌握汉字笔画的书写笔顺,当看到一个不认识的汉字时,就可以通过电脑对照软键盘的基本笔画提示,随意输入汉字的所有笔画,系统就会显示这个字,当选中它时,就能告诉他们字的正确笔顺、汉字编码、读音和释义(华文汉字编码为释义语音输出提供了技术支撑)。
华文汉字输入法方案内容至此结束。————————————————————
华文汉字输入法特征和有益效果综述
华文汉字输入法总则是解决前述技术问题所提出的技术方案。在国际通用信息交换字符集Unicode中,各种文字的字符都是平等的,能同时显示,本输入法充分利用这一特性,选择国际通用字母构建符合汉语语音特点和汉字表音、表形、表意要求的拼音文字式汉字编码,从语言学的角度严格按照汉语普通话特点,完全表达汉语普通话的所有音节和声调;从文字学的角度,严格按照汉字的形、音、意特点,反映和区分所有汉语音节和声调的所有不同意义的汉字;从编码学的角度,使汉字编码规则性强、规则简单、易学易记,使编码长度小,键入和处理速度快、效律高、安全可靠。
华文汉字输入法方案的特征是:通过标准化整理,建立汉字标准化字表,使国家规定的规范汉字繁体(本文称“标准字繁体”,下同)与国家规定的规范汉字简体(本文称“标准字简体”,下同)一一对应,二者具有相同的华文汉字输入编码,输入法通过状态切换,在繁体状态下,可直接输入标准字繁体;在简体状态下,可直接输入标准字简体;也可以先按全文输入对应的华文汉字编码,再按需要设置繁体(或简体)状态进行码→标准字繁体(或标准字简体)的转换;根据设置的异体字输入状态,即列表或选择,采用键入与标准字相同的华文汉字编码后按控制键的方法,列表输入标准字的所有异体字,或选择输入标准字的某个异体字,异体字也按编码存储,异体字编码为其对应的标准字编码+异体字序号,对异体字转换只是过滤掉序号,保留标准字编码,再按需要转换成繁体或简体,或按标准字编码播放语音。
华文汉字输入法的这种汉字标准化,提出一种用汉字编码联系繁体与简体对照关系的平台,使标准字繁体与简体有了一一对应的关系,以解决过去、现在和未来汉字繁体与简体不对称的问题,通过使用这种输入法,提出用一种既能输入或转换成繁体又能输入或转换成简体的中间字符存储形式,存储华文汉字编码,按需要进行相应字形(繁体或简体)的转换,达到一种文档在不同地区不同字形需求,解决了我国不同地区和海外目前尚不能统一使用同一字形体系的问题;通过标准字形繁、简状态切换和异体字的选择输入,将国家规定的规范汉字与其对应的异体字相区别,为人们学习汉字提供了对照工具,使人们容易分清繁体、简体和异体,解决了我国使用汉字混乱和人们使用汉字不规范的问题。
华文汉字输入法在新颖性方面的表现是:华文汉字编码具有准确化表音、简单化表形、标准化表意的能力,严格按意区分同音同调字,可按字连写构成单纯词或结构词,按词分写构成语句,汉字编码可以被准确识读,是目前中国和世界上唯一一款真正的用拼音文字式汉字输入法方案,是解决汉语和汉字问题最多的汉字输入方案,是唯一一款没有重码、不用选字且码长最小的汉字输入方案,是一款解决不同地区繁简汉字转换的理想平台。提出一套汉字存储新方法,存储华文汉字编码,即:将以汉字内码存储方式改成以华文字母内码存储,在实现语意的准确记录的同时,实现汉字显示的可选性,既可以选择简体,也可以选择显示繁体,这对统一汉语记录格式,统一大陆、台湾、香港及海外其它地区汉字内码标准有一定的促进作用。因为华文汉字编码已将繁体、简体、异体分开,它是联系三者的桥梁,也是联系人与计算机在汉字输入问题上的桥梁。
华文汉字输入法在创造性方面的表现是:创造性地将龙的精神与汉语、汉字、汉字输入与未来的汉语信息处理有机地结合起来,取世界各种文字之所长,构成中华民族具有国际化强势的汉语语言存储系统;在认识汉字的表音、表形规律基础上,创造性地总结出汉字的表意规律和表意互补规律,创造性地用单字母表示互补的意类,创造性地用汉字编码形式完整保持了汉字音、形、意特征规律,创造性地实现了汉字编码的准确化表音、简单化表形、标准化表意。华文汉字字形辅助输入法创造性地用笔画构成码解决了不会写汉字的人按笔顺输入的问题,不用按笔顺输入就能查字和学习正确笔顺、读音、释义。
华文汉字输入法在实用性方面的表现是:作为输入法,华文汉字输入法方案解决了其它输入法均不能解决或避免的问题,如(1)重码和选字:一般输入法都有重码的现象,有了词库和语料库,再附上联想功能,选字、选词的问题都不能避免。华文汉字输入法没有重码,无需词库和语料库,也不需要联想功能,输入标准字不用选字。(2)繁简转换:一般输入法输入的汉字需要文字处理专用软件转换,如果仅输入个别繁体,转换不可避免。华文汉字输入法可以用繁体、简体状态直接实现输入,也可以存储汉字编码形式,按需要转换成繁体字形或简体字形,是输入繁体和简体的通用平台。(3)乱用异体字:华文汉字编码只对应标准字繁体和简体,无论是标准字码还是异体字码,只能转换成标准字形,不能转换成异体字形,使用异体字受到限制。(4)没有标音和标音不准:汉语拼音输入法和其它输入法都不能对汉字准确标音(特别是声调),而华文汉字输入法不仅能准确标音,还能准确表意。(5)完善词库和语料库:一般输入法都有强大的词库和语料库支撑,新词新语都要通过手工或软件自身进行维护,有了库,选词、选字的工作要少一些,如果没有这两种库,就要在输入过程中进行繁锁的选字,华文汉字输入法不设词库,更无语料库,无选字之难,更无维护词库之烦。(6)语法表现和歧义:一般输入法不能作为语言的存储形式,只能输入汉字,汉字在文档中的线性排列不能反映汉语语法,往往会出现一些歧义现象,而华文汉字输入法方案可以用汉字编码按一般拼音文字的拼写方式分词连写,这种存储汉字编码的方式可消除绝大多数的汉字连写时的歧义现象。(7)语音输出困难:一般汉字有多音现象,一个字有多个读音,要实现汉字的自然语音输出,先要对汉字句子进行词的切分(如自动切分不准还需人工干涉),再按词到语料库中找到对应的语音,既不经济,又耽误时间,华文汉字输入法可按汉字编码存储,只需要建立1300多个单字的基本语音库和它对应的儿化语音库,就可以实现个性化自然语音输出,不需要任何的人为干涉,智能机器人的语音输出问题将得到彻底解决。(8)古籍整理与保护:古籍整理会遇到很多繁体字、异体字,要将含有这类字的古籍数字化、网络化,并能被使用繁体、简体字的地区都能接受,不可能用现有输入法输入一遍简体,再输入一遍繁体,也没有一个能实现简繁互转不出错的输入法,现有输入法及其编码方案都不能胜任古籍整理工作。华文汉字输入法方案则实现了按需输入,在知道其读音的情况下,要繁得繁、要简得简,要异得异;在不知道读音的情况下,通过其辅助的笔画输入和字典功能,不仅能够知道字的读音(多音字的每一个读音),还知道这个字是不是规范的字形、它的释义、它与相关字的关系等信息,这对理解古籍的意思有巨大的帮助。华文汉字输入法可输入超大字符集(74000多字)中存在的任何一个汉字,即便这个字符集括展到10万汉字以上,超出部分也能轻松实现输入。(9)智能翻译:汉语通过汉字编码按词连写存储,就能准确表达语义,不会出现歧义,以词为单位建立的汉语词←→外语词对应关系,就可以通过语法实现不需要切分词和人工干预的真正智能准确翻译。
附图说明
下面结合附图和具体实施例对本发明之华文汉字字形辅助输入法的键盘布局做进一步说明。
附图是汉字基本笔画键盘布局图。
附图中粗线框表示汉字基本笔画分区,粗线框以外的键位不设置笔画,对应表7中空位;左上角字母表示标准键盘键位。
具体实施方式
一、华文汉字输入法的实施方式
1.根据汉字标准化、规范化要求,将标准化整理的汉字分别建立标准字繁体、标准字简体、异体字三个字表。标准字繁体和简体字表中,汉字按华文汉字编码顺序排列,目前还没有标准字的位置用空格表示。异体字表按下列结构排列异体字:
华文汉字编码::异体字数::异体字1/异体字2......
异体字表可以不按字母序排列,但为了便于浏览和检查,还可按字母顺序排列,纯文本格示,每行对应一个有异体字的标准字,没有异体字者不用列入。
2.设计开发华文汉字输入法系统软件。通过软件系统,实现华文汉字编码向繁体、简体的转换,实现异体字的选择输入或列表输入,同时,可以将打字伴读、查字典学汉字、语音播放、鼠标经过播放词的读音等功能悉数置入。
3.按个人语音录制1300个有调音节语音和对应的儿化音,用成熟的语音处理软件集成个人语音文件,集成不同人的语音文件形成个性化语音库。在华文汉字输入法系统软件中,设计语音设置功能,能够进行不同人的语音、语速、音高等设置,当选定一段文字或设置阅读起始位置后,点阅读钮,系统根据华文汉字编码的音节和调母,查到相应的音节码(1~446)和调母码(0~4),组合成一个字的语音文件名,根据是否有儿化音标志“.r”确定在普通语音库或儿化语音库中提取对应的语音文件,就可进行语音播放。
二、华文汉字字形辅助输入法实施方式
1.根据“华文汉字字形辅助输入法汉字属性表结构”对每一个汉字构建汉字属性表。
2.设计华文汉字字形辅助输入法软件模块。进入字形辅助输入法模块系统,能够进行属性显示项设置,使用者可根据自己的汉字知晓程度选择显示全部属性项或选择某几个属性项。设置完成后,即可进入输入基本笔画状态,系统根据所击键位及图1中汉字基本笔画键盘布局和“汉字基本笔画表”的键——码对照关系,进行键——码转换,形成笔画构成码,并对笔画构成码串中的字母按“华文汉字输入法字母表”中字母顺序重新排序,形成可用于在汉字属性表中检索的码。例如:前述“单音汉字属性结构”中“小”的示例,无论按书写顺序“亅丿丶”输入“uyj”,还是按任意笔顺输入“ujy”,最后都要将这三个字母按字母序排列成“juy”。对检索到的单条目字头或多条目字头按其对应的华文汉字编码序显示在选择框中,其中会用动画效果依次表现字头的正确笔顺,如“小”会显示单击哪个字,则在属性框中按所选属性项显示相应字头的各项属性,双击读音喇叭则按华文汉字编码播放当前字头的读音,双击释义喇叭则按用华文汉字编码存储的释义文本播放释义全文。退出属性显示,双击字头,则将所选字输入到指定位置。华文汉字编码为汉字读音和释义提供了语音输出的技术支撑,二者是一项技术的两个方面,不可分割开使用。
只要对照汉字中的笔画一一输入,就可以得到要找的汉字,学会它的读音、华文汉字编码拼写和释义的语音。
Claims (4)
1.华文汉字输入法采用26个拉丁字母和23个以希腊字母为主的国际通用字母,组成49字母的拼音文字式汉字输入法体系;在保持《汉语拼音方案》中单字母声母、单字母韵母的情况下,单字母化声母和韵母,声母转换为zh-Бβ、sh-Yy、韵母对应转换为
m-m+调母、n-n+调母,根据声母与韵母相互搭配时读音互补的规律进行韵母变音,减少韵母数量,使音节最简化;采用字母标调法,用“∑σ”、“Δδ”、分别为阴平、阳平、上声、去声标调,轻声按实际读音标调;采用意母定字法,按照汉字造字规律,将同音节同声调汉字分成4个大类28个意类,第一类为人类,包括人的性别、身体器官及其行为、性状,第二类为生活类,包括人和生物的生活、行为、需求及其性状,第三类为生物类,包括除人类以外的生物及其行为、性状,第四类为自然类,包括自然现象、物质及其性状,人:女、人、手、口、心、身、目,生活:衣、食、住、行、言、病、物,生物:鸟、马、兽、虫、鱼、草、木,自然:水、火、金、玉、石、土、常意,除常意类外,各意类对应字母分别为Aa、Ee、Ii、Oo、Uu、Vv、Ww、 汉字编码及拼写格式为:声母+韵母+调母+意母,音节字不加调母和意母,常意类不加意母;利用在这28个意类中汉字表意的互补规律,完整保持汉字音、形、意特征。
2.一种与华文汉字输入法配套使用的汉字字形辅助输入法,将43种汉字基本笔画布设在软键盘或计算机键盘上,不考虑笔画顺序,只考虑笔画构成,只要按字形输入一个字所具备的所有笔画,华文汉字输入法系统就能将笔画转换成对应的华文汉字输入法字母,并按字母顺序对笔画码进行重新排序,形成笔画构成码,并在“华文汉字字形辅助输入法汉字属性表”中找到一个或多个与其有相同笔画构成码的汉字字头,按字头显示汉字属性,主要包括字头、华文汉字编码和笔画构成码,为了使输入法具有学习汉字的功能,增加了正确笔顺、读音、字性(繁体、简体、异体)和释义等属性项。
3.一种由华文汉字编码派生出来的汉语语音个性化输出方法,按个人语音录制1300个有调音节语音和对应的儿化音,用成熟的语音处理软件集成个人语音文件,集成不同人的语音文件形成个性化语音库;在华文汉字输入法系统软件中,设计语音设置功能,能够进行不同人的语音、语速、音高等设置,当选定一段文字或设置阅读起始位置后,点阅读钮,系统根据华文汉字编码的音节和调母,查到相应的音节码(1~446)和调母码(0~4),组合成一个字的语音文件名,根据是否有儿化音标志“.r”确定在普通语音库或儿化语音库中提取对应的语音文件,就可进行语音播放。
4.异体字也按编码存储,异体字编码为其对应的标准字编码+异体字序号,对异体字转换只是过滤掉序号,保留标准字编码,再按需要转换成繁体或简体,或按标准字编码播放语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010210540.4A CN102053719B (zh) | 2010-06-28 | 2010-06-28 | 华文汉字输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010210540.4A CN102053719B (zh) | 2010-06-28 | 2010-06-28 | 华文汉字输入法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102053719A true CN102053719A (zh) | 2011-05-11 |
CN102053719B CN102053719B (zh) | 2014-12-10 |
Family
ID=43958115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010210540.4A Active CN102053719B (zh) | 2010-06-28 | 2010-06-28 | 华文汉字输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102053719B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103019410A (zh) * | 2012-12-24 | 2013-04-03 | 郭世忠 | 语义显示汉字输入法 |
CN107765888A (zh) * | 2017-10-10 | 2018-03-06 | 杭州来布科技有限公司 | 一种汉字输入方法及终端 |
JP2018198043A (ja) * | 2017-05-22 | 2018-12-13 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 文字や単語を入力する方法、及び入力システム |
CN109542245A (zh) * | 2018-10-19 | 2019-03-29 | 杭州来布科技有限公司 | 一种带辅助外文提示的汉字输入方法及终端 |
CN112083816A (zh) * | 2020-10-19 | 2020-12-15 | 逯振进 | 音义及音型码汉字输入法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158449A (zh) * | 1996-12-12 | 1997-09-03 | 毕臻 | 计算机拼音汉字输入方法 |
CN1584809A (zh) * | 2004-06-01 | 2005-02-23 | 刘加成 | 可做拼音汉字的汉字编码的输入法 |
CN101382845A (zh) * | 2008-10-10 | 2009-03-11 | 高改林 | 一种汉字表义码输入方法 |
-
2010
- 2010-06-28 CN CN201010210540.4A patent/CN102053719B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158449A (zh) * | 1996-12-12 | 1997-09-03 | 毕臻 | 计算机拼音汉字输入方法 |
CN1584809A (zh) * | 2004-06-01 | 2005-02-23 | 刘加成 | 可做拼音汉字的汉字编码的输入法 |
CN101382845A (zh) * | 2008-10-10 | 2009-03-11 | 高改林 | 一种汉字表义码输入方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103019410A (zh) * | 2012-12-24 | 2013-04-03 | 郭世忠 | 语义显示汉字输入法 |
JP2018198043A (ja) * | 2017-05-22 | 2018-12-13 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 文字や単語を入力する方法、及び入力システム |
CN107765888A (zh) * | 2017-10-10 | 2018-03-06 | 杭州来布科技有限公司 | 一种汉字输入方法及终端 |
CN109542245A (zh) * | 2018-10-19 | 2019-03-29 | 杭州来布科技有限公司 | 一种带辅助外文提示的汉字输入方法及终端 |
CN112083816A (zh) * | 2020-10-19 | 2020-12-15 | 逯振进 | 音义及音型码汉字输入法 |
Also Published As
Publication number | Publication date |
---|---|
CN102053719B (zh) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Coulmas | Writing systems: An introduction to their linguistic analysis | |
Matthews et al. | Cantonese: A comprehensive grammar | |
CN102053719B (zh) | 华文汉字输入法 | |
CN103616960A (zh) | 六元音字母双拼输入法 | |
CN103207684A (zh) | 音素字母双拼输入法 | |
CN105045410A (zh) | 一种形式化拼音和汉字对应识别的方法 | |
CN101587381B (zh) | 音形汉字无重码输入法 | |
CN105824793A (zh) | 将汉字转化为数字及拉丁字母的处理系统、方法和装置 | |
CN103246354A (zh) | 以通用语文字编码表达汉字的输入法及其键盘 | |
CN116627263A (zh) | 一种中小学教学用多功能键盘 | |
Gnanadesikan | Segments and syllables in Hangeul and Thaana: A comparison and optimality theoretic analysis | |
CN103777771B (zh) | 易捷速录系列输入方法 | |
CN106325540B (zh) | 一种滇东北次方言苗文的简笔输入法及其应用 | |
CN101118464A (zh) | 易捷系列汉语输入方法 | |
CN106959764B (zh) | 一种有助于正确书写汉字的形码输入法 | |
CN101901062B (zh) | 基于音素编码的计算机汉字信息处理方法 | |
CN108334502A (zh) | 一种传统蒙古文与西里尔蒙古文的相互转换方法 | |
CN101813979B (zh) | 汉字拼音文字码输入法 | |
CN104111736A (zh) | 音素字母双拼输入法 | |
CN101419760A (zh) | 汉语拼音语素定型方案 | |
Rahman | Urdu and the Muslim identity: Standardization of Urdu in the eighteenth and early nineteenth centuries | |
CN1328649C (zh) | 汉字“三形联想”形码输入法 | |
CN100568162C (zh) | 一种计算机汉字输入方法 | |
CN101251773A (zh) | 计算机汉字信息猎头码输入法 | |
CN106970718A (zh) | 新型华字及华字键盘的华字两笔输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |