[go: up one dir, main page]

CN1063370A - 一种汉语汉字的罗马字母拼写法及适用输入设备 - Google Patents

一种汉语汉字的罗马字母拼写法及适用输入设备 Download PDF

Info

Publication number
CN1063370A
CN1063370A CN 92100709 CN92100709A CN1063370A CN 1063370 A CN1063370 A CN 1063370A CN 92100709 CN92100709 CN 92100709 CN 92100709 A CN92100709 A CN 92100709A CN 1063370 A CN1063370 A CN 1063370A
Authority
CN
China
Prior art keywords
chinese
character
roman
tone
spelling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 92100709
Other languages
English (en)
Inventor
彭鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 92100709 priority Critical patent/CN1063370A/zh
Publication of CN1063370A publication Critical patent/CN1063370A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

一种汉语汉字的罗马字母拼写法及适用输入设 备的发明。发明提出用罗马字母根据汉语拼音和汉 字的本义归属来拼写已有汉字,得到汉语的罗马字, 用汉语的罗马字作为汉字的编码。利用目前大多数 人都会汉语拼音和汉语的罗马字对汉字的唯一性这 两个特点,提供了一种不需编码的汉字键盘输入法。 实现了汉字的内码与汉字编码的统一。同时,汉语的 罗马字,也是一种面向现代汉语的拼音文字。

Description

本发明属于用“汉语的罗马字”来表示汉字。用于将要处理的汉字信息转变为成为计算机能够处理的信息,特别是转变为罗马字母信息。
本发明涉及汉字编码、汉字的罗马字母拼写法、汉语的拼音化(文字改革)等领域。
为了便于讨论,首先分析有关概念。
文字是记录语言的书写符号。汉语的罗马字则是一种记录汉民族语言的文字。这种文字是基于汉语普通话的一种拼音文字,是用26个罗马字母(也就是拉丁字母、西文字母、英语字母等)拼写的。因此,汉语的罗马字是关于汉语的。
汉字的罗马字母拼写法,就是用罗马字母拼写(或表示)业已存在的汉语汉字的方法。这里着重如何用罗马字母拼写(或表示)业已存在的象形汉字(如简体隶书汉字、繁体隶书汉字、篆文、甲骨文、金文等)。汉字的罗马字母拼写法是关于汉字的。
汉字编码方案是根据汉字的特征给每个汉字编一个“码”以便输入机器(计算机、电脑打字机等)的方法。这个“码”既可以是键盘的罗马字母键,也可以用其他键或阿拉伯数字键。
我们知道日本语既可用假名拼写(表示),也可以用汉字和罗马字母拼写(表示)。而汉字目前没有它相应的罗马字母拼写法。我国没有关于汉字如何用罗马字母拼写的规定。
历史上,汉字曾有金文、甲骨文、篆文、繁体隶书和简体隶书等形式,但不曾有罗马字的形式。
现在,关于中国人的姓名,我国规定用“汉语拼音字母”拼写。在规定中,前几条一直没提到声调问题,到了最后第五条为“汉语姓名在对外的文件书刊中可以省略调号”,我们从而推断“汉语拼音字母”这个概念中是包含声调符号的。规定中没有提到e和e,ü和u的区分问题。
关于中国地名,我国规定用“汉语拼音字母”拼写。其中第9条为“特殊情况可不标调”。其中第19条为“各业务部们……可变通处理”。规定中没有提到ê和e,ü和u的区分问题。
关于中文书刊名称,国家标准局规定用“汉语拼音”拼写,没有提到声调的问题,但在所举的例子中省略了调号。规定中没有提到ê和e,ü和u的区分问题。
提出“罗马字母拼写法”这个慨念的法规目前只有一个,就是《中国各名族名称的罗马字母拼写法和代码》,但其中没有提到汉语拼音声调和汉字的拼写法等问题。事实上,其中Uzbek(乌孜别克族),Russ(俄罗斯族)等等拼写的显然都不是汉语或汉字。所以,这部法规也不是关于“汉字的罗马字母拼写法”的。
头上戴有声调符号的“汉语拼音字母”并非国际通用和国际标准字母。罗马字母才是国际通用和国际标准字母。也就是说在国外,人们手头并没有所谓的“汉语拼音字母”。国内的文字处理机械设备也是根据国际惯例设计或直接进口的,也没有所谓的“汉语拼音字母”。此外,一些印刷厂既使有这样的字模,也不采用,而选用没有声调符的标准罗马字母,特别是印刷一些要求美观的产品外包装时。也许人们认为声调符号加在罗马字母头上,不伦不类,影响美观。所以,具体执行以上法规时,各行其事,演变成了一个不成文的惯例(我们称为汉语拼音惯例)。这个惯例就是把“汉语拼音字母”去掉声调符号,ê、e不分,都作e,ü、u不分,都作u。也就是把《汉语拼音方案》中非罗马字母的规定,统统去掉。
由于把ü当作u,我们不知如何区分“陆游”同志和“吕游”同志;由于省去声调符号,我们不知如何区分“山西”和“陕西”,等等。我国官方的英文《中国日报》更是把“山西”写作shanxi,而把“陕西”写作shaanxi。如果事先不告诉人,“陕西”会被读成为“沙安西”。这里不是指责《中国日报》随意“变通”,他们实在是没有办法。因为“山西”和“陕西”的音节完全相同,都是“shanxi”,总得想办法区分吧?如果他们更换印刷设备,在字母上加声调符号,就会成为一种不伦不类的东西,影响报纸的国际发行。
“张”和“章”、“彭”和“鹏”,音节和声调都相同,称之为同音字。即使完全按《汉语拼音方案》,我们也无法区分“张三同志”和“章三同志”、“彭鹏同志”和“彭朋同志”。
国际社会和国际组织也迫切需要汉字的罗马字母拼写法。国际标准化组织文献工作标准化技术委员会等国际组织迫于无奈。参照我国关于地名和人的姓名的办法(即汉语拼音惯例)来拼写汉字。这意味着近一万个汉字,只以405个“汉语拼音惯例”(例如,与“一”字音节相同的不同汉字达106个以上,一概用两个罗马字母“yi”表示)存储于国际文献库中,这不能不说是汉人的一大损失。如果汉人要利用它,得到的只是单调的看不懂意义的“汉语拼音惯例”,只能大声朗读才能体会其中的意义,又因为没有声调符号,所以,听起来象外国人说普通话阴阳怪调。
在汉字电讯业务中,汉字用阿拉伯数字拼写,只有专业人员或电脑才能译为汉字。这严重影响了电报传递速度和电报的普及。为什么不设计出一种实用的电报码,让学过汉语拼音的人(相当于小学三四年级水平),经一两分钟的指点就能自己译码呢?这样,每个乡,甚至每个村,甚至每个城市单位,甚至每个人都可以自己使用收发报机呢?
目前的汉字电报码的这些阿拉伯数字在有些国家中视为密码,不准进入公共电讯系统,所以,汉字电报目前无法进入国际电讯网络。既使有的国家允许,人家也没有汉字译码员啊!一位英国记者和一位日本记者可以在世界任何地方用当地的电传机向他们的通讯社准确地用他们的本国语言发稿,而在同等条件下,新华社记者发回来的只能是阴阳怪调的“汉语拼音惯例”,还得编辑们猜字才能变成汉字。
中国航海目前用汉语拼音惯例来通讯,因为他们没有邮递员,也没有汉字译码员。如果每条船上真有汉字译码员,等他们译完后,恐怕船已经相撞了。他们目前无法分清“香蕉”和“橡胶”,“师长”和“市长”,更无法分清“ 石油”和“食油”、“蟑螂”和“张郎”,“张瑜”和“章鱼”。
由于汉字没有标准实用的拼写法,汉字的排序问题一直没有解决。如果按笔划数排序,撇开各人写字笔法不同不谈,相同笔划数的字就无法排序,而且不符合国际惯例。如果按“汉语拼音字母”顺序排序,“张”和“章”,也无法排序。这个问题关系到汉字的机械处理、汉字文献资料的处理、汉人人事管理等。甚至一个单位的工资表如何排都例成为棘手的问题。如果随意排列,查询就非常困难。
再来看社会用字。充斥我们生活每一个角落的商品及包装上,或多或少都有一些“洋文”。仔细看看,象汉语拼音(其实是汉语拼音惯例)先念一遍,发现调子不对,再来一遍,原来是商标或商品名称的汉语拼音音节!国家发了若干个《……若干规定》要求严格按《汉语拼音方案》执行,可人们还是不标调号,ê、e不分,ü、u不分。实际上,生产厂家是为了象日本人那样,用国际流行的罗马字母代替方块汉字(即汉字的罗马字母拼写法),而不是象小学课本那样严格按《汉语拼音方案》给汉字注音。随着商品生产的国际化发展,商品生产者不得不按国际标准和国际惯例来办事。可见,中国人的生产和生活也呼唤着汉字的罗马字母拼写法诞生。
由于人们需要汉字的罗马字母拼写法,而现实中又不存在,所以只好将《汉语拼音方案》来充当汉字的罗马字母拼写法。
《汉语拼音方案》虽然主要用拉丁语字母即罗马字母表示,但存在着ê、ü两个非罗马字母。《汉语拼音方案》声调符号标在主要音节的主要母音上,即标在a,e,i,o,u上,这样又生成了5×4=20个非罗马字母,ü上面加声调符号又生成四个非罗马化字母。共生成26个非罗马化字母。
《汉语拼音方案》出现这么多非罗马字母,它怎能作为汉字的罗马字母拼写法呢?所以只好将《汉语拼音方案》砍头去尾,变成所谓的“汉语拼音惯例”来充当汉字的罗马字母拼写法。
《汉语拼音方案》设计目的本来就是给汉字注音的,怎么能要求它起到《汉字的罗马字母拼写法》的作用呢?“张瑜”和“章鱼”分不清之类的问题,本来就不是《汉语拼音方案》要解决的问题。
以上讨论说明,《汉语拼音方案》只能作为给汉字注音之用。砍头去尾,变成“汉语拼音惯例”,不仅会带来一些问题,而且有的问题根本无法解决。
再来看汉字的计算机处理的问题。
罗马字母在计算机内部由一个字节的7位二进制数表示。这就是西文的ASCⅡ码。由于汉字没有一一对应的罗马字母表示法,汉字在计算机内部由两个字节共十六位二进制数(汉字内码)表示。汉字内码不能被表示为ASCⅡ码。如果ASCⅡ码是8位的,那两个ASCⅡ码正好表示一个汉字内码,不幸,ASCⅡ码是7位的。这是目前中文与西文不兼容的根本原因。
罗马字母在计算机内部由七位ASCⅡ码表示的,即由一个字节的第6,5,4,3,2,1,0位表示,而最高位第7位闲置。而汉字在计算机内部由两个字节共十六位表示。在计算机通讯中最高位即第7位,常常用来作检验用,计算机要根据检验结果将这一位,置为0或1,对罗马字母来说,这不会影响它的正确性,因为它的最高位即第7位本来就是闲置的。对汉字内码来说,它的最高位即第7位是确定的,怎么能改呢!所以目前汉字是不能直接通行于国际标准通讯系统、数据库和计算机网络中的。如果强行通过,回来的时候已经面目全非了。现在我们常常从计算机技术人员那里听到“汉化”这两个字,所谓“汉化”都是想办法使汉字内码通过上述“国际关卡”。多少高智商的人,精力都消耗在这里!所以,汉字若不象罗马字母一样由七位ASCⅡ码表示,则汉字永远不能象罗马字母拼写的文字一样畅行于计算机中。
还有一个严重的问题。罗马字母在计算机内部由七位ASCⅡ码表示的,即由一个字节的第6,5,4,3,2,1,0位表示,计算机在进行命令操作时,有时把第6,5位也截除,对罗马化文字来说,带来的后果是无法区分大写字母和小写字母,一般不会影响该字的意思。但对汉字内码来说,前面提到截除最高位第7位就不是汉字内码了,这一回还要截除第6,5位,那就更不是汉字内码了。所以,至今没有真正的计算机汉字操作系统。我们用到的计算机命令如COPY,FORMAT,DIR都是英文。我们通常听计算机人员说,“中文……”,“汉化……”,其意思都是说它有汉字编码-汉字内码-汉字字型点阵库或失量字库并能显示汉字的意思,而并非内部命令也是汉字。因此,我们学习汉化BASIC(计算机语言)时,首先要学习BASIC这个英语单词及如PRINT,DATA之类的英语单词。多少人为了学计算机而不得不先去学英语!所以,汉字若不象罗马字母一样由七位ASCⅡ码表示,则汉语永远不能象罗马字母拼写的语言那样操作计算机。
计算机技术人员用修改国际标准软件使之汉化的办法来克服汉字不能畅行于计算机的困难,用学英语的办法来回避汉语不能操作计算机的问题,但有一个问题无法回避,那就是汉字输入计算机的问题。
计算机的主要输入设备是罗马字母键盘,只有罗马字母才能直接输入计算机。由于汉字没有一一对应的罗马字母表示法,所以:必须用罗马字母(或数字)对汉字进行编码,汉字才能用键盘输入计算机。现在存在几百种汉字编码方案,来解决汉字输入计算机的问题。所有这些汉字的编码到了计算机内部最终还是用两个字节共16位的二进制数(汉字内码)表示,仍然没有解决上面提到的问题。
汉字输入时,输入的是汉字编码字符(7位ASCⅡ码字符),存储和输出的却是汉字内码(两个八位的扩展ASCⅡ码字符,是不能用键盘输入的)。西文(例如英语)输入的是7位ASCⅡ码字符,存储和输出的也是7位ASCⅡ码字符。如果严格定义“输入”这个慨念的话(要求输入的东西必须与存储的东西一致),我们可以这么说,汉字若不象罗马字母一样由七位ASCⅡ码表示,则汉字永远不能用键盘真正输入计算机。
综上所述,我们迫切需要汉字的罗马字母拼写法。
下面再讨论汉字汉字输入计算机的问题。
先看编码法。
汉字编码法输入计算机与西文(例如英语)输入计算机对人的思维活动来说是不同的。英语是由罗马字母拼写的,可以直接输入的,输入的就是罗马字母,不需编码,而汉字输入需一个编码的思维过程(“全拼音码”除外)。而这种节外生枝的思维活动对大多数人来说都是不能接受的。因此,除非生计需要,一般人是不去学各种编码方法的。也就是说,除专业打字员以外,一般人都不愿意增加学习负担和脑力负担来使用编码法,而用随时可用的非编码法(如全拼法)。
依次输出英语的ASCⅡ码字符得到的字符串就是英语单词,是有语言意义的。而依次输出汉字的汉字内码字符(扩展ASCⅡ码,依机器不同而不尽相同)得到的字符串是扩展ASCⅡ码字符串,是毫无意义的。
因汉字编码方法的目标是给汉字编码以输入计算处理,虽然多数汉字编码方案的每一个汉字都是用罗马字母从键盘输入的,但它并非是想用罗马字母来表示这些汉字,所以,各种汉字编码到了计算机内部统统立即换成了16位的汉字内码(上面已说明这些16位的汉字内码并非罗马字母),实际上这个过程在汉字显示到计算机屏幕上时就早以完成了,如果把汉字还作为刚才输入时的罗马字母字符串处理就会出错。例如,用“拼音码”输入的汉字不能按罗马字母顺序(《新华字典》顺序)排序。用“五笔字型”输入的汉字不能按字型分类。
由此可见,只有非编码方法才能从根本上解决汉字输入计算机的问题。
目前使用最为普及的非编码方法是“全拼音码”,为什么说它是“非编码方法”,这是因为一个字的拼音不是“编”出来的,是这个字的本来属性,是本质性的东西。偏旁、部首、笔划、字型都是外在形式。我们认为,这就是“全拼音码”容易被人接受的根本原因。
在美国Apple公司的Macintosh计算机中,使用全拼音输入,声调以阿拉伯数字1,2,3,4,0表示,不区分ê和e,u和ü。同音同调字用菜单方式(鼠标)选定。一个字的选定有时要通过按几十次翻页键和移动键。在IBMPC及兼容机的“全拼音码”中,一般不区分声调,同音字用数字键作菜单选择键。也需多次按翻页键和移动键。对长期使用者来说,一般都希望盲打。多按几次键是可以接受的,只要每次能找到该汉字。但按键太多,一边按,心里一边数数,这样就不习惯了。特别是,某个汉字的菜单选择键有时是不同的。这使得我们不能永远用同样几个键的组合来寻找某个汉字而实现盲打,只能不断重复地按翻页键和移动键。我们设想,对某个汉字来说,它的选择键是永远不变的字母键,这样我们就可以实现盲打了。这正是本发明要解决的首要问题。这也是本发明的核心所在。
既然对某个汉字来说,它的按键是一特定的字母键组合,那么,这一串罗马字符就可以作为该汉字的罗马字母拼写法。如果它包含了汉语字的读音和意义,就可以作为汉语的文字。这是本发明的基本思路。
本发明的目的在于提供一种可行的非编码方法解决汉字输入计算机的现实问题,这就是汉字的罗马字母拼写法。同时,设计一种新的拼音文字-汉语的罗马字,这种汉语的罗马字的构字法,就是汉字的罗马字母拼写法。
汉语的罗马字、汉字的罗马字母拼写法、一种汉字罗马字编码方案。在我们这里,这三者是统一的,因此,今后有时被混为一谈。
汉字的罗马字母拼写法要发展成为汉语的一种文字。我们必须对汉字作进一步的理解。不妨分析一下汉字的三要素:形、声、义。这里的“声”包括音节和声调。汉字是象形文字,以形代义,“形”是服从“义”的需要。“形”是形式,“义”是内容,“义”是本质性的东西。如果重“形”不重“义”,那连最简单的异体字现象都没法把握,更何况汉字有简体隶书、繁体隶书、篆文、甲骨文、金文等。偏旁、部首、笔划、字型都是外在形式,经过时代的变迁,有的东西变得面目全非了。所以,汉语字的要素归纳于声、义二部分。把握了汉字的“声”和“义”,就把握了这个汉字。汉字有本义和引申义之分,更有一字多义现象。怎样把握一个汉字的“义”呢?许慎在他的《说文解字》一书中提出,汉字构形的基本方法有六种,即象形、指事、形声、会意、转注、假借。其实只有前四种是汉字的构形方法,转注、假借是文字的使用方法。象形是汉字构形的最初方法,也是最基本的方法。象形就是用线条勾画出物体的全部或部分形象,使人一目了然,如日、月、牛、羊等字。指事也是汉字构形的基本方法之一,是用一两个抽象的符号,或在象形成分上添加抽象符号,指出事物的形态,如上、下、本、末等字。会意是复合字,由两个或两个以上的象形字组成一个新字,以表示人或物的动作或形态,如即、告、从、林、森等字。形声字也是复合字,用意符(也叫形符,一个象形字)和声符组成,意符表示意义范畴,声符表示读音类别,如江、攻、空、基、哀、固等字。在以上四种汉字的构形方法中,都离不开象形字。我们把那些最基本的象形字称为意符。由此可见,每个汉字的“义”都是由意符构成的。只有把握汉字的意符才能从根本上把握这个汉字。
关于汉语字的“声”,1958年2月11日全国人大一届五次会议通过的《汉语拼音方案》,是现代汉语语音的最好总结,方案中把汉语字的读音分为音节和声调两要素。其中有的音节由声母和韵母两部分构成,有的由声母或韵母单独构成。《汉语拼音方案》不仅是汉字的国家标准读音,而且是大多数中国人的读音(普通话标准读音)。本发明汉字的罗马字母拼写法就是依据汉语字的声、调、义的要求而构成的,即由音节、声调、意符三部分构成的。
下面详细说明本发明的主要内容:
1.汉字的罗马字母拼写法是依据汉语语言的音节、声调和根据六书理论研制成的汉字的意符组合而成的汉字的罗马字母拼写法。
2.汉字的罗马字母拼写法使用的音节总表,摘自《新华字典》中的《汉语拼音音节索引》和《现代汉语词典》中的《音节表》,其中“汉语拼音字母”e用罗马字母eh拼写,“汉语拼音字母”ü用罗马字母vu拼写,其他不变。这样“汉语拼音字母”中的26个非罗马字母减少到了24个。(如图3所示)
3.汉字的罗马字母拼写法中的声调是根据《汉语拼音方案》的阴平、阳平、上声、去声、轻声,分别用罗马字母f、q、v、x、z拼写,这五个字母最大限度地形象化地表示汉字声调的变化,同时,它们的ASCⅡ码顺序是从f到z,这与《新华字典》阴平、阳平、上声、去声、轻声依次排列的顺序是一致的(如图4所示)。声调紧跟在音节之后,因不含字母a、e、i、o、u、h、r、n、g,不会与前面的音节混淆。声调用来表示声调的变化,它本身是不发音的。通过这样的罗马化和上面的措施,“汉语拼音字母”彻底罗马化了。例如:‘汉’,按汉字的罗马字母拼写法,音节为han,声调为去声,用x表示,声和调两部分合成为hanx。‘长’,按汉字的罗马字母拼写法,音节有两个,分别为chang和zhang,声调分别为阳平和上声,分别用q和v表示,声和调两部分分别合成为changq和zhangv。我们还把《汉语拼音方案》中分别表示阴平、阳平、上声、去声的声调符号-、/、∨、\,用胶粘标签分别粘贴在罗马字母键f、q、v、x的字母之上(如图1),以减轻初学者的记忆负担。
4.汉字的罗马字母拼写法中的意符是依据传统的六书理论,对国家语委、新闻出版署1988年颁布的7000个常用汉字,从《说文解字》(许慎著)、《说文大字典》(沙青岩辑)、《新编说文解字》(古敬恒、刘慎著)等书中,查出每个字的本义规属(意符)。简言之,意符就是表示汉字意思的符号。按汉字编码方案的习惯和便于理解,可以把汉字的罗马字母拼写法称为汉字的“音意码”。
5.上述六书理论为转注、假借、形声、会意、象形、指事。其中假借和转注为用字的法则,假借和转注字最初都是形声、会意、指事、象形字。所以,我们这里只具体讨论形声、会意、指事、象形。
例如:‘抄’,是形声字。从手,少声。本义是掠夺。从手,这就是说‘抄’字的意义是‘手’字演变而来,或者说与‘手’有关。少声,这就是说‘抄’字的读音是由‘少’字演变而来。
例如:‘秉’,是会意字。从又,从禾。‘又’就是右手或手的意思。禾是庄稼的意思,两者的意思会合,表示以手持禾。
例如:‘弓’,是象形字,象弓之形。
例如:‘叉’,是指事字,‘又’(即手)上加一点,指出叉手的动向。
这里,我们已经发现:‘叉’、‘又’、‘手’三者有共同点,它们都与‘手’有关。我们用罗马字母w表示“与‘手’有关”,这个w就是汉字的罗马字母拼写法中的意符。
6.具体先看形声字和会意字,它们的意符是根据《说文解字》和《新编说文解字》等所“从”而来的。
例如:会意字‘告’,《说文解字》解释为牛触人,从口从牛,《新编 说文解字》解释为上面是牛,表示祭祀时的牺牲品,下面是口,表示祭告神明,本义:祭告,上报。
形声字‘吓’,《新编说文解字》解释为从口赫声。
形声字‘特’,《新编说文解字》解释为从牛寺声,本义:公牛。
由此可见《说文解字》在解释形声字时总是用“从甲、乙声”的方式表示的。《说文解字》在解释会意字时总是用“从甲、从乙”的方式表示的。
若某会意字从‘甲’从‘乙’,则该字的第一意符为“与‘甲’有关”,第二意符为“与‘乙’有关”。
某形声字从‘甲’‘乙’声,则该字的第一意符为“与‘甲’有关”,没有第二意符,需要第二意符时就拷贝第一意符充任。
我们用罗马字母s表示“与‘口’有关”,用罗马字母bx表示“与‘牛’有关”(如图5所示)。
这样,‘吓’,从口赫声。‘吓’的第一意符为s。
‘告’,从口从牛,‘告’的第一意符为s,第二意符为bx。
‘特’,从牛寺声,‘特’的第一意符为bx。
7.再看象形字和指事字,它们的意符是根据《说文解字》和《新编说文解字》等所“象”之形和所“指”之事而来的。
例如:象形字‘刀’,《说文解字》解释为象刀之形。
指事字‘刃’,《说文解字》解释为刀坚也。
由此可见,象形字‘刀’和指事字‘刃’都与刀’有关。
我们用罗马字母mz表示“与‘刀’有关”,则象形字‘刀’和指事字‘刃’的第一意符都为mz。
8.对国家语委、新闻出版署1988年3月25日颁布的《现代汉语通用字表》的7000个汉字的研究,找出所有的意符,经MACINTOSH计算机排列、统计、合并、优化之后再用罗马字母表示之,如图5所示。然后将几个意义相同的或相近的意符合并为一个,得到汉字的罗马字意符表(共91个意符),如图5所示。
9.汉语的罗马字意符,紧随声调之后。与声调一样,它本身是不发音的。因为它不含有元音字母a、e、i、o、u,半元音字母y,所以也不容易发出音来。
10.汉语的罗马字意符是根据这些意符在所有7000个汉字中出现的频率大小而确定其字符串长度的。大量使用的意符用一个字母表示,较少利用的意符用两个字母表示。
11.汉语的罗马字意符部份是参考该意符的意义的拉丁字根而来的。
12.对7000个汉字建立数据库,包括以下项目:
A·汉字的国标码
B·汉字
C·音节
D·声调
E·第一意符
F·第二意符
G·该汉字的使用频率
使用的是MACINTOSH计算机的EXCEL软件中数据库功能。
13.在以上数据库中,汉字相同,音节不同或声调不同则都作为不同的记录。这样的汉字作为不同的汉语的罗马字(以后简称罗马字)处理。这样的汉字称为多音字。音节和声调都相同的不同汉字称为同音字。这样的汉字当然也作为不同的罗马字处理。
例如:啊(afs,音节为a,声调为阴平f,意符为s,与‘口’有关。如‘啊,下雪了!’);
啊(aqs,音节为a,声调为阳平q,意符为s,与‘口’有关。如‘啊,你说甚么?’)。
一个汉字变成了几个罗马字。
例如:锕(afb,音节为a,声调为阴平f,意符为b,与‘金’有关)。啊和锕,是同音字,其罗马字分别为afs和aqb。
14.在以上数据库中,该汉字的使用频率是根据中国文字改革委员会国家标准局《三千高频度汉字字表》而来的。
15.对以上数据库进行递增排序,关键词安排如下:
第一关键词:音节
第二关键词:声调
第三关键词:第一意符
第四关键词:第二意符
第五关键词:该汉字的使用频率
对八千多个记录的这种运算所需时间不到两分钟时间。(结果是相同音节则相邻,不同则按英语字典顺序排列。在相同音节中,相同声调则相邻,不同则按英语字典顺序排列。在相同音节相同声调中,第一意符相同则相邻,不同则按英语字典顺序排列;……),用汉字编码的术语来说,就是“重码”排在一起了。下面就是说明如何排除“重码”。
16.在每一组音节、声调相同的所有记录中,将使用频率最大的那个字的第一意符清除。如果该汉字是多音字或在方言中读音与普通话读音有较大不同者,则将频率第二位大的那个字的第一意符清除,如此类推。
例如:在‘阿啊腌锕’这组中,音节都为a,声调都为f,‘阿’字比其它字都较为常用,所以,把‘阿’字的意符略去,‘阿’字的罗马字就成了af。
17.在每一组音节、声调相同的所有记录中,如两个或两个以上的不同汉字的第一意符的第一个字母不同,就去掉第一意符的第二个字母。也就是说,一个字母就能区分它们,何必用两个字母。
例如:在‘癌皑挨’这组中,‘癌’字较为常见,它的意符被略去,而‘皑’和‘挨’的意符分别为lb和w,去掉‘皑’字的第一意符的第二个字母,最后,‘癌’‘皑’‘挨’字的罗马字分别为aiq,aiql,aiqw。
18.在每一组音节、声调相同的所有记录中,如两个或两个以上的不同汉字的第一意符只有一个字母且相同,就添上第二意符的第一个字母。
例如:在‘唉哀哎’这组中,他们的第一意符都为s,因为‘哎’最常用,略去它的第一意符,成为aif。‘唉’和‘哀’的第一意符都为s,所以在‘哀’ 的第一意符后添上它的第二意符s,最后,‘唉’‘哀’‘哎’的罗马字分别为aifs,aifss,aif。
19.在每一组音节、声调相同的所有记录中,如两个不同的汉字的第一意符是两个字母且相同,就去掉其中一个的第二字母。
例如:‘碍’‘砹’,其第一意符都为lr,而它们的罗马字分别为aixi和aixlr。
20.在每一组音节、声调相同的所有记录中,如两个以上不同的汉字的第一意符是两个字母且相同,就去掉其第二字母,添上第二意符的第一个字母。
例如:‘瘗’‘癔’‘疫’,其第一意符都为bw,去掉某些字的第一意符的第二字母,添上第二意符的第一个字母,它们的罗马字分别为yixbr,yixbb,yixbw。
21.在每一组音节、声调相同的所有记录中,如两个或两个以上的不同的汉字的第一意符相同,就保留一个字母,如第二意符的第一个字母也相同,添上第二意符的第二个字母。
对每一个汉字意符的考证需几年时间,但完成上述16-21条的排重码工作只用了几个小时,因为第一意符重码率极低(2%以下)。我们认为一个汉字同音同调本义规属也相同,人们在使用时,就会只用一个,而另一个被遗弃。
22.对以上修改过的数据库重新进行递增排序,关键词安排如下:
第一关键词:音节
第二关键词:声调
第三关键词:意符(即上述修改了的第一意符)
23.将以上数据库按音节、声调、意符顺序连接合并,再按罗马字母排序,得到了所有汉字相对应的罗马字。
以上是为了说明汉语的罗马字是怎样研制出来的,并不需要使用者去研究汉字起源,这一点在下文还要说明。
24.将以上每一个汉语的罗马字作为该汉字的“汉字编码”,实际上就是汉语的罗马字和汉字的对照表,也就是汉字的罗马字母拼写法。
25.在汉字的“罗马字编码方案”中,罗马字母为7位ASCⅡ码表示,也可取其低五位进行压缩。
26.在汉字的罗马字编码方案中,声调用罗马字母F、Q、V、X、Z表示。键入音节和声调后,同音汉字就全部显示出来了,接着再按字母键选定所需某个汉字。在每个汉字的下方有0~2个罗马字母,这就是所要按的键(如图2所示)。按完字母键后,再按一个空格键,所需的那个汉字就跳到文章正文里了。现在每个汉语的罗马字相应有了唯一确定的一个汉字。
例1:如图2所示,若想输入‘彭’字时,依次输入罗马字母p,e,n,g,q,当表示声调的字母q输入完后,屏幕下方显示一行汉字,在每个汉字的下方是该字的选择键(意符)。因为‘彭’字的下面是罗马字母1,所以按1键及空格键就行了。如按c键及空格键则‘朋’字进入上方的正文,按空格键则‘鹏’字进入上方的正文,……。
例2:当依次输入af时,屏幕下方则会出现四个汉字,‘阿’‘锕’‘腌’‘啊’,在每个字的下方是它的选择键(意符),分别为空格,b,n,s。
要哪个字就按哪个字下面的字母键,每次都是这样,永远都是这样。
从以上例子可以看出,在这一过程中,使用者并没有进行编码,更不需去查阅《说文解字》和研究汉字起源。我们论述汉字的意符是说明我们研究的经过和原理,使用者可以永远不知道这些东西。这里,虽然完成了汉字编码的使命,但不是汉字编码的方法,因为,其间并无编码的思维活动。所以,本发明是用非编码法解决编码法要解决的问题和编码法无法解决的问题。
从以上例子可以看出,我们与用菜单挑选汉字的方法也有本质的区别,因为我们的意符并非菜单选择键。在上述例1中,我们用空格,c,d,h,lr,m,n,r,x,z来区分那一组同音字,无论何时何地都这样,在上述例2中,我们用空格,b,n,s来区分这一组同音字,无论何时何地都这样。事实上,每一组同音字的意符都各不相同,无论何时何地都这样。如果是菜单,每一组同音字都会用相同的操作键来区分,如统一都用a,b,c,d,e,f,g,……或1,2,3,4,5,6,7,8,9,0来区分同音字。如果是菜单,同一个字,在 不同情况下可以用不同的操作键来区分,例如,在同一台电脑中有时用1来挑这个字而有时用5来挑这个字,在有的计算机上用3来挑这个字而在另一种计算机上用1来挑这个字。如果是菜单,同一个字,在不同情况下可以用不同的方法来区分,例如有时用移动键来挑这个字而有时用数字键或字母键或鼠标来挑这个字,在有的计算机上用移动键来挑这个字而在另一种计算机上用鼠标来挑这个字。
本发明首先在MACINTOSH计算机中得到实现。使用汉语的罗马字作汉字编码时,并无不自然感觉。因为汉语的罗马字的第一部分是音节,这与“拼音码”是相似的,由于区分了ê和e,ü和u,这一部分比“拼音码”更准确。
汉语的罗马字第二部分是声调,这使选择范围更小,用字母而不是用数字表示声调,这样更方便,更自然,打字更快。
同音同调字是用汉语的罗马字的第三部分即意符直接键入的,再也不需用翻页键和移动键或鼠标器了。每个汉字的意符不需学习,因为它自己显示在窗口里,也不须记忆,使用几次就记住了。特别是,每个汉字的罗马字是一定的,所以,打几次以后就可以盲打了。
汉语的罗马字平均为5.072个字符长,不算繁琐。常用汉字的罗马字更短。
这将为普通人开辟使用计算机的新途径。
以上是汉语的罗马字编码方案阶段。
还有一种使用方法是直接在西文操作系统下,将汉语的罗马字全部输入,与西文一起,完全平等地处理,在最后需打印输出时,再通过程序处理,一次性“翻译”为汉字。这将为汉化工作提供一个新的途径。这就是汉字的罗马字母拼写法阶段。
对于不经常使用计算机的人来说,记住每个汉字相应的罗马字是困难的,但学过汉语拼音或西方语言的人,能从罗马字母拼写法中读出音来,这不比目前的汉语拼音惯例差,如果人们知道五种声调分别用F、Q、V、X、Z表示,就能读出标准的普通话来,这比目前的汉语拼音惯例进了一大步,如果有必要,并且人们手头有一张汉语的罗马字和汉字的对照表,剩下的问题也能解决,这是《汉语拼音方案》无法解决的问题。
汉语的罗马字与西文100%兼容,若再将汉语的罗马字“翻译”为汉字时,如果这些汉语的罗马字中夹有西文(即用罗马字母拼写的其他文字)时,若不加以区分,不能保证其他语言的极个别单词不被电脑翻译为汉字,例如:box,six,fax,pix,fox等。根据从一本有16万词的英语词典的粗略统计,与汉语的罗马字相同的单词为万分之一左右。因此,必须规定,汉语的罗马字用北京字体、黑体、宋体、仿体、楷体等等显示,不得用西文字体显示。
反过来,可以把业已存在的汉字“翻译”汉语的罗马字。一个汉字,如果有几个读音,就有几个罗马字,电脑目前只能译为一个常用的罗马字,若想要电脑不出错(读白字),必需输入有关的词汇,然后根据前后字判断。
以上涉及到的软件应用于汉语的甲骨文、金文、篆文、隶书(繁体)时程序不作任何修改(只需换汉字字型点阵库,可惜MACINTOSH计算机中没有甲骨文、金文、篆文的点阵库)。有趣的是,我们宁可用繁体字而不用简体,甚至宁可用金文、篆文,因为反正不用手写,用甲骨文都没关系。越早的字来得越自然,因为现代的字太“抽象化”了。
一个长期使用汉字的罗马字母拼写法的人,很可能望文生义,而完全用汉字的罗马字母拼写法代替现有方块汉字,这就进入了汉语的罗马字阶段。
一种新的拼音化汉语文字要被接受,困难不在于儿童和外国人,而在于已经学过现在的汉语方块字的人,我们将汉字的罗马字母拼写法和汉语的罗马字设计为一回事,是为了让当代人在把汉字输入计算机的过程中,不知不觉学会了汉语的罗马字。如果设计一种汉语的新文字,而它目前没有任何实际应用价值,恐怕谁也不会去学习它(也许用法律能强制人们去学)。所以,我们认为汉语的拼音化,必须通过现代汉字的罗马字母拼写法来实现。
我们提出,汉语的拼音化道路分三步走。第一步是解决目前汉字输入的现实问题。即发明一种不需学习的,不需编码的“汉字编码方案”(既然不需编码,所以就不是编码方案,因此我们加引号):这就是我们发明的汉字的罗马字母拼写法。第二步是让人们在使用以上“汉字编码方案”后,发现,90%以上的汉字的“汉字编码”是唯一的(不一样是因为该汉字是多音字)。反过来,一个“汉字编码”,永远只有一个汉字对应。这不正好作为汉字的标准标志吗?这就是我们发明的汉字的罗马字母拼写法。就如同每一辆汽车有一个牌照一样。(有的车有几个牌照,因为它虽然底盘和外形一样,但喇叭声音不一样,跟着用途也变了,如客车变成了货车,交通局干脆发给几个牌照以便管理)。第三步是,当人们经常使用这种汉字的罗马字母拼写法后,就会将这个汉字的意义与这一串罗马字母发生联系。再回过头一看这一串串字符,这不就是一种优美的文字吗?它造型美观,发音准确,声调有力,意义明确。这就是我们发明的汉语的罗马字。至此,汉语的拼音化已实现。还有第四步,这是汉语拼音化的高级阶段。人们在书写汉语的罗马字时,也许会按词连写,专有名词用大写字母,“的”用′d表示,“地”用′dr表示,“得”用′db表示,“儿”用′r表示,“子”用′z表示,人们也可能常常省略声调和意符。但不会在所有情况下一慨略去所有声调和意符。不会退回到“汉语拼音惯例”时代,又把“石油”当“食油”,再把“橡胶”当“香蕉”。
下面几句汉语是用汉语的罗马字写的。最后一句是英语。
Yiftiq  daox  hanx  yuvl′d  pinf  yinfpn  huax,youv  renq  jiuxs  huovj  maoxt  sanf  zhangxw,biv  jianvq  diaoxw  wov  menz  zuv  zongft′d  bianxq′z  haiqg  yaox  tongx  kuv  Taf  menz  duixz  hanxzix  zaixr  guoq  jixb  shangx  beixh  shouxw  wuvvz  ruvc′d  xianxr  shiqt  bux  wenqr  bux  wenx.Taf  menz  duixz  hanxzix  yanqs  zhongxd  yingv  xiangvs  jingfk  jixx′d  faf  zhanvshixjerq  bux  jianxj.Qivl  buxzhif,meiqxyouv  xifr  fangf  wenq  mingq  daix  laiq′d  dianx  lixkh、yuanqdh′z  danxbz、qingfpmdanxbz,hanxrenq  navyouv  jinfv  tianf!Luoqk  mav  zix  muv  bingxvfeif  waix  guoq′d  zhuanflixq,hanxrenq  yongx  luoqk  mau  zih  muu  bux  yaoxhuaf  qianq.Yif  tiq  daoxhanx  yuvl′d  pinf  yinfpn  huax,haiqg  youvrenq  jiuxs  zuoxv  yif  buxbn  dengf.tianf′d  mengxt!So,it′s  only  a  dream  until  now.
从中可以看出,拼音化汉字的读音比英文更易识别。

Claims (10)

1、一种汉语汉字的罗马字母拼写法及适用输入设备,按《汉语拼音方案》拼写汉字,再根据汉字的特征区分同音字。本发明的特征在于采用26个罗马字母,用音节、声调确定同音同调汉字后,用输入设备键盘上的罗马字母键特定组合和空格键来选定汉字,每个字母键组合能确定出唯一的一个所需汉字,每一个汉字可由一个空格键、一个罗马字母键及一个空格键或两个罗马字母键及一个空格键来选定。
2、如权利要求1所述的汉语汉字的罗马字母拼写法,其特征在于:所述拼写法的音节是由国家语委、新闻出版署1988年3月颁布的《现代汉语通用字表》中7000个常用汉字的现代汉语拼音音节而来的,音节中非罗马字母ê用两个罗马字母代替、非罗马字母ü也用两个罗马字母代替,其他罗马字母则保持不变。
3、如权利要求1所述的汉语汉字的罗马字母拼写法,其特征在于:表示汉语拼音的声调(即阴平、阳平、上声、去声、轻声)是用字罗马字母表示的。
4、如权利要求3中所述的汉语汉字的罗马字母拼写法,其特征在于:所述声调阴平、阳平、上声、去声、轻声,分别由罗马字母F、Q、V、X、Z或f、q、v、x、z来表示。
5、如权利要求4中所述的汉语汉字的罗马字母拼写法,其特征在于:所述声调阴平、阳平、上声、去声、轻声,也可以由26个罗马字母中的任何其他字母来表示。
6、如权利要求2中所述的汉语汉字的罗马字母拼写法,其特征在于:汉语拼音字母中的非罗马字母ê、ü,分别用两个罗马字母eh、vu表示。
7、在权利要求1中所述的汉语汉字的罗马字母拼写法,其特征在于:所述的罗马字母键组合(即意符)是依据传统的六书理论,从《说文解字》(许慎著)、《说文大字典》(沙青岩辑)、《新编说文解字》(古敬恒、刘慎著)书中,查出每个汉字的本义归属,将意义相同的和相近的合并之后再用罗马字母表示的。
8、如权利要求1中所述的汉语汉字的罗马字母拼写法及适用输入设备,其特征在于:适用输入设备是标准西文字母(即罗马字母)键盘。
9、按照权利要求3、4、5、8,将汉语拼音声调符号印制在粘胶标鉴上,将标鉴粘贴在罗马字母键上的字母上方。
10、按照权利要求1-9中的任何一条,汉语汉字的罗马字母拼写法及适用输入设备,可以用在各种中文信息电脑系统、汉字电传机、汉字电脑打字机、汉字终端及通信系统中。
CN 92100709 1992-01-27 1992-01-27 一种汉语汉字的罗马字母拼写法及适用输入设备 Pending CN1063370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 92100709 CN1063370A (zh) 1992-01-27 1992-01-27 一种汉语汉字的罗马字母拼写法及适用输入设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 92100709 CN1063370A (zh) 1992-01-27 1992-01-27 一种汉语汉字的罗马字母拼写法及适用输入设备

Publications (1)

Publication Number Publication Date
CN1063370A true CN1063370A (zh) 1992-08-05

Family

ID=4938756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 92100709 Pending CN1063370A (zh) 1992-01-27 1992-01-27 一种汉语汉字的罗马字母拼写法及适用输入设备

Country Status (1)

Country Link
CN (1) CN1063370A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004107202A1 (en) * 2003-05-28 2004-12-09 Loquendo S.P.A. Automatic segmentation of texts comprising chunsks without separators
CN100388827C (zh) * 2000-02-21 2008-05-14 肯伍德公司 编码方法
CN110287147A (zh) * 2019-06-27 2019-09-27 北京奇艺世纪科技有限公司 一种字符串排序方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100388827C (zh) * 2000-02-21 2008-05-14 肯伍德公司 编码方法
WO2004107202A1 (en) * 2003-05-28 2004-12-09 Loquendo S.P.A. Automatic segmentation of texts comprising chunsks without separators
CN100429648C (zh) * 2003-05-28 2008-10-29 洛昆多股份公司 一种文本自动分块的方法、分块器和文本到语言合成系统
CN110287147A (zh) * 2019-06-27 2019-09-27 北京奇艺世纪科技有限公司 一种字符串排序方法及装置

Similar Documents

Publication Publication Date Title
CN1143769A (zh) 处理中文文本的系统和方法
US9965045B2 (en) Chinese input method using pinyin plus tones
CN103324607B (zh) 一种泰语文本切词方法及装置
CN102184172A (zh) 一种用于盲人读取汉字的系统和方法
CN1101567C (zh) 汉字字符输入的方法和系统
Haralambous et al. Unicode from a linguistic point of view
Zhao Chinese character modernisation in the digital era: A historical perspective
EP2336850A1 (en) Guixi input method and system for splitting word letters
CN1063370A (zh) 一种汉语汉字的罗马字母拼写法及适用输入设备
WO2005121993A1 (fr) Systeme d'application d'apprentissage du chinois multidimensionnel
CN103246354A (zh) 以通用语文字编码表达汉字的输入法及其键盘
CN1645356A (zh) 多维汉语学习系统
Huang et al. An introduction to Chinese, Japanese and Korean computing
Hall Participatory Design in Digital Language Documentation: A Web Platform Approach
CN101515207A (zh) 全球语言在键盘上的通用有声输入法
CN101071334A (zh) 在中文输入法中恢复候选词顺序的方法及系统
CN103297709A (zh) 汉语有声影像资料加注汉语字幕的装置
Hak-Khiam Writing in two scripts: a case study of digraphia in Taiwanese
CN114328848B (zh) 文本处理方法及装置
Haigh et al. Defining Digitalities III: What’s Digital About Digital Media?
Haigh et al. Defining digitalities III
CN107315725A (zh) 汉语普通话信息ascii集合码
Lowy At the Intersection of Script and Literature: Writing as Aesthetic in Modern and Contemporary Japanese-language Literature
Lioi Notes on Chinese language in Giovanni Vacca's manuscripts
Murray Challenged by Change: Will Writers Gain or Lose?

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication