CN1687877A - 中英通双向汉字输入法 - Google Patents
中英通双向汉字输入法 Download PDFInfo
- Publication number
- CN1687877A CN1687877A CN 200510034080 CN200510034080A CN1687877A CN 1687877 A CN1687877 A CN 1687877A CN 200510034080 CN200510034080 CN 200510034080 CN 200510034080 A CN200510034080 A CN 200510034080A CN 1687877 A CN1687877 A CN 1687877A
- Authority
- CN
- China
- Prior art keywords
- english
- chinese
- coding
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
中英通双向汉字输入法是一种计算机键盘汉字输入法,通过英汉字词对照表与传统汉字输入法编码(拼音、五笔字型、活字码等等)的有机结合,实现了汉字输入过程中的英汉、汉英双向翻译提示的功能,大大方便了用户在输入汉字的过程中学习和运用英语词汇,也为英语人士学习和输入汉字提供了有效的工具。可使用英语词语作为汉语字词的输入编码,输入6763个国标一二级汉字、55000条汉语词语,并在输入法编码提示栏(选字栏)上显示相应汉语字词的传统输入法编码;也可使用传统的汉字输入法编码,输入6763个国标一二级汉字、55000条汉语词语,并在输入法编码提示栏(选字栏)上显示相应汉语字词的对应英语词语。
Description
第一部分:技术领域
本发明涉及电脑汉字处理应用中的汉字键盘输入编码技术。
第二部分:背景技术
一、英汉翻译类输入法概览
现时有不少流行的汉字输入法,或多或少地提供了部分汉语字词使用英语单词作为输入编码的功能,但都只限于个别或部分字词,而且只能实现英译中而不能实现中译英。
例如“万能五笔输入法”:根据互联网上公开的资料,“它是一种集国内目前流行的五笔字型输入法及拼音、英语、笔画、拼音+笔画等多种输入法为一体的多元输入法。而且是一种以优先选择五笔字型高速输入为主的快速输入法”,由此可见,该输入法是一种“以五笔字型为主”的输入法,只有小部分汉语字词能够用英语单词编码输入,像这样锦上添花地提供小部份字词可用英语作为输入法编码的软件还有很多,因为其英汉输入功能类同,因此不在此一一列举。
又如“意音汉字输入法”(专利号:94101030.9):根据国家知识产权局在网上公布的信息,“意音汉字输入法”是一种以英汉翻译方式为主要输入方式的汉字输入法。根据其说明摘要:“对于大部分汉字及词,提取它常用的、原始的意义以英文单词编码;对于难以取意或不便取意的汉字及词,用它的汉语拼音编码;用双写声母或双写韵母或意音结合编码的方法处理重码”,由此可知,这种输入法也并不是完全的英汉输入法,其中仍有大量的单字和词组只能用“汉语拼音、双写声母、双写韵母或意音结合编码的方法处理”,不能用英语单词作为输入编码。
再如“多重汉字输入法及其实现方法”(专利号:97114315.3):根据国家知识产权局在网上公布的信息,“多重汉字输入法及其实现方法”是一种包含英汉翻译输入方式的汉字输入法。根据其说明摘要:“一种万能汉字输入法,一个汉字词同时可用多种编码方法输入计算机而无需切换。它利用英语单词与汉语拼音或笔画组合之间重码率(重叠)较低的特点,直接对所有汉字或词以拼音或英语或笔画代码等分别编码,所得的编码即为该字或词的编码”,由此可知,这种输入法也只是对部份字词提供了相应的英语输入编码,而且英汉输入方式也不是其主要输入方式。
综上所述,至今还没有出现真正普及的、具有完整实用性的英汉转换功能的汉字输入法。
二、英汉翻译输入法的难题
为什么以前一直没有真正实用普及的英汉输入法出现呢?这是因为翻译输入法的编码工作量非常巨大,而且存在一系列难题,不是一般人轻而易举可以解决的,这是一项需要有多方面的知识、技能、条件,并要花费大量创造性劳动才能完成好的艰巨工作。
中英转换的输入法,简单而言就是打入英文输入中文,打中文出英文,这看起来似乎很简单,好像只要把汉英词典和英汉词典输入电脑,用汉语字词对应的英文词语作为该汉语字词的输入代码就可以了,但实际上远没有这么简单,真正开发的难题很多,以致人们一直难以创造出实用普及的产品,这些难题主要有:
(一)英汉词典不能满足汉字输入法的取词需要:
1.词义解释格式问题:英汉词典的词义解释,有很多并不是单个独立的中文词语,而是一些解释性的词句,这些解释性的词句不适用于中文写作的描述性用词需要,因此英汉词典并不能作为汉语写作词组的直接来源;
2.汉字单字编码的问题:英汉词典的中文释义绝大部分并不使用单个孤立的汉字,因此英汉词典也无法解决汉语单字的编码问题。
3.英汉组词方式差异的问题:中文词语的组词方式与英语的显著不同,英语使用的是词根词缀衍生法,即每个词目通过前缀、后缀、词根等不同,而衍生出动词、名词、形容词、副词、分词等多种不同形态,而汉语使用的是单字组词法(单字排列组合法,例如形容词为“...的”;副词为“...地”、“...得”,名词为“...者”、“...物”),因此用英汉词典的英语单词反译为汉语字词的方法,不能提供适合汉字组词规律和使用习惯所需的实用词组。
4.重码问题:一个英语单词可有多个不同的中文词义,这样会带来大量的重码字词(多个汉语字词使用同一个英语编码),而重码字词是与其使用频率无关地随机排序的,由此将会严重降低中文输入的效率,因此不能照搬词典的内容,必须根据汉语字词的使用频度进行合理的排序和取舍。
5.一个字词多个编码的问题:不同的英语单词可包含相同的中文词义,这样会带来大量的重复汉语字词,浪费编码的空间(一个汉语字词占用多个编码),因此不能照搬词典的内容,必须根据英语字词的使用频度进行合理的取舍,同一汉语单字一般最多只取最常用的两至三个英语字词编码,同一汉语词组一般只取最常用的一个英语字词编码。
(二)汉英词典也不能满足汉字输入法的取词需要:
1.市面上的汉英词典中所收录的词组,很多并不是来自汉语的固有使用习惯和需要,而是从英汉的词典中反译过来,因此大量的词条并不适合中文写作的需要,例如:在UCDOS自配的UCDICT《汉英词典》中,以“阿”开头的词组共有:阿slender and beautiful;corner;tofavor;阿波罗apollo;阿尔巴尼亚albania;阿尔卑斯登山家alpinist;阿尔卑斯那边的transalpine;阿尔卑斯山the alps;阿尔卑斯山脉akos;the alps;阿尔卑斯山那边的人transal pine;阿尔法alpha;阿尔及尔algiers;阿尔及利亚algeria;阿尔及利亚的algerian;阿尔及利亚人algerian;阿飞teddy boy;阿富汗afghanistan;阿富汗的afghan;阿富汗人afghan;阿富汗人的afghan;阿富汗语afghan;阿根廷的argentine;阿根廷人argentine;阿基米德archimedes;阿基米德的archimedean;阿肯色州state ofarkansas;阿拉allah;阿拉巴马州state of alabama;阿拉伯arabia;阿拉伯半岛arabianpeninsula;阿拉伯的arab;arabian;阿拉伯人arab;阿拉伯人的arab;arabian;arabic;阿拉伯式图饰arabesque;阿拉伯数字arabic numerals;阿拉伯同盟arab league;阿拉伯文arabic language;阿拉伯橡胶树acacia;阿拉伯学者arabist;阿拉伯语arabic;阿拉丁aladdin;阿拉斯加alaska;阿拉斯加州alaska;阿里山mt.ali;阿里斯多德的aristotelian;阿曼oman;阿门amen;阿弥陀佛amitabha;阿米巴amoeba;amoebae;阿米巴的amoebic;阿摩尼亚ammonia;阿姆斯特丹amsterdam;阿契里斯achilles;阿萨姆assam;阿叔尔神ashur;阿斯德尔特神astarte;阿斯堪ascham;阿斯匹林aspirin;阿斯匹是aspirin;阿斯万水坝aswandam;阿姨auntie;阿訇imam;阿谀to toady;toflatter;阿谀的adulatory;encomiastic;sycophantic;阿谀奉承greasiness;阿谀者encomiast;flatterer;共计64个。但其中只有:阿、阿波罗、阿尔巴尼亚、阿尔卑斯山、阿尔法、阿尔及尔、阿尔及利亚、阿飞、阿富汗、阿基米德、阿拉、阿拉伯、阿拉伯半岛、阿拉丁、阿拉斯加、阿里山、阿曼、阿门、阿弥陀佛、阿采巴、阿姆斯特丹、阿斯匹林、阿姨、阿訇、阿谀、阿谀奉承等26个词组在一般中文写作中稍有机会使用,而这些词中大部分的使用率也很低,因此,汉英词典并不能提供足够多的真正实用的中文词组。
2.收录汉字集的完整性问题:汉英词典同样无法全面提供所有6763个国标一二级汉字的对应英语单词,例如UCDICT的《汉英词典》中只提供了4378个单字的英语解释,另外2400多个国标一二级汉字则没有收录。
3.汉语字词的多义性问题:一个汉语字词可有很多个对应的英语字词,这会严重浪费编码资源,同一汉语字词只能取最主要的两三个英文词义编码,因此汉英词典也不能直接作为汉英输入法的编码来源和依据。
(三)表达对象、语言习惯的差异问题:
汉语和英语的字词使用范围和习惯是不同的,英语中有很多词语表达对象和词语只在西方社会特有的自然、宗教、文化、习俗环境中存在,这些词语在英语国家经常会用到,但在中国这些表达对象不存在,也极少会被提及;相对地,在汉语中有很多词语表达对象和用语在中国社会特有的自然、宗教、文化、习俗环境中存在,并在中国经常会被用到,但在西方社会这些表达对象不存在(例如成语、歇后语等),也极少会被提及,因此要开发出适用于中国汉字输入需要的英汉输入法,英语字词编码要服务于汉字输入,必须以中国的字词使用范围和习惯为主导,选词根据汉语习惯,使用常用的汉语词组,编码则照顾英语的用词习惯,尽可能使用常用的英语词汇作为编码。
三、现有英汉翻译类输入法的不足
由于上述原因,现有的输入法存在诸多的不足,难以满足在汉字输入过程中兼顾英汉双向翻译和双向教学的需要,这些不足包括:
(一)片面性问题:
只有一部份中文单字和词组可以使用对应的英语字词编码输入,还有相当部份的中文单字和词组无法使用英语字词编码输入,不能全面地应用于汉语字词的输入编码。
(二)单向性问题:
只能实现英译中而不能实现中译英,难以满足广大用户学习英语的需要。
(三)实用性问题:
1.无法适应循序渐进学习英语的实际需要:正是英语水平欠缺的用户,才最有需要利用输入中文的机会学习英语,但现有的英汉输入法,由于其“单向性”,都没有可以运用传统的汉字输入法(如拼音、五笔、活字码等)输入汉字而显示相应英语词汇的功能,这对于英语水平低的广大用户而言,由于缺少学习上的过渡和缓冲,难以一步登天地完全使用英文词汇编码输入全部的汉字词语,因此根本无法使用纯粹的“英汉输入法”,以至像“意音汉字输入法”之类的单向的“英汉输入法”显得曲高和寡,难以被广大用户接受而无法普及,面世已十年仍只能闲置一隅,无法真正发挥其希望发挥的作用。
2.选词不适合中文写作的实际需要和语言习惯:如前所述,无论《英汉词典》或《汉英词典》,其选词都不能直接满足中文写作的需要,但现有的“英汉输入法”的词组只是移植自《汉英词典》或《英汉词典》,存在大量中文写作用不上的词,而中文写作所真正需要经常使用的词组却又相对匮乏(例如成语、歇后语等),因此大大限制了其可用性。
第三部分:发明内容
第一节、本发明的目的:
随着中国经济持续高速增长、中国加入WTO、经济全球化的不断推进,汉语在国际上的地位不断提高,汉语越来越被全世界人民所重视,很多国家的高等院校纷纷增设或扩充汉语课程,很多外国人纷纷把汉语选作自己最主要的外语,更有数以万计的外国留学生前来中国留学...,全球范围内出现了一股学习汉语的热潮,据《参考消息》的报道,2002年来华留学生有8.58万人,全球有85个国家2100多所大学开设了汉语课程;2004年参加汉语水平考试(HSK)的外国考生超过10万人。
然而,令人遗憾的是,至今国内外仍未出现真正实用意义上的英汉互译汉字输入方法,这与汉语在国际上日益上升的重要地位是不相适应的。汉字输入法是我国在软件技术领域难得的一片拥有自主核心技术的保留地,而汉语教育将在全球造就一个高速成长的巨大的市场,一旦让外国人抢先开发成功“英汉输入法”系列并申请相应专利,那么中国人岂不又要在输入法领域重蹈DVD专利费的覆辙?由此而造成的损失将会比DVD专利费的损失大得多!如此,中国人将不得不反过来向外国人购买中国老祖宗留下的文化遗产,这对于中国人来说不仅是贻笑大方,而且更是中国文化历史的悲哀和耻辱。为此,必须抢在外国人之前发明出真正实用可普及的“英汉输入法”,因此,针对现有输入法的不足,本发明人本着以下目的发明了“中英通双向汉字输入法”(以下简称“中英通输入法”):
一、为中国人提供在日常工作和生活中大量学习和使用英语词语的可行机会和实用工具;让中国人通过汉字输入这种日常活动,潜移默化地学习、使用和掌握大量的英语词汇;在不增加社会教育资源耗费、不增加个人学习时间开销的情况下,显著地促进中国人英语水平的快速提高,增强中国人在国际劳动力市场和国际贸易市场上的竞争力;
二、为外国人学习汉语提供有效的辅助工具,促进汉语走向世界、成为国际化的强势语种,为中华民族的伟大复兴作贡献;
三、为外国人提供输入汉字的便捷工具,促进汉语成为国际通行语言;
四、通过在中文语言环境中以中国的语言思维方式大规模地使用英语词汇,使英语在某种程度上被“汉化”改造,逐步让国际英语变成有中国特色的“世界英语”,而不再仅仅是“不列颠英语”或“波士顿英语”,结束长期以来汉语文化在与英语文化交流中的弱势。
五、通过改变人们输入汉字的习惯,使英语在使用上变成汉语的标签和附庸,从而减少甚至避免英语舶来词语在汉语中的直接引用,以抵御英语文化对汉语文化本体纯洁性的侵蚀。
六、保卫“汉字输入法”这一片中国人的文化和技术领地免受外部占领。
第二节、技术方案
随着中外经贸、科技和文化交流的蓬勃发展,中国需要大批外语人才,中国有数以亿计的人在长年累月地学英语,中国人学英语的人数比起英美两国的人口还多,中国人在英语教学方面的投入十分惊人(甚至在很多时候超过了对汉语教育的投入!),教育部门对英语教育也极其重视,但英语教学的效果却一直是强差人意,经历了几十年的努力,能够精通英语的人仍是百中无几,其中一个主要的原因是在中国学习英语缺乏运用英语的语言环境,英语学习与工作和生活严重脱节,大部分人所学的英语仅仅被用于应付考试,而在日常生活和工作中根本用不上英语或极少用得上英语,因此英语知识和技能难以得到巩固和提高,就像没有根的树必然会凋萎、没有源的水必然会干枯,学而无用的英语久而久之就使人们失去了兴趣和信心。对此,人们想出了不少点子,例如有人在家里的每一件物品上贴上相应的英语单词,例如在床上贴“bed”、电视机上贴television、冰箱上贴refrigerator......等等,这样做确实能收到一些效果,但局限性很大,能贴标签的东西毕竟非常有限,人们总不能为了学英语而在脸上贴“face”、在鼻子上贴“nose”、在顾客的额头上贴“customer”吧?因此这种做法注定收效甚微。对此,本发明人经过长期的思索,终于发明了一种方便快捷、行之有效而且成本低廉的解决办法,就是“语言标签教学法”。
所谓“语言标签教学法”,就是给每一个汉语字词“贴”上英文词语的标签,让用户在使用每一个汉语字词时都能同时看到相应的英语词汇,这样就能为用户创造一个英汉双语并存的词语使用和思维环境,令用户在日常的语言思维中能够频繁地、与自己的思路密切相关地接触到大量实用的英文词语,从而潜移默化地学习和掌握大量实用英文词语。“语言标签教学法”在实物世界里是匪夷所思的,语言又怎能贴上标签?但在电脑的软件世界里却是切实可行的。只要在我们惯用的拼音、活字码(专利申请号:200410027961.8,以下同)、五笔字型等传统的汉字输入法的码表中,在每个字词的输入编码后追加相应的英文词语(与原来的编码之间用两个半角减号“--”分隔),在使用该输入法时,就可以通过我们习以为常的“编码提示”功能,在编码提示栏(选字栏)的相应汉语字词后面显示出其对应的英语词语的完整拼写,笔者称这种编码方式为“汉英码”。
与“汉英码”相对应的反向编码方式是“英汉码”,“英汉码”就是通过键入英文词语编码,向电脑输入相应的中文词语,同时显示该中文词语的传统的汉字输入法编码,其原理是直接用英文词语作为其对应中文词语的输入编码,再在每一个英语字词编码后面,用半角等号“=”分隔后追加相应的传统的汉字输入法编码(例如拼音、活字码、五笔字型等编码),,在使用该输入法时,就可以用直接键入英文词语来输入中文词语并可在编码提示栏(选字栏)上显示相应中文词语的汉字输入法编码(例如拼音、活字码、五笔字型等编码)。
如果把“汉英码”、“英汉码”同时编入一个输入法码表,那么更会产生意想不到的理想效果,使用该输入法,当键入英语词语编码时,电脑可输入相应的中文,并可在编码提示栏(选字栏)上显示相应的中文词语及其中文输入法编码,外国人(或懂英语的中国人)就能很方便地运用英语字词编码输入中文字词,同时又能很方便地学习相应中文词语的中文输入法编码(例如拼音、活字码、五笔字型等编码);当键入中文输入法编码时,电脑可输入相应的中文,并在编码提示栏(选字栏)上显示相应的中文词语及其对应的英文词语编码,我国的英语学员就能在很方便地输入中文词语的同时,学习对应的英文词语;英语词汇量少的用户,开始时可以用拼音或活字码、五笔字型等常规的输入法输入中文词语,同时通过“编码提示”功能,透过编码提示栏(选字栏)上的显示,频繁接触大量的英文词语,潜移默化之中,便可在不知不觉之中记住一些常见的英语词语,之后这部份英语词语所对应的中文词语,就可以使用英语字词编码输入,通过长期使用本输入法,就能记住越来越多的英文词语,用户使用英语字词编码输入汉字词语的比例就会越来越高,用户的英语词汇量也就会循序渐进地不断得到有效的扩充和巩固。
在中国每天都有数千万人在进行大量的汉字输入工作,例如作家、编辑、文员、科技工作者、机关工作人员、上网聊天者、教师、学生等等,用电脑输入中文已是中国现代人生活中的不可分割的一部份,职业的文字工作者更是几乎整天都在对着电脑进行中文输入操作。当人们苦于缺乏时间和精力学习英语、没有机会运用英语的时候,大量可用于学习和运用英语词汇的时间和机会,却又一直在不知不觉之中无声无息地白白流逝,从不被人发现和利用过。如果一边输入汉字的同时能够一边自然而然地接触和学习对应的英语词汇,那么人们学习英语词汇的时间将是唾手可得;如果汉语字词都能用英语的相应词语作为输入编码来输入,那么中文打字就变成了活用英语词汇的大舞台,那么人们大量运用英语词汇的机会也将变得唾手可得,并且还极有利于形成中英双语思维,从根本上提高英语水平。由此可见,本发明人发明的“语言标签教学法”与各种汉字输入法相结合,编成各种版本的“汉英码”、“英汉码”、“双向码”并广为普及,将会大大改善中国人学习英语和运用英语的环境,甚至可望在中国掀起一场英语教学方式的革命。
第三节、本发明所取得的突破性成果
哥伦布发现新大陆后,得到女王的重赏,在庆功宴上,不少人对此愤愤不平,认为哥伦布没什么了不起的,更有人声言:“这再简单不过了,给我船队,我也能发现新大陆!”,为此,哥伦布取来一个鸡蛋,对这些人说:“先生们,你们当中有谁可以使鸡蛋在桌上竖立不倒?”,不少人反复试过多次,但都失败了,其余的人面面相觑、无言以对,哥伦布当着这些人的面,把鸡蛋的一端轻轻敲破一点儿,于是鸡蛋就可以在桌上竖着屹立不倒了。哥伦布平静地说:“这再简单不过了!任何人都可以做的——在有人做过了以后。”,伟大的发明在公诸于众后,往往看似“再简单不过”和“显而易见”的。门捷列夫在梦中发明了的《元素周期表》,爱因斯坦在奔驰的马车上萌生了《狭义相对论》的基本思想,这一切似乎是那么轻松写意、那么幸运,仿佛是上天对他们的格外眷顾,然而这背后却是他们长期努力研究、不懈探索和艰苦思索的结晶。
“中英通输入法”的原理看似简单,但为什么这样简单的原理,在本发明出现之前这么长的时间就一直没有被人们实施和公开过?因为本发明也同样凝聚了发明人长期的研究和思索、开拓性的艰辛创造和长期艰苦繁重的劳动,并且通过多方面的知识和技能的综合活用,才取得了如此显著的突破和进步,与现有的输入法相比,“中英通输入法”具有本质性的飞跃,它具有以下显著的优点:
一、意想不到的双向教学性能:本输入法除了具有输入汉语字词的功能外,同时具有方便外国人学习汉语和方便中国人学习英语的理想效果,而且不会增加社会教育资源的花费,也不会增加用户在学习时间上的开销;在一定程度上还创造了日常工作和生活中所缺乏的汉英双语环境,此举将显著改善中国人的英语学习条件,这是任何现有已公开的输入法所不具备的突出优点。
二、完整性:6763个国标汉字都可通过英语字词编码输入,并且可以输入55000多个汉语词组、成语、歇后语,是一个充分和完整的汉语字词编码体系,而不仅仅是英语字词在个别汉语字词上的编码应用。
三、双向性:可以键入英语字词编码而输入汉语字词并显示汉语输入法编码,也可以输入汉语输入法编码而输入汉语字词同时显示相应的英语词语。
四、实用性:可以输入55000多个实用汉语词组,这些词语都是选自现代汉语词典、汉语成语词典、双语经典语词典等权威的汉语典籍,能够普遍适应于汉语写作的需要和用语习惯,而不仅仅是英语字词在个别词组上的应用,也不是英汉词典的简单反向翻译;涵盖了23000多个精选的实用英语通用词语,可完全满足英语人士的一般语言表达需要和表达习惯,而不仅仅是个别英文单词在个别汉语字词上的编码,也不是冷僻英语词语的随意拼凑;
五、通用性:“中英通输入法”的编码规则可应用于现有任何汉字键盘输入编码技术,例如而不限于拼音、五笔字型、活字码等等,可使后者很容易增加英语教学的功能;“语言标签教学法”也不仅仅限于英语,也可用于各种可用键盘字母拼写语言,例如法语、德语、意大利语、西班牙语、俄语、葡萄牙语,等等,“语言标签教学法”应用于这些外语,可编码为“中法通”、“中德通”、“中意通”“中西通”“中俄通”“中葡通”等等多语种应用形式。
六、便捷性:对具有相同英语字词输入编码的重码汉语词语,均按汉语词语的使用频度由高至低排序,这样有利于方便常用汉字词语的输入,大大提高了汉字输入的效率;对于具有多个英语字词输入编码的汉语字词,在其汉英编码中所追加的相应英语词语编码,按英语词语的实用价值由高至低排序,这样能够方便用户学习常用的英语词语,大大提高了英汉输入的实用性。
第四部分、本发明的具体实施方式
中英通输入法是通过科学严谨的规则和步骤,经过大量艰苦细致的工作而开发成功的一项巨大信息工程,其实施方式和步骤如下:
一、英汉词汇对照码表的建立
(一)、“中文实用词库”(1号库)的建立和各单字、词组的使用价值评估
1.为了确保中英通输入法收录词条的规范性、实用性、丰富性,本发明人广泛收集了规范词语工具书中的词条,从《现代汉语词典》(商务印书馆2002年增补本)、《汉语成语小词典》(商务印书馆2003年修订本)、《双语经典语》(四川人民出版社ISBN7-220-05843-8/H·282)、WINDOWS全拼输入法码表、五笔字型86版输入法码表、五笔字型98版输入法码表等来源,共收集到中文词组和习语85000多条,全部录入电脑数据库文件中。
2.从前述85000多中文词组中,删除其中的冷僻词,精选出实用中文词组55000多条,另加上6763个国标一二级单字,从而建立了“中文实用词库”数据库文件。
3.对6763个国标一二级单字进行使用价值评估:通过电脑数据库编程技术,
根据各单字 在55000个实用词组中的出现次数,作为其使用价值的评分,在各词组中出现率较高的单字的使用价值相应较高,对于具有相同英语输入编码的不同汉字,根据其使用价值由高到低在输入法码表中排序,以此提高中文单字的输入效率。
4.对55000个实用词组进行使用价值评估:,根据汉字的一般组词规律,由高频单字组成的词组比由高频单字组成的词组的使用价值更高,因此,本发明创造了一条简易公式:
各词组的实用价值评分=所含单字的使用价值评分的几何平均值,通过电脑数据库编程技术,把各词组所含单字的使用价值数据代入此公式,即可计算各词组的实用价值评分。对于具有相同英语输入编码的不同中文词组,根据其使用价值由高到低在输入法码表中排序,以此提高中文词组的输入效率。
(二)、“汉英词典参考词库”(2号库)的建立
1.利用UCDOS中附带的UCDICT《汉英词典》,提取其中的出全部汉英对照词目94000多条,全部录入电脑数据库文件中;
2.对于《汉英词典》中未被收录的一些国标一二级单字,给予补充并翻译其相应的英语字词;
3.通过《金山词霸2002》软件,对每一条词语的英语解释进行反查校对,删除其中与汉字词语关系不密切的英语词语;
4.对于小量无法意译的单字,例如:曹、邓、狄、龚、廖、刘、卢、吕、谭、吴、邹......,用其汉语拼音作为英语音译。
5.经过校对和补充的词库作为汉英对照翻译的参考词库(2号库)。
(三)、“英汉词典参考词库”(3号库)的建立
1.词汇的收集和词汇数据库的建立
为了选取实用价值较高的英语单词和短语作为中英通的英语字词编码,本发明人广泛收集现有流行英语教材的词汇表,建立了70个英汉词汇数据库文件,详见“表1”。
2.词库的合并和词汇实用价值的评估
把前述的82个词库全部吸收到“英汉词典参考词库”(3号库)中,删除重复的词条后,共收录词汇23000多条,并根据每个英语字词被各种教材和词典收录的情况,统计其各自的使用分值,分值越高则实用价值越高。其中各词库的计分标准如“表1”:
表1:中英通输入法的英语词汇来源和词条使用价值评分表
序号 | 词库名称 | 词汇量 | 使用价值积分 |
1. | THE USBORNE PICTURE DICTIONARY | 1132 | 9 |
2. | 新版《小学英语》(第一册) | 200 | 9 |
3. | 新版《小学英语》(第二册) | 200 | 9 |
4. | 新版《小学英语》(第三册) | 125 | 9 |
5. | 新版《小学英语》(第四册) | 150 | 9 |
6. | 新版《小学英语》(第五册) | 125 | 9 |
7. | 新版《小学英语》(第六册) | 100 | 9 |
8. | 《小学英语》(第一册) | 275 | 9 |
9. | 《小学英语》(第二册) | 175 | 9 |
10. | 《小学英语》(第三册) | 225 | 9 |
11. | 《小学英语》(第四册) | 175 | 9 |
12. | 新版《初中英语》(第一册) | 575 | 8 |
13. | 新版《初中英语》(第二册) | 625 | 8 |
14. | 新版《初中英语》(第三册) | 550 | 8 |
15. | 《初中英语》(第一册) | 325 | 8 |
16. | 《初中英语》(第二册) | 350 | 8 |
17. | 《初中英语》(第三册) | 375 | 8 |
18. | 《初中英语》(第四册) | 375 | 8 |
19. | 《初中英语》(第五册) | 425 | 8 |
20. | 《初中英语》(第六册) | 400 | 8 |
21. | 《高中英语》(第一册)[必修] | 1025 | 7 |
22. | 《高中英语》(第二册)[必修] | 600 | 7 |
23. | 《高中英语》(第三册) | 600 | 7 |
24. | 《高中英语》(第三册)[选修] | 525 | 7 |
25. | 新版《高中英语》第一册(上) | 425 | 7 |
26. | 《大学英语1~4级词汇》(上) | 2300 | 6 |
27. | 《大学英语1~4级词汇》(下) | 2325 | 6 |
28. | 《大学英语5~6级词汇》 | 2100 | 6 |
29. | 《新概念英语》(第一册) | 875 | 5 |
30. | 《新概念英语》(第二册) | 1150 | 5 |
31. | 《新概念英语》(第三册) | 1925 | 5 |
32. | 《新概念英语》(第四册) | 1850 | 5 |
33. | 《许国璋英语》(第一册) | 875 | 5 |
34. | 《许国璋英语》(第二册) | 775 | 5 |
35. | 《许国璋英语》(第三册) | 900 | 5 |
36. | 《许图璋英语》(第四册) | 775 | 5 |
37. | 《托福600分单字》(上·牢记) | 1050 | 4 |
38. | 《托福600分单字》(下·其他) | 1775 | 4 |
39. | 《雅思考试词汇卡片》(上)A-M | 3192 | 4 |
40. | 《雅思考试词汇卡片》(下)N-Z | 2731 | 4 |
41. | 《G R E字汇进阶》(上) | 1500 | 3 |
42. | 《G R E字汇进阶》(下) | 1500 | 3 |
43. | 《外贸英语》(一) | 2000 | 4 |
44. | 《外贸英语》(二) | 2000 | 4 |
45. | 《外贸英语》(三) | 2000 | 4 |
46. | 《外贸英语》(四) | 2000 | 4 |
47. | 《词频统计词库》(第一级) | 2000 | 9 |
48. | 《词频统计词库》(第二级) | 2000 | 8 |
49. | 《词频统计词库》(第三级) | 2000 | 7 |
50. | 《词频统计词库》(第四级) | 2000 | 6 |
51. | 《词频统计词库》(第五级) | 2000 | 5 |
52. | 《高教自学考试英语》 | 1525 | 6 |
53. | 《电脑专业英语》(词频统计) | 1675 | 5 |
54. | 《医学英语》(第一册) | 1225 | 4 |
55. | 《医学英语》(第二册) | 975 | 4 |
56. | 《医学英语》(第二册) | 575 | 4 |
57. | 《袖珍英汉词典》补充各词库遗漏 | 1804 | 5 |
58. | 《常用词组》 | 456 | 5 |
59. | 《MBA入学考试词汇》 | 4000 | 4 |
60. | 《地名、人名、缩写、专有名词》 | 660 | 0 |
61. | 《大学英语1~4级常用词组》 | 1775 | 6 |
62. | 《大学英语5~6级常用词组》 | 375 | 6 |
63. | 《常用短语》 | 2416 | 5 |
64. | 补充新概念词汇 | 2094 | 5 |
65. | 《结构化英语学习法》基本字库 | 3145 | 5 |
66. | 《结构化英语学习法》根本字库 | 1668 | 5 |
67. | 《汉化英语学习法》初级字库 | 1668 | 5 |
68. | 《在职攻读硕士学位考试词汇库》 | 4301 | 4 |
69. | 考研核心词汇库 | 7150 | 4 |
70. | GMAT考试词库 | 1250 | 3 |
根据上表,同一个单词或短语如被多个词库收录,则其使用价值是相应各词库“使用价值积分”的总和,例如某个词被《初中英语》(第一册)词汇库收录,则它的实用价值评分为8,若这个词同时又被《新概念英语》(第一册)词汇库收录,则它的实用价值评分为8+5=13,依此类推,被较多教材广泛收录的词汇的使用价值评分会相对较高,由此所得的各词条的实用价值评分作为英语词汇编码取舍和排序的重要参考指标。
3.词义的赋予和校对
为了确保词英汉词典库中英文拼写和中文词义的准确性,运用《21世纪小小汉英词典》(外语教学与研究出版社)、《袖珍英汉词典》(南京大学出版社)、《金山词霸2002》(软件)等工具对每一条英语词汇的词义赋予其词义并进行校对。
(四)、把“英汉词典参考词库”(3号库)的每一个多义性词条拆解,把每个多义词拆分成一个英语单词(或短语)对应一个中文词的形式,以便于使用于输入法编码(由于此项工作的劳动量很大,为提高效率和避免人工操作的失误,本发明人采用了电脑数据库编程的方法让计算机自动处理),由此把“3号库”建成全部为一个中文字词对一个英语词汇数据库。
(五)、建立“中英对照编码库”(4号库):利用“2号库”和“3号库”的数据,编写专用的数据库程序,对“中文实用词库”(1号库)的每一个词条进行查找和联合翻译、赋予每一个汉语字词一串英语对应同义词语代码,从而建立“中英对照编码库”(4号库),该库中的每个中文词条对应多个英文同义词语代码。
(六)、“中英对照编码库”(4号库)的改进和完善
由于4号库中汉语字词和英语词语之间不是一一对应的,一个汉语字词对应多个英语词语,而一个英语词语又对应多个汉语字词,这样会形成大量的重码字词和重复字词,致使输入法编码过于庞大而且低效,因此有必要精简对汉英字词之间的对应关系,优选和保留实用度高的编码,删除实用度低的编码,其实施方法为:
1.利用电脑数据库技术,把“4号库”所有多义汉语字词拆分成一个汉语字词对一个英语字词的记录形式,使“4号库”转变成英汉一对一格式。
2.利用电脑数据库技术,以“中文字词”作为第一关键字,以“英语字词”的实用价值(由高到低的降序)作为第二关键字,将“4号库”的全部数据记录进行索引排序。排序后把中文字词相同的不同英语字词按照其实用度高低的先后顺序编予“E序号”(从1开始的连续正整数)。
3.利用电脑数据库技术,以“英语字词”作为第一关键字,以“中文字词”的实用价值(由高到低的降序)作为第二关键字,将“4号库”的全部数据记录进行索引排序。
排序后把英语字词相同的不同中文字词按照其实用度高低的先后顺序编予“C序号”(从1开始的连续正整数)。
4.删除所有“E序号”大于3或者“C序号”大于1的中文单字数据记录,这样剩下的每个中文单字最多可保留三个最实用的英语字词表达方式;可以表达汉语单字的英语字词都有至少有一个最实用的记录被保留,而其他非首选的汉语单字编码方式则被删除,这样在保持英语字词编码丰富性的同时又大大减少了重复的汉语单字编码数据,大大提高了单字编码的简洁性和实用性。
5.删除所有“E序号”大于1并且“C序号”大于1的中文词组数据记录,这样剩下的每个中文词组至少留一个最优的英语字词编码表达方式,可以表达汉语单字的英语字词编码都有至少保留一个最实用的记录,而非最实用的编码方式则被删除,这样在保持英语字词编码丰富性的同时又大大减少了重复的汉语词组编码数据,大大提高了词组编码的简洁性和实用性。
6.英语字词重码字词的排序:把英语字词编码相同的不同中文字词编码按“C序号”升序排序,以提高编码的实用性,经过排序后的数据表(5号库),形成一套英汉词语对照表,适用于“英译中输入”编码。
7.经过步骤“6.”处理后的数据表(5号库),是一个汉字对一个英语单词的数据表,把编码数据按“E序号”升序排序,然后把多个中文词语相同的数据记录合并为一个汉语字词对应多个英语字词的形式,这样的数据表(6号库),形成一套汉英词语对照表,适用于“中译英输入”编码。
经过上述“(一)”至“(六)”的步骤,完成了“英汉词汇对照码表”数据库(4号库)、英译中输入”编码数据表(5号库)的建立并应用于中英通输入法的“英译中编码”、完成了中译英输入”编码数据表(6号库)的建立并应用于中英通输入法的“中译英编码”。
二、中英通输入法的编码规则
1.中英通输入法的码表格式:
中英通输入法码表的表头按WINDOWS通用码表的规则编码。码表的主体部份由每个字词的编码行组成,每个编码行由连续的两大部份组成:第一部份为“汉语字词”,紧接每行的最左侧排列;第二部份是与第一部份相对应的“键盘符号编码”,紧接第一部份的右侧排列。“汉语字词”就是需要用输入法输入的各个中文单字或字串;“键盘符号编码”是指按一定的规则编制的用以指引输入法系统输入相应汉语字词的键盘符号或符号串。
中英通输入法的码表可使用WINDOWS98、WIN2000、WINXP自带的输入法生成器程序(IMEGEN.EXE)编译和安装到相应的操作系统中。
1)中英通输入法的码表中表头的格式,每行前面不留空格,根据拼音、五笔字型、活字码等输入法的规则而相应设定,应用于相应的编码方式,例如:
[Description]
Name=中英通输入法
MaxCodes=38
MaxElement=2
UsedCodes=abcdefghijklmnopqrstuvwxyz,/;′[]=-
WildChar?
NumRules=3
[Rule]
ca4=p11+p21+p31+n11
ce2=p11+p12+p21+p22
ce3=p11+p21+p31+32
[Text]
2)中英通输入法的码表在主体部份从紧接表头中“[Text]”之后的一行开始,每行的格式为:
2.每行“键盘符号编码”的构成:
中英通输入法的每行“键盘符号编码”由连续紧邻的“传统的汉字输入法编码”和“英语字词编码”两部份组成:“传统的汉字输入法编码”是指按“拼音输入法”、“五笔字型输入法”、“活字码输入法”或其他流行的键盘汉字输入编码规则编制的键盘符号编码(以下同);“英语字词编码”是与所输入的汉语字词含义相对应的英语字词编码。
3.每行“键盘符号编码”的排列方式:
“传统的汉字输入法编码”和“英语字词编码”在每行“键盘符号编码”中的先后顺序根据编码的目的不同而异,可有两种排列方式:
(1)英译中编码方式:需要键入英语词语而输入汉字并显示“传统的汉字输入法编码”的,“英语字词编码”在“键盘符号编码”中居左侧位置,“传统的汉字输入法编码”在“键盘符号编码”中居右侧位置。
英译中编码方式每行格式:
(2)中译英编码方式:需要键入“传统的汉字输入法编码”(拼音、五笔字型、活字码等等编码)而输入汉字并显示相应英语词语的,“传统的汉字输入法编码”在“键盘符号编码”中居左侧位置,“英语字词编码”在“键盘符号编码”中居右侧位置。
4.“键盘符号编码”中的分隔符号:
(1)“传统的汉字输入法编码”和“英语字词编码”的分隔符号:
在英译中编码中,“英语字词编码”和“传统的汉字输入法编码”之间用壹个半角等号“=”分隔;中译英方式:
(2)有些“英语字词编码”不是英语单词,而是英语短语,对短语构成的“英语字词编码”,使用“/”代替英文短语中的空格。
例如:“按兵不动”的“英语字词编码”为“take/no/action”其活字码编码为“abbd”;
因此,“按兵不动”一词的“活字码”中译英输入编码为:“按兵不动abbd--take/no/action”;“按兵不动”一词的“活字码”英译中输入编码为:“按兵不动take/no/action=abbd”
(3)在中译英编码方式中,允许二个或多个不同的“英语字词编码”同时存在于一个汉语字词的编码之中(一词多义),不同的“英语字词编码”之间用一个半角分号“;”分隔。
……
例如:“产”一字的“拼音中英通输入法”中译英编码为:“产chan--produce;property;lay”5.单向输入法编码的单独使用
按照“英译中编码方式”编成的编码,单独安装到输入法软件中,即实现了“输入英文打出中文及显示传统的汉字输入法编码”的英汉学习和输入汉字的效果;
按照“中译英编码方式”编成的编码,单独安装到输入法软件中,即实现了“输入传统的汉字输入法编码打出中文及显示英文输入编码”的汉英学习和输入汉字的效果。
6.双向输入法编码的集成使用
按照“英译中编码方式”编成的编码和按照“中译英编码方式”编成的编码,同时收集到一个输入法码表中,就实现了“输入英文打出中文并显示传统的汉字输入法编码;输入传统的汉字输入法编码打出中文并显示英文输入编码”的双向学习和汉字输入效果。
7.“拼音中英通双向输入法”的拼音编码简化规则:
由于传统全拼输入法的编码比较长,如再加上英语字词编码和分隔符号,将会形成几十位长的输入编码,这对于汉字输入效率和教学效果都会产生不利的影响,因此在“拼音中英通双向输入法”的编码过程中,必须对传统全拼输入法进行简化。本发明中约定拼音部份编码的简化规则为:1)汉字单字、二字词使用全拼编码;2)由三个或三以个汉字组成的多字词,使用每个汉字的全拼首字母串成的拼音缩写作为拼音。
8.单字编码优先于词组编码,中译英编码优先于英译中编码:
在输入法编码表中,单字的编码优先于词组的编码(当单字的输入编码和词组的输入编码相同时,单字编码排在较前的编码行);中译英编码优先于英译中编码(当中译英编码中的传统的汉字输入法编码部份,与其他字词的英译中编码中的英语编码部份相同时,中译英编码排在较前的编码行)。
三、中英通双向输入法编码表文件及其安装使用:
1.本发明人已经编制完成6763个国标一二级汉字和55000个汉语词语的“拼音中英通双向输入法码表”。
2.本发明人已经编制完成6763个国标一二级汉字和55000个汉语词组的“五笔字型中英通双向输入法码表”。
3.本发明人已经编制完成6763个国标一二级汉字和55000个汉语词组的“活字码中英通双向输入法码表”。
4.本发明人编制的中英通双向汉字输入法码表,可加入到WINDOWS通用输入法标准TXT格式的码表文件中,使用WINDOWS98、WIN2000、WINXP自带的输入法生成器程序(IMEGEN.EXE)编译和安装到相应WINDOWS系统中自由使用于各种文字处理软件。
Claims (5)
1.一种汉字电脑键盘输入法编码方法和编码方案,它包括:①一种使输入法具有中英双向翻译提示功能的编码规则(以下简称“中英通编码规则”)、②一种对中文单字的实用进行性评估的方法、③一种对中文词组的实用性进行评估方法、④一种对英文字词的实用性进行评估的方法、⑤一种对输入法编码按其字词的实用性进行排序和筛选的方法、⑥一种拼音输入法编码的简化规则、⑦一套英汉词语对照表和一套汉英词语对照表、⑧一套“拼音中英通输入法”码表、⑨一套“五笔字型中英通输入法”码表、⑩一套“活字码中英通输入法”码表,其特征在于:
1)在权利要求1中①的“中英通编码规则”,是根据本发明首创的“语言标签教学法”原理而创造的,所谓“语言标签教学法”,就是给每一个汉语字词“贴”上英文词语的标签,让用户在使用每一个汉语字词时都能同时看到相应的英语词汇,这样就能为用户创造一个英汉双语并存的词语使用和思维环境,令用户在日常的语言思维中能够频繁地、与自己的思路密切相关地接触到大量实用的英文词语,从而潜移默化地学习和掌握大量实用英文词语。“语言标签教学法”在实物世界里是匪夷所思的,但在电脑的软件世界里却是切实可行的。只要在我们惯用的拼音、活字码(专利申请号:200410027961.8,以下同)、五笔字型等传统的汉字输入法的码表中,在每个字词的输入编码后追加相应的英文词语(英文词语与原来的汉字输入编码之间用两个半角减号“--”分隔),在使用该输入法时,就可以通过我们习以为常的“编码提示”功能,在编码提示栏(选字栏)的相应汉语字词后面显示出其对应的英语词语的完整拼写内容。与“汉英码”相对应的反向编码方式是“英汉码”,“英汉码”就是通过键入英文词语编码,向电脑输入相应的中文词语,同时显示该中文词语的传统的汉字输入法编码,其原理是直接用英文词语作为其对应中文词语的输入编码,再在每一个英语字词编码后面,用一个半角等号“=”分隔后追加相应的传统的汉字输入法编码(例如拼音、活字码、五笔字型等编码),这样就可以用直接键入英文词语来输入中文词语并可在编码提示栏(选字栏)上显示相应中文词语的汉字输入法编码(例如拼音、活字码、五笔字型等编码)。
2)在权利要求1中①的“中英通编码规则”中,输入法码表的主体部份由每个字词的编码行组成,每个编码行由连续的两大部份组成:第一部份为“汉语字词”,紧接每行的最左侧排列;第二部份是与第一部份相对应的“键盘符号编码”,紧接第一部份的右侧排列。“汉语字词”就是需要用输入法输入的各个中文单字或字串;“键盘符号编码”是指按特定的规则编制的用以指引输入法系统输入相应汉语字词的键盘符号或键盘符号串。
输入法码表主体部份每行的格式为:
3)在权利要求1中①的“中英通编码规则”中,输入法码表的主体部份每行“键盘符号编码”由连续紧邻的“传统的汉字输入法编码”和“英语字词编码”两部份组成:“传统的汉字输入法编码”是指按“拼音输入法”、“五笔字型输入法”、“活字码输入法”的编码规则编制的键盘符号编码(以下同);“英语字词编码”是与所输入的汉语字词含义相对应的英语字词编码。“传统的汉字输入法编码”和“英语字词编码”在每行“键盘符号编码”中的先后顺序根据编码的目的不同而异,可有两种排列方式:
(1)英译中编码方式:需要键入英语词语而输入汉字并在编码提示栏(选字栏)上显示“传统的汉字输入法编码”的,“英语字词编码”在“键盘符号编码”中居左侧位置,“传统的汉字输入法编码”在“键盘符号编码”中居右侧位置。
英译中编码方式每行格式:
(2)中译英编码方式:需要键入“传统的汉字输入法编码”而输入汉字并在编码提示栏(选字栏)上显示相应英语词语的,“传统的汉字输入法编码”在“键盘符号编码”中居左侧位置,“英语字词编码”在“键盘符号编码”中居右侧位置。
中译英编码方式每行格式:
4)在权利要求1中①的“中英通编码规则”中,输入法码表的主体部份每行“键盘符号编码”中的分隔符号规定为:
(1)“传统的汉字输入法编码”和“英语字词编码”的分隔符号:
在英译中编码中,“英语字词编码”和“传统的汉字输入法编码”之间用壹个半角等号“=”分隔;
(2)有些“英语字词编码”不是英语单词,而是英语短语,对短语构成的“英语字词编码”、使用“/”代替英文短语中的空格,例如:“按兵不动”的“英语字词编码”为“take/no/action”其活字码编码为“abbd”,因此,“按兵不动”一词的“活字码”中译英输入编码为:“按兵不动abbd--take/no/action”;“按兵不动”一词的“活字码”英译中输入编码为:“按兵不动take/no/action=abbd”
例如:“产”一字的“拼音中英通输入法”中译英编码为:“产chan--produce;property;lay”
5)在权利要求1中①的“中英通编码规则”中,按照“英译中编码方式”编成的编码,单独安装到输入法软件中,就实现了“输入英文打出中文及显示传统的汉字输入法编码”的英汉学习和输入汉字的效果;按照“中译英编码方式”编成的编码,单独安装到输入法软件中,就实现了“输入传统的汉字输入法编码打出中文及显示英文输入编码”的汉英学习和输入汉字的效果;按照“英译中编码方式”编成的编码和按照“中译英编码方式”编成的编码,同时收集到一个输入法码表中,就实现了“输入英文打出中文并显示传统的汉字输入法编码;输入传统的汉字输入法编码打出中文并显示英文输入编码”的双向学习和汉字输入效果。
6)在权利要求1中①的“中英通编码规则”中,单字的编码优先于词组的编码(当单字编码和词组编码相同时,单字编码排在较前的编码行);中译英编码优先于英译中编码(当中译英编码中的传统的汉字输入法编码部份,与其他字词的英译中编码中的英语编码部份相同时,中译英编码排在较前的编码行)。
7)在权利要求1中①的“中英通编码规则”中,根据该规则编制的码表可使用WINDOWS98、WIN2000、WINXP自带的“输入法生成器”程序(IMEGEN.EXE)编译和安装到相应的操作系统中。
8)在权利要求1中“②一种对中文单字的实用进行性评估的方法”,是对6763个国标一二级单字进行使用价值评估,通过电脑数据库编程技术,根据各单字在55000个实用词组中的出现次数,作为其使用价值的评分,在词组中出现率较高的单字的使用价值相应较高。
9)在权利要求1中“③一种对中文词组的实用进行性评估的方法”,是对55000个实用词组进行使用价值评估,根据汉字的一般组词规律,由高频单字组成的词组比由高频单字组成的词组的使用价值更高,因此,本发明创造了一条简易公式:各词组的实用价值评分=所含单字的使用价值评分的几何平均值,通过电脑数据库编程技术,把各词组所含单字的使用价值数据代入此公式,即可计算各词组的实用价值评分。
10)在权利要求1中“④一种对英文字词的实用性进行评估的方法”,根据每个英语字词被各种教材和词典收录的情况,统计其各自的使用分值,分值越高则实用价值越高。其中各词库的计分标准如“表1”:
表1:中英通输入法的英语词汇来源和词条使用价值评分表
根据上表,越是初级的教材所收录的词汇的实用度越高,同一个英语单词如被多个词库收录,则其使用价值是相应各词库“使用价值积分”的总和,例如某个词被《初中英语》(第一册)词汇库收录,则它的实用价值评分为8,若这个词同时又被《新概念英语》(第一册)词汇库收录,则它的实用价值评分为8+5=13,依此类推,被较多教材广泛收录的词汇的使用价值评分会相对较高,由此所得的各词条的实用价值评分作为英语词汇编码取舍和排序的重要参考指标。
11)在权利要求1中“⑤一种对输入法编码按其字词的实用性进行排序和筛选的方法”,是指:
(1)利用电脑数据库技术,以“中文字词”作为第一关键字,以“英语字词”的实用价值(由高到低的降序)作为第二关键字,将编码数据进行索引排序。排序后把中文字词相同的不同英语字词按照其实用度高低的先后顺序编予“E序号”(从1开始的连续正整数)。
(2)利用电脑数据库技术,以“英语字词”作为第一关键字,以“中文字词”的实用价值(由高到低的降序)作为第二关键字,将编码数据进行索引排序。排序后把英语字词相同的不同中文字词按照其实用度高低的先后顺序编予“C序号”(从1开始的连续正整数)。
(3)删除所有“E序号”大于3或者“C序号”大于1的中文单字数据记录,这样剩下的每个中文单字最多可保留三个最实用的英语字词表达方式;可以表达汉语单字的英语字词都有至少有一个最实用的记录被保留,而其他非首选的汉语单字编码方式则被删除,这样在保持英语字词编码丰富性的同时又大大减少了重复的汉语单字编码数据,大大提高了单字编码的简洁性和实用性。
(4)删除所有“E序号”大于1并且“C序号”大于1的中文词组数据记录,这样剩下的每个中文词组至少留一个最优的英语字词编码表达方式,可以表达汉语单字的英语字词编码都有至少保留一个最实用的记录,而非最实用的编码方式则被删除,这样在保持英语字词编码丰富性的同时又大大减少了重复的汉语词组编码数据,大大提高了词组编码的简洁性和实用性。
(5)英语字词重码字词的排序:把英语字词编码相同的不同中文字词编码按“C序号”升序排序,以提高编码的实用性,由此形成一套英汉词语对照表,用于“英译中输入”编码。
(6)经过上一步骤“(5)”处理后的数据表,是一个汉语字词对一个英语单词的数据表,把该编码数据按“E序号”升序排序,然后把多个中文词语相同的数据记录合并为一个汉语字词对应多个英语字词的形式,形成一套汉英词语对照表,用于“中译英输入”编码。
12)权利要求1中“⑥一种拼音输入法编码的简化规则”是指:
(1)汉字单字、二字词使用全拼编码;
(2)由三个或三以个汉字组成的多字词,使用每个汉字的全拼首字母串成的拼音缩写作为拼音。
2.权利要求1中“⑦一套英汉词语对照表和一套汉英词语对照表”,其特征为:
(1)包含了6763个国标一二级汉字、55000条汉语词组和习语、25000条英语词语。
(2)55000条汉语词组和习语取源于《现代汉语词典》(商务印书馆2002年增补本)、《汉语成语小词典》(商务印书馆2003年修订本)、《双语经典语》(四川人民出版社ISBN7-220-05843-8/H·282)、WINDOWS全拼输入法码表、五笔字型86输入法码表、五笔字型98版输入法码表;25000条英语词语取源于UCDOS中附带的UCDICT《汉英词典》、《21世纪小小汉英词典》(外语教学与研究出版社)、《袖珍英汉词典》(南京大学出版社)、《双语经典语》(四川人民出版社ISBN7-220-05843-8/H·282)。
(3)是运用权利要求1中的“②一种对中文单字的实用进行性评估的方法”、“③一种对中文词组的实用性进行评估方法”、“④一种对英文字词的实用性进行评估的方法”、“⑤一种对输入法编码按其字词的实用性进行排序和筛选的方法”处理而获得的。
3.权利要求1中“⑧一套‘拼音中英通输入法’码表”,是根据权利要求1中的“①一种使输入法具有中英双向翻译提示功能的编码规则”和权利要求1中的“⑥一种拼音输入法编码的简化规则”,对权利要求1中的“⑦一套英汉词语对照表和一套汉英词语对照表”的词语进行编码而获得。
4.权利要求1中“⑨一套‘套五笔字型中英通输入法’码表”,是根据权利要求1中的“①一种使输入法具有中英双向翻译提示功能的编码规则”和“五笔字型”输入法的编码规则(参照《五笔字型速成教程》ISBN7-115-05278-6/TP·123和五笔字型输入法86版编码表),对权利要求1中的“⑦一套英汉词语对照表和一套汉英词语对照表”的词语进行编码而获得。
5.权利要求1中“⑩一套‘活字码中英通输入法’码表”,是根据权利要求1中的“①一种使输入法具有中英双向翻译提示功能的编码规则”和“活字码”输入法(专利申请号:200410027961.8)的编码规则,对权利要求1中的“⑦一套英汉词语对照表和一套汉英词语对照表”的词语进行编码而获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510034080 CN1687877A (zh) | 2005-04-14 | 2005-04-14 | 中英通双向汉字输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510034080 CN1687877A (zh) | 2005-04-14 | 2005-04-14 | 中英通双向汉字输入法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1687877A true CN1687877A (zh) | 2005-10-26 |
Family
ID=35305919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200510034080 Pending CN1687877A (zh) | 2005-04-14 | 2005-04-14 | 中英通双向汉字输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1687877A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101943955A (zh) * | 2010-09-25 | 2011-01-12 | 吴保国 | 拼音义标直观汉字及多语言文字输入法 |
CN102622343A (zh) * | 2012-03-17 | 2012-08-01 | 昆明南珠电子工程有限公司 | 越南文和中文的词与短语4码互译系统 |
CN103019410A (zh) * | 2012-12-24 | 2013-04-03 | 郭世忠 | 语义显示汉字输入法 |
CN103970287B (zh) * | 2014-03-19 | 2018-08-31 | 刘伊翰 | 字组字中文输入法及其字根键盘 |
CN109902673A (zh) * | 2019-01-28 | 2019-06-18 | 北京明略软件系统有限公司 | 表格中表头信息识别和整理方法、系统、终端和存储介质 |
CN114970502A (zh) * | 2021-12-29 | 2022-08-30 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
-
2005
- 2005-04-14 CN CN 200510034080 patent/CN1687877A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101943955A (zh) * | 2010-09-25 | 2011-01-12 | 吴保国 | 拼音义标直观汉字及多语言文字输入法 |
CN102622343A (zh) * | 2012-03-17 | 2012-08-01 | 昆明南珠电子工程有限公司 | 越南文和中文的词与短语4码互译系统 |
CN102622343B (zh) * | 2012-03-17 | 2014-08-06 | 昆明南珠电子工程有限公司 | 越南文和中文的词与短语4码互译系统 |
CN103019410A (zh) * | 2012-12-24 | 2013-04-03 | 郭世忠 | 语义显示汉字输入法 |
CN103970287B (zh) * | 2014-03-19 | 2018-08-31 | 刘伊翰 | 字组字中文输入法及其字根键盘 |
CN109902673A (zh) * | 2019-01-28 | 2019-06-18 | 北京明略软件系统有限公司 | 表格中表头信息识别和整理方法、系统、终端和存储介质 |
CN114970502A (zh) * | 2021-12-29 | 2022-08-30 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
CN114970502B (zh) * | 2021-12-29 | 2023-03-28 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dickey | Ancient Greek Scholarship: A Guide to Finding, Reading, and Understanding Scholia, Commentaries, Lexica, and Grammatiacl Treatises, from Their Beginnings to the Byzantine Period | |
Saad et al. | Osac: Open source arabic corpora | |
Liang | Intellectual trends in the Ch'ing period | |
Iurato | Learner corpus research meets Chinese as a second language acquisition: Achievements and challenges | |
CN101122895A (zh) | 一种计算机辅助外语阅读训练系统及其方法 | |
CN1687877A (zh) | 中英通双向汉字输入法 | |
Zhao | Chinese character modernisation in the digital era: A historical perspective | |
CN101727195A (zh) | 汉语语音码多样信息输入法 | |
Rießler | Towards a digital infrastructure for Kildin Saami | |
Abdumanapovna | The contemporary language studies with corpus linguistics | |
Talalakina et al. | Developing and Validating an Academic Vocabulary List in Russian: A Computational Approach | |
Cu̓ò̓ng | Research of square scripts in Vietnam: An overview and prospects | |
Li et al. | Parallel Aligned Treebanks at LDC: New Challenges Interfacing Existing Infrastructures. | |
Li et al. | The first international ancient Chinese word segmentation and POS tagging bakeoff: Overview of the EvaHan 2022 evaluation campaign | |
Islam et al. | Development of multilingual assamese electronic dictionary | |
Saarela | The Manchu script and information management: Some aspects of Qing China’s great encounter with alphabetic literacy | |
CN1455358A (zh) | 华语拼音统一方案及单拼输入与智能转换翻译 | |
CN104238765B (zh) | 中小学生键盘,标拼码输入法 | |
CN85100087A (zh) | 《中文声数编码》方案及其实现方法 | |
Laatar et al. | An xml model for an arabic historical dictionary | |
Chen et al. | Accelerating Hakka Speech Recognition Research and Development Using the Whisper Model | |
Swiggers | 46 19th century linguistics: practice and theory | |
Nattinger et al. | A Lexical Phrase Dictionary for Language Learners. | |
CN1542591A (zh) | 汉语拼音仿真输入法 | |
CN1028386C (zh) | 电脑汉字象形编码输入计算机的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C57 | Notification of unclear or unknown address | ||
DD01 | Delivery of document by public notice |
Addressee: Liu Yihan Document name: Notification before expiration of term |
|
C57 | Notification of unclear or unknown address | ||
DD01 | Delivery of document by public notice |
Addressee: Liu Yihan Document name: Notification that Application Deemed to be Withdrawn |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |