[go: up one dir, main page]

CN102622343A - 越南文和中文的词与短语4码互译系统 - Google Patents

越南文和中文的词与短语4码互译系统 Download PDF

Info

Publication number
CN102622343A
CN102622343A CN2012100713349A CN201210071334A CN102622343A CN 102622343 A CN102622343 A CN 102622343A CN 2012100713349 A CN2012100713349 A CN 2012100713349A CN 201210071334 A CN201210071334 A CN 201210071334A CN 102622343 A CN102622343 A CN 102622343A
Authority
CN
China
Prior art keywords
index code
chinese
module
index
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100713349A
Other languages
English (en)
Other versions
CN102622343B (zh
Inventor
许惠民
黄翊
黄守中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KUNMING NANZHU ELECTRONIC ENGINEERING Co Ltd
Original Assignee
KUNMING NANZHU ELECTRONIC ENGINEERING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KUNMING NANZHU ELECTRONIC ENGINEERING Co Ltd filed Critical KUNMING NANZHU ELECTRONIC ENGINEERING Co Ltd
Priority to CN201210071334.9A priority Critical patent/CN102622343B/zh
Publication of CN102622343A publication Critical patent/CN102622343A/zh
Application granted granted Critical
Publication of CN102622343B publication Critical patent/CN102622343B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种越南文和中文的词与短语4码互译系统,由造字及编码模块、建立和规范数据库模块、索引码输入法模块、索引码的编制模块、词条查找模和词条选择模块组成,这6个模块设置于一个手机内,该手机原有的全部操作功能和手机内部各模块的连接关系保存不变,只要输入4个码,即能较快的查找到用户所需的词,并且输入字符少,产生同码词少。同时,也是用户比较容易掌握的越南文和中文的互译方法。

Description

越南文和中文的词与短语4码互译系统
技术领域
本发明涉及文字信息处理领域的中文及多语种处理技术,尤其是一种越南文和中文的词与短语4码互译系统。
背景技术
通常,每个中文词由若干中文字组成,每个中文字由若干编码组成,根据需要,编码可为拼音码、笔画码等。把由1个中文字组成的中文词称为单字词,例如中文词“幻”。把由2个中文字组成的中文词称为双字词,例如中文词“幻想”。以此类推,有3字词、4字词、多字词。
每个越文词由若干越文字组成,每个越文字由一个或几个越文字母组成。把由1个越文字组成的越文词称为单字词,例如越文词“a”和
Figure BDA0000144464280000011
把由2个越文字组成的越文词称为双字词,例如越文词
Figure BDA0000144464280000012
以此类推,有3字词、4字词、多字词。
其它文字的词也是类似的结构。
目前广泛使用的中文与其它语种的词与短语的翻译多采用独立的词典(包括纸词典和电子词典),如《越汉词典》或《汉越词典》,如果从越南文翻译为中文,就使用《越汉词典》,先输入越南文的词,再来查找中文的同义词,实现翻译的目的。如果从中文翻译为越南文,则使用《汉越词典》,先输入中文的词,再查找越南文的同义词,实现翻译的目的。
这种查找方法,都是先输入一个或几个字符或编码,实现一个字的输入,再输入另一个或几个字符或编码,实现另一个字的输入,如此重复,实现一个词的输入。然后,再查找另一种文字的同义词。这种方法一般称为首字母(字符)查找法。为了提高查找速度,都采用只输入词开头的一个或几个字。在输入字的时候,也要尽可能少输入字符或编码。如果输入的字符或字少了,产生的同码字或同码词(同码字或同码词就是相同的编码的字或词)就多,为了找到需要的词,就要不断的翻页,给用户使用带来不便,如果输入字符多了,也给用户使用带来不便。
例如:如要查找越南文短语:
Figure BDA0000144464280000013
如果使用上述的方法,先输入一个字符“t”字,有15164个同码词,输入2个字符“th”,有3649个同码词,输入3个字符“tha”还有1756个同码词,即使输入“thanh”5个字符,还有90多个同码词,如果还要减少同码词,更快的查找到用户所需的词,还要再输入“空格”和“n”或更多。特别是越南文,如果采用目前计算机最通用的UniKey输入法,如果输入有的字母和声调,往往需要2-3个字符,如:
Figure BDA0000144464280000021
要输入3字符,即“awj”,
Figure BDA0000144464280000022
也要输入“oox”3个字符,也要输入“dd”2个字符,如果输入整个词,需要的字符就更多了。
所以,目前常用的中文与其它文字的翻译方法就存在:输入的字符或编码较为繁琐;如果减少输入字符,产生的同码词又多的缺点。
发明内容
针对上述存在的不足,本发明提供一种越南文和中文的词与短语4码互译系统,只要输入4个码,即能较快的查找到用户所需的词,并且输入字符少,产生同码词少。同时,也是用户比较容易掌握的越南文和中文的互译方法。其技术方案如下:
一种越南文和中文的词与短语4码互译系统,由造字及编码模块、建立和规范数据库模块、索引码输入法模块、索引码的编制模块、词条查找模和词条选择模块组成,这6个模块设置于一个手机内,该手机原有的全部操作功能和手机内部各模块的连接关系保存不变,其中
造字及编码模块:调出手机英文字库,并选择在本手机不使用的字符修改为与英文不同的越南文字符点阵,使用原来编码,再存储到手机英文字库中;
建立和规范数据库模块:数据库采用手工录入收集到的词汇并全部录入为Excel文件,再经规范处理并转为数字编码,经过规范处理并转为数字编码的数据库文件存储于手机的TF卡中;
索引码输入法模块和索引码的编制模块:把编制好的《越南文索引码输入法》、《汉语拼音索引码输入法》和《中文笔画索引码输入法》三种索引码输入法的索引码存放在手机操作系统中,各项索引码输入法通过手机的方向键盘进行调用;
词条查找模块:通过手机键盘选择查找词所需的索引码输入法及输入索引码组;
词条选择模块:词条查找模块中的查找程序写入手机操作系统;根据手机键盘输入的索引码输入法的索引码组通过词条查找模块调用手机TF卡中的有关数据。
所述的互译系统,其特征是不但可以实现越南文和中文的互译,也可以实现中文与其它语种的互译,当然不同的语种在造字、数据库的建立和索引码的开发上有所不同。也可以在其它设备上运行,但是,对不同的设备,也要根据其具体的软、硬件环境修改本系统,才能在这种设备上运行。
所述的建立的造字及编码模块,是在运行平台的英文字库中,找出本手机不用的英文字符,修改它的点阵为与英文不同的越南文字母与符号的点阵,原来的编码不变,必要时也可以重新造字及编码。
所述的建立和规范数据库模块包括92110条词条,其中还有9300余条例句和专有名词,数据库是按越南教育部部长1984年3月5日第240号决定的有关规定对字母的顺序和声调的顺序进行排序的,越南文、中文和汉语拼音各为一列,每个词条作为一行,只有一个释义,每个词条包含有越南文、中文和汉语拼音。
所述的索引码输入法模块选定了《越南文索引码输入法》、《汉语拼音索引码输入法》和《中文笔画索引码输入法》三种索引码输入法。
所述的索引码的编制模块编制了三种输入法的索引码:
《越南文索引码输入法》用[Vn]代表:取消了声调,大写视为小写,合并了几个字符,越文的索引码除了26个英文字母作单字索引码外,还使用2到3个英文字母组合的19个组合索引码:ba、ca、ch、cha、da、gi、ho、kh、la、nh、ng、nha、nga、ngo、ph、qu、th、tr、tha,索引码包括单字索引码和组合索引码;
《汉语拼音索引码输入法》用[py]代表,它的索引码除了23个拼音字母作单字索引码外,还有16个组合索引码:an、ao、ch、chu、ci、cu、gu、hu、ji、li、ng、qi、sh、xi、yi、zh,汉语拼音共计39个索引码;
《中文笔画索引码输入法》用[bh]代表:把汉字归纳为5种笔画,按由上而下,由左至右的顺序输入;用数字代表笔画,即1横(一),2竖(丨),3撇(丿)4捺(丶),5折(乛),4码互译系统只需要输入前4笔,第5笔输入该字最后一笔即可;每个笔画索引码是由3个笔画码组合而成,不足3个笔画码的,用“*”补足;在笔画索引码中,每个“*”号只代表一个笔画。
所述的词条查找模块,当选定索引码输入法后,根据几个字组成的词,按规定的方法输入4个索引码,4码互译系统就自动启动查找程序,根据选定的索引码输入法,按数据库中的列查找符合索引码组的词,屏幕立即显示这个词所在词条的全部,包括越南文、中文和汉语拼音;同时,也可查找到这一个索引码组的同码词条;索引码查找的方法有:查找单字词的方法;查找双字词的方法;查找3字词的方法;查找4字词及多字词的方法。
所述的词条选择模块,当输入一个索引码组后,手机屏幕立即会显示该索引码组的一条词条,但可能有若干个同码词,用户可选定手机上的“U/D”功能方块,用手机方向键中的上下键选择所需词条;当这一个索引码组选择完毕后,继续使用上下键,还会按不同索引码的排序,继续显示其它索引码的词条。
本发明的越南文和中文的词和短语4码互译系统:
1、建立和规范一个10万个左右的词和短语的数据库,包括单字词、双字词、三字词、四字词、多字词和常用短语,它基本上含盖了日常用的词和短语;
2、建立3种索引码输入法,即:越南文索引码输入法,汉语拼音索引码输入法和中文笔画索引码输入法,要求任何一种索引码输入法,都能查找到数据库内的相同释义的另一种文字,同时在手机屏幕上显示:越南文、中文和汉语拼音。提供汉语拼音的目的是:便于越南人学习中文。采用中文笔画索引码输入法的目的是:为了给不会拼音和不能读出中文的用户,可以根据中文字的笔画特点进行查找。
3、要求每种索引码输入法都能覆盖数据库中的全部词条,而且要求每种索引码输入法,只需要输入4个索引码(即一个索引码组),就能查找到数据库中的另一种文字的同义词,还要求三种输入法的基本操作方法是相同的,便于用户掌握。
4、要求每种索引码输入法的每个索引码组,产生其同码词要少,除特殊情况外,一般不超过50条。便于用户查找。50条要求的制定是经试验确定的,如果对50条词条的查找,只需20到30秒的时间。
附图说明
图1:本发明的原理方框图;图1中的各标示引线说明如下:
A、粗线框内是越南文和中文的词与短语4码互译系统框图,其中包括6个模块;4码互译系统是先在计算机中建立,然后再写入运行平台——手机的有关模块中。
B、粗线框内是4码互译系统的运行平台,目前采用深圳HUAYU公司生产的001手机框图,其中,手机操作系统与手机内部各模块的关系略去。
下面主要说明4码互译系统和手机运行平台之间的关系:
1-从手机调出英文字库,并选择其中在本手机不使用的字符,修改为与英文不同的越南文字符点阵,使用原来编码,再存储到手机英文字库中。
2-将手机中的英文字库的编码,调入数据库中,作为越南文字库及编码。
3-数据库采用手工录入,将收集到的词汇全部录入为Excel文件,再经规范处理,并转为数字编码。
4-将经过规范处理并转为数字编码的数据库文件存储于手机的TF卡中。
5-选定三种索引码输入法,由手机方向键盘选择查找词所需的索引码输入法。
6-把编制好的三种索引码输入法的索引码存放在手机操作系统中。
7-通过手机键盘选择查找词所需的索引码输入法及输入索引码组。
8-把4码互译系统的词条查找模块中的查找程序写入手机操作系统。
9-根据手机键盘输入的索引码输入法的索引码组通过词条查找模块调用手机TF卡中的有关数据。
10-由词条查找模块调出的数据是该索引码组的同码词数据,进入词条选择模块。
11-进入词条选择模块的数据,再通过数据转换驱动手机屏幕显示,再通过手机方向键盘选择所需查找的词条。
12-手机屏幕显示所需词条的越南文、中文和汉语拼音。
图2是手机面板、屏幕示意图,图2中的标示引线说明如下:
13-手机确认键。14-手机方向键。15-手机返回键。
16-当选中手机操作系统中的“越中词典”项目时,屏幕下方同时显示6个方块:开头的方块显示4码互译系统系统的3种索引码输入方法,通过上下键选择,选中后用右键移开即可。中间4个方块是用作输入和显示所需要查找词的4个索引码框。用上下键选择索引码,选中后用左右键移开即可。最右端的“U/D”方块。用作词的选择。当输入一个索引码组输入后,可能有若干个同码词,用上下键选择所需词。
17-索引码的提示行(无框),共显示6个索引码,选中的索引码在索引码框内为红色,在提示行的第3个也为红色,如果不是所需索引码,前两个码提示用户应该向上选择,后3个码提示向下选择。
18-用中文和越南文显示当前输入法。并附向上或向下标志。
19-词条显示区域。用三行显示,第1行为越南文(蓝色),第2行为中文(红色),第3行为汉语拼音(黑色)。
20-数据库中的词条号。数据库共计9.2万余条词条的第70328条,只作出厂检验用。
21-粗线内框为手机屏幕。22-手机面板。
具体实施方式
下面结合图1-2,对本发明作进一步说明:
1、造字及编码模块。越南文有33个字母,除了与英文相同的26个字母外,还有7个字母与英文不同,越南文有10个元音,每个元音还有5种声调,包括大小写及其它符号,一共有200多个字符。我们选择的001手机作为运行平台,它只有简体中文和英文两种字库,所以,必须造字及编码。具体做法是:我们直接在该手机的英文字库中,寻找在本手机中不使用的字符,修改它的点阵为与英文不同的越南文字母与符号的点阵,原来的编码不变,这样就可以使用原来的编码,调用这些越南文字符。
2、建立和规范数据库模块。为了实现越中文字的互译,4码互译系统只建立一个数据库,同时,要对它进行规范的处理,否则就会翻译出错。
数据库的建立是根据多个版本的《越汉词典》《中越词典》和我们从报刊、民间------等多种渠道收集到的一些新的词汇。用手工在Excel中录入。规定:第一列输入越南文,第二列输入同义中文,第三列通过程序自动生成每一个中文字的汉语拼音,即一个字一个拼音。我们把三列的越南文、中文同义词和汉语拼音写在Excel的一行中,称为一个词条。4码互译系统共收集了92110条词条,基本上满足我们设定的目标。词条录入后,一定要进行规范的处理。
为了便于中越文的互译,4码互译系统的数据库是根据越南教育部部长1984年3月5日第240号决定的有关规定:对字母的顺序和声调的顺序进行排序的。并采用“一义一条”的方法,如果一个词有多个释义时,我们就把每一个释义,列为一条词条,如“越南文词
Figure BDA0000144464280000061
有4个释义,就有并列的4条词条。如:
Figure BDA0000144464280000062
同样,中文也采取“一义一条”的方法,如中文词“一心一意”,它也有多个越南文的释义,如:
Figure BDA0000144464280000063
对数据库进行的规范处理。首先要对多音字进行处理,自动生成的汉语拼音,在中文中有许多是多音字,根据这个字在词里的位置,通过人工选择它正确的读音。如:“行”字,生成两个拼音,hang和xing,在“银行”词中就选择“yin hang”,在“行人”词中就选择“xing ren”。
其次,在数据库中还有9300余条例句或专有名词,在这些词条的前面加“>”符号,表示该词条是前一个词条的例句或专有名词。例句包括该词的扩张用法,或是同样的意思,另外的表述方式,在数据库中,把没有“>”符号的词,列为参与排序和可查找的词,把有“>”符号的例句不参加排序和查找,作为它跟随上一句可查找的词显示。因为,在这类词条的头几个字,不一定与前面字相同,排序时就跳到别的地方,而失去了它们作为前一个词的扩张用法和另外的表述方式的意义。如:
Figure BDA0000144464280000071
上例就是越南文
Figure BDA0000144464280000072
Figure BDA0000144464280000073
的扩张用法。
专有名词包括国家名、首都、地名或电器、工业设备等,有的专有名词在使用越南文和中文后,还使用通用英语表述,使用英语时,在词条后面加[E]区别。如:
Figure BDA0000144464280000074
第三,数据库的越南文列,不能有中文、英文或其它文字,如果必须有外来语的英文和专有名词,要在词的后面,加[E]说明;在中文列中不能有中文以外的文字,拼音列也不能有拼音以外的文字,如果必须有,要用括弧括起来,放在中文和拼音的后面。这样括弧及括弧外的文字就可参与排序和查找,而括弧及括弧内的文字只跟随中文或拼音显示。如:
越南文        中文        拼音
DVD-Rom[E]        光驱(DVD)        guang qu(DVD)
“DVD-Rom[E]”是外来语(英语),越南文也有DVD字母,所以,可以参加排序及查找,但用[E]加以说明该词是英语。中文列和拼音列一定要把中文和拼音放在前面,把英文的(DVD)放在中文和拼音的后面,并加括弧,在查找时,是按照中文和拼音进行查找,括弧及括弧内的文字不参与查找。因为,排序及查找程序越南文列只识别越南文字母,中文列只识别中文笔画,拼音列只识别拼音字母。否则就会造成翻译的错误。
第四,数据库中除越中互译的9.2万余条词条外,还有4个其它内容,它们是:《越南民间常用语》它是通过越南字母的排序进行查找,中越文对照。
《越南语常用800句》按37个用途进行分类,中越文对照。如:称呼、问候、昆明旅游、越南旅游、进饭店、住宾馆、购机票------等等。
《查找帮助(越文)》和《查找帮助(中文)》是为了用户不了解或不熟悉4码互译系统而编制的。
它们是词与短语互译的补充,使用专门的程序进行调用,直接在手机屏幕上显示越南文和中文。没有汉语拼音,供初学者和旅游者使用。
数据库通过计算机建立和规范后,并转为数字编码,再通过手机USB接口,存储于手机的TF卡中,提供给其它模块进行调用。
3、索引码输入法模块。4码互译系统首先必须定义什么是“字”,什么是“词”,什么是“短语”。中文的“字”是由笔画组成,越南文的“字”是由字母组成,不论是中文或越南文,由一个字组成的词,称为单字词,如中文“幻”,越南文
Figure BDA0000144464280000081
Figure BDA0000144464280000082
由两个字组成的词,称为双字词,如中文“幻想”,越南文
Figure BDA0000144464280000083
以此类推,有3字词、4字词,4个字以上的词称多字词。由若干个词组成的简短的语句,称为短语,在4码互译系统中作为多字词处理。
4码互译系统选定了三种索引码输入法,这里所说的索引码输入法,不是传统的越南文、汉语拼音和中文笔画的输入法,它们都是输入单个的字母或笔画。而是索引码输入法,是在三种输入法的基础上通过字母、编码的合并与组合而成的。三种索引码输入法是:
《越南文索引码输入法》、《汉语拼音索引码输入法》和《中文笔画索引码输入法》,索引码输入法通过手机的方向键盘进行调用。
4、索引码的编制模块。4码互译系统的索引码编制:是以传统的输入法为基础;以数据库中的9.2万条词条为对象;根据越南文、汉语拼音和中文笔画的结构特点,每种索引码输入法要求只能输入4个索引码,也必须输入4个索引码为统一的方法;而产生的同码词,除特殊的情况以外,一般不超过50条为标准而编制的。
编制的方法是:设定一个4码方案,例如越南文索引码的编制,首先对数据库中的越南文各个字母所包含的词条进行统计,选定一个试验方案。通过自编的程序按试验方案进行4个索引码的不同组合,对数据库中的9.2万条词条进行查找,自动计算出本方案各个索引码组的同码词的数量。然后对超过50条同码词的索引码组进行修改,也就是对字母或编码的合并和组合。合并是把几个字母或编码合并为一个单字索引码,组合就是把几个字母并列为一个索引码。
《汉语拼音索引码输入法》也是采用同样的方法。《中文笔画索引码输入法》只有5个编码,但基本方法与前两种一样,就是选择几个数字码合并为一个索引码。经过反复的试验、修改,最后形成现在的最优方案。
《越南文索引码输入法》用[Vn]代表:取消了声调,大写视为小写,合并了几个字符,即大写和小写的A、
Figure BDA0000144464280000091
都视为a,大写和小写的D、
Figure BDA0000144464280000092
部视为d,大写和小写的E、
Figure BDA0000144464280000093
都视为e,大写和小写的O、O’都视为o,大写和小写的U、U’都视为u。但是在词条的显示时,仍然显示大写、小写和声调。越文的索引码除了26个英文字母(我们称单字索引码)外,还使用2到3个英文字母组合的19个组合索引码:ba、ca、ch、cha、da、gi、ho、kh、la、nh、ng、nha、nga、ngo、ph、qu、th、tr、tha。索引码是单字索引码和组合索引码的总称。这样越南文共计45个索引码。
《汉语拼音索引码输入法》用[py]代表,它的索引码除了23个拼音字母(单字索引码)外,还有以下16个组合索引码:an、ao、ch、chu、ci、cu、gu、hu、ji、li、ng、qi、sh、xi、yi、zh。所以汉语拼音共计39个索引码。
《中文笔画索引码输入法》用[bh]代表:它把汉字归纳为5种笔画,按字的特点,由上而下,由左至右的顺序输入。用数字代表笔画,即1横(一),2竖(丨),3撇(丿)4捺(丶),5折(乛)。4码互译系统只需要输入前4笔,第5笔输入该字最后一笔即可。每个笔画索引码是由3个笔画码组合而成,不足3个笔画码的,用“*”补足。在笔画索引码中,每个“*”号只代表一个笔画。
用户在选择索引码时,如有符合组合索引码的词必须选择组合索引码。如越文词
Figure BDA0000144464280000095
因为有组合索引码th,所以第1个索引码应选择th,选择t或tha都不对。第3索引码也应选择“nh”。
5、词条查找模块。这是4码互译系统中最核心的模块,当选定择索引码输入法后,根据几个字组成的词,按规定的方法输入4个索引码,4码互译系统就自动启动查找程序,根据选定的索引码输入法,按数据库的列(如:输入越南文的索引码,就在数据库中越南文列中进行查找)查找符合索引码组的词,屏幕立即显示这个词所在词条的全部,包括越南文、中文和汉语拼音。同时,也可查找到这一个索引码组的同码词条。索引码查找的方法有4种,它们是:
查找单字词的方法;
查找双字词的方法;
查找3字词的方法;
查找4字词及多字词的方法。
词条查找模块的输入法选择,索引码的输入,都是通过手机方向键盘实施的。
6、词条选择模块。当输入一个索引码组后,手机屏幕立即会显示该索引码组的一条词条,但可能还有若干个同码词,用户可选定手机上的“U/D”功能方块。用手机方向键中的上下键选择所需词条。当这一个索引码组选择完毕后,继续使用上下键,还会按不同索引码的排序,继续显示其它索引码的词条。
如果用户不了解所要查找的词是几字组成的词,可以先按单字词进行查找,再与相邻的字查找双字词,和三字词,如果邻近的词与先查找的单字词无关,屏幕会显示“NO suchword in the Database”同时显示相同含义的中文“词典库中无此编码的词”和相同含义的越南文。
经过自编的程序对数据库中的9.2万条词条的索引码和4种方法的检查,其结果是:
已经完成原定的设计目的,4码互译系统已经能全部实现数据库内9.2万条词条的互译,其中超过50个同码词的比例已经很小。根据自编的程序的统计是:
汉语拼音索引码输入法,没有一个索引码组超过50条同码词,在40条以上的也只有6个索引码组。
中文笔画索引码输入法,同码词超过50条的有6个索引码组,最多的一个索引码组也只有75条同码词,而且全部是单字词。
越南文索引码输入法,超过50条同码词的有16个索引码组,超过60条的有6个索引码组。三种输入法,其中越南文超过的较多,其中主要是单字词,在50条以上的16个索引码组中有5个双字词,超过60条同码词中,只有1个索引码组是双字词有63条。
其中越南文索引码组:[Vn]/d/o/*/*/。同码词最多,达到101条,是整个4码互译系统中最多的一个索引码组,根据分析,该索引码组的查找到的越南文单字词有21个,而且“d”和“o”都是合并后的索引码,而且其中许多词的释义较多,所以,这一索引码组的同码词较多也是必然的。对其索引码已经难于再进行优化了。但是,双字词超过50条同码词的索引码组已经很少,三字词,四字词和多字词已经没有超过50条同码词的索引码组,特别是4字词和多字词,多数是唯一的,最多的也不超过10个同码词。
因此我们认为:索引码的编制已经满足预定的目标。仍以前面所提到的越南文
Figure BDA0000144464280000111
短语为例;是一个5个越南字组成的短语。但是,使用4码互译系统,只需输入前4个字的第1个索引码,即:[Vn]/tha/n/h/m/。立即查到并显示:越南文、中文和汉语拼音,而且同码词仅此1条:
越南文
Figure BDA0000144464280000112
中文   青年人爱幻想
汉语拼音   qing nian ren ai huan xian
又如查找中文“吃饭莫忘种田人”的短语,是7个中文字,也只要输入前4个字的汉语拼音索引码:[py]/ch/f/m/w/。或输入中文笔画索引码:[bh]/251/355/122/415/。屏幕立即显示越南文、中文和汉语拼音,同码词也是仅此1条:
越南文
Figure BDA0000144464280000113
中文  吃饭莫忘种田人
汉语拼音  chi fan mo wang zhong tian ren
同样以前面所提到的越南文“t”为例,如果使用首字母查找方法,输入一个“t”字,有15164个同码词。而使用4码互译系统只输入越南文索引码组:[Vn]/t/*/*/*/。只有3个同码词,它们是:“T越南文字母大写”,“t越南文字母小写”,“t吨的缩写”。
由此可见,在输入4个码的条件下,“越南文和中文的词与短语4码互译系统”,是输入字符少,产生同码词少。同时,用户也是比较容易掌握的越南文和中文的互译方法。
本发明提出的这个互译系统案,不但可以实现越南文和中文的互译,也可以实现中文与其它语种的互译,当然不同的语种在造字、数据库的建立和索引码的开发上有所不同。也可以在其它设备上运行,但是,对不同的设备,也要根据其具体的软、硬件环境修改本系统,才能在这种设备上运行。
目前,我们选择了难度较大的,没有键盘的触摸屏多功能手机上(深圳HUAYU公司生产的001手机)运行这个4码互译系统。主要是这款手机供应商为我们提供了二次开发所需要的软、硬件资料和接口。安装于深圳HUAYU公司生产的001多手机上,当选中手机功能块中的“电子词典等工具3”时,按“确认键”立即弹出该项菜单共10项,其中前5项就是4码互译系统的有关文件,它们是:
□越中词典
□越南民间常用语
□越语常用800句
□查找帮助(越文)
□查找帮助(中文)
在用上下选中“越中词典”项目时,按“确认键”屏幕的下方就出现6个方块,用左右键选择,未选中的方块中显示的字符为蓝色,选中后显示的字符为红色。它们的功能是:
开头的方块显示本系统的3种索引码输入方法,通过上下键选择,选中后用右键移开即可:
中间4个方块是用作输入和显示需要查找词的4个索引码框。当选中某种索引码查找法后,索引码自动转为该索引码查找法的索引码。用上下键选择索引码,选中后用左右键移开即可。
索引码虽然比字母多,但是它不需要用户记忆,索引码都已经写在程序里,只要用上下键选择即可。而且在手机屏幕下方,我们还设置一行有6个索引码的提示行,给用户指出应该向上或向下选择索引码。
最右端的“U/D”方块。用作词的选择。当输入一个索引码组输入后,可能有若干个同码词,用上下键选择所需词。当这一索引码组选择完毕后,继续使用上下键,还会按索引码的排序,继续显示其它编码的词。
下面是4种方法的查找实例,为了表述清楚,用“/”号将4个索引码隔开,在4个索引码的前面,用[Vn][py]和[bh]表示索引码三种输入法。有的例子只选取同码词中的一条。经过查找选定的词条,下文中用粗字表述,字符与手机屏幕显示相同(如附图2所示)。
查找单字词的方法:输入该字的4个索引码,超过4个索引码的可以不输,不足4个索引码,用“*”号补足:如:
越文词“a”,其4个越南文索引码应为:[Vn]/a/*/*/*/。即可查找到下面的词条:(选其中一条,以下相同)
A
越南文字母,元音
yue nan wen zi mu,yuan yin
越文词其4个越南文索引码应为:[Vn]/th/i/e/n/。其中th为组合码,虽然该词还有1个字母g,只要输入前4个索引码。即可查找到下面的词条:
Figure BDA0000144464280000132
qian
中文词“月yue”其拼音索引码为:[py]/y/u/e/*/该字只有3个字符,第4个用“*”号补足。
Figure BDA0000144464280000133
yue
中文词“幻”其笔画索引码为:[bh]/554/5**/***/***/。幻字的第1笔是5‘折’,第2笔也是5‘折’,第3笔是4‘捺’(即点)554组成第1个笔画索引码;第2个索引码只有最后1笔5‘折’,不足的用“*”号补足。
□○
huan
查找双字词的方法:将第1个字的第1、2个索引码分别输入第1、2个索引码框内,再将第2个字的第1、2个索引码分别输入第3、4索引码框内,不足2码的用“*”号补足。如:
越南词
Figure BDA0000144464280000134
的索引码为:/qu/a/nh/I/其中qu和nh为组合码,该索引码组有6个同码词,选定“U/D”框,用上下键选择。
越文词
Figure BDA0000144464280000135
的索引码为:[Vn]/m/o/m/o/.。输入后即可查找到下面的词条:
m□m□ng
幻想
huan xiang
越文词“a dua”的索引码为:[Vn]/a/*/d/u/.。输入后即可查找到下面的词条:
a dua
阿谀
e yu
中文词“仪表yi biao”的拼音索引码为:[py]/yi/*/b/I/.。输入后即可查找到下面的词条:
dáng ng□□i
仪表
yi biao
中文词“幻想”的笔画索引码为:[bh]/554/5**/123/44*/中文笔画索引码,每组3个笔画码,每个字只输入5笔,不足用“*”号补足。显示与上条相同。这是从中文翻译为越南文的同义词。
M□m□ng
幻想
huan xiang
查找3字词的方法:只要把3个越南文字或中文字的第1个索引码分别输入到1、2、3个索引码框内,第4个索引码框输入“*”号即可。如:
越文词
Figure BDA0000144464280000141
的索引码为:[Vn]/I/m/g/*/。输入后即可查找到下面的词条:
l□p m□u giáo
幼儿园
you er yuan
越文词
Figure BDA0000144464280000142
的索引码为:[Vn]/p/m/tr/*/。输入后即可查找到下面的词条:
pin m□ttr□i
太阳能电池
tai yang neng dian chi
中文词“轻飘飘qing piao piao”的拼音索引码为:[py]/qi/p/p/*/。输入后即可查找到下面的词条:
nh□bang bang
轻飘飘
qing piao piao
中文词“染色体”的笔画索引码为:[bh]/441/355/321/***/.。输入后即可查找到下面的词条:
Mhi□ms□cth□
染色体
ran seti
查找4字词及多字词的方法:只要把词前面的4个越文字或4个中文字的第1个索引码分别输入到1、2、3、4个索引码框内即可。如:
越文词
Figure BDA0000144464280000151
的索引码为:[Vn]/gi/d/m/m/.。输入后即可查找到下面的词条:
giáo d□cm□m mon
幼儿教育
you erjiao yu
越文词
Figure BDA0000144464280000152
的索引码为:[Vn]/tha/cha/m/l/。虽然这个越南文词有5个字,只需要输入前4个字的第1个索引码即可。
Th□tch□tm□i lienl□c
密切联系
mi qie lian xi
中文词“瑞雪兆丰年rui xue zhao feng nian”的拼音索引码为:[py]/r/x/zh/f/虽然有5个中文字,只要输入前4个中文字的索引码即可:
Figure BDA0000144464280000153
瑞雪兆丰年
rui xue zhao feng nian
中文词“温度控制仪”的笔画索引码为:[bh]/441/413/121/311/虽然有5个汉字,只要输入前4个中文字的索引码即可。
Figure BDA0000144464280000154
温度控制仪
wen du kong zhi yi
数据库中其它的4个内容:《越南民间常用语》《越语常用800句》《查找帮助(越文)》《查找帮助(中文)》在菜单中选中打开后,就会弹出该文件的目录,用上下键选择目录,再用左键点击,就会在手机屏幕上是显示该目录的全部内容,一屏显示不完,用上下键选择没有显示完的内容。
操作完成后,按手机“返回键”返回功能菜单或开机画面。
本发明的“越南文和中文的词与短语4码互译系统”已安装于50台深圳HUAYU公司生产的001手机上,经检验,产品全部合格,合格率为100%,4码互译系统运行正常。即将交云南省电子产品质量监督检测站作正式鉴定检测,并在网上公布,上市销售。

Claims (8)

1.一种越南文和中文的词与短语4码互译系统,由造字及编码模块、建立和规范数据库模块、索引码输入法模块、索引码的编制模块、词条查找模和词条选择模块组成,这6个模块设置于一个手机内,该手机原有的全部操作功能和手机内部各模块的连接关系保存不变,其中
造字及编码模块:调出手机英文字库,并选择在本手机不使用的字符修改为与英文不同的越南文字符点阵,使用原来编码,再存储到手机英文字库中;
建立和规范数据库模块:数据库采用手工录入收集到的词汇并全部录入为Excel文件,再经规范处理并转为数字编码,经过规范处理并转为数字编码的数据库文件存储于手机的TF卡中;
索引码输入法模块和索引码的编制模块:把编制好的《越南文索引码输入法》、《汉语拼音索引码输入法》和《中文笔画索引码输入法》三种索引码输入法的索引码存放在手机操作系统中,各项索引码输入法通过手机的方向键盘进行调用;
词条查找模块:通过手机键盘选择查找词所需的索引码输入法及输入索引码组;
词条选择模块:词条查找模块中的查找程序写入手机操作系统;根据手机键盘输入的索引码输入法的索引码组通过词条查找模块调用手机TF卡中的有关数据。
2.根据权利要求1所述的互译系统,其特征是不但可以实现越南文和中文的互译,也可以实现中文与其它语种的互译,当然不同的语种在造字、数据库的建立和索引码的开发上有所不同。也可以在其它设备上运行,但是,对不同的设备,也要根据其具体的软、硬件环境修改本系统,才能在这种设备上运行。
3.根据权利要求1所述的互译系统,其特征是所述的建立的造字及编码模块,是在运行平台的英文字库中,找出本手机不用的英文字符,修改它的点阵为与英文不同的越南文字母与符号的点阵,原来的编码不变,必要时也可以重新造字及编码。
4.根据权利要求1所述的互译系统,其特征是所述的建立和规范数据库模块包括92110条词条,其中还有9300余条例句和专有名词,数据库是按越南教育部部长1984年3月5日第240号决定的有关规定对字母的顺序和声调的顺序进行排序的,越南文、中文和汉语拼音各为一列,每个词条作为一行,只有一个释义,每个词条包含有越南文、中文和汉语拼音。
5.根据权利要求1所述的互译系统,其特征是索引码输入法模块选定了《越南文索引码输入法》《汉语拼音索引码输入法》和《中文笔画索引码输入法》索引码输入法。
6.根据权利要求1或5所述的互译系统,其特征是所述的索引码的编制模块编制了三种输入法的索引码:
《越南文索引码输入法》用[Vn]代表:取消了声调,大写视为小写,合并了几个字符,越文的索引码除了26个英文字母作单字索引码外,还使用2到3个英文字母组合的19个组合索引码:ba、ca、ch、cha、da、gi、ho、kh、la、nh、ng、nha、nga、ngo、ph、qu、th、tr、tha,索引码包括单字索引码和组合索引码;
《汉语拼音索引码输入法》用[py]代表,它的索引码除了23个拼音字母作单字索引码外,还有16个组合索引码:an、ao、ch、chu、ci、cu、gu、hu、ji、li、ng、qi、sh、xi、yi、zh,汉语拼音共计39个索引码;
《中文笔画索引码输入法》用[bh]代表:把汉字归纳为5种笔画,按由上而下,由左至右的顺序输入;用数字代表笔画,即1横(一),2竖(丨),3撇(丿)4捺(丶),5折(乛),4码互译系统只需要输入前4笔,第5笔输入该字最后一笔即可;每个笔画索引码是由3个笔画码组合而成,不足3个笔画码的,用“*”补足;在笔画索引码中,每个“*”号只代表一个笔画。
7.根据权利要求1所述的互译系统,其特征是所述的词条查找模块,当选定索引码输入法后,根据几个字组成的词,按规定的方法输入4个索引码,4码互译系统就自动启动查找程序,根据选定的索引码输入法,按数据库中的列查找符合索引码组的词,屏幕立即显示这个词所在词条的全部,包括越南文、中文和汉语拼音;同时,也可查找到这一个索引码组的同码词条;索引码查找的方法有:查找单字词的方法;查找双字词的方法;查找3字词的方法;查找4字词及多字词的方法。
8.根据权利要求1所述的互译系统,其特征是所述的词条选择模块,当输入一个索引码组后,手机屏幕立即会显示该索引码组的一条词条,但可能有若干个同码词,用户可选定手机上的“U/D”功能方块,用手机方向键中的上下键选择所需词条;当这一个索引码组选择完毕后,继续使用上下键,还会按不同索引码的排序,继续显示其它索引码的词条。
CN201210071334.9A 2012-03-17 2012-03-17 越南文和中文的词与短语4码互译系统 Expired - Fee Related CN102622343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210071334.9A CN102622343B (zh) 2012-03-17 2012-03-17 越南文和中文的词与短语4码互译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210071334.9A CN102622343B (zh) 2012-03-17 2012-03-17 越南文和中文的词与短语4码互译系统

Publications (2)

Publication Number Publication Date
CN102622343A true CN102622343A (zh) 2012-08-01
CN102622343B CN102622343B (zh) 2014-08-06

Family

ID=46562266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210071334.9A Expired - Fee Related CN102622343B (zh) 2012-03-17 2012-03-17 越南文和中文的词与短语4码互译系统

Country Status (1)

Country Link
CN (1) CN102622343B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1287461A (zh) * 1999-09-06 2001-03-14 深圳市华为技术有限公司 用于移动电话终端的汉字输入方法
CN1321941A (zh) * 2000-05-03 2001-11-14 苏荣斌 中外文信息数字化运算编码处理系统
CN1388438A (zh) * 2002-08-06 2003-01-01 无敌科技(西安)有限公司 一种以上海话发音规则输入中文汉字的方法
CN1687877A (zh) * 2005-04-14 2005-10-26 刘伊翰 中英通双向汉字输入法
CN1854997A (zh) * 2005-04-18 2006-11-01 熊海龙 数字字母输入法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1287461A (zh) * 1999-09-06 2001-03-14 深圳市华为技术有限公司 用于移动电话终端的汉字输入方法
CN1321941A (zh) * 2000-05-03 2001-11-14 苏荣斌 中外文信息数字化运算编码处理系统
CN1388438A (zh) * 2002-08-06 2003-01-01 无敌科技(西安)有限公司 一种以上海话发音规则输入中文汉字的方法
CN1687877A (zh) * 2005-04-14 2005-10-26 刘伊翰 中英通双向汉字输入法
CN1854997A (zh) * 2005-04-18 2006-11-01 熊海龙 数字字母输入法

Also Published As

Publication number Publication date
CN102622343B (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
Anthony AntConc: design and development of a freeware corpus analysis toolkit for the technical writing classroom
US5586198A (en) Method and apparatus for identifying characters in ideographic alphabet
CN102622342B (zh) 中间语系统、中间语引擎、中间语翻译系统和相应方法
Miháltz et al. Methods and results of the Hungarian WordNet project
Abel Dictionary writing systems and beyond
CN102016837A (zh) 中文型文字及文字偏旁的分类及检索的系统与方法
CN102789504A (zh) 一种基于xml规则的中文语法校正方法与系统
CN101739395A (zh) 机器翻译方法和系统
Shoaib et al. Integrating multiwordnet with Italian sign language lexical resources
WO2016197265A1 (zh) 一种输入生僻字的方法
CN101770291B (zh) 输入系统语意分析数据散列存储和分析方法
Aswani et al. A hybrid approach to align sentences and words in English-Hindi parallel corpora
Choudhary et al. A four-tier annotated Urdu handwritten text image dataset for multidisciplinary research on Urdu script
CN101488130A (zh) 基于计算机网络的通过词义查词的系统及其方法
Yadava et al. Construction and annotation of a corpus of contemporary Nepali
Kumaran et al. Compositional machine transliteration
CN102622343B (zh) 越南文和中文的词与短语4码互译系统
CN105824793A (zh) 将汉字转化为数字及拉丁字母的处理系统、方法和装置
Greenwood International cultural differences in software
CN102053955A (zh) 一种符号输入的方法和系统
Timofeeva et al. Anglo-Latin and Old English: A case for integrated bilingual corpus studies of Anglo-Saxon registers
Keyvan et al. Developing persianet: The persian wordnet
CN1687877A (zh) 中英通双向汉字输入法
CN112989068A (zh) 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统
CN101109990B (zh) 一种数码电器汉字字形输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140806

Termination date: 20160317