CN1264072A - 不需要输入音调符号的汉字转换装置 - Google Patents
不需要输入音调符号的汉字转换装置 Download PDFInfo
- Publication number
- CN1264072A CN1264072A CN00100302A CN00100302A CN1264072A CN 1264072 A CN1264072 A CN 1264072A CN 00100302 A CN00100302 A CN 00100302A CN 00100302 A CN00100302 A CN 00100302A CN 1264072 A CN1264072 A CN 1264072A
- Authority
- CN
- China
- Prior art keywords
- syllable
- input
- conversion
- phonetic symbol
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 145
- 238000005520 cutting process Methods 0.000 claims description 13
- 239000000543 intermediate Substances 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 230000007704 transition Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 235000015168 fish fingers Nutrition 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000255789 Bombyx mori Species 0.000 description 1
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种汉字转换装置不需要输入声调符号,增加了输入效率。该汉字转换装置可以自动把连续输入的注意符号切割为多个符合注音合并规则的音节,而无论是否输入声调符号。每个音节或由多个音节构成的每个间串在词典中具有一组相应地同音字或词。由于声调符号的输入可以在本发明中省略,因此可以增加用户的输入速度。另外,可以避免由于错误的声调符号所造成的错误输入。
Description
本发明涉及一种用于从计算机系统中的注音符号的输入行转换汉字的汉字转换装置。
计算机系统中所用的中文繁体字Big5码共有13051个字。将计算机系统汉化的关键是如何快速和正确地输入汉字。目前,在计算机系统中的汉字输入可以通过语音识别、文字识别和键盘操作而实现。利用键盘输入汉字仍然是最可靠和最通用的方法。汉字可以由用户通过键盘根据读音或字形而输入。尽管通过键盘根据字形输入汉字的优点是输入速度较快,但是,使用者难以记住大量的拆字规则,该规则用于把汉字拆为几个部分以供输入。因此,在象台湾这样的一些地方,大多数计算机用户愿意使用中文注音符号来输入汉字,这特别是因为他们从小学时候就开始学习中文注音。
被作为台湾的小学教材的中文注音符号在下文示出。中文注音符号可以被分为四个大组,即韵母、介母、声母和声调。在本发明中,符号“…”表示第一声调,但是,应当指出实际上对于第一声调是没有符号的。声母:ㄅ(b)ㄆ(p)ㄇ(m)ㄈ(f)ㄉ(d)ㄊ(t)ㄋ(n)ㄌ(1)ㄍ(g)
ㄎ(k)厂(h)丩(j)ㄑ(q)ㄒ(x)ㄓ(zh)彳(ch)ㄕ(sh)ㄖ(r)
ㄗ(z)ㄘ(c)ㄙ(s)介母:一(i)ㄨ(u)ㄩ(v)韵母:ㄚ(a)ㄛ(o)せ(e)ㄜ(e)ㄞ(ai)乀(ei)幺(ao)ㄡ(ou)ㄢ(an)ㄣ(en)ㄤ(ang)ㄥ(eng)ㄦ(er)声调:…(第一声调)、
(第二声调)、
(第三声调)、
(第四声调)、
(轻声)
每个音节或字音由韵母、介母和声母或声调所构成。除了声调之外,任何一个、二个或所有的韵母、介母和声母或声调可以同时包含在一个音节中。例如,
如上例所示,所谓音串是由多个连续的音节所构成的,其可以被转换为一行汉字。每个音节至少具有一个相应的同音字。目前,根据台湾《国语日报字典》,合理音节的总数是1364个。合理音节除了必须按照声母、介母、韵母和声调的次序排列之外,还必须具有一个相应的同音字。例如,“ㄐㄚ一
”不是一个合理音节,因为介母和韵母的排列次序交换了。“ㄉ一幺
”也不是一个合理音节,因为尽管注音符号的排列次序是正确的,但是它不对应于一个汉字。
由于有许多中文同音字,因此在完成每个音节的相应注音符号的输入之后,还需要从多个同音字中选择一个正确的汉字,这降低了输入速度。由于中文同音词的总数相比之下小于中文同音字的总数,并且由于在文章中中文词的总数多于单个中文字的总数,因此如果按照中文词的形式输入注音符号,则减少了从多个同音字选择一个正确的汉字的需要。近年来,通过把词汇输入语音和语法的处理相结合,通过注音输入方法获得正确的汉字的百分比达到95%以上,即,需要从多个同音字/词选择正确的汉字/词在5%之内。
常规的汉字变换装置公开于中国台湾专利申请第75105838号中。图5是上述中国台湾专利申请的常规汉字变换装置的方框图。参考标号100表示用于输入一行注音符号的输入单元。参考标号180表示用于存储多个用于转换的汉字的词典。参考标号140表示用于存储注音符号的输入行的音节数目的NCHAR寄存器。参考标号120表示用于存储注音符号的输入行的转换开始位置的PTR寄存器。参考标号130表示用于存储注音符号的输入行的转换长度的NP寄存器。参考标号150表示比较器单元,其用于在完成具有一定长度的词的转换之后将NP寄存器的值减1,以保持把优选级给予具有较长长度的词的转换。参考标号160表示转换控制单元。转换控制单元160按次序从输入起始位置开始移动PTR寄存器120的设定位置,并且确定是否有转换过的音节。如果没有转换过的音节,则词典180具有相应的词,并且转换控制单元160转换该音节。参考标号170表示词典搜索单元,其用于用来自转换控制单元160的音节作为一个搜索关键字来搜索词典180。参考标号190表示用于输出由转换控制单元160所得的汉字的输出单元。
在上述常规汉字转换装置中使用的注音输入方法与传统的注音输入方法相同。尽管它符合传统用户的习惯,但是具有如下缺点:
在读音和注音符号之间有不一致的声调。例如,“总统”的注音符号为“ㄗㄨㄥ
ㄊㄨㄥ
”。每个汉字的注音符号都包含第三声调的声调符号。但是,在读音时,前一汉字“总”的第三声调必须变为第二声调,即,对于“总统”在读音时的注音符号为“ㄗㄨㄥ
ㄊㄨㄥ
”。这可能导致不正确的声调符号输入。另外,当用户不能正确地区分汉字的声调时,则不能通过注音符号输入法输入正确的汉字。因此,如果声调符号可以在注音符号的输入中使用,则可以避免上述问题。另外,还可以减少由用户进行的按键操作的总数。例如,如果对于汉字“总统”的输入注音符号被减少为“ㄗㄨㄥㄊㄨㄥ”,该汉字“总统”仍然可以转换出来。这是因为“ㄥ”是韵母,而“ㄊ”是声母,这样两个音节“ㄗㄨㄥ”和“ㄊㄨㄥ”可被容易地根据可接受的声母、介母、韵母和声调的排列容易地区分出来。但是,在省略声调符号的情况下,一些音节之间不容易切音。例如,“ㄊ一ㄢ”可以被识别为单个音节,并且可以转换为汉字“天”。但是,“ㄊ一ㄢ”可以被识别为两个连续音节“ㄊ一”和“ㄢ”,并且可以被转换为中文词“提案”。在这种情况下,本发明确定其为单个音节,使得汉字“天”被转换。如果用户认为这是一个错误结果,即,“ㄊ一ㄢ”应当包括两个连续音节,则一个特殊符号“’”可以被添加到表示两个音节的注音符号之间,即,“ㄊ一’ㄢ”,使得中文词“提案”可以被正确地转换。应当指出,在本发明中,同音字的总数可能增加。这是因为由于省略声调符号,具有相同声母、介母和韵母但是声调不同的许多汉字变为同音字。例如,当注音符号“ㄙㄨㄥ”被输入,“松”和“送”变为同音字。当注音符号“ㄅ乀丩一ㄥ”被输入时,“北京”和“背景”变为同音字。没有声调的音节的总数为409个。由用户从多个同音字/词选择正确的字/词的操作可以通过中文语法和语意处理的加强而减少,以自动地选择具有最高优先级的字/词。由于本发明的目的是省略声调符号的输入,因此,在有许多同音字/词的情况下,用户可以选择输入声调符号,并且在字的声调不清楚或者为了减少按键操作的情况下,选择不输入声调符号。
下文是没有声调符号的输入注音符号的实例。
同上述实例,可以看出能够容易地识别一个音节。另一方面,“ㄙㄨㄥ”可以被分为“ㄙ”和“ㄨㄥ”,“ㄒ一ㄚ”可以被分为“ㄒ一”和“ㄚ”,“ㄉ一ㄢ”可以被分为“ㄉ一”和“ㄢ”,“ㄕㄨ”可以被分为“ㄕ”和“ㄨ”,“一ㄡ”可以被分为“一”和“ㄡ”,“ㄒ一ㄢ”可以被分为“ㄒ一”和“ㄢ”。但是,根据本发明,上述连续注音符号的每个组被作为一个音节看起来是正确的。
为了克服上述问题,本发明提供一种没有声调符号输入的汉字转换装置,其中没有声调符号输入的汉字转换装置包括:
用于存储多个声母、介母、韵母和声调的符号的注音符号存储单元;
用于存储多个音串和相应的汉字和词的词典;
音节切出单元,所述音节切出单元用于根据声调符号或空格键从输入注音符号行切出注音符号以形成音节,如果没有输入声调符号或空格键,所述音节切出单元根据在所述注音符号存储单元中的声母、介母和韵母的排列规则从输入注音符号行切出注音符号,以形成音节;
转换初始化单元,其用于根据从所述音节切出单元获得的音节和由从所述音节切出单元获得的音节所构成的音串以及以前输入的音节设置转换开始位置和转换长度;
转换处理单元,其用于根据设置的转换开始位置和转换长度重复地调节由转换开始位置和转换长度所构成的音串;
词典搜索单元,其用于用来自所述转换处理单元的音串作为搜索关键字在所述词典中搜索汉字;
音节编辑单元,所述音节编辑单元由用户所操作来纠正由于音节切音错误从词典中搜索的汉字;以及
同音字/词搜索单元,所述同音字/词搜索单元由用户所操作以选择除了由于同音字判断的错误从词典中搜索的汉字之外的正确汉字。
根据本发明的上述结构,音节切出单元根据声调符号和空格键把输入注音符号行切音为至少一个音节。如果没有输入声调符号或空格键,则该音节切出单元根据声母、介母和韵母的可接受的排列次序把输入注音符号行切为音节。然后,转换初始化单元根据来自音节切出单元的音节和由来自所述音节切出单元的音节所构成的音串以及以前输入的音节,设置转换开始位置和转换长度。然后,转换处理单元根据设置的转换开始位置和转换长度重复地调节由转换开始位置和转换长度所构成的音串。接着,词典搜索单元用来自所述转换处理单元的音串作为搜索关键字在所述词典中搜索汉字。接着,音节编辑单元由用户所操作来纠正由于音节切音错误从词典中搜索的汉字。最后,同音字/词搜索单元由用户所操作以选择除了由于同音字判断的错误从词典中搜索的汉字之外的正确汉字。
从下文参照附图对优选实施例的具体描述中,本发明的其它特点和优点将变得更加清楚,其中:
图1为根据本发明的汉字转换装置的一个优选实施例的方框图;
图2为根据本发明的优选实施例的音节切出单元的操作流程图;
图3为根据本发明的优选实施例的转换处理单元的操作流程图;
图4为根据本发明的优选实施例的词典结构图;
图5为常规汉字转换装置的方框图;以及
图6为根据本发明的优选实施例的注音符号存储单元的结构图。
图1是根据本发明的汉字转换装置的优选实施例的方框图。在图1中,参考标号10表示用于输入注音符号的输入单元。参考标号11表示用于存储如图6中所示的所有声母、介母、韵母和声调的注音符号的注音符号存储单元。参考标号21表示用于存储如图4所示的多个音串及其相应汉字的词典。参考标号13表示音节切出单元。每个音节具有相应的汉字。音节切出单元13的具体操作流程图在图2中示出。
参考标号14表示用于存储每个切音之后的音节的JUINBUF音节寄存器。参考标号15表示用于存储整个音串的音节数的NCHAR寄存器。参考标号16和17分别表示当该音串被转换为词时所用的PTR寄存器和NP寄存器。PTR寄存器是用于存储输入音串被开始转换的位置的寄存器,简称为“转换位置寄存器”。NP寄存器是用于存储输入音串的被转换音节数的寄存器,简称为“转换长度寄存器”。即,如果ptr和np被分别存储在PTR寄存器和NP寄存器中,则词典搜索关键字为从输入音串的第ptr个音节开始的连续np个音节。(在下文中,nchar、np和ptr分别表示存储在NCHAR、NP和PTR寄存器中的数值。)
参考标号12表示用于初始化NCHAR寄存器15的系统初始化单元,其在启动输入系统时把音节数nchar设置为0。参考标号18表示转换初始化单元。如果输入音串的音节数大于存储在词典21中的最长词的字数(max)(在本实施例中max被设为5),max的数值被设到NP寄存器17中,并且转换位置ptr被设定为从音串的音节数(nchar)往回到第n(n=max)个音节的位置;否则,音节数(nchar)的数值被设为np,并且ptr被设为该音串的第一位置。
参考标号19表示用于控制输入音串的音节数的转换处理单元。该转换处理单元19从由ptr所指向的音节位置开始的音节数(np)设为用于转换的音节,并且把它发送到词典搜索单元20用于字/词的搜索。如果没有搜索到相应的字/词,则ptr增加1,并且np减1,用于进一步的字/词的搜索。上述操作持续进行直到搜索到一个词或字为止。
参考标号20表示用来自NP寄存器17的音节作为词典搜索关键字通过搜索词典21,从词典21中的同音字/词选择常用的字/词,并把其结果提供给转换处理单元19。参考标号22表示音节编辑单元,其把来自转换处理单元19的字/词提供给用户,用于判断其中是否有切音错误。如果在切音中存在错误,则用户可以纠正该错误。例如,当“天”字被根据音节切出单元13的结果转换时,尽管词“提案”可以采用输入音串“ㄊ一ㄢ”,但是用户可以通过音节编辑单元22把该输入音串改为“ㄊ一
ㄢ”,其中
被定义为本发明中的手动切音键。该纠正的输入音串被反馈到转换处理单元19,以转换正确结果。
参考标号23表示一个同音字/词选择单元,其把来自转换处理单元19的字/词提供给用户,以判断在同音字/词选择中是否有错误。如果在同音字/词选择中有错误,则用户纠正该错误。例如,当用户通过输入音串“一ㄡㄒ一ㄢ”而需要得到“有限”时,根据同音同音字/词的最高优先次序转换为“悠闲”,用户可以在该同音字/词判断被判断为错误之后进行字/词选择,以获得第二优先级的词“有限”,从而获得正确的结果。
下面参照图2中所示的流程图,解释如何根据声母、介母和韵母的可接受排列次序进行切音。
参照图2,在步骤S1中,注音符号被输入并存储在音节寄存器JUINBUF。在步骤S2中,判断当前输入的注音符号是否为声调符号或空格键,如果当前输入的注音符号是声调符号或空格键,则该流程进行到步骤S5以设置音节,完成该音节的切音。然后,转换初始化单元18准备执行字/词的转换,并且下一个音节的注音符号输入数被设为0。如果当前输入的注音符号不是声调或空格键,则该流程进行到步骤S3,以执行进一步的判定。
在步骤S3中,判断当前输入的注音符号是否为该音节的第一注音符号。如果当前输入的注音符号是该音节的第一注音符号,则该流程返回到步骤S1,用于读取下一个注音符号;否则,该流程进行到步骤S4判断该注音符号是否按次序排列。
在步骤S4中,判断该输入的注音符号是否根据声母、介母和韵母的可接受排列次序排列。即,声母之后只能接着介母或韵母,介母之后只能接韵母。如果该注音符号按次序排列。则该流程返回到步骤S1,用于读取下一个注音符号;否则,该流程进行到用于切音处理的步骤S6。
在步骤S5中,把包括声调符号或空格键和该声调符号或空格键之前的注音符号切音为一个音节。下一个音节的注音符号数被设为0。该流程进行到步骤S7,用于准备字/词的转换。
在步骤S6中,在该注音符号之前的注音符号被切音为一个音节,以完成该音节的切音。然后,当前输入的注音符号被设置为下一个音节的第一注音符号,并且下一个音节的注音符号输入数目被设为1。接着,该流程进行到用于准备字/词的转换的步骤S7。
在步骤S7中,音节数寄存器的指针值被增加1,并且转换初始单元18接收完成的音节用于准备字/词的转换。
下面将参照图3描述转换处理单元19的操作。
在步骤S30中,将在转换初始化单元18中设置的第ptr开始的连续np个音节切出。
在步骤S31中,在词典中搜索对应于从步骤30中切出的音节的字或词。如果有对应的字或词,则流程进行到步骤S32,否则,该流程进行到步骤S33。在步骤S33中,把在输入的音串中从由ptr所指定的音节开始连续np个音节转换为在步骤S31中搜索的词,把该转换状态设置为正确转换。然后,该流程进行到步骤S35,用于返回操作。
在步骤S33中,ptr的值增加1,使得指向下一个音节位置。np的值减小1。该流程进行到步骤S34,以判断当前np是否为0。在步骤S34中,判断np是否为0。如果np为0,表示没有从词典中搜索到相应的字或词,并且判断该输入音节是不合理的音节。该流程进行到步骤S35,以把该转换状态设置为不正确转换。如果np不等于0,则该流程进行到步骤S30,以执行重新设置的np音节的转换。
在步骤S35中,该转换状态被设为不正确转换,并且该流程进行到步骤S36,用于返回操作。在步骤S32中,由转换处理步骤19所产生的转换状态被反馈到音节切出单元13。
图4示出本优选实施例的词典的部分结构。该词典的内容包括具有相应字的音节和具有相应词的音串。
本发明的操作将描述如下,以对于“关于此提案的背景”的输入音串“ㄍㄨㄢㄩㄘㄊ一ㄢㄉㄜㄅ乀丩一ㄥ”为例。
1.输入系统的启动
音节数(nchar)被系统初始化单元12设为0,表示在音节寄存器JUINBUF 14中没有音节。本发明的汉字转换装置等待第一注音符号的输入。
2.注音符号“ㄍ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中之后,在步骤S2中判断该输入注音符号不是声调符号。该流程进行到步骤S3,以判断该注音符号是该音节的第一注音符号。然后,该流程返回到步骤S1,用于读取下一个输入注音符号。
3.注音符号“ㄨ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“ㄍ”之后,在步骤S2中判断该输入注音符号不是声调符号。该流程进行到步骤S3,以判断该注音符号不是该音节的第一注音符号。然后,该流程进行到步骤S4,以判断该注音符号是否是根据声母、介母和韵母的可接受排列次序排列的。由于“ㄍ”是声母而“ㄨ”是介母,因此该判断结果是声母之后接着介母,从而该流程返回到步骤S1,用于读取下一个输入注音符号。
4.注音符号“ㄢ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“ㄨ”之后,在步骤S2中判断该输入注音符号不是声调符号。在步骤S3中判断该注音符号不是该音节的第一注音符号之后,该流程进行到步骤S4,以判断该注音符号是否根据声母、介母和韵母的可接受排列次序排列。由于“ㄨ”是介母而“ㄢ”是韵母,因此该判断结果是介母之后接着韵母,从而该流程返回到步骤S1,用于读取下一个输入注音符号。
5.注音符号“ㄩ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“ㄢ”之后,在步骤S2中判断该输入注音符号不是声调符号。在步骤S3中判断该注音符号不是该音节的第一注音符号之后,该流程进行到步骤S4,以判断该注音符号是否根据声母、介母和韵母的可接受排列次序排列。由于“ㄩ”是介母而“ㄢ”是韵母,因此该判断结果是韵母之后接着介母,从而该流程进行到步骤S5以执行音节切出操作。在步骤S5中,注音符号“ㄩ”被从在前的注音符号“ㄍㄨㄢ”切出,并且被设为下一音节的第一注音符号。在此时,在前的注音符号“ㄍㄨㄢ”被设为一个音节,并且输入音节数(nchar)被增加1,使得输入音节数(nchar)当前等于1。由注音符号“ㄍㄨㄢ”所构成的音节被提供给转换初始化单元18,以准备字/词的转化。在转换初始化单元18中,由于音节数(nchar)小于词典21的最长字数(5),则nchar的数值(1)被设为转换长度(np)。在该转换开始位置被设为最前的位置(1)之后,该转换处理单元19执行该转换。在转换处理单元19中,转换长度(np)和由ptr所指向的音节(即“ㄍㄨㄢ”)被通过词典搜索单元20进行搜索。在词典搜索单元20中,由于“ㄍㄨㄢ”仅仅具有一个音节,因此搜索同音词部分。对应于注音符号“ㄍㄨㄢ”的同音字如下:
ㄍㄨㄢ管关官观贯冠馆惯罐棺灌盥鳏纶倌毌瘝矜鱞莞涫擐
(guan)琯脘朊痯筦錧斡逭掼鹳丱悺祼雚瓘鑵悹懽爟矔鱹
最高优先级的字“管”被选出,并且反馈到转换处理单元19,用于确定第一字的转换的完成。然后,该流程返回到输入单元10,等待下一个注音符号的输入。
6.注音符号“ㄘ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“ㄩ”之后,在步骤S2中判断该输入注音符号不是声调符号。在步骤S3中判断该注音符号不是该音节的第一注音符号之后,由于该音节已经包含在以前输入的注音符号“ㄩ”,该流程进行到步骤S4,以判断该注音符号是否根据声母、介母和韵母的可接受排列次序排列。由于“ㄘ”是声母而“ㄩ”是介母,因此该判断结果是声母之后接着介母,从而该流程进行到步骤S5以执行音节切出操作。在步骤S5中,注音符号“ㄘ”被从在前的注音符号“ㄩ”切出,并且被设为下一音节的第一注音符号。在此时,在前的注音符号“ㄩ”被设为一个音节,并且输入音节数(nchar)被增加1,使得输入音节数(nchar)当前等于2。由注音符号“ㄩ”所构成的音节被提供给转换初始化单元18,以准备字/词的转化。在转换初始化单元18中,由于音节数(nchar)小于词典21的最长字数(5),则nchar的数值(2)被设为转换长度(np)。在该转换开始位置被设为最前的位置(1)之后,该转换处理单元19执行该转换。在转换处理单元19中,转换长度(np)和由ptr所指向的音节(即“ㄍㄨㄢ”和“ㄩ”)被通过词典搜索单元20进行搜索。在词典搜索单元20中,由于“ㄍㄨㄢ”和“ㄩ”是两个音节,因此搜索同音词部分。对应于注音符号“ㄍㄨㄢ”和“ㄩ”的同音词如下:
由于所有字的注音符号被存储在本发明的词典中并具有声调符号,因此不管输入“ㄍㄨㄢㄩ”还是“ㄍㄨㄢㄩ
”,都可以选择出“关于”。在此时,由于仅有词“关于”被存储在词典21中,因此该词被选择。所选择的词被反馈到转换处理单元19,用于确定两个字的转换完成。同时,以前被转换的第一字被根据当前转换结果改变为“关”,并且该处理返回到输入单元10,等待下一个注音符号的输入。
7.注音符号“ㄊ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“ㄘ”之后,在步骤S2中判断该输入注音符号不是声调符号。在步骤S3中判断该注音符号不是该音节的第一注音符号之后,由于该音节已经包含在以前输入的注音符号“ㄘ”,该流程进行到步骤S4,以判断该注音符号是否根据声母、介母和韵母的可接受排列次序排列。由于“ㄊ”是声母而“ㄘ”也是声母,因此该判断结果是声母之后接着声母,从而该流程进行到步骤S5以执行音节切出操作。在步骤S5中,注音符号“ㄊ”被从在前的注音符号“ㄘ”切出,并且被设为下一音节的第一注音符号。在此时,在前的注音符号“ㄊ”被设为一个音节,并且输入音节数(nchar)被增加1,使得输入音节数(nchar)当前等于3。由注音符号“ㄘ”所构成的音节被提供给转换初始化单元18,以准备字/词的转化。在转换初始化单元18中,由于音节数(nchar)小于词典21的最长字数(5),则nchar的数值(3)被设为转换长度(np)。在该转换开始位置被设为最前的位置(1)之后,该转换处理单元19执行该转换。在转换处理单元19中,转换长度(np)和由ptr所指向的音节(即“ㄍㄨㄢ”、“ㄩ”和“ㄘ”)被通过词典搜索单元20进行搜索。在词典搜索单元20中,由于“ㄊㄨㄢ”、“ㄩ”和“ㄘ”是三个音节,因此搜索同音词部分。在词典21中没有发现相应的词,从而转换处理单元19把转换长度(np)减1,即ptr增加1,以获得数值2,使得从第二音节开始执行转换。即,词典搜索单元20搜索注音符号“ㄩ”和“ㄘ”。在词典搜索单元中,由于“ㄩ”和“ㄘ”是两个音节,因此搜索同音词部分。对应于注音符号“ㄩ”和“ㄘ”的同音词如下:
ㄩ
ㄘ
鱼剌
转换处理单元19把“鱼剌”的使用频率与“关于”的使用频率相比较。发现“鱼剌”的使用频率低于“关于”的使用频率,因此词“鱼剌”不被接受,并且转换长度(np)再次减1以获得的数值1,即ptr再次增加1以获得数值3。该转换从第三音节开始,即,词典搜索单元20在词典21中搜索注音符号“ㄘ”。在词典搜索单元20中,由于“ㄘ”是一个音节,因此搜索同音词部分。对应于该注音符号“ㄘ”的同音字如下:
ㄘ此次剌词辞慈瓷疵祠伺赐雌差庛恣嵯趀趑蠀呰玼骴髊磁茨
(c)呲柌餈飺嬨濨兹鶿荠茈粢鈶薋佌泚皉朿佽蚝莿蛓廁庛絘齹
最高优先级的字(即“此”)被选择并且反馈到转换处理单元19,用于确定第一字的转换结束。然后,该流程返回到输入单元10,等待下一个注音符号的输入。
8.注音符号“一”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“ㄊ”之后,在步骤S2中判断该输入注音符号不是声调符号。在步骤S3中判断该注音符号不是该音节的第一注音符号之后,该流程进行到步骤S4,以判断该注音符号是否根据声母、介母和韵1的可接受排列次序排列。由于“ㄊ”是声母而“一”是介母,因此该判断结果是声母之后接着介母,从而该流程返回到步骤S1,用于读取下一个输入注音符号。
9.注音符号“ㄢ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“一”之后,在步骤S2中判断该输入注音符号不是声调符号。在步骤S3中判断该注音符号不是该音节的第一注音符号之后,该流程进行到步骤S4,以判断该注音符号是否根据声母、介母和韵母的可接受排列次序排列。由于“一”是介母而“ㄢ”是韵母,因此该判断结果是介母之后接着韵母,从而该流程返回到步骤S1,用于读取下一个输入注音符号。
10.注音符号“ㄉ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“ㄢ”之后,在步骤S2中判断该输入注音符号不是声调符号。在步骤S3中判断该注音符号不是该音节的第一注音符号之后,由于该音节已经包含在以前输入的注音符号“ㄢ”,该流程进行到步骤S4,以判断该注音符号是否根据声母、介母和韵母的可接受排列次序排列。由于“ㄢ”是韵母而“ㄉ”是声母,因此该判断结果是韵母之后接着声母,从而该流程进行到步骤S5以执行音节切出操作。
在步骤S5中,注音符号“ㄉ”被从在前的注音符号“ㄢ”切出,并且被设为下一音节的第一注音符号。在此时,在前的注音符号“ㄊ一ㄢ”被设为一个音节,并且输入音节数(nchar)被增加1,使得输入音节数(nchar)当前等于4。由注音符号“ㄊ一ㄢ”所构成的音节被提供给转换初始化单元18,以准备字/词的转化。在转换初始化单元18中,由于音节数(nchar)小于词典21的最长字数(5),则nchar的数值(4)被设为转换长度(np)。
在该转换开始位置被设为最前的位置(1)之后,该转换处理单元19执行该转换。在转换处理单元19中,转换长度(np)和由ptr所指向的音节(即“ㄍㄨㄢ”、“ㄩ”、“ㄘ”和“ㄊ一ㄢ”)被通过词典搜索单元20进行搜索。在词典搜索单元20中,由于“ㄍㄨㄢ”、“ㄩ”、“ㄘ”和“ㄊ一ㄢ”是四个音节,因此搜索同音词部分。在词典21中没有发现相应的词,从而转换处理单元19把转换长度(np)减1以获得数值3,即ptr增加1,以获得数值2,使得从第二音节开始执行转换。即,词典搜索单元20搜索注音符号“ㄩ”、“ㄘ”和“ㄊ一ㄢ”。在词典搜索单元中,由于“ㄩ”、“ㄘ”和“ㄊ一ㄢ”是三个音节,因此搜索同音词部分。
在词典21中没有发现相应的词,从而转换处理单元19把转换长度(np)减1,以获得数值2,即ptr增加1,以获得数值3,使得从第三音节开始执行转换。即,词典搜索单元20搜索注音符号“ㄘ”和“ㄊ一ㄢ”。在词典搜索单元20中,由于“ㄘ”和“ㄊ一ㄢ”是两个音节,因此搜索同音词部分。在词典21中没有发现相应的词,从而转换处理单元19把转换长度(np)减1,以获得的数值1,即ptr增加1,以获得数值4,使得从第四音节开始执行转换。即,词典搜索单元20搜索注音符号“ㄊ一ㄢ”。在词典搜索单元中,由于“ㄊ一ㄢ”是一个音节,因此搜索同音字部分。对应于注音符号“ㄊ一ㄢ”的同音字如下:
(tian) 恬阗畋
沺盷湉菾磌沾苫滇钿甸嗔搷鷆錪佃典娗
捵紾銛
最高优先级的字(即“天”)被选择并且反馈到转换处理单元19,用于确定第四字的转换结束。然后,该流程返回到输入单元10,等待下一个注音符号的输入。
11.注音符号“ㄜ”、“ㄅ”、“ㄟ”、“ㄐ”和“一”的输入
由于这些注音符号的输入、判断和转换与上述注音符号相同,因此对其描述在此省略。
12.注音符号“ㄥ”的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“一”之后,在步骤S2中判断该输入注音符号不是声调符号。在步骤S3中判断该注音符号不是该音节的第一注音符号之后,该流程进行到步骤S4,以判断该注音符号是否根据声母、介母和韵母的可接受排列次序排列。由于“一”是介母而“ㄥ”是韵母,因此该判断结果是介母之后接着韵母,从而该流程返回到步骤S1,用于读取下一个输入注音符号。
13.空格键的输入
根据图2的流程图,在步骤S1中该输入的注音符号被存储在音节寄存器JUINBUF 14中前一个注音符号“ㄥ”之后,在步骤S2中判断该输入注音符号是一个空格键,并且注音符号“丩一ㄥ”被设为一个音节。该输入音节数(nchar)被增加1,使得输入音节数(nchar)当前等于7。由注音符号“丩一ㄥ”所构成的音节被提供给转换初始化单元18用于准备字/词的转换。
在转换初始化单元18中,由于音节数(nchar)大于词典21的最长字数(5),因此nchar的数值(5)被设为转换长度(np)。在该转换开始位置被设为从该音串的音节数往前的第五个位置处,即,第三个音节的位置,该转换处理单元19执行转换。在转换处理单元19中,通过词典搜索单元20搜索转换长度(np)和由ptr所指向的音节(即,“ㄘ”、“ㄊ一ㄢ”、“ㄉㄜ”、“ㄅ乀”和“丩ㄥ”)。在词典搜索单元20中,由于“ㄘ”、“ㄊ一ㄢ”、“ㄉㄜ”、“ㄅ乀”和“丩ㄥ”是五个音节,因此搜索同音词部分。发现在词典21中没有相应的词,从而词典搜索单元20重复执行上述操作,直到剩下两个音节“ㄅ乀”和“丩ㄥ”。在词典搜索单元20中,由于“ㄅ乀”和“丩ㄥ”是两个音节,因此同音词部分被搜索。对应于注音符号“ㄅ乀”和“丩ㄥ”的词如下:ㄅ乀
丩一ㄥ 北京ㄅ乀
丩一ㄥ
背景
根据使用频率,词“北京”被选择并且反馈到转换处理单元19,用于确定第七个字的结束。第六个字被自动改为“北”,并且该流程返回到输入单元10,等待下一个注音符号的输入。
此时,整个音串“ㄍㄨㄢ凵ㄊ一ㄢㄉㄜㄅ乀丩一ㄥ”的输入被完成。但是,转换的结果是“关于此天的北京”,而不是用户所希望的结果“关于此提案的背景”。在此用户发现两个错误,一个是“天”,另一个是“北京”。“天”的错误是由于音节切出单元13所造成的,因为输入注音符号“ㄊ一ㄢ”应当被转换为两个字词“ㄊ一”和“ㄢ”。“北京”的错误是由于使用频率的比较结果所造成的。
如上文所述,对于所有由音节切出所造成的错误,音节编辑单元可以被执行以恢复对于“天”的注音符号“ㄊ一ㄢ”,并且通过添加用于分割的
把该输入的注音符号改为“ㄊ一
ㄢ”。然后,可以执行上述操作以通过转换处理单元19和词典搜索单元20转换该结果“关于此提案的北京”。
“北京”的错误可以通过同音字/词选择单元23而纠正,该单元在显示设备上显示所有对应于“北京”的同音词,以用于由用户选择所需的词“背景”。在由用户选择“背景”之后,错误的结果“关于此提案的北京”将自动改为“关于此提案的背景”。
在音节编辑单元和同音字/词选择单元的操作执行之后,将转换出用户的所需结果。
尽管本发明已经结合被认为是最实际和优选的实施例进行描述,但是应当知道本发明不限于所公开的实施例,而是要覆盖包含在最广意义上的精神和范围中的各种方案,使得包含所有这样的改变和等价方案。例如,空格键可以在任何音节被输入之后输入,使得可以避免由音节切出单元所产生的错误。例如,当注音符号“ㄊ一”之后跟着一个空格键时,最高优先级的字“替”被转换。然后,当之后跟着一个空格键的注音符号“ㄢ”被输入时,词“提案”被转换。另外,可以在一些音节的输入过程中添加一个声调符号,使得不但音节的切出可以手动操作,而且一些音节的同音字/词可以被避免。例如,如果输入的注音符号“ㄅ乀丩一ㄥ”被改为“ㄅ乀丩一ㄥ
”,则由于“北京”不包含在这些注音符号的转换中,因此仅仅词“背景”被转换。
如上文所述,无论是否输入声调符号,本发明的汉字转换装置都可以自动地把相继的输入注音符号切音为符合注音组合规则的多个音节。从多个音节构成的每个音节或音串在词典中具有一组相应的同音字或词。由于声调符号的输入可以在本发明中省略,因此可以增加用户的输入速度。另外,由于不正确的声调符号所造成的错误输入也可以避免。
尽管本发明已经参照附图结合优选实施例进行了描述,但是应当指出对于本领域内的专业技术人员来说还可以有各种改变和变化。这种改变和变化被认为是包含在由所附权利要求所定义的本发明的范围内,除非它们脱离该范围。
Claims (1)
1.一种没有声调符号输入的汉字转换装置,其中包括:
用于存储多个声母、介母、韵母和声调的符号的注音符号存储单元;
用于存储多个音串和相应的汉字和词的词典;
音节切出单元,其根据声调符号或空格键把一个输入注音符号行切为至少一个音节,如果没有输入声调符号或空格键,所述音节切出单元根据在所述注音符号存储单元中的声母、介母和韵母的可接受的排列次序把输入注音符号行切为所述音节;
转换初始化单元,其用于根据从所述切出的音节和以前输入的音节合成所需音串,然后设置在该合成串中的转换开始位置和转换长度;
转换处理单元,其用于根据设置的所述转换开始位置和所述转换长度重复地调节由所述转换开始位置和所述转换长度所构成的所述音串;
词典搜索单元,其用于用来自所述转换处理单元的音串作为搜索关键字在所述词典中搜索汉字:
音节编辑单元,其可由用户所操作来纠正由于音节切音单元造成的错误而从所述词典中搜索的所述汉字;以及
同音字/词搜索单元,其可由用户所操作以选择除了由于同音字/词的自动判断错误而从词典中搜索的所述中文字/词之外的正确中文字/词。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11038700A JP2000235567A (ja) | 1999-02-17 | 1999-02-17 | 声調符号無入力式中国語文字変換装置 |
JP38700/1999 | 1999-02-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1264072A true CN1264072A (zh) | 2000-08-23 |
Family
ID=12532601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN00100302A Pending CN1264072A (zh) | 1999-02-17 | 2000-01-17 | 不需要输入音调符号的汉字转换装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6327560B1 (zh) |
JP (1) | JP2000235567A (zh) |
CN (1) | CN1264072A (zh) |
SG (1) | SG82664A1 (zh) |
TW (1) | TW460825B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000298667A (ja) * | 1999-04-15 | 2000-10-24 | Matsushita Electric Ind Co Ltd | 構文情報による漢字変換装置 |
TWI247276B (en) * | 2004-03-23 | 2006-01-11 | Delta Electronics Inc | Method and system for inputting Chinese character |
US8032357B2 (en) * | 2005-06-14 | 2011-10-04 | Microsoft Corporation | Phonetic input using a keypad |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5164900A (en) * | 1983-11-14 | 1992-11-17 | Colman Bernath | Method and device for phonetically encoding Chinese textual data for data processing entry |
US5175803A (en) * | 1985-06-14 | 1992-12-29 | Yeh Victor C | Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language |
US5109352A (en) * | 1988-08-09 | 1992-04-28 | Dell Robert B O | System for encoding a collection of ideographic characters |
US5047932A (en) * | 1988-12-29 | 1991-09-10 | Talent Laboratory, Inc. | Method for coding the input of Chinese characters from a keyboard according to the first phonetic symbols and tones thereof |
CN1023916C (zh) * | 1989-06-19 | 1994-03-02 | 张道政 | 简繁五笔字根汉字输入系统 |
TW268115B (zh) * | 1991-10-14 | 1996-01-11 | Omron Tateisi Electronics Co | |
US5331557A (en) * | 1993-01-14 | 1994-07-19 | Liu Zhong Yi | Audio-video coding system for Chinese characters |
US6014615A (en) * | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
SG42314A1 (en) * | 1995-01-30 | 1997-08-15 | Mitsubishi Electric Corp | Language processing apparatus and method |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
US5832478A (en) * | 1997-03-13 | 1998-11-03 | The United States Of America As Represented By The National Security Agency | Method of searching an on-line dictionary using syllables and syllable count |
-
1999
- 1999-02-17 JP JP11038700A patent/JP2000235567A/ja active Pending
- 1999-12-22 US US09/468,832 patent/US6327560B1/en not_active Expired - Fee Related
- 1999-12-27 TW TW088123030A patent/TW460825B/zh active
- 1999-12-29 SG SG9906681A patent/SG82664A1/en unknown
-
2000
- 2000-01-17 CN CN00100302A patent/CN1264072A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2000235567A (ja) | 2000-08-29 |
SG82664A1 (en) | 2001-08-21 |
TW460825B (en) | 2001-10-21 |
US6327560B1 (en) | 2001-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100656736B1 (ko) | 표음 입력 모호성 제거 시스템 및 방법 | |
CN1205572C (zh) | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 | |
CN1232226A (zh) | 句子处理装置及其方法 | |
CN1095560C (zh) | 修改汉字转换结果的系统 | |
CN101067766A (zh) | 输入法中取消字符串的方法及文字输入系统 | |
CN1200376C (zh) | 使用语法信息的汉字转换装置 | |
CN1256650C (zh) | 一种中文整句输入法 | |
CN1102779C (zh) | 中文简繁体字文件转换装置 | |
JP4890551B2 (ja) | 文字変換装置、文字変換装置の制御方法 | |
CN1264072A (zh) | 不需要输入音调符号的汉字转换装置 | |
CN1227369A (zh) | 汉语输入变换处理装置和汉语输入变换处理方法 | |
CN1560767A (zh) | 文字输入的自动补全方法 | |
CN101064105A (zh) | 字转音的使用者界面系统及修改方法 | |
CN1737739A (zh) | 基于英文键盘的藏文输入法 | |
CN1556452A (zh) | 数字键盘智能拼音汉字输入方法 | |
CN1023037C (zh) | 中文连续汉字变换装置 | |
CN1052200A (zh) | 音形义字词兼容编码系列及键盘 | |
CN1102489A (zh) | 汉字变换装置 | |
CN1584809A (zh) | 可做拼音汉字的汉字编码的输入法 | |
CN1048345C (zh) | 汉字变换装置 | |
CN1085859C (zh) | 汉字变换学习装置 | |
CN1101732A (zh) | 汉字变换学习装置 | |
CN1838044A (zh) | 中文拼音声调笔划组合输入法 | |
CN1043542C (zh) | 汉字变换装置 | |
CN1081773A (zh) | “多声递推联想”汉语词字编码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |