CN1048346C

CN1048346C - 词典检索装置

Info

Publication number: CN1048346C
Application number: CN93119216A
Authority: CN
Inventors: 周峻慧
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1993-03-03
Filing date: 1993-10-18
Publication date: 2000-01-12
Anticipated expiration: 2013-10-18
Also published as: JP3021224B2; CN1091845A; JPH06259465A

Abstract

本发明的汉语词典检索装置，字典单元中读音符号和对应的同音异义字按序排列后对应存储。词典单元存储有对应表，构成词语的各个文字的读音符号与按构成词语的顺序排列的各个文字的同音异义字排列序号相对应。词典检索单元检索词典单元，汇集词语各构成文字的同音异义字排列序号。字典检索单元根据所输入的读音符号和同音异义字排列序号，检索字典单元，汇集各个文字。词语组合单元根据读音符号和检出的各个文字，组合出词语。

Description

词典检索装置

本发明涉及汉语的词典检索装置

以往的词典检索装置，例如有中国台湾专利申请75105839号公报所示的装置。图5是装有该词典检索装置的汉字变换装置的结构图。如图5所示，该汉字变换装置由输入单元100、音节码变换单元110、汉字变换单元120、词典检索单元140、输出单元150构成。输入单元100以键盘为主要构件，输入想要检索的词语各文字串的读音符号。音节码变换单元110将输入单元100传送来的读音符号串变换成内部处理所使用的音节码。词典单元140以存储器为主要部件，存储以音节码表示的汉语词语读音及与该词语相对应的文字码的组。词典检索单元130内含微机，根据上述音节码变换单元110变换出的音节码检索词典单元140的内容，查出相对应词语的文字码。汉字变换装置120将上述词典检索单元130检出的与读音符号串相对应的词语文字码变换成可由输出单元150输出的文字串。输出单元150以打印机、CR T等作为构件，根据从汉字变换装置接收到的信号，输出具体构成检索对象词语的文字串。

但是，上述已有的汉字变换装置中所用的词典单元的基本结构是逐个词语地存储构成该词语的各个文字的读音符号及文字码，而汉语的文字是汉字，常用汉字的总数在一万以上。因此，各个文字的编码需要2个字节(16位，2¹⁶＝65536)的存储资源。例如，处理汉语的计算机中经常使用的Big5码收入了13,051个文字，每一文字用2个字节的资源存储。因此，以利用该种码存储5万个词语的词典单元为例，各个词语平均由2.5个文字构成，构成词语的各个文字读音符号及文字码分别需要2个字节，所以，总共需要(2.5×(2+2)×50000)＝500K字节的存储资源。

本发明有鉴于此，目的在于提供一种能以较少存储资源存储可供检索的词语的极方便的词典检索装置。

为了实现上述目的，本发明的词典检索装置，其特征在于包括：

将汉语的各文字的读音符号以及与该读音符号相对应的全部同音异义字按序排列后对应存储的字典单元；

逐一将构成词语的各个文字的读音符号与按读音符号或者词语构成的顺序排列的各个文字在上述字典单元内的同音异义字排列序号相对应存储的词典单元；

根据想要检索的词语的读音符号检索上述词典单元内对应的词语，并取出检索到的词语各个构成文字在上述字典单元内的同音异义字排列序号的词典检索单元；

根据各个文字的读音符号以及上述词典检索单元检索结果即各文字在上述字典单元内的同音异义字排列序号，检索上述字典单元，并取出相符的文字的字典检索单元；

在上述字典检索单元取出各个文字之后，按照检索时所输入词语的读音符号顺序，或者按照词典单元内的排列序号的顺序排列这些文字，以组合检索对象词语的词语组合单元。

通过上述结构，字典单元将汉语各文字的读音符号以及与该读音符号相对应的全部同音异义字按序排列后对应地存储。词典单元逐一将构成词语的各个文字的读音符号以及按照读音符号顺序排列的各文字在字典内的同音异义字排列顺序号对应起来存储。通过输入单元输入适当的业务程序或者输入与使用者想要检索的词语想对应的文字读音符号时，词典检索单元即以输入的读音符号为检索关键字，检索在词典单元中是否存有对应的词语。然后，取出检索到的词语的各个文字在字典单元内的同音异义字排列顺序号，并把它输到字典检索单元。字典检索单元根据所输入的各个文字读音符号以及由词典检索单元检索到的同音异义词排列顺序号信息，在字典单元内进行检索，按序取出对应的文字，输到词语组合单元。词语组合单元将字典检索单元取出的各个文字按照与输入的读音符号相对应的顺序，或者按照词典单元内排列顺序号的顺序予以排列，以此就可组配检索对象词语。

如上所述，根据本发明的词典检索装置，在词典单元中与读音符号的顺序对应地存储各文字在字典中的同音异义字排列顺序号，代替了词语的各个文字的内部码。这时，若每个词语平均以2.5个文字构成，采用本发明后，存有5万个词语的词典单元拥有2.5×(2+1)×50000＝375K字节的存储资源就足够了。这与前述已有的词典单元相比，减少了25％的必要存储资源。实际上，存储资源随词典检索装置本身的用途而异，但往往词典单元内存储5万个词语仍对付不了。因此，可减少的存储资源的绝对量更大，其经济效果极佳。另外，词典单元本身也可小型化，因而词典内的检索速度加快，处理速度提高。

图1是本发明的词典检索装置一个实施例的结构图。

图2是上述实施例中词典检索装置的动作流程图。

图3是上述实施例中字典单元的数据结构示意图，

图4是上述实施例中词典单元的数据结构示意图。

图5是具备词典单元及词典检索装置的与已有技术有关的汉字变换装置结构图。

图6是外来字符一览表。

下面根据实施例说明本发明。图1是利用本发明一个实施例的汉字变换装置结构图。如图1所示，该汉字变换装置由输入单元10、词典检索单元11、词典单元12、词语组合单元13、字典检索单元14、字典单元15和输出单元16构成。输入单元10输入要作检索的词语的关键字。本例中，输入依靠键盘进行，以构成音节码的读音符号为检索关键字。另外也可将文件中抽出的汉语作为检索关键字。字典单元15将汉语各文字的读音符号及其对应的所有同音异义字按序排列后对应地存储。词典单元12由对照表构成，该对照表对每个汉语词语，按顺序排列构成词语的各个文字读音符号以及按照读音符号顺序排列各文字在字典单元15内的同音异义字排列顺序号。词典检索单元11将想要检索的词语的读音符号串作为检索关键字，在词典单元12中进行电子检索，如果有对应的词语，则将与该词语的读音符号对应地存储的各文字在字典单元15内的同音异义字排列顺序号取出。字典检索单元14根据所取出的各个文字的读音符号以及各文字在字典单元15内的同音异义字排列顺序号，在字典单元15内作电子检索，检出对应的文字。词语组合单元13将字典检索单元14检出的各个文字按照输入读音符号串的顺序，或者按照词典单元12中的同音异义字排列顺序排列，组合成作为检索对象的词语。输出单元16以打印机、CRT为构件，向外输出或显示由词语组合单元13组合成的词语。

其次，对词典单元及字典单元内的数据结构，亦即存储器中的存储方式进行说明。关于汉语各个文字的读音，通过给它特定的号码后利用一定长度的存储资源，就能对应地储存各个文字与其读音。因此，能容易地实现如图4所示的采用“ba ba”、“ba”(图6的1)(以下，也由于电子信息处理系统的关系，外来字符统一由图6示出，用其序号来标识。例如，“图6的1”是指图6中第1个外来字符或由多个外来字符组成的外来字符串。)等读音符号的存储方式。同样，词语的各个文字在字典单元内的多个同音异义字的排列顺序的号码也可用一定长度的二进制方法表示。汉语的读音有1,230种，其中读音“(图6的3)”的同音异义字最多，有145个，但是，若以字节为单位存储，则可以用2个字节存储汉语所有的读音，若再使用一个字节，就能存储所有同音异义字组的排列号。(2¹⁰＝102 4＜1230＜2048＝2¹¹，2⁷＝128＜145＜256＝2⁸)。在此之所以以字节为单位，是因为CPU、通用存储器等要求用二进制方法处理，一般以字节为单位，正好与此匹配。

下文以图4所示“ba(图6的1)”的词语为例，说明存储方式。

存储形式为“00100110 01010001 01011101 0011001000000001 00000011”。

第1、第2两个字节“00100110 01010001”表示“ba”的读音。第3、第4两个字节“01011101 00110010”表示“(图6的1)”的读音。第5个字节“00000001”表示“八”的同音异义字排列顺序号。第6个字节“00000011”表示“宝”的同音异义字排列顺序号。本实施例的词典单元用2个字节存储汉语所有的读音，用1个字节存储同音异义字的号码。

图2是本实施例的汉字变换装置的处理流程图。以下根据该图说明其处理过程。首先依次输入想要检索的汉语词语的读音符号(S1)。接着，检索词典单元内是否存在与词典检索单元所输入读音符号相对应的词语(S2)。如果没有对应的词语，则结束检索动作，输出相应显示。如果有对应的词语，则取出构成该词语的各个文字在字典内的同音异义字排列顺序号(S3)。字典检索单元根据词语各个文字的读音记号以及上述词典检索单元取出的同音异义字排列顺序号，在字典单元内进行行检索，以此可取得构成检索对象词语的各个文字(S4)。词语组合单元将检索到的构成词语的各个文字按照所输入读音符号顺序排列，以此就可组合成所要求的词语(S5)。最后，输出单元向外输出组合好的检索对象词语(S6)。

下面用具体的词语显示上述处理的内容。

图3是本实施例中字典单元的数据结构的示意图，该字典单元将各个文字的读音符号以及与该读音符号相对应的所有同音异义字按序排列。图3用罗马拼音符号表示读音符号，概念性地示出部分情况，同音异义字有时也会出现在电子邮件等用途上，它按文字码顺序(从趋势或概念上讲，是字体简单的顺序)排列后依次存储在里面。图中，譬如与读音符号“ba”相对应的同音异义字，如第1行所示那样，并排地存储着“八”“巴”……等。其中，因为“八”在第1号位置，所以，同音异义字排列顺序号为1。同样，“巴”处在第2号，其顺序号为2。第2行以下与各个读音符号相对应的多个(全部)同音异义字也是在以此方法排列的基础上，再依次设定顺序号。

图4是本实施例的词典单元的数据结构的示意图。该词典单元由对照表构成，表中，词语的读音符号以及构成该词语的各个文字在字典单元内的同音异义字排列顺序号依次排列，例如，构成读音符号“ba(图6的1)”这一词语的各个文字在字典15中的同音异义字排列顺序号用“1，3”表示。即，“6a(图6的1)”这一词语，由“ba”在字典单元内的同音异义字排列顺序号“1”相对应的“八”，以及“(图6的1)”在字典单元内的同音异义字排列顺序号“3”相对应的“宝”构成，也就是说，输入“ba(图6的1)”这一读音符号串时，最后变换成文字串“八宝”这一文字串。

下面以其它例子说明本实施例的词典检索装置的动作。

从输入单元输入“ba(图6的2)zhi jiao”(S1)时，词典检索单元在词典内部进行检索，查找是否存有与“ba(图6的2)zhijiao”对应的词语(S2)。因为词典单元有对应词语，所以取出构成该词语的各个文字在字典单元内的同音异义字排列顺序号“1，2，1，1”(S3)后，将其与读音符号“ba(图6的2)zhi jiao”一起传送给字典检索单元。字典检索单元根据“ba(图6的2)zhijiao”以及“1，2，1，1，”，将“ba”和“1”、“(图6的2)”和“2”、“zhi”和“1”、“iiao”和“1”这些读音符号和同音异义字的排列顺序号进行组合，然后在字典单元内检索，从与各读音符号相符合的多个文字(汉字)中取出“八”、“拜”、“之”、“交”(S4)。词语组合单元得到这些检索到的文字后，将它们按照已输入的读音符号的顺序排列，这样就能组成词语“八拜之交”(S5)。输出单元16向外输出这个已组成的词语(S6)。通过以上动作完成词语的检索处理。

其次，本词典检索装置对字典单元和词典单元进行两种检索，因而有人疑虑检索时间可能会增加，下面就此进行说明。已有的词典检索装置的大部分动作时间用于将想要检索的输入关键字与词典单元各词语的读音符号进行比较，如果有一致的读音符号，则直接取出对应的词语。而本发明的词典检索装置中，大部分动作时间也同样地用于将想要检索的输入关键字通过词典检索单元与词典单元各词语的读音符号进行比较。如果有对应的词语，再把构成该词语的各个文字从字典单元中逐一取出，由于同意异义字的数量远远少于词典单元内的词语数量，因而逐一抽取所用的时间是不成问题的，而且正如后文中用数值说明的那样，因为词典单元的容量减小，所以很多情况下词典单元内的检索反而会加快。因此，从处理时间上看，不但不比已有的词典检索装置逊色，而且在很多情况下速度反而更快。

以上基于实施例对本发明作了说明，本发明显然并不局限于上述实施例。也就是说，在不改变要点的范围内，也可以将本发明作适当变形，予以应用实施。例如：

①词典单元的数据结构可以不采用先词语的读音符号，后各文字的同音异义字排列顺序号这样的顺序，只要是等价的存储方法，什么都行。具体地说，“ba(图6的1)”可以这样存储。

“00100110 01010001 00000001 01011101 0011001000000011”

这一行中，第1、2两个字节“00100110 01010001”表示“ba”的读音。第3个字节“00000001”表示“八”的同音异义字号码，第4、5两个字节“01011101 00110010”表示“(图6的1)”的读音。第6个字节“00000011”表示“宝”的同音异义字号码。

②同音异义字的排列顺序也可根据使用频度及笔划数等方法确定。另外，关于同音异义字的“排列顺序”，只要能从多个同音异义字中指定某个特定的字，也不必局限于使用表示顺序的数字，当然也可以用存储位置的座标和显示座标的符号。另外，例如若使用频度作为排列顺序，则检索速度可进一步提高。

③原则上文字是汉字，文字串是汉语词语，但是像

这样的外国(当然是指从中国角度看)制造的汉字以及像“あ”、“い”这样的外国文字也可使用，像“特許”、“发明協会”这样的外语和外语固有名词当然也可以使用。

④至于用途，无论汉语文字处理机、由磁盘等存储的汉语电子辞典、涉及汉语的自动翻译装置等当然是不论哪种都可使用。

⑤读音符号是也可采用中国台湾目前使用的注音符号和第二套注音符号等。

⑥按照制造等的方便程度，可以将多个构件在做成一体。也可将一个构件分割成多个部件。

⑦另外，还可设置上海话、广东话等各种中国方言的词典单元和字典单元，付加可供文字输入者选择使用某一方言的词典单元和字典单元的功能。当然，也可用换部件的方法。

Claims

1.一种词典检索装置，其特征在于包括：