[go: up one dir, main page]

JP3003915B2 - 単語辞書検索装置 - Google Patents

単語辞書検索装置

Info

Publication number
JP3003915B2
JP3003915B2 JP6322764A JP32276494A JP3003915B2 JP 3003915 B2 JP3003915 B2 JP 3003915B2 JP 6322764 A JP6322764 A JP 6322764A JP 32276494 A JP32276494 A JP 32276494A JP 3003915 B2 JP3003915 B2 JP 3003915B2
Authority
JP
Japan
Prior art keywords
character string
index
word
dictionary
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP6322764A
Other languages
English (en)
Other versions
JPH08180069A (ja
Inventor
太朗 森下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP6322764A priority Critical patent/JP3003915B2/ja
Priority to US08/576,611 priority patent/US5761688A/en
Priority to EP95120459A priority patent/EP0720107B1/en
Priority to DE69522426T priority patent/DE69522426T2/de
Publication of JPH08180069A publication Critical patent/JPH08180069A/ja
Application granted granted Critical
Publication of JP3003915B2 publication Critical patent/JP3003915B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は単語辞書検索装置に関
し、特に、ワードプロセッサなどの言語処理機能を備え
た機器に用いられる単語辞書検索装置に関する。
【0002】
【従来の技術および発明が解決しようとする課題】ワー
ドプロセッサ、パーソナルコンピュータなどの情報処理
機器において、国語辞典、英和辞典といった辞書のデー
タを搭載し、電子的に検索できるようにした装置(ここ
では、電子辞書と呼ぶ)が普及し始めている。
【0003】電子辞書は、一般に、辞書項目数に比例し
た大容量の検索用インデックスが必要である。特に、見
出し語に関するインデックスは見出し語の文字列長がそ
れぞれ異なるために、可変長のインデックス構造をとる
場合が多いが、可変長の構造では、必要な情報へのアク
セスに時間がかかり、また、前後の見出し語項目にアク
セスするためのサイズ情報が必要となり容量が嵩んでし
まうという欠点がある。これを図を参照して説明する。
【0004】図11(a)および(b)は、従来の可変
長見出し語インデックスの一般的な構造を示す図であ
る。図の可変長見出し語インデックスは先頭3文字イン
デックス200および見出し語本体インデックス300
からなる。インデックス200は見出し語の先頭の3文
字が変わるごとに辞書から抽出された見出し語に対する
本体インデックス300のオフセット(先頭からの位
置)20aからなり、インデックス300は辞書順に並
べられた見出し語の本体インデックスである(ここでは
簡単化のため、見出し語部分のみが記される)。インデ
ックス300は各見出し語について項目サイズ30a、
4文字目以降の見出し語文字列30bおよび逆送り用項
目サイズ30cを含むアイテム301からなる。見出し
語は可変長であるため、4文字目以降の見出し語文字列
30bは可変長のデータとなり、またこのインデックス
300の各アイテムを順・逆両方向に辿るためには、図
に示すように、自分自身のサイズを項目サイズ30aお
よび逆送り用項目サイズ30cとして予め用意しておか
なければならない。図11(b)には図11(a)に示
されたインデックス200および300についての具体
的な構造が示されている。
【0005】上述した図11のインデックス構造は次の
ような欠点(1)〜(3)を有する。
【0006】(1) 見出し語を辿るときに各見出し語
のサイズ)からオフセット20aを求める必要がある。
【0007】(2) 見出し語本体インデックス300
は英和辞典を想定した場合、通常10000語前後で6
4Kバイトを超えてしまうため、見出し語本体インデッ
クス300へのオフセット20aが3バイト必要とな
り、見出し語を参照するような他のインデックス、この
場合インデックス200の容量が嵩む。
【0008】(3) 見出し語本体自体のサイズが大き
い。上述した図11(a)および(b)で示された見出
し語の可変長の部分を本体インデックスの外部に出して
本体を固定長のインデックス構造にすればアクセス時間
は短くなるが、可変長部分へアクセスするための情報が
余分に必要となるため、容量は可変長のものよりも大き
くなってしまうという課題があった。これを図を参照し
て説明する。
【0009】図12(a)および(b)は、従来の見出
し語本体をポインタデータのみの固定長にした見出し語
インデックスの構造を示す図である。このインデックス
は先頭3文字インデックス400、見出し語本体インデ
ックス500および文字列バッファ600からなる。イ
ンデックス400は見出し語の先頭の3文字が変わるご
とに辞書から抽出された見出し語に対する本体インデッ
クス500のオフセット40aからなる。インデックス
500は見出し語のそれぞれについて4文字目以降の見
出し語文字列へのポインタ50bを含むアイテム501
からなる。インデックス500は図11のインデックス
構造の欠点の1つである可変長構造を解消するために見
出し語本体をポインタデータ(50b)のみの固定長に
したものである。文字列バッファ600には、図11の
4文字目以降の見出し語文字列30bに対応するデータ
が区切りコード(¥0)を入れて格納される。このイン
デックス構造の具体的な例が図12(b)に示される。
【0010】図12のインデックス構造では、見出し語
を連続した番号で管理できるので、見出し語数が64K
までの辞書については、見出し語本体インデックス50
0へのオフセット40aは2バイトですみ、かつ本体イ
ンデックス500を辿る場合はポインタのインクリメン
ト・デクリメント(1増やす・1減らす)操作でよいた
めアクセス時間も短くなる。しかしながら、この構造で
は依然として、可変長の構造と比べて、本体インデック
ス500と文字列バッファ600との消費メモリ容量が
大きくなるという課題が残る。
【0011】従来から提案されてきた見出し語インデッ
クスの容量削減法は主として、各見出し語の先頭から共
通する何文字かを低次のインデックスにまとめることに
よる差分をとる方式と、見出し語中に頻出する2バイト
コードを1バイトの空き領域に割当てる方式とに大別さ
れる。しかしながら、これらの手法で削減できる消費容
量はごく限られたものであり、従来技術では、固定長の
見出し語インデックス構造をとりながら消費するメモリ
容量を抑制するようなインデックスを構成することはで
きなかった。
【0012】また、たとえば特開昭61−28557
3,特開平3−127254および特開平5−5407
7公報に開示の技術では、単語の変化形からの検索や熟
語検索など別途見出し語が必要となるような検索機能を
追加する場合、追加機能に対応するインデックスデータ
分だけ容量を増やすしか方法がなく、容量やコストの制
限のある機種では検索機能の追加は極めて困難であっ
た。これを図を参照して説明する。
【0013】図13は、従来の見出し語検索機能に派生
語検索機能を追加した場合のインデックス構造の概略を
示す図である。見出し語検索に、見出し語の変化形から
も検索できるようにするための派生語検索機能を追加し
た場合、図13で示されるようなインデックスが準備さ
れる。詳述するなら、このような検索機能の追加があっ
た場合、通常の方法では、各派生語ごとの派生語見出し
に対して、見出し語の検索インデックスの場合と同様の
構成のインデックスデータを用意し、これらを元にあっ
た見出し語検索用のインデックスデータにいかなるイン
デックスデータも共有することなく付け加えることにな
る。すなわち、元にあった見出し語インデックスデータ
の容量(低次のインデックス601、見出し語本体イン
デックス602および見出し語用文字列バッファ603
の全容量)をAとし、追加された派生語インデックスデ
ータの容量(低次のインデックス701、派生語見出し
インデックス702および派生語見出し用文字列バッフ
ァ703の全容量)をBとすると、派生語検索機能が追
加された場合の全体のインデックスデータの容量は(A
+B)となる。これは、検索機能を追加すればそれに比
例しただけ確実にインデックス容量が増加することを示
しており、メモリ容量が限られた機種上では、検索機能
追加が困難であり、大変な制約となる。
【0014】それゆえにこの発明の目的は、インデック
ス部を用いた辞書検索の高速化を図りながら、インデッ
クス部による消費メモリ容量を抑制できる単語辞書検索
装置を提供することである。
【0015】この発明の他の目的は、検索対象辞書の追
加による検索機能拡張において、辞書検索に用いられる
インデックス部による消費メモリ容量の増加を抑制でき
る単語辞書検索装置を提供することである。
【0016】
【課題を解決するための手段】請求項1に記載の単語辞
書検索装置は、少なくとも単語辞書の本体データおよび
この辞書検索用のインデックス部を記憶し、指定された
単語をインデックス部を介して辞書本体データから検索
する装置であり、このインデックス部はさらに、文字列
バッファ、本体インデックス、および低次インデックス
を備えて構成される。
【0017】文字列バッファには、単語辞書中の各単語
について、その文字列の辞書中で該単語の直前に登録さ
れた単語の文字列と一致しない部分文字列である差分文
字列が、そこに既に格納された文字列中のいずれの部分
文字列とも重複することなく順次格納される。
【0018】本体インデックスは、単語辞書中の各単語
に対応した固定長アイテムを有し、各アイテムには、該
アイテムに対応する単語の文字列の単語辞書中で該単語
の直前に登録された単語の文字列と一致する部分文字列
の長さおよび前述の差分文字列の長さに関する情報、な
らびにこの差分文字列の文字列バッファにおける格納位
置に関する情報が格納される。
【0019】低次インデックスは、本体インデックス中
の各アイテムの情報を前述の指定単語の文字列に従って
アクセスするためのものである。
【0020】請求項2に記載の単語辞書検索装置は、請
求項1に記載の装置に、さらに前述のインデックス部を
生成する手段を備えて構成される。
【0021】このインデックス部生成手段は、情報検出
手段、文字列格納手段、情報格納手段、および低次イン
デックス生成手段をさらに含んで構成される。
【0022】情報検出手段は、単語辞書中の各単語につ
いて、その文字列と辞書中の該単語の直前に登録された
単語の文字列とを比較し、一致する部分文字列長および
前述の差分文字列長に関する情報、ならびにこの差分文
字列を検出する。
【0023】文字列格納手段は、情報検出手段により検
出された差分文字列が文字列バッファに既に格納されて
いる文字列中のいずれの部分文字列とも一致しないこと
に応じて、この差分文字列を文字列バッファ中の文字列
後尾に順次追加格納する。
【0024】情報格納手段は、文字列格納手段による差
分文字列の文字列バッファにおける格納位置に関する情
報ならびに前述の情報検出手段により検出された一致部
分文字列長および差分文字列長に関する情報を前述の本
体インデックスの対応するアイテムに順次格納する。
【0025】低次インデックス生成手段は、情報格納手
段により各単語の情報が格納されたアイテムの位置に基
づいて前述の低次インデックスを生成する。
【0026】請求項3に記載の単語辞書検索装置は、請
求項2に記載のインデックス部生成手段が、検索対象辞
書が前述の単語辞書に、これとは異なる単語辞書が追加
されて拡張される場合に拡張インデックス部生成手段を
さらに備えて構成される。
【0027】この拡張インデックス部生成手段は、さら
に、拡張情報検出手段、拡張文字列格納手段、情報更新
手段、拡張本体インデックス生成手段、および拡張低次
インデックス生成手段を備えて構成される。
【0028】拡張情報検出手段は、追加される単語辞書
中の各単語について、その文字列と追加辞書中の該単語
の直前に登録された単語の文字列とを比較し、一致する
部分文字列の長さおよび一致しない部分文字列である差
分文字列の長さに関する情報、ならびにこの差分文字列
を検出する。
【0029】拡張文字列格納手段は、情報検出手段によ
り検出された差分文字列または拡張情報検出手段により
検出された差分文字列が、文字列バッファに既に格納さ
れている文字列中のいずれの部分文字列とも一致しない
ことに応じて、この差分文字列を文字列バッファ中の文
字列後尾に順次追加格納する。
【0030】情報更新手段は、拡張文字列格納手段によ
り格納された差分文字列の文字列バッファ内における位
置情報を用いて情報格納手段により本体インデックスに
格納された格納位置情報を更新する。
【0031】拡張本体インデックス生成手段は、拡張文
字列格納手段により格納された差分文字列の文字列バッ
ファ内における位置情報ならびに拡張情報検出手段によ
り検出された追加辞書中の各単語に関する一致部分文字
列長および差分文字列長情報を用いてこの追加辞書に対
応の本体インデックスを生成する。
【0032】拡張低次インデックス生成手段は、拡張本
体インデックス生成手段により生成された本体インデッ
クスにおける追加辞書中の各単語の情報が格納されたア
イテムの位置に基づいて、追加辞書に対応の低次インデ
ックスを生成する。
【0033】
【作用】請求項1に記載の単語辞書検索装置では、そこ
に記憶されるインデックス部において、本体インデック
スは各単語に対応の情報を格納するアイテムが固定長で
あるように構成されるとともに、文字列バッファは、辞
書における各単語の前単語との文字列間における差分文
字列を既に格納された文字列中のいずれの部分文字列と
も重複しないようにして格納するよう構成されるので、
本体インデックスおよび文字列バッファに関する消費メ
モリ容量が抑制される。
【0034】また、前述したように本体インデックスの
各アイテムは固定長であるので、低次インデックスを介
した本体インデックス中の所望アイテムへのアクセス時
間が短縮される。
【0035】請求項2に記載の単語辞書検索装置では、
インデックス部生成手段の文字列格納手段は前述の差分
文字列を文字列バッファに既に格納されている文字列中
のいずれの部分文字列とも一致しないことに応じて、該
差分文字列を該バッファ中に順次追加格納するので、該
バッファ内ではデータが冗長することなく格納されて、
その分バッファの消費メモリ容量が抑制される。
【0036】また、情報格納手段により各単語の情報は
本体インデックスの固定長アイテムに格納され得る、す
なわち固定長データにして格納されるので、本体インデ
ックスの消費メモリ容量が抑制される。
【0037】請求項3に記載の単語辞書検索装置の拡張
本体インデックス生成手段は、追加辞書に対する本体イ
ンデックスも、各単語の情報格納先であるアイテムを固
定長にして生成するので、拡張された本体インデックス
による消費メモリ容量の増加を抑制できるとともに、追
加辞書検索時に拡張低次インデックス生成手段により生
成された低次インデックスを介した拡張本体インデック
スへのアクセス時間が短縮される。
【0038】また、拡張文字列格納手段は、文字列バッ
ファに元の単語辞書と追加された単語辞書とに関する差
分文字列をそこに既に格納された文字列中のいずれの部
分文字列とも重複しないようにして格納し、情報更新手
段は元の単語辞書の本体インデックスの内容を拡張文字
列格納手段により拡張された文字列バッファ内の各差分
文字列の位置情報を用いて更新する。したがって、文字
列バッファが元の単語辞書と追加された単語辞書と共有
され得るようにインデックス部が生成されるので、検索
対象辞書の追加に伴うインデックス部の消費メモリ容量
の増加が抑制される。
【0039】
【実施例】以下、この発明の一実施例について図面を参
照して説明する。
【0040】図1は、この発明の一実施例によるインデ
ックスの概略構造を示す図である。図2は、この発明の
一実施例によるインデックスの具体的構造を示す図であ
る。
【0041】図3は、この発明の一実施例による単語辞
書検索装置の機能ブロック構成図であり、図4は、この
発明の一実施例による単語辞書検索装置のハードウェア
構成図である。
【0042】まず、図3の各機能ブロックと図4の各ハ
ードウェアとを対応づけて装置の構成について説明す
る。図3において装置は機能として、制御部110、入
力部111、記憶部112、表示部113、インデック
スデータ作成部114、インデックスデータ追加部11
5および検索部116を含む。
【0043】入力部111はキーボード、OCR(光学
式文字読取装置)、ペンなどの入力装置104および外
部機器、たとえばコンピュータなどとのデータのやり取
りをするための入力I/F(インタフェースの略)10
2から構成され、検索対象となる文字列や辞書のデータ
などを入力する。
【0044】記憶部112はROM(リードオンリメモ
リ)およびRAM(ランダムアクセスメモリ)で構成さ
れるコンピュータなどの通常の記憶装置101からな
り、検索用のインデックスデータ、検索部116に関す
る実行用のオブジェクトデータおよび検索結果データな
ど必要な各種データを格納する。
【0045】表示部113は液晶ディスプレイ、CRT
(陰極線管の略)などの出力装置106およびコンピュ
ータなどとのデータのやり取りをするための出力I/F
105から構成され、入力文字列、検索結果データなど
を表示する。
【0046】インデックスデータ作成部114は、後述
する作成方法に即して、小容量のインデックスデータを
作成し、これを記憶装置101に格納するためのロジッ
クからなり、記憶装置101の一部がこれに対応する。
【0047】インデックスデータ追加部115は、後述
する追加方法に即して、追加される容量が極力抑制され
た小容量のインデックスデータを作成し、記憶装置10
1にこれを格納するためのロジックであり、記憶装置1
01の一部がこれに対応する。
【0048】検索部116は、入力された検索対象文字
列に関する文字列の比較処理を行ないながら、記憶装置
101に格納された検索用インデックスを辿り、検索要
件を満たす辞書の本体データにアクセスして必要なデー
タを抽出するためのロジックであり、記憶装置101の
一部がこれに対応する。なお、辞書の本体データおよび
検索部116は、説明の便宜上、見出し語のみが格納さ
れた見出し語本体インデックスデータおよび見出し語検
索機能のみに簡単化した。
【0049】制御部110は、前述の各部を制御しなが
ら、記憶装置101中のデータ作成部114あるいはデ
ータ追加部115を呼出してそのロジックを解釈実行し
たり、記憶装置101中の検索部116を呼出し、一連
の検索ロジックを解釈実行するためのものであり、CP
U(中央処理装置の略)100がこれに対応する。
【0050】図1および図2は検索用インデックスに関
するメモリ消費容量を極力抑制することが可能な見出し
語インデックスデータの構成を示すものであり、図1に
その概略構造が、図2にその具体的構造がそれぞれ示さ
れる。
【0051】図1において、本実施例のインデックス構
造は、差分文字列バッファ4および辞書の各見出し語情
報を辞書の配列順に並べて格納した見出し語本体インデ
ックス3を先頭文字による1次インデックス1およびm
件ごとの2次インデックス2を介してアクセスできるよ
うな構造となっている。見出し語本体インデックス3は
辞書の各見出し語についてアイテムIを含み、アイテム
Iのサイズは固定長Kバイトであり、Kの値は扱う辞書
の規模により異なるが、40000見出し語前後の中規
模の英和辞典の場合、K=3で十分である。辞書の規模
が10数万見出し語になった場合でもK=4で十分であ
る。
【0052】アイテムIは第1フィールドF1および第
2フィールドF2を含む。フィールドF1は1つ前の見
出し語との重複文字数3aおよび差分文字列長3bとを
データとして含み、第2フィールドF2は差分文字列バ
ッファ4へのポインタ3cをデータとして含む。インデ
ックス3においては、アイテムIの1バイト目を第1フ
ィールドに割当て、残りのK−1バイトを第2フィール
ドに割当てている。フィールドF1では、さらに上位何
ビットかを前単語との重複文字数3aに割当て、下位の
残りビットを1つ前の見出し語文字列との差分文字列長
3bに割当てている。具体的な割当てビット数は扱う辞
書により異なるが、40000見出し語前後の中程度の
英和辞典の場合、重複文字数3aに3ビット(すなわち
重複7文字まで)、差分文字列長3bに5ビット(すな
わち31文字まで)をそれぞれ割当ておけば十分であ
る。第2フィールドF2にはポインタ3c(差分文字列
バッファ4の先頭からのオフセット位置を表わす)が書
込まれる。これも、40000見出し語前後の中程度の
英和辞典の場合、2バイトで表現可能である(通常の手
法では3バイト必要である)。
【0053】1次インデックス1は、先頭文字が変わる
最初の項目I(見出し語)に対する2次インデックス2
上のオフセット1aをそれぞれ格納したものであり、英
和辞典の場合、図2に示されるような構成となる。2次
インデックス2は、見出し語の先頭文字が変わるごと、
またはm件ごとの見出し語の連番2aが格納されたもの
である。連番2aは対応する見出し語の辞書における登
録順番を示し、辞書が装置に入力されるときに同時に得
られる。なお、連番2aは0から開始される。
【0054】図2においては、見出し語“adopt”
が40件ごとの見出し語として抽出され、その連番2a
が360であることを表わしている。
【0055】見出し語本体インデックス3の1つのアイ
テムIのサイズは前述したように固定長Kバイトである
から、2次インデックス2からアクセスすべきインデッ
クス3上の位置は、(2次インデックス2で得られた連
番2a)×Kバイト目と速やかに求められることは明ら
かであろう。
【0056】差分文字列バッファ4には、各見出し語の
文字列を1つ前に登録されている見出し語文字列と先頭
から比較して、最初に一致しなくなる位置から最後の位
置までの部分文字列(差分文字列)がそこに登録された
いずれの部分文字列とも重複することなくすべての見出
し語にわたって切れ目なしに登録されている。
【0057】図2に示される見出し語本体インデックス
3において、たとえば、見出し語“adorable”
の項目I(1089バイト目、連番363)では、1つ
前の見出し語“adoptive”と先頭3文字が重複
しているので、重複文字数3aには3が、差分文字列
“rable”の文字列長は5なので差分文字列長3b
には5がそれぞれセットされる。差分文字列バッファ4
へのポインタ3cは、バッファ4中の部分文字列“ra
ble”の先頭文字の位置を指示するようセットされ
る。
【0058】図1に示されたようなインデックス構造に
しておけば、見出し語本体(アイテムI)は固定長とな
るので、見出し語には“連番”でアクセスできる。これ
は、前後のアイテムIにアクセスしやすくなるうえ、別
のインデックスから見出し語(アイテムI)を参照する
ような場合、そのインデックス容量をオフセットデータ
で記述するよりも小さくすることができる。たとえば、
2次インデックス2は、固定長にしておかなければ(た
とえば図12の先頭3文字インデックス400の場合)
通常3バイト構造となるが、固定長にしておけば、64
K語数以内の規模の辞書であれば2バイト構造で済む。
また、後述する作成方法に従えば、差分文字列バッファ
4が通常のもの(図12の文字列バッファ600)の数
分の1程度の容量で構成できるため固定長化による容量
増大(必要となる文字列バッファへのポインタ情報のサ
イズ分)は全く問題にならなくなる。
【0059】図5は、この発明の一実施例による差分文
字列バッファ4がインデックスデータの容量削減に効果
的な役割を果たすことを示す図である。図5には辞書に
関するソースデータ6と図12で説明された従来の手法
によるソースデータ6に関する文字列バッファ600お
よび図1に示された本実施例の手法に従うソースデータ
6に関する差分文字列バッファ4が示される。
【0060】図12の従来手法により構成された文字列
バッファ600は差分文字列を区切り記号(¥0)をつ
けながら丸ごと登録していくので、バッファ600内に
同じ文字列や部分文字列が異なる場所に複数個存在する
ことになり、バッファ600内のデータは冗長性のある
データとなっている。これに対して、図1に示された手
法により構成された差分文字列バッファ4は、差分文字
列長の降順にソートされた差分文字列を、これまでにバ
ッファ4に登録された文字列の部分文字列とならない場
合のみ切れ目なしにバッファ4の文字列の最後尾に追加
登録するよう構成されているので、そのデータは冗長性
が抑制されている。図5に示されるように、差分文字列
には類似した文字列が多く出現するので、差分文字列バ
ッファを構成するにはこの実施例に従う方式が効果的で
あることがわかる。
【0061】図6は、この発明の一実施例によるインデ
ックスデータ作成処理フローチャートである。次に図6
のフローチャートに従ってインデックスデータ作成手順
を説明する。
【0062】まず、辞書のソースデータから見出し語の
みを取出して辞書順に並べた集合Mを準備する(T
1)。これは図3の入力部111を用いて辞書の見出し
語の内容を各見出し語が明確に判別できるようなフォー
マットで記憶装置101中のファイルに書込む。なお、
このとき、各見出し語の連番も得られる。
【0063】次に、各見出し語の先頭文字が変わるごと
あるいはm件ごとに抽出された見出し語の0番から数え
た連番2aを順次登録し、これを2次インデックス2と
する(T2)。なお1次インデックス1の作成処理は、
このフローでは省略されるが、1次インデックス1には
2次インデックス2の先頭文字の変わり目の辞書連番2
aが書込まれた位置(2次インデックス2の先頭からの
オフセット1a)を順次登録すればよい。
【0064】次に、集合Mの隣接する各要素Mi−1、
Miに対して、連番iが2次インデックス2に登録され
ているものであれば、連番iに対応の見出し語本体イン
デックス3の重複文字数Di(重複文字数3a)に0、
および差分文字列長Si(差分文字列長3b)にその見
出し語の文字列長をそれぞれセットし、さらに差分文字
列MSiに見出し語文字列自体をセットし(T4)、連
番iが2次インデックス2に登録されたものでなけれ
ば、1つ前の見出し語との重複文字数、差分文字列、お
よび差分文字列長を求めて、重複文字数Di、差分文字
列MSiおよび差分文字列長MSiにそれぞれセットす
る(T3)。このようにしてすべての見出し語について
抽出された差分文字列MSiの集合Sを、文字列の長さ
の降順にソートし、長さ降順差分文字列集合S′を作成
する(T5)。
【0065】次に、文字列バッファ4を構成するため
に、まず作業用の文字列バッファmjbの初期値を空文
字列に設定し、集合S′の要素S′i(i=0〜n)を
バッファmjbに順に(登録する必要があるもののみ)
登録していく(T6)。要素S′iをバッファmjbに
登録するか否かは、要素S′iが、これまでに作成され
たバッファmjb中のいずれかの部分文字列に一致する
か否かで判断され(T7)、部分文字列と一致すればそ
の部分文字列のバッファmjb内でのオフセットが求め
られて、文字列バッファ4へのポインタPi(ポインタ
3c)の値としてセットされる(T8)。ただし処理フ
ロー中には記述されないが、差分文字列が空文字列であ
る場合にはポインタPi(ポインタ3c)には−1がセ
ットされるものとする(T8)。一方、部分文字列と一
致しない場合は、バッファmjbの文字列の最後尾に要
素S′iの文字列を付け加えることにより差分文字列が
新規登録される。この場合、追加される位置がバッファ
mjbの文字列の最後尾なので、ポインタPi(ポイン
タ3c)には文字列が追加される前のバッファmjbの
文字列長をセットすればよい(T9)。ここでのポイン
タPiの添字(i)は、差分文字列の長さの順の番号で
あるが、見出し語本体インデックス3へのポインタPi
の格納位置を特定するために、差分文字列を求める際
に、予め添字iと見出し語連番との対応づけをしておく
ものとする。
【0066】見出し語の差分文字列全件に対するインデ
ックスへの登録操作(T6〜T9)が完了すれば(T1
0)、見出し語全件に対して、見出し語本体インデック
ス3の全アイテムIについての内容が求まり、同時に差
分文字列バッファ4が構成されたことになる(T1
1)。
【0067】図7は、この発明の一実施例によるインデ
ックスを用いた検索処理のフローチャートである。図7
のフローチャートは、入力された検索対象文字列と一致
する見出し語文字列が、前述の図6のフローチャートに
従って作成された見出し語本体インデックス3に存在す
るか否かを、1次インデックス1および2次インデック
ス2を辿ることによって確認するための検索手順を表わ
している。図7のフローチャートに従って、この検索手
順を説明する。
【0068】なお、2次インデックス2中の各項目は
K′バイトの固定長であると想定する。また、2次イン
デックス2のオフセットxの項目位置をアクセスして得
られる見出し語の連番2aをR(x)で表わし、同様
に、2次インデックス2のオフセットxの項目位置をア
クセスして得られる見出し語文字列をM(x)で表わ
す。
【0069】まず、入力装置104から入力された文字
列を取込み、検索対象文字列INSにセットする(T2
0)。次に、文字列INSの先頭1文字目のコードから
決まる1次インデックス1の項目位置をアクセスし、得
られる1次インデックス1の値、すなわち2次インデッ
クス2へのオフセット1aを取得しオフセットo2にセ
ットする(T21)。次に、2次インデックス2の先頭
から(o2+K′)バイト目をアクセスする。このアク
セスされた2次インデックス2の項目位置の値、すなわ
ち見出し語本体インデックス3の連番R(o2+K′)
を取得し、得られた連番R(o2+K′)に対応する見
出し語本体インデックス3のアイテムIをアクセスし、
入力文字列INSと一致する見出し語の存在する可能性
のある連番の範囲[Rs,Re]を限定する作業を行な
う(T22)。次に、この連番の範囲[Rs,Re]の
限定作業について詳述する。
【0070】ここで、2次インデックス2のアクセス位
置における連番R(o2+K′)に対応の見出し語文字
列M(o2+K′)を得る手順について説明する。ま
ず、インデックス本体3のアイテムIがKバイトの固定
長であるとすれば、インデックス3の先頭から(連番R
(o2+K′)*K)バイト目の位置をアクセスすれば
インデックス3の連番R(o2+K′)番目のアイテム
Iの内容が得られる。ここで、連番R(o2+K′)は
インデックス2から得られた連番であるため、1つ前の
見出し語との差分はとられていない。したがって、アク
セスしたアイテムI中のポインタ3cによる差分文字列
バッファ4のアクセス位置から差分文字列長3b分だけ
文字列を呼出してくれば、それが求める見出し語文字列
M(o2+K′)となる。
【0071】このようにして得られた見出し語文字列M
(o2+K′)と入力文字列INSとを辞書順の大小比
較によって比較し、入力文字列INSの方が見出し語文
字列M(o2+K′)よりも小さければ、文字列INS
は文字列M(o2)よりは大きいか等しいので、入力文
字列INSと一致する可能性のある見出し語の存在範囲
は連番の範囲[R(o2),R(o2+K′)]である
ことがわかる。一方、入力文字列INSが見出し語文字
列M(o2+K′)よりも小さくなく、かつ文字列M
(o2+K)>文字列M(o2)ならば、入力文字列I
NSと一致する可能性のある見出し語は範囲[R(o
2),R(o2+K′)]中にはなかったことがわか
る。この場合は、2次インデックス2の現在のアクセス
位置に続く次の項目位置(o2+2K′)バイト目をア
クセスして連番R(o2+2K′)および見出し語文字
列M(o2+2K′)を求め、再び大小比較を行ない、
範囲[R(o2+K′),R(o2+2K′)](文字
列M(o2+2K′)>文字列M(o2+K′)の場
合)または範囲[R(o2),R(o2+2K′)]
(文字列M(o2+2K′)=M(o2+K′)の場
合)が入力文字列INSの存在範囲となっているかどう
かを調べる。以下同様の操作を、入力文字列INSがイ
ンデックス2の連番から得られる見出し語文字列よりも
小さくなるまで(このときの2次インデックス2のオフ
セット位置を(o2+N*K′)とする)行なう。求め
る連番の範囲の連番Reは連番R(o2+N*K′)で
あり、連番Rsは、X<Nとして、文字列M(o2+X
*K′)≠文字列M(o2+X−1)*K′)となるよ
うな、オフセット位置(o2+N*K′)に最も近いオ
フセット位置(o2+X*K)に対応する連番R(o2
+X*K′)である。
【0072】次の処理では上述のようにして決定された
検索範囲の連番[Rs,Re]に従って、初期連番Rs
から順に対応する見出し語本体インデックス3中のデー
タにアクセスし、対応の見出し語文字列を求め、その都
度入力文字列INSと求められた見出し語文字列との辞
書順に従う大小比較を行なう。ここで、2次インデック
ス2で得られた連番Rsからそれ以降の連番に対応の見
出し語文字列を得る手続(T23)を以下に説明する。
【0073】まず、説明の便宜上、フローを制御するた
めの変数i=Rs、見出し語文字列WDi−1=“ ”
(空文字列)と設定する。最初は、変数iが2次インデ
ックス2から直接に得られた連番であるため、この連番
に対応の見出し語については1つ前の見出し語との差分
はとられていないので(図6のT4参照)、差分文字列
バッファ4のポインタ3ci(本体インデックス3から
得られる連番iに対応のポインタ3c)で示される位置
から3bi(インデックス3から得られる連番iに対応
の差分文字列長3b)バイトだけ文字列を読出してくれ
ば、それがそのまま見出し語文字列WDiとなる。
【0074】なお、見出し語本体インデックス3の連番
iに対応のアイテムIをアクセスするには、アイテムI
がたとえばKバイト固定長であるとすれば、先頭からi
*Kバイト目の位置をアクセスすればよい。連番iをイ
ンクリメントして次の見出し語文字列WDiを求めるに
は、1つ前の見出し語文字列WDi−1の先頭から3a
iバイト(インデックス3から得られる連番iに対応の
重複文字数3a)分の文字列に、差分文字列長3bi≠
0ならば、差分文字列バッファ4のポインタ3ciで示
される位置から差分文字列長3bi分の文字列を結合す
ればよい。
【0075】このようにして差分が復元されたi番目の
見出し語文字列WDiと入力文字列INSとを辞書順に
従い大小比較し一致すれば該当する見出し語は見出し語
文字列WDiに特定できたことになり(T24,T2
5)、一致しなければ、連番i<連番Reの範囲内(T
26で“N”)で連番iをインクリメントして(T2
7)、次の見出し語との大小比較を順次行なう。連番の
範囲[Rs,Re]内に一致する見出し語がなければ入
力文字列INSに該当する見出し語項目がなかったこと
が特定される(T28)。
【0076】ここで、上述した既存の見出し語検索用の
インデックスデータに新たな見出し語検索用のインデッ
クスデータを追加する場合を説明する。
【0077】この追加は上述した差分文字列バッファ4
の特性を効果的に活用して行なわれる。検索対象となる
辞書にもよるが、差分文字列バッファ4は相当な大きさ
のバッファとなるわけであるが、このような文字列バッ
ファ4に対して、同種の言語の平均的な長さの差分文字
列を追加登録する場合、追加される差分文字列は、それ
までに登録された文字列バッファ4中の部分文字列と一
致することが極めて多い。本実施例では、このような差
分文字列バッファ4に重複する部分文字列が存在するの
を防いで、バッファ4の容量増大を抑制する。これを次
に説明する。図8には、この発明の一実施例による差分
文字列バッファが検索機能追加において効果的な役割を
果たすことを示す図である。たとえば、図8のソースデ
ータ6で見出し語“adopt”以下、見出し語““a
doration”までは既に構成された差分文字列バ
ッファに存在するが、見出し語“adapt”以下、見
出し語“adaption”までは元の辞書にはなく、
今新たにそれらの見出し語を追加しなければならない状
況を考えると、追加分を単独で差分文字列バッファに構
成する場合は図8のバッファ8に示されるような15バ
イト必要であるが、予め用意された差分文字列バッファ
7が利用できる場合はバッファ9に示されるように僅か
7バイト追加するだけでよい。これは、全く新規に差分
文字列によるバッファを作成するよりもこれまでに構成
された既存の差分文字列バッファに新たな差分文字列を
追加する方がメモリ容量の削減という点で効果的である
ことを表わしている。既存の差分文字列バッファに新た
な差分文字列を追加するには、追加する差分文字列の集
合と、追加される側の差分文字列バッファ4を構成する
基となった差分文字列の集合とを合わせて、再び差分文
字列バッファを最初から作成することにより行なう。こ
れにより、追加分の差分文字列と既存の差分文字列とに
よりデータの冗長性が抑制された差分文字列バッファ4
の共有化が図られる。
【0078】図9は、この発明の一実施例による見出し
語検索機能に派生語検索機能を追加する場合のインデッ
クス構造の概略を示す図である。図9に示されるよう
に、差分文字列バッファは見出し語検索機能および派生
語検索機能の両機能により共有されていることがわか
る。
【0079】図10は、この発明の一実施例による差分
文字列バッファの共有化によるインデックスデータの追
加処理のフローチャートである。図10のフローチャー
トに基づいて、差分文字列バッファの共有化によるイン
デックスデータの追加手順を説明する。なお、ここで
は、既存の見出し語集合Mに新たな見出し語集合Aを追
加する場合を想定する。既存の見出し語集合M={M
0,M1,…、Mn}に新たな見出し語集合A={A
0,A1,…,Am}を追加することにより、図6で述
べたようにして集合Aの集合Mのそれと同様の構造を有
した1次および2次インデックスが作成される(T3
0,T31)。
【0080】次に、図6で述べた見出し語本体インデッ
クスの作成手順(図6のT3およびT4参照)に従っ
て、集合Aの各要素に対しても重複文字数ADi、1つ
前の見出し語との差分文字数ASiおよび差分文字列A
ASiが求められる(T32)。そして、既存の見出し
語集合Mに対する差分文字列MSiと追加分の差分文字
列AASiとを合わせた全体の差分文字列集合S={M
S0,…、MSn,AAS0,…,AASm}が求めら
れ、集合Sの要素を文字列長順にソートした集合S′=
{S0′,…、Sk′}(ただしk=n+m+1)が作
成される(T33)。
【0081】集合S′からその文字列バッファmjbを
構成する手順(T34〜T37)は、図6で示されたも
のと全く同様である(図6のT6〜T9参照)。バッフ
ァmjbが構成されると、集合S′の各要素に対するバ
ッファmjbへのポインタが同時に求められるので、集
合Mの各要素の差分文字列バッファへのポインタPMj
と集合Aの各要素に対する差分文字列バッファへのポイ
ンタPAjがセットされる。これにより、集合Mおよび
集合Aのそれぞれに対する見出し語本体インデックスが
構成されたことになる(T39)。
【0082】このように、図10のフローチャートに従
って作成された別の見出し語本体インデックス3も、固
定長データであり、その前後への項目(アイテムI)へ
のアクセス時間が短くなるように構成される。また、こ
のフローチャートにより作成された差分文字列バッファ
は、データの冗長がなく、かつ元の見出し語インデック
スの差分文字列バッファと共有される形で再構成され
る。再構成された文字列バッファは、区切り記号(¥
0)で差分文字列を並べた通常のものよりも消費容量が
小さく(数10Kの見出し語件数の辞典に対して通常の
1/10程度)できる。また、共有せずに単独で作成す
る場合よりもその消費容量を小さく(数10Kの見出し
語件数の追加に対して単独で作成されたバッファの1/
2程度)構成できるので、この実施例によれば、別の見
出し語インデックスデータを追加して検索機能の向上を
図った場合でも、それらデータ追加によるメモリ消費容
量の増加分を効果的に抑制することが可能となる。
【0083】
【発明の効果】請求項1または2に記載の単語辞書検索
装置によれば、インデックス部において文字列バッファ
は、差分文字列を冗長なく格納するよう構成され、さら
に本体インデックスは各単語に対応して設けられ、かつ
各単語に関する検索のための情報を格納するアイテムが
固定長となるよう構成されるので、インデックス部によ
る消費メモリ容量を小さくすることが可能となる。これ
により、装置に必要とされるメモリ容量が低減されて、
装置のコストダウンを達成できるという効果がある。
【0084】また、本体インデックス部には固定長アイ
テムの構造が採用されるので、低次インデックスを介し
た本体インデックスへのアクセス時間が短縮されて、検
索処理の高速化が図れるという効果がある。
【0085】請求項3に記載の単語辞書検索装置によれ
ば、検索対象辞書の追加によりインデックス部の拡張が
行なわれたとしても、拡張本体インデックス生成手段に
より追加辞書に対する本体インデックスも、その各アイ
テムは固定長にして生成されるので、追加された本体イ
ンデックスによる消費メモリ容量の増加が抑制されると
ともに、各アイテムへのアクセス時間が短縮化されて、
追加辞書を対象とした検索処理の高速化が図られるとい
う効果がある。
【0086】また、拡張文字列格納手段および情報更新
手段により、文字列バッファはそこに格納されるデータ
の冗長性が抑制され、さらに元の単語辞書と追加単語辞
書とにより共有され得るので、検索対象辞書の追加に伴
うインデックス部の消費メモリ容量の増加が抑制され
て、装置の機能向上およびコストパフォーマンスの向上
が同時に図られるという効果がある。
【図面の簡単な説明】
【図1】この発明の一実施例によるインデックスの概略
構造を示す図である。
【図2】この発明の一実施例によるインデックスの具体
的構造を示す図である。
【図3】この発明の一実施例による単語辞書検索装置の
機能ブロック構成図である。
【図4】この発明の一実施例による単語辞書検索装置の
ハードウェア構成図である。
【図5】この発明の一実施例による差分文字列バッファ
がインデックスデータの容量削減に効果的な役割を果た
すことを示す図である。
【図6】この発明の一実施例によるインデックスデータ
作成処理のフローチャートである。
【図7】この発明の一実施例によるインデックスを用い
た検索処理のフローチャートである。
【図8】この発明の一実施例による差分文字列バッファ
が検索機能追加において効果的な役割を果たすことを示
す図である。
【図9】この発明の一実施例による見出し語検索機能に
派生語検索機能を追加する場合のインデックス構造の概
略を示す図である。
【図10】この発明の一実施例による差分文字列バッフ
ァの共有化によるインデックスデータの追加処理のフロ
ーチャートである。
【図11】(a)および(b)は、従来の可変長見出し
語インデックスの一般的な構造を示す図である。
【図12】(a)および(b)は、従来の見出し語本体
をポインタデータのみの固定長にした見出し語インデッ
クスの構造を示す図である。
【図13】従来の見出し語検索機能に派生語検索機能を
追加した場合のインデックス構造の概略を示す図であ
る。
【符号の説明】
1 1次インデックス 2 2次インデックス 3 見出し語本体インデックス 4 差分文字列バッファ 110 制御部 111 入力部 112 記憶部 113 表示部 114 インデックスデータ作成部 115 インデックスデータ追加部 116 検索部 1a オフセット 2a 連番 3a 前単語との重複文字数 3b 差分文字列長 3c 差分文字列バッファへのポインタ なお、各図中同一符号は同一または相当部分を示す。

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 少なくとも単語辞書の本体データおよび
    前記辞書検索用のインデックス部を記憶し、指定された
    単語を前記インデックス部を介して前記辞書本体データ
    から検索する単語辞書検索装置であって、 前記インデックス部はさらに、 前記辞書中の各単語について、その文字列の前記辞書中
    で該単語の直前に登録された単語の文字列と一致しない
    部分文字列である差分文字列が、そこに既に格納された
    文字列中のいずれの部分文字列とも重複することなく順
    次格納される文字列バッファと、 前記辞書中の各単語に対応した固定長アイテムを有し、
    各アイテムには対応する単語の文字列の前記辞書中で該
    単語の直前に登録された単語の文字列と一致する部分文
    字列の長さおよび前記差分文字列の長さに関する情報、
    ならびに前記差分文字列の前記文字列バッファにおける
    格納位置に関する情報が格納される本体インデックス
    と、 前記本体インデックス中の各アイテムの情報を前記指定
    単語の文字列に従ってアクセスするための低次インデッ
    クスとを備えた、単語辞書検索装置。
  2. 【請求項2】 前記単語辞書検索装置は、前記インデッ
    クス部を生成する手段をさらに備え、 前記インデックス部生成手段は、 前記辞書中の各単語について、その文字列と前記辞書中
    の該単語の直前に登録された単語の文字列とを比較し、
    前記一致部分文字列長および前記差分文字列長に関する
    情報、ならびに前記差分文字列を検出する情報検出手段
    と、 前記検出された差分文字列が前記文字列バッファに既に
    格納されている文字列中のいずれの部分文字列とも一致
    しないことに応じて、該差分文字列を前記文字列バッフ
    ァ中の文字列後尾に順次追加格納する文字列格納手段
    と、 前記文字列格納手段による前記差分文字列の前記文字列
    バッファにおける格納位置に関する情報ならびに前記情
    報検出手段により検出された前記一致部分文字列長およ
    び前記差分文字列長に関する情報を前記本体インデック
    スの対応する前記アイテムに順次格納する情報格納手段
    と、 前記情報格納手段により前記各単語の情報が格納された
    アイテム位置に基づいて、前記低次インデックスを生成
    する手段とをさらに含む、請求項1に記載の単語辞書検
    索装置。
  3. 【請求項3】 前記インデックス部生成手段は、検索対
    象辞書が前記単語辞書に、これとは異なる単語辞書が追
    加されて拡張される場合に、拡張された前記インデック
    ス部を生成する手段を有し、 前記拡張インデックス部生成手段は、 前記追加辞書中の各単語について、その文字列と前記追
    加辞書中の該単語の直前に登録された単語の文字列とを
    比較し、一致する部分文字列の長さおよび一致しない部
    分文字列である差分文字列の長さに関する情報、ならび
    に該差分文字列を検出する拡張情報検出手段と、 前記情報検出手段により検出された差分文字列または前
    記拡張情報検出手段により検出された差分文字列が、前
    記文字列バッファに既に格納されている文字列中のいず
    れの部分文字列とも一致しないことに応じて、該差分文
    字列を前記文字列バッファ中の文字列後尾に順次追加格
    納する拡張文字列格納手段と、 前記拡張文字列格納手段により格納された前記差分文字
    列の前記文字列バッファ内の位置情報を用いて前記情報
    格納手段により前記本体インデックスに格納された格納
    位置情報を更新する手段と、 前記拡張文字列格納手段により格納された前記差分文字
    列の前記文字列バッファ内の位置情報ならびに前記拡張
    情報検出手段により検出された前記追加辞書中の各単語
    に関する一致部分文字列長および差分文字列長に関する
    情報を用いて前記追加辞書に対応の前記本体インデック
    スを生成する拡張本体インデックス生成手段と、 前記拡張本体インデックス生成手段により生成された本
    体インデックスにおける前記追加辞書中の各単語の情報
    が格納されたアイテム位置に基づいて、前記追加辞書に
    対応の前記低次インデックスを生成する拡張低次インデ
    ックス生成手段とをさらに備えた、請求項2に記載の単
    語辞書検索装置。
JP6322764A 1994-12-26 1994-12-26 単語辞書検索装置 Expired - Lifetime JP3003915B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP6322764A JP3003915B2 (ja) 1994-12-26 1994-12-26 単語辞書検索装置
US08/576,611 US5761688A (en) 1994-12-26 1995-12-21 Dictionary retrieval apparatus
EP95120459A EP0720107B1 (en) 1994-12-26 1995-12-22 Word retrieval apparatus for a dictionnary
DE69522426T DE69522426T2 (de) 1994-12-26 1995-12-22 Wort-Wiederauffindungsapparat für ein Wörterbuch

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6322764A JP3003915B2 (ja) 1994-12-26 1994-12-26 単語辞書検索装置

Publications (2)

Publication Number Publication Date
JPH08180069A JPH08180069A (ja) 1996-07-12
JP3003915B2 true JP3003915B2 (ja) 2000-01-31

Family

ID=18147388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6322764A Expired - Lifetime JP3003915B2 (ja) 1994-12-26 1994-12-26 単語辞書検索装置

Country Status (4)

Country Link
US (1) US5761688A (ja)
EP (1) EP0720107B1 (ja)
JP (1) JP3003915B2 (ja)
DE (1) DE69522426T2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040247A (ja) * 1996-07-26 1998-02-13 Sharp Corp データ処理装置
JP3466857B2 (ja) * 1997-03-06 2003-11-17 株式会社東芝 辞書更新方法および辞書更新システム
US5999949A (en) * 1997-03-14 1999-12-07 Crandall; Gary E. Text file compression system utilizing word terminators
JP3143079B2 (ja) 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
KR100285265B1 (ko) * 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
WO2001006407A1 (fr) * 1999-07-19 2001-01-25 Iliya Alexandrovich Boldov Procede de conversion d'informations texte
JP2004501424A (ja) * 2000-04-18 2004-01-15 コリア・テレコム 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法
GB2381358A (en) * 2000-08-15 2003-04-30 Seagate Technology Llc Dual mode data compression for operating code
US6941294B2 (en) * 2000-08-28 2005-09-06 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration
US7490034B2 (en) * 2002-04-30 2009-02-10 Microsoft Corporation Lexicon with sectionalized data and method of using the same
US7174346B1 (en) * 2003-07-31 2007-02-06 Google, Inc. System and method for searching an extended database
US7398210B2 (en) * 2003-10-23 2008-07-08 Microsoft Corporation System and method for performing analysis on word variants
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
TWI273450B (en) * 2005-07-12 2007-02-11 Asustek Comp Inc Method and apparatus for searching data
JP4510041B2 (ja) * 2007-03-06 2010-07-21 株式会社東芝 文書検索システム及びプログラム
US7917516B2 (en) * 2007-06-08 2011-03-29 Apple Inc. Updating an inverted index
US20140317137A1 (en) * 2012-03-12 2014-10-23 Hitachi, Ltd. Log management computer and log management method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61235977A (ja) * 1985-04-12 1986-10-21 Hitachi Ltd カナ漢字変換装置
JPS61285573A (ja) * 1985-06-12 1986-12-16 Ricoh Co Ltd 仮名漢字変換装置
JPS62128332A (ja) * 1985-11-30 1987-06-10 Toshiba Corp デ−タ処理装置
JPS63198154A (ja) * 1987-02-05 1988-08-16 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション つづり誤り訂正装置
JPH0682370B2 (ja) * 1987-05-26 1994-10-19 シャープ株式会社 文字処理装置
CA2003043C (en) * 1988-11-18 1994-04-05 Masataka Nakasuji Information searching apparatus
JPH03127254A (ja) * 1989-10-13 1991-05-30 Matsushita Electric Ind Co Ltd 単語検索装置
US5254990A (en) * 1990-02-26 1993-10-19 Fujitsu Limited Method and apparatus for compression and decompression of data
JPH0554077A (ja) * 1991-08-29 1993-03-05 Nec Corp 単語辞書検索装置
US5499359A (en) * 1994-01-18 1996-03-12 Borland International, Inc. Methods for improved referential integrity in a relational database management system

Also Published As

Publication number Publication date
EP0720107A1 (en) 1996-07-03
US5761688A (en) 1998-06-02
JPH08180069A (ja) 1996-07-12
DE69522426T2 (de) 2002-05-23
EP0720107B1 (en) 2001-08-29
DE69522426D1 (de) 2001-10-04

Similar Documents

Publication Publication Date Title
JP3003915B2 (ja) 単語辞書検索装置
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
US5721899A (en) Retrieval apparatus using compressed trie node and retrieval method thereof
US5551049A (en) Thesaurus with compactly stored word groups
US7290001B2 (en) Identification and enumeration of data components in a trie
US5805911A (en) Word prediction system
US5488719A (en) System for categorizing character strings using acceptability and category information contained in ending substrings
US5950184A (en) Indexing a database by finite-state transducer
US5553283A (en) Stored mapping data with information for skipping branches while keeping count of suffix endings
US5923837A (en) Method of accessing data using approximate data structures
JP2990000B2 (ja) 検索システム
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
JP3565840B2 (ja) 文書管理方法および文書管理装置
EP0638187B1 (en) Categorizing strings in character recognition
KR20050043884A (ko) 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템
JP2990312B2 (ja) データアクセス方法および装置
CN117290523B (zh) 基于动态索引表的全文检索方法及装置
JP2988304B2 (ja) 文字列管理装置
JP2975529B2 (ja) 電子化辞書検索装置
JPH10149367A (ja) テキスト蓄積検索装置
JP3021224B2 (ja) 辞書検索装置
JPH09101965A (ja) 情報登録方法および情報検索方法
JPH0638254B2 (ja) 仮名漢字変換装置
JPH0969113A (ja) 文書管理方式
JPH05314183A (ja) 結果自動補正検索システム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991102