[go: up one dir, main page]

JP3687118B2 - 関連語辞書作成装置および関連語辞書作成方法 - Google Patents

関連語辞書作成装置および関連語辞書作成方法 Download PDF

Info

Publication number
JP3687118B2
JP3687118B2 JP32120894A JP32120894A JP3687118B2 JP 3687118 B2 JP3687118 B2 JP 3687118B2 JP 32120894 A JP32120894 A JP 32120894A JP 32120894 A JP32120894 A JP 32120894A JP 3687118 B2 JP3687118 B2 JP 3687118B2
Authority
JP
Japan
Prior art keywords
keyword
related word
occurrence
word dictionary
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32120894A
Other languages
English (en)
Other versions
JPH08161343A (ja
Inventor
誠 安藤
明男 山下
一雄 相原
辰臣 喜多
裕子 松尾
真司 川本
浩 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP32120894A priority Critical patent/JP3687118B2/ja
Publication of JPH08161343A publication Critical patent/JPH08161343A/ja
Application granted granted Critical
Publication of JP3687118B2 publication Critical patent/JP3687118B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、テキスト検索装置のシソーラス作成保守に関し、特にテキスト検索装置に登録文書中のキーワードの共起関係に基づいてシソーラスの構築や保守を支援する装置に関する。
【0002】
【従来の技術】
検索では漏れなく文書の検索を行わせるための一つの手段として、シソーラス辞書を用いてキーワードを展開して検索キーとするものがある。シソーラス辞書は、語とそれに関連する語を登録しており、検索において有効な手段である。しかし、それの構築が複雑であるという問題があり、従来より、個人シソーラスの更新作業を支援する装置、あるいは動的なシソーラスを自動的に作成する装置などが、例えば、下記のような提案がなされてきた。
【0003】
(1) 特開平4−39769号公報「 シソーラス生成装置」には、入力文書を形態素解析そして文構造解析し、そして単語間の意味関係を規則辞書を用いて決定し、得られた単語間の関係から関係がある単語群をツリー構造として自動的にまとめるシソーラスの自動生成技術に関する提案がなされている。
【0004】
(2) 特開平4−64171号公報「キーワード連想生成装置」には、検索対象文のサンプルから、シソーラス上のノード重みを算出し、シソーラスに付与して作成された動的なシソーラスのノード重みを使用して連想キーワードを生成することが提案されている。
【0005】
(3) 特開平4−123264号公報「関連語テーブル作成装置および文書検索装置」には、自然言語文から意味表現テーブル、そしてそれから文解析・意味解析等をおこなって、関連語テーブルを作成する技術に関する提案がなされている。
【0006】
(4) 特開平4−222055号公報「個人シソーラス作成支援装置」には、検索時にシソーラスを使って解析・照合に失敗した文字列または単語に対して、シソーラス候補として登録しておき、ユーザのシソーラス更新時に使用するか否かの判断をするための整理された材料を提供し、シソーラス作成の支援をする技術に関する提案がなされている。
【0007】
【発明が解決しようとする課題】
かしながら、前記従来技術(1)(特開平4−39769号公報)や従来技術(3)(特開平4−123264号公報)のように文構造あるいは意味関係まで解析して、キーワード間の関連度、上位・下位関係、または反対語等を算出する方法は、文書登録時におこなう場合、処理が重くなり、大量の文書を登録する場合、時間が掛かり過ぎるという欠点があった。そして、従来技術(1)に関していえば、関連する単語群はツリー構造でシソーラスを構築するという制限があり構造の自由度にも制限があった。また、前記従来技術(2)(特開平4−64171号公報)で連想キーワードを生成するために動的なシソーラスを作成する点に着目すると、抽出する文書が検索対象文すべてではなく、一部の検索対象文という限定では、シソーラス候補として必要である単語を漏らしてしまう可能性がある欠点があった。そして、前記従来技術(4)(特開平4−222055号公報)のように検索時の結果をフィードバックさせる方法も、検索式として与えたもののみしかシソーラス作成に反映されない、あるいはシソーラスとして登録すべき語は抽出できても、それと同じ単語群の他の語との関係が分からないという欠点があった。
【0008】
本発明は、検索対象文書のデータから、キーワードとその関連語を比較的簡単に抽出判定でき、それを自動的に関連語辞書に登録することができるようにすることを目的とする。
本発明は、処理が重くならないようにすることにより、ユーザ自身が実使用に耐える程度のパフォーマンスで効率よく、上記キーワードの関連語辞書を作成できるようにすることを目的とする。
また、本発明は、まったく使わないような無関係なキーワードは省き、ユーザの関心の高い用語を選別して関連語として登録することができるようにすることを目的とする。
【0009】
【課題を解決するための手段】
本発明は、検索対象となる文書のキーワードを抽出するキーワード抽出手段(2)と、抽出したキーワード群から、同一の文書単位を抽出の出所とするキーワード群を共起の関係にあるキーワードとし、その共起の関係にあるキーワード群からキーワードの対を求めるとともに、それらの各キーワード対の出現頻度を求め、共起ファイルに保持する共起ファイル手段(7、8)と、前記共起ファイルを参照し、前記出現頻度が設定された閾値を越えたキーワード対を、その一方を見出し語とし、他方をその関連語として、関連語辞書に登録する関連語辞書登録手段(9)とを備えた関連語辞書作成装置である。そして、前記共起ファイル手段は、前記キーワード対の出現頻度のほかに、各キーワードの出現頻度をも保持し、前記関連語辞書登録手段は、共起ファイル手段を参照して、キーワード対の出現頻度が設定された閾値を越えるとともに、そのキーワード対における見出し語とすべき一方のキーワードの出現頻度が他の設定された閾値を越えた場合に関連語辞書に登録するものである。
【0010】
本発明の一態様では、前記関連語辞書登録手段はユーザによる関連語辞書の編集機能と、前記キーワード対の出現頻度の閾値または前記キーワードの出現頻度の閾値を変更する機能とを有し、また、ユーザの指定により、前記共起ファイル手段から、任意のキーワードに関する関連語の候補を表示する表示手段を有する。
【0011】
また、本発明の他の態様では、前記関連語辞書登録手段はユーザによる関連語辞書の編集機能と、前記キーワード対の出現頻度の閾値または前記キーワードの出現頻度の閾値を変更する機能とを有し、また、ユーザの指定により、前記共起ファイル手段から、任意のキーワードに関する関連語の候補を表示する手段(12)を有する。
【0012】
【作用】
共起ファイル手段は、キーワード抽出手段により抽出したキーワード群から共起の関係にあるキーワード対を求める。同一の文書から抽出したキーワード群は共起の関係にあるものとする。あるいは、構造化文書のように文書の構成要素の単位でキーワード群の出所が判別できるときには、構成要素の単位から抽出されたキーワード群を共起の関係にあるものとする。このように、抽出の出所である文書単位が同一であるか否かによって共起の関係を判別するので、その判断処理が簡単となる。そして、共起の関係にあるキーワード対のそれぞれに対して、文書に現れた頻度を記録する。関連語辞書登録手段は、作成された共起ファイルを参照して、関連語辞書を作成する。その際、共起ファイルのキーワード対の出現頻度は、キーワード対のキーワード同士の関連の強さを表しているので、この出現頻度が適宜に設定した閾値よりも大きいときに、これらは関連語であるとみなし、その一方を見出し語とし、他方をその関連語として関連語辞書に登録する。
【0013】
キーワードは、検索対象文中に頻繁に現れるものほど利用者により検索用キーワードとして使用される可能性が強い。従って、各キーワードの単独での出現頻度をも求め、これを前述のキーワード対の出現頻度のほかに、関連語を決定するための基準として加えることにより、あまり使われることのないキーワードが関連語辞書の見出し語として登録されてしまうということはなくなり、効率的な関連語辞書が得られる。
【0014】
前述のように、関連語辞書登録手段には、ユーザによる関連語辞書の編集機能および前記各閾値の設定をユーザにより変更可能にする機能を持たせるようにすると共に、共起ファイル手段から関連語の候補を表示する表示手段を設けるようにすることができる。この場合には、ユーザは各閾値の設定を調節しながら、表示される関連語候補の範囲の変化を表示手段で確認することができ、どの範囲を関連語辞書に登録する語とするかを容易に判定することができる。
【0015】
【実施例】
図1(a)〜図1(c)は本発明の実施例の装置の概略構成を示す機能ブロック図である。図1(a)は文書を登録する際に、キーワードを抽出してインデックスファイルを作成するとともに、インデックスファイルに登録されたキーワードを基に、キーワードの共起の関係を保持しておく共起ファイルの作成登録のために必要な構成の概略を示している。この装置は、文書登録等の指示を与える入力手段1と、テキストベータベース部3に登録する文書からキーワードを抽出するキーワード抽出手段2と、文書等のテキストデータを保持するテキストデータベース部3と、抽出したキーワードを登録文書の識別子と対応させたインデックスをインデックスファイルに登録するインデックス登録手段4と、インデックスを保持するインデックスファイル部5と、抽出したキーワードと同一テキスト中のその他のキーワード群を、共起の関係にある語であるとして抽出する共起キーワード抽出手段6と、キーワードの共起およびその頻度を共起ファイルに登録する共起ファイル登録手段7と、キーワードの共起およびその頻度を保持する共起ファイル部8を備えている。
【0016】
図1(b)は共起ファイルから、関連語(シソーラス)の編集可能辞書ファイルを作成するための構成の概略を示しており、関連語(シソーラス)編集可能辞書ファイル構築手段9と、関連語編集可能辞書ファイル部10を有している。
【0017】
図1(c)はユーザが関連語辞書(シソーラス辞書)を自ら構築する際、関連語候補を表示するための構成部分の概略を示している。共起ファイル部8から関連語候補を取り出して、表示可能な形式にして表示部12に渡す関連語候補表示手段11と,関連語候補の表示を行う表示部12とを備えている。
【0018】
以上のように構成された実施例の動作について説明する。
まず、本実施例では、同義語(関連語)の設定基準を以下のように設定する。
【0019】
テキストデータベースに検索対象文書が登録されるたびに形態素解析を行いキーワード抽出をおこなうシステムの場合、
▲1▼ 形態素解析によりキーワード抽出された文字列に対して、その文字列が存在する登録文書より抽出されたその他の文字列を同義語・関連語の候補としてそれらを表すユニークなIDとともに関連語構築用の共起ファイルに保持しておく。
【0020】
▲2▼ 同時に出現頻度を求めるため、既に抽出された文字列が共起ファイルあるいはインデックスファイルに存在している場合は出現頻度を1つインクリメントしておく。
【0021】
▲3▼ また、その他の文字列が既に共起ファイルの抽出キーワードの同義語・関連語の候補として存在していれば一致回数のインクリメントを行い、存在していなければ一致回数を1とする。
【0022】
▲4▼ 上記の操作を登録文書あるごとに繰り返す。
【0023】
▲5▼ このように動的に同義語・関連語の候補の文字列が更新される共起ファイルの中で、キーワード抽出された文字列の出現頻度がある閾値(例えば10箇所)以上あり、一致回数がある閾値(例えば5個)以上同一ファイルにある場合、同義語あるいは関連語とみなしそのまま、関連語ファイルに自動登録するか、あるいはユーザに提示し、ユーザの指示に応じて登録する。
【0024】
▲6▼ 出現頻度ならびに一致回数の閾値はデフォルト値を与えかつユーザが変更可能とする。図4に出現頻度ならびに一致回数の閾値の内容の例を示す。
【0025】
なお、出現頻度とは、あるキーワードに関して、すべての登録文書ファイルに対して、出現した回数の総和である。
またインデックスは図2(a)に示すようにキーワード(文字列あるいはID)とそれに対する文書fileIDのエントリーを持つ構造のものと、図2(b)に示すように文書fileIDとそれに対するキーワード(文字列あるいはID)のエントリーを持つ構造のものとがある。
そして、関連語構築用の共起ファイルのエントリーの構造は、図4(a)(b)に示すようにユーザ定義関連語ID、キーワード、出現頻度、対応キーワードペア([対応キーワード,一致回数] [,], [,], ....)からなる。なお、図4(a)(b)には関連語構築用の共起ファイルのエントリーの内容例も示されている。
【0026】
図6は抽出したキーワードと同義語・関連語との関係を保持しておく共起ファイルを作成登録する処理のフローチャートである。まず、入力手段1により、文書登録の指示が行われる(S60)。ここでインデックス登録をおこなう(S61)がこのときの処理を図7のフローに示す。
【0027】
図7において形態素解析を用いたキーワード抽出手段2により、キーワードが抽出され(S70)、抽出されたキーワードを、インデックス登録手段4によりインデックスファイル部5における図2(a)に示すようなキーワード対文書fileIDのインデックスに登録し(S71)、また図2(b)に示すような文書fileID対キーワードのインデックスに登録をする(S72)。次に関連語用の共起ファイル部8に抽出キーワードが見出し語としてあるかチェックを行い(S73)、存在しなければ共起ファイル登録手段7は、ユーザ定義関連語IDを設定しその抽出キーワードを見出し語として登録し、出現頻度を1に設定する(S74)。また、すでに存在していれば、対応する共起ファイル部8のレコードの出現頻度をインクリメントする(S75)。上記の操作を抽出するキーワードがなくなるまで繰り返す(S76)。これが終了すると、図6のステップS62に進む。
【0028】
共起キーワード抽出手段6は、上記文書fileID対キーワードのインデックスより、前記登録指示された対象文書のfileIDに係る1つのキーワードを対象登録文書のキーワードとして抽出する(S62)。そして、抽出されたキーワード以外の対象登録文書に係るキーワードを共起関係にある対応キーワードとして抽出する(S63)。次に共起ファイル登録手段7は、共起ファイル部8を参照し、対象登録文書のキーワードが見出し語となっている共起ファイル部8のエントリーに上記対応キーワードが存在しているかチェックを行う(S64)。もし存在しなければ共起ファイル登録手段7は、対応する共起ファイル部8のエントリーの[対応キーワード,一致回数=1]のレコードを追加する(S65)。また、すでに存在していれば対応する共起ファイル部8のエントリーの[対応キーワード,一致回数]のレコードの一致回数をインクリメントする(S66)。文書fileID対キーワードのインデックスに残りの対応キーワードが存在しているかどうかのチェックを行い(S67)、まだ存在していれば、抽出されたキーワード以外のキーワードを対応キーワードとして抽出する処理(S63)に戻る。存在していなければキーワード抽出は終了したかの判断を行い(S68)、終了していなければインデックスよりキーワードを抽出する処理に戻る(S62)。登録した文書の全てのキーワード抽出が終了した時点で、文書登録処理が終了したかどうかの判断を行い(S69)、登録する文書がある場合は、再度文書登録の処理(S60)に戻る。登録する文書がなくなった時点で、処理を終了する。
【0029】
図8は関連語の編集可能辞書ファイルを作成する処理のフローチャートである。まず、図1(b)の構成において、入力手段1により、関連語の編集可能辞書ファイル構築の指示をする(S80)。関連語編集可能辞書ファイル構築手段9は出現頻度の閾値はデフォルト値でよいかの判断をユーザに確認し(S81)、デフォルト値以外を選択したい場合は、ユーザが指定する出現頻度の閾値に変更し(S82)、デフォルト値でよい場合にはそのまま閾値を保持する。次に関連語編集可能辞書ファイル構築手段9は、一致回数の閾値はデフォルト値でよいかの判断をユーザに確認し(S83)、デフォルト値以外を選択したい場合は、ユーザが指定する出現頻度の閾値に変更し(S84)、デフォルト値でよい場合にはそのまま閾値を保持する。関連語編集可能辞書ファイル構築手段9は設定された出現頻度と一致回数の閾値以上の、条件を満足する共起ファイルのエントリーを抽出し(S85)、抽出されたエントリーから関連語の編集可能辞書ファイルを作成する(S86)。
【0030】
図9は関連語候補を表示する処理のフローチャートである。まず、図1(c)の構成において、入力手段1により、関連語の候補表示の指示を行う(S90)。関連語候補表示手段11は出現頻度の閾値はデフォルト値でよいかの判断をユーザに確認し(S91)、デフォルト値以外を選択したい場合は、ユーザが指定する出現頻度の閾値に変更し(S92)、デフォルト値でよい場合にはそのまま閾値を保持する。次に関連語候補表示手段11は、一致回数の閾値はデフォルト値でよいかの判断をユーザに確認し(S93)、デフォルト値以外を選択したい場合は、ユーザが指定する出現頻度の閾値に変更し(S94)、デフォルト値でよい場合にはそのまま閾値を保持する。関連語候補表示手段11は設定された出現頻度と一致回数の閾値以上の、条件を満足する共起ファイルのエントリーを抽出し(S95)、抽出されたエントリーから関連語の候補を表示する(S96)。
【0031】
以下、図2(a)〜図6を適宜参照しながら本実施例の具体的な動作例について説明する。
【0032】
図2(a)のキーワード対文書fileIDのインデックス、図2(b)の文書fileID対キーワードのインデックス、図3(a)の関連語構築用の共起ファイルがすでに存在しており、新たに、「パンナコッタ」「ナタデココ」「ティラミス」を含む文書を登録したとする。図6のにステップS61において、インデックス登録手段4はキーワード対文書fileIDのインデックスに、図3(a)のように「パンナコッタ」「ナタデココ」「ティラミス」と、登録する文書のfileID 20222とのレコードとして追加する。もし「パンナコッタ」「ナタデココ」「ティラミス」がすでに登録されていれば、対応する文書のfileID 20222のみを文書fileIDのフィールドに追加する。次にインデックス登録手段4は文書fileID対キーワードのインデックスに図3(b)のように登録する文書のfileID 20222のレコードを追加し、「パンナコッタ」「ナタデココ」「ティラミス」をキーワードフィールドに追加しレコードを更新する。図4(a)のように「パンナコッタ」がすでに9回の出現頻度で登録され、「ナタデココ」がすでに4回の出現頻度で登録されている。「ティラミス」はまだ登録されていないので、図4(b)のように「ティラミス」に対してはユーザ定義関連語ID N3を設定し「ティラミス」を見出し語として登録し、出現頻度を1に設定する。また「パンナコッタ」に対してはユーザ定義関連語ID N1が、「ナタデココ」に対してはユーザ定義関連語ID N2がすでに登録されており出現頻度を1インクリメントしそれぞれ10と5とする。
【0033】
次に、図6のS62〜S67において、図3(b)の文書fileID対キーワードのインデックスよりfileID 20222にあるキーワード「パンナコッタ」「ナタデココ」「ティラミス」を順次抽出する。共起ファイル登録手段7は関連語用共起ファイル部8に抽出キーワードが見出し語としてあるかチェックを行い、上記設定により「パンナコッタ」「ナタデココ」「ティラミス」が存在するので、それぞれ対応キーワードペアにfileID 20222に存在する残りのキーワードを一致回数とともに登録する。「パンナコッタ」の場合残りのキーワードは「ナタデココ」「ティラミス」であり、対応キーワードペアのフィールドに「ナタデココ」「ティラミス」は、それぞれ出現頻度=4, 1で存在しているので、図4(b)のように、それぞれのペアを1インクリメントし(ナタデココ、5)、(ティラミス, 2)と更新する。また「ナタデココ」の場合、残りのキーワードは「パンナコッタ」「ティラミス」であり、対応キーワードペアのフィールドに「パンナコッタ」が出現頻度=1で存在しているので、図4(b)のように、「パンナコッタ」のペアを1インクリメントし(パンナコッタ、2)と更新し、「ティラミス」という対応キーワードペアは存在しないので、新たに「ティラミス」の場合残りのキーワードは「パンナコッタ」「ナタデココ」のキーワードをであり(ティラミス, 1)を追加登録する。そして「ティラミス」の場合には対応キーワードペアが存在しないので、新たに「ティラミス」の対応キーワードペアのフィールドに(パンナコッタ, 1)、(ナタデココ, 1)を新規登録する。
【0034】
次に、図5(a)は本実施例での出現頻度ならびに一致回数の閾値のデフォルト値を示したものである。入力手段1により、関連語の編集可能辞書ファイル構築の指示をした場合、出現頻度の閾値を10、一致回数の閾値を5と、デフォルト値のままでよいという判断をした場合、上記実施例で「パンナコッタ」「ナタデココ」「ティラミス」に着目すると、関連語編集可能辞書ファイル構築手段9は図4(b)の「パンナコッタ」「ナタデココ」「ティラミス」のエントリーから出現頻度が10以上のキーワードは「パンナコッタ」だけであるので「パンナコッタ」のみを抽出し、さらに抽出された「パンナコッタ」エントリーの対応キーワードペアから一致回数が5以上の「菓子」と「ナタデココ」を抽出し、図5(b)のように関連語の編集可能辞書ファイルに登録する。出現頻度の閾値、一致回数の閾値を変更することによって、各抽出されるエントリーのキーワードも変わってくる。
【0035】
関連語の候補表示の場合も、上記関連語の編集可能辞書ファイルの例と同様の場合を例にとれば、候補表示の指示を受けた関連語候補表示手段11は、出現頻度と一致回数のそれぞれの設定閾値を越える「菓子」と「ナタデココ」が抽出され、表示部12により関連語の候補の表示を行う。
【0036】
【発明の効果】
本発明では、ユーザが検索対象としている文書から抽出したキーワードを利用して関連語辞書を構築するため、ユーザの要求に合った有用な関連語辞書を構築することができる。
【0037】
また、本発明によれば、キーワードの共起の関係の判断を抽出した出所が同一文書単位において出現したか否かにより行って、共起の関係にあるキーワード対を生成するので、共起の関係にある語を漏れがなくかつ簡単に求めることができ、また、その出現頻度を記録して、キーワード間の関連の程度を判断する材料とするので、関連語の判断処理が簡単、確実となる。従って、データ量が増えても、実使用に十分に耐える程度のパフォーマンスで実施することができる。
【0038】
抽出される各キーワードの出現頻度に基づいて登録する関連語を決定するようにした本発明の構成によれば、ほとんど使わないような無関係なキーワードを省くことができる。
【0039】
また、共起ファイルをユーザの指示により表示して、ユーザの編集により関連語辞書の登録を行う本発明の構成によれば、共起ファイルからユーザに提示される「同義である」あるいは「関連する」キーワード群にはユーザの興味のある、あるいは専門として扱うキーワードを含んでいる可能性が高いので、ユーザが独自の関連語辞書を構築するための作業が容易となり、また、ユーザの要求に合った有用な関連語辞書を構築することができる。また、その際、幾つか出現する可能性のある不要な関連語も、出現頻度の閾値の設定をユーザの判断で適宜に変更することにより、よりユーザの要求に即して押さえることができる。
【図面の簡単な説明】
【図1】 (a)は抽出したキーワードとの同義語・関連語との関係を保持しておく共起ファイルの作成登録のための構成の概略を示す図、(b)は 関連語の編集可能辞書ファイルを作成するための構成の概略を示す図、(c)はユーザが関連語を自ら構築する際、関連語候補を表示するための構成の概略を示す図
【図2】 (a)はキーワード対文書fileIDのインデックスの内容、(b)は文書fileID対 キーワードのインデックスの内容を示す図(共に、実施例で実施前の状態)
【図3】 (a)はキーワード対文書fileIDのインデックスの内容、(b)は文書fileID対 キーワードのインデックスの内容を示す図(共に、実施例で実施後の状態)
【図4】 (a)は関連語構築用の共起ファイルのエントリーの内容(実施例で実施前の状態)、(b)は関連語構築用の共起ファイルのエントリーの内容(実施例で実施後の状態)を示す図
【図5】 (a)は出現頻度ならびに一致回数の閾値の内容の一例、(b)は関連語の編集可能辞書ファイルの内容の一例を示す図
【図6】 抽出したキーワードと同義語・関連語との関係を保持しておく共起ファイルを作成登録する処理のフローチャート
【図7】 インデックス登録処理のフローチャート
【図8】 関連語の編集可能辞書ファイルを作成する処理のフローチャート
【図9】 関連語候補を表示する処理のフローチャート。
【符号の説明】
1…入力手段、2…キーワード抽出手段、3…テキストデータベース部、4…インデックス登録手段、5…インデックスファイル部、6…共起キーワード抽出手段、7…共起ファイル登録手段、8…共起ファイル、9…関連語編集可能辞書ファイル構築手段、10…関連語編集可能辞書ファイル部、11…関連語候補表示手段、12…表示部。

Claims (3)

  1. 検索対象とする文書のキーワードを抽出するキーワード抽出手段と、
    抽出したキーワード群から、同一の文書単位を抽出の出所とするキーワード群を共起の関係にあるキーワードとし、その共起の関係にあるキーワード群からキーワードの対をすべて求めるとともに、それらの各キーワード対の出現頻度を求め、共起ファイルに保持する共起ファイル手段と、
    前記共起ファイルを参照し、前記出現頻度が設定された閾値を越えたキーワード対を、その一方を見出し語とし、他方をその関連語として、関連語辞書に登録する関連語辞書登録手段と
    を備えた関連語辞書作成装置であって、
    前記共起ファイル手段は、前記キーワード対の出現頻度のほかに、各キーワードの出現頻度をも保持し、
    前記関連語辞書登録手段は、共起ファイル手段を参照して、キーワード対の出現頻度が設定された閾値を越えるとともに、そのキーワード対における見出し語とすべき一方のキーワードの出現頻度が他の設定された閾値を越えた場合に関連語辞書に登録する
    ことを特徴とする関連語辞書作成装置。
  2. 前記関連語辞書登録手段はユーザによる関連語辞書の編集機能と、前記キーワード対の出現頻度の閾値または前記キーワードの出現頻度の閾値を変更する機能とを有し、また、ユーザの指定により、前記共起ファイル手段から、任意のキーワードに関する関連語の候補を表示する表示手段を有する請求項1に記載の関連語辞書作成装置。
  3. 検索対象とする文書のキーワードを抽出するキーワード抽出手段と、抽出したキーワード群から、同一の文書単位を抽出の出所とするキーワード群を共起の関係にあるキーワードとし、その共起の関係にあるキーワード群からキーワードの対をすべて求めるとともに、それらの各キーワード対の出現頻度を求め、共起ファイルに保持する共起ファイル手段と、前記共起ファイルを参照し、前記出現頻度が設定された閾値を越えたキーワード対を、その一方を見出し語とし、他方をその関連語として、関連語辞書に登録する関連語辞書登録手段を備えた関連語辞書作成装置による関連語辞書作成方法であって、
    前記キーワード抽出手段が検索対象とする文書のキーワードを抽出するステップと、
    前記共起ファイル手段が、検索対象とする文書から抽出したキーワード群から同一の文書単位を抽出の出所とするキーワード群を共起の関係にあるキーワードとしてそれら共起の関係にあるキーワード群から求まるキーワードの対、各キーワード対の出現頻度および各キーワードの出現頻度を保持する共起ファイルを作成登録するステップと、
    前記関連語辞書登録手段が、前記共起ファイルを参照し、前記キーワード対の出現頻度が設定された閾値を越えるとともに、そのキーワード対における見出し語とすべき一方のキーワードの出現頻度が他の設定された閾値を越えたキーワード対を、その一方を見出し語とし、他方をその関連語として、関連語辞書に登録するステップと、
    を有する関連語辞書作成方法。
JP32120894A 1994-12-01 1994-12-01 関連語辞書作成装置および関連語辞書作成方法 Expired - Fee Related JP3687118B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32120894A JP3687118B2 (ja) 1994-12-01 1994-12-01 関連語辞書作成装置および関連語辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32120894A JP3687118B2 (ja) 1994-12-01 1994-12-01 関連語辞書作成装置および関連語辞書作成方法

Publications (2)

Publication Number Publication Date
JPH08161343A JPH08161343A (ja) 1996-06-21
JP3687118B2 true JP3687118B2 (ja) 2005-08-24

Family

ID=18130015

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32120894A Expired - Fee Related JP3687118B2 (ja) 1994-12-01 1994-12-01 関連語辞書作成装置および関連語辞書作成方法

Country Status (1)

Country Link
JP (1) JP3687118B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
JP3598211B2 (ja) * 1998-01-13 2004-12-08 富士通株式会社 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP3436109B2 (ja) * 1998-01-16 2003-08-11 富士ゼロックス株式会社 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11259504A (ja) * 1998-03-11 1999-09-24 Mitsubishi Electric Corp データベース作成装置およびデータベース検索装置
WO2002039319A1 (fr) * 2000-11-10 2002-05-16 Cai Co., Ltd. Procede et systeme de preparation d'un dictionnaire permettant de retrouver des matieres, procede pour retrouver des matieres et systeme pour retrouver des matieres
JP2002297621A (ja) * 2001-03-30 2002-10-11 Just Syst Corp 広告提供装置、広告提供方法ならびに記録媒体
JP2004355069A (ja) 2003-05-27 2004-12-16 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP4464463B2 (ja) 2007-08-03 2010-05-19 パナソニック株式会社 関連語提示装置
JP2013525868A (ja) * 2009-12-24 2013-06-20 ズオン−バン ミン 文書中に表現されているセンチメントを求めるためのシステム及び方法
JP5364802B2 (ja) * 2012-01-13 2013-12-11 株式会社東芝 文書検索システム、文書検索方法
JP5710519B2 (ja) * 2012-02-10 2015-04-30 日本電信電話株式会社 同義語抽出装置、方法、及びプログラム
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2538736B2 (ja) * 1992-03-30 1996-10-02 日本電信電話株式会社 関連キ―ワ―ド自動生成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法

Also Published As

Publication number Publication date
JPH08161343A (ja) 1996-06-21

Similar Documents

Publication Publication Date Title
US6094649A (en) Keyword searches of structured databases
JP3687118B2 (ja) 関連語辞書作成装置および関連語辞書作成方法
US20050203900A1 (en) Associative retrieval system and associative retrieval method
JP2005516306A (ja) 任意の各国語での照会によるマッチング文書の検索
KR20060017765A (ko) 개념 네트워크
Attardi et al. Categorisation by Context.
WO2005083597A1 (en) Intelligent search and retrieval system and method
JP2006048684A (ja) 情報検索システムにおけるフレーズに基づく検索方法
JP2006048686A (ja) フレーズに基づく文書説明の生成方法
JPH11102376A (ja) 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置
JPH09311870A (ja) ハイパーテキスト検索装置
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
JP2006048685A (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
JP2009211263A (ja) 情報検索システム、方法及びプログラム
CN108255972A (zh) 一种全文检索方法及系统
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0484271A (ja) 文書内情報検索装置
JP3594701B2 (ja) キーセンテンス抽出装置
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
KR970049752A (ko) 동사정보를 이용한 한국어 자연어 질의 정보검색 방법
JP2000305938A5 (ja) 文書情報検索装置および文書情報検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050530

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110617

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees