[go: up one dir, main page]

JP2003141162A - 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム - Google Patents

文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Info

Publication number
JP2003141162A
JP2003141162A JP2001335612A JP2001335612A JP2003141162A JP 2003141162 A JP2003141162 A JP 2003141162A JP 2001335612 A JP2001335612 A JP 2001335612A JP 2001335612 A JP2001335612 A JP 2001335612A JP 2003141162 A JP2003141162 A JP 2003141162A
Authority
JP
Japan
Prior art keywords
document
search
information
searched
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001335612A
Other languages
English (en)
Other versions
JP4156225B2 (ja
Inventor
Masaru Furukawa
勝 古川
Sadahide Adachi
禎秀 足立
Shintaro Amano
慎太郎 天野
Takayuki Chiba
隆行 千葉
Reina Udo
礼奈 有働
Yutaka Yabe
裕 矢部
Katsuhiko Mitobe
勝彦 水戸部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2001335612A priority Critical patent/JP4156225B2/ja
Publication of JP2003141162A publication Critical patent/JP2003141162A/ja
Application granted granted Critical
Publication of JP4156225B2 publication Critical patent/JP4156225B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書検索における適合率と再現率との両立を
はかるとともに、検索結果中の多数の文書を、目的の文
書の発見がしやすい順序や表示形態で操作者に提示する
こと。 【解決手段】 ソフトウェアなどのヘルプを構成する文
書群について、適合率は高いが再現率は低い検索と、逆
に適合率は低いが再現率は高い検索とを平行して実施す
る。第1検索部202〜第4検索部205は、符号が小
さいほど適合率の高い(その代わり再現率は低い)検索
手法、符号が大きいほど再現率の高い(その代わり適合
率は低い)検索手法によって、それぞれヘルプ文書管理
部201内の文書を検索する。そして、上記各部により
得られたそれぞれの検索結果をヘルプ画面表示部206
で併合の上一覧表示するが、この際の各文書の順位づ
け、すなわち操作者への提示の優先度は、相対的に適合
率の高い検索で出た文書ほど高くするようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、入力された自然
文と意味的に類似する文書を検索する文書検索装置、文
書検索方法およびその方法をコンピュータに実行させる
プログラムに関する。
【0002】
【従来の技術】コンピュータやネットワークの急速な普
及により、種々の分野の種々の文書が紙媒体に代えて電
子媒体で提供されるようになってきているが、中でもコ
ンピュータ(やその周辺機器)のハードウェア・ソフト
ウェアに関するマニュアルは、比較的早期から電子化の
進んだ文書の一つである。
【0003】紙のマニュアルに比べ、電子化されたマニ
ュアル(以下「ヘルプ」という)は必要箇所の頭出しが
容易である、複数人による共有が容易である、破損や汚
損、あるいは紛失などが発生しないなどの多くの利点を
有している。
【0004】こうしたヘルプをどのように編成するかは
作成者の方針にもよるが、ある程度以上の分量になる
と、単一の文書(ファイル)とはせず複数の文書の集合
体として実現するのが一般的である。したがって、ヘル
プの検索は一種の文書検索となる。
【0005】たとえば本出願人が製造・販売する、写真
画像をパソコンに取り込んだりプリンタで印刷したりす
るためのソフトウェア(製品名「美写楽」)のヘルプ
は、「デジカメの画像をパソコンで、美写楽でみれるの
?」などの質問からなる文書(以下「Q文書」と総称す
る)と、「閲覧できます。世界で一番美しくあなたの画
像を再生します。」など、上記質問に対する回答からな
る文書(以下「A文書」と総称する)との、2種類の文
書から構成される。
【0006】なお、1つのQ文書には1つの質問が、1
つのA文書には1つの回答がそれぞれ格納され、どのQ
文書とA文書とが対応するのかが文書IDなどによって
分かるようになっている。
【0007】そして、上記ソフトウェアには上記ヘルプ
を検索するための検索エンジン、すなわち、ヘルプ内の
Q文書のうち操作者の入力した自然文(以下「問い合わ
せ文」という)に最も近い内容のものを特定するための
モジュールが搭載されている。本出願人の場合、このエ
ンジンは「ベクトル空間法」と呼ばれる検索手法を採用
している。
【0008】「ベクトル空間法」とは、上記問い合わせ
文の特徴ベクトルと、検索対象となる文書群内の各文書
(問い合わせ文と比較される各文書、と言ってもよい)
の各特徴ベクトルとの距離を計算し、この距離が小さい
文書ほど問い合わせ文との類似度が高い、すなわち操作
者の検索要求に対する合致度が高いとするものである。
【0009】なお、特徴ベクトルとはn個のキーワード
(語彙)に対応するn個の要素値からなる、n次元のベ
クトルであって、個々の要素値は最も単純には、対応す
るキーワードの出現頻度によって決定される。たとえば
単一のキーワードのみからなる問い合わせ文(1つのキ
ーワードが1回だけ出現する問い合わせ文、と言っても
よい)の特徴ベクトルは、(0、1、0、0、・・・)
のように、当該キーワードに対応する要素の値だけが1
で、残りn−1個の要素値がすべて0となるようなベク
トルである。
【0010】もっとも実際にはこれほど単純なものでな
く、各要素値は対応するキーワードの出現頻度のほか、
たとえば文書群内でもある特定の文書に集中して出現し
ている、文書内でもある特定の部分に集中して出現して
いるなど、出現箇所の特徴にも配慮して決定される。こ
の特徴ベクトルの作成方法については他にも種々の手法
がありうるが、本発明とは直接の関係がないのでここで
は立ち入らない。
【0011】上記のベクトル空間法においては、本文内
に出現するキーワードの全体としての傾向が、問い合わ
せ文と類似するような文書が検索結果として取り出され
るので、問い合わせ文中のキーワードが含まれるか否か
により単純に文書を選別するブーリアン検索(一般のキ
ーワード検索)に比べ、検索結果中のノイズを減少させ
ることが可能である。
【0012】
【発明が解決しようとする課題】しかしながら、ベクト
ル空間法といえども万能というわけではない。特に、ヘ
ルプを必要とするような初心者は文書検索についても素
人であることが多く、どのように質問をすればよいか、
どのように回答を絞り込んでゆけばよいかなどのノウハ
ウを持たないことが多い。そのため、たとえ必要な情報
の記載された文書がヘルプ内に存在したとしても、操作
者は多数の文書の中から当該文書を探し出せないことが
あるという問題点があった。
【0013】ところで、一般に文書検索においては、適
合率すなわち拾い出した文書がどれだけ検索者の要求に
沿ったものであるかと、再現率すなわち検索者の要求に
沿う文書を文書群内からどれだけ漏れなく拾い出せたか
との双方の向上が課題であるが、その両立は容易でない
ことが多い。すなわち、検索条件を厳しくすると適合率
が高くなる反面再現率は低くなり、逆に検索条件を緩く
すると再現率は高くなるものの適合率が低くなるという
関係にある。
【0014】この発明は上記従来技術による問題点に鑑
みてなされたものであって、文書検索における適合率と
再現率との両立をはかるとともに、検索結果中の多数の
文書を、目的の文書の発見がしやすい順序や表示形態で
操作者に提示することが可能な文書検索装置、文書検索
方法およびその方法をコンピュータに実行させるプログ
ラムを提供することを目的とする。
【0015】
【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項1に記載の発明にかかる文
書検索装置は、入力された自然文と意味的に類似する文
書を検索する第1の検索手段と、前記自然文と意味的に
類似する文書を検索する第2の検索手段と、前記第1の
検索手段により検索された文書を特定できる情報と前記
第2の検索手段により検索された文書を特定できる情報
との両方に、同一の情報が重複して含まれているか否か
を判定する判定手段と、前記判定手段により、前記第1
の検索手段により検索された文書を特定できる情報と前
記第2の検索手段により検索された文書を特定できる情
報との両方に、同一の情報が重複して含まれていると判
定された場合に、前記第2の検索手段により検索された
文書を特定できる情報の中から前記同一の情報を削除す
る削除手段と、前記第1の検索手段により検索された文
書を特定できる情報に続けて、前記削除手段により前記
同一の情報を削除された、前記第2の検索手段により検
索された文書を特定できる情報を結合する結合手段と、
前記結合手段により前記情報が結合された順序で、前記
各情報により特定される各文書の本文を表示する表示手
段と、を備えたことを特徴とする。
【0016】この請求項1に記載の発明によれば、適合
率や再現率の異なる各種の手法で検索された文書が、相
対的に適合率の高い手法で検索されたものを上位、相対
的に再現率の高い手法で検索されたものを下位として一
覧表示される。
【0017】また、請求項2に記載の発明にかかる文書
検索装置は、前記請求項1に記載の発明において、前記
表示手段が前記第1の検索手段により検索された文書の
本文と前記第2の検索手段により検索された文書の本文
との表示形態を異ならせて表示することを特徴とする。
【0018】この請求項2に記載の発明によれば、適合
率や再現率の異なる各種の手法で検索された文書が、ど
の手法で検索されたものであるかが表示色の区別などに
より明示の上で一覧表示される。
【0019】また、請求項3に記載の発明にかかる文書
検索装置は、前記請求項1または請求項2に記載の発明
において、前記第1の検索手段が、その本文内に出現す
る語彙が前記自然文と共通する文書にあらかじめ対応づ
けられた文書を、前記自然文と意味的に類似する文書と
して検索するとともに、前記第2の検索手段が、その本
文内に出現する語彙の傾向が前記自然文と類似する文書
を、前記自然文と意味的に類似する文書として検索する
ことを特徴とする。
【0020】この請求項3に記載の発明によれば、検索
結果一覧では相対的に適合率の高い第1の検索手段によ
り検索された文書が上位、相対的に再現率の高い第2の
検索手段により検索された文書が下位に表示されるとと
もに、いずれの手段により検索された文書であるかが表
示色の区別などにより明示される。
【0021】また、請求項4に記載の発明にかかる文書
検索装置は、前記請求項1または請求項2に記載の発明
において、前記第1の検索手段が、その本文内に出現す
る語彙の傾向が前記自然文と類似する文書を、前記自然
文と意味的に類似する文書として検索するとともに、前
記第2の検索手段が、その本文内に出現する語彙の傾向
が前記自然文と類似する文書、およびあらかじめ対応づ
けられた文書の本文内に出現する語彙の傾向が前記自然
文と類似する文書を、前記自然文と意味的に類似する文
書として検索することを特徴とする。
【0022】この請求項4に記載の発明によれば、検索
結果一覧では相対的に適合率の高い第1の検索手段によ
り検索された文書が上位、相対的に再現率の高い第2の
検索手段により検索された文書が下位に表示されるとと
もに、いずれの手段により検索された文書であるかが表
示色の区別などにより明示される。
【0023】また、請求項5に記載の発明にかかる文書
検索装置は、前記請求項1〜請求項4のいずれか一つに
記載の発明において、さらに、前記自然文と意味的に類
似する文書が分類されるカテゴリを検索する第3の検索
手段と、前記第3の検索手段により検索されたカテゴリ
の名称を表示する第2の表示手段と、を備えたことを特
徴とする。
【0024】この請求項5に記載の発明によれば、適合
率や再現率の異なる各種の手法で検索された文書が、相
対的に適合率の高い手法で検索されたものを上位、相対
的に再現率の高い手法で検索されたものを下位として一
覧表示されるとともに、いずれの手段により検索された
文書であるかが表示色の区別などにより明示される。
【0025】また、請求項6に記載の発明にかかる文書
検索方法は、入力された自然文と意味的に類似する文書
を検索する第1の検索工程と、前記自然文と意味的に類
似する文書を検索する第2の検索工程と、前記第1の検
索工程で検索された文書を特定できる情報と前記第2の
検索工程で検索された文書を特定できる情報との両方
に、同一の情報が重複して含まれているか否かを判定す
る判定工程と、前記判定工程で、前記第1の検索工程で
検索された文書を特定できる情報と前記第2の検索工程
で検索された文書を特定できる情報との両方に、同一の
情報が重複して含まれていると判定された場合に、前記
第2の検索工程で検索された文書を特定できる情報の中
から前記同一の情報を削除する削除工程と、前記第1の
検索工程で検索された文書を特定できる情報に続けて、
前記削除工程で前記同一の情報を削除された、前記第2
の検索工程で検索された文書を特定できる情報を結合す
る結合工程と、前記結合工程で前記情報が結合された順
序で、前記各情報により特定される各文書の本文を表示
する表示工程と、を含んだことを特徴とする。
【0026】この請求項6に記載の発明によれば、適合
率や再現率の異なる各種の手法で検索された文書が、相
対的に適合率の高い手法で検索されたものを上位、相対
的に再現率の高い手法で検索されたものを下位として一
覧表示される。
【0027】また、請求項7に記載の発明にかかるプロ
グラムは、前記請求項6に記載された方法をコンピュー
タに実行させることを特徴とする。
【0028】この請求項7に記載の発明によれば、前記
請求項6に記載された方法がコンピュータにより実行さ
れる。
【0029】
【発明の実施の形態】以下に添付図面を参照して、この
発明による文書検索装置、文書検索方法およびその方法
をコンピュータに実行させるプログラムの好適な実施の
形態を詳細に説明する。
【0030】図1は、この発明の実施の形態による文書
検索装置のハードウェア構成を示す説明図である。同図
において、101は装置全体を制御するCPUを、10
2は基本入出力プログラムを記憶したROMを、103
はCPU101のワークエリアとして使用されるRAM
を、それぞれ示している。
【0031】また、104はCPU101の制御にした
がってHD(ハードディスク)105に対するデータの
リード/ライトを制御するHDD(ハードディスクドラ
イブ)を、105はHDD104の制御にしたがって書
き込まれたデータを記憶するHDを、それぞれ示してい
る。
【0032】また、106はCPU101の制御にした
がってFD(フロッピー(登録商標)ディスク)107
に対するデータのリード/ライトを制御するFDD(フ
ロッピーディスクドライブ)を、107はFDD106
の制御にしたがって書き込まれたデータを記憶する着脱
自在のFDを、それぞれ示している。
【0033】また、108はカーソル、メニュー、ウィ
ンドウ、あるいは文字や画像などの各種データを表示す
るディスプレイを、109は通信ケーブル110を介し
てLANなどのネットワークに接続され、当該ネットワ
ークとCPU101とのインターフェースとして機能す
るネットワークI/Fを、それぞれ示している。
【0034】また、111は文字、数値、各種指示など
の入力のための複数のキーを備えたキーボードを、11
2は各種指示の選択や実行、処理対象の選択、カーソル
の移動などをおこなうマウスを、それぞれ示している。
また、113は着脱可能な記録媒体であるCD−ROM
を、114はCD−ROM113に対するデータのリー
ドを制御するCD−ROMドライブを、100は上記各
部を接続するためのバスまたはケーブルを、それぞれ示
している。
【0035】つぎに、図2はこの発明の実施の形態によ
る文書検索装置の機能的構成を示す説明図である。この
発明の実施の形態による文書検索装置は、問い合わせ文
解析部200、ヘルプ文書管理部201、第1検索部2
02、第2検索部203、第3検索部204、第4検索
部205およびヘルプ画面表示部206を含む構成であ
る。
【0036】個々の機能部の説明に入る前に、この発明
の概略を説明する。本発明においては、ヘルプを構成す
る文書群について適合率は高いが再現率は低い検索と、
逆に適合率は低いが再現率は高い検索とを平行して実施
する。後述する第1検索部202〜第4検索部205
は、符号が小さいほど適合率の高い(その代わり再現率
は低い)検索手法、符号が大きいほど再現率の高い(そ
の代わり適合率は低い)検索手法によって、それぞれヘ
ルプ文書管理部201内の文書を検索する。
【0037】そして、上記各部により得られたそれぞれ
の検索結果をヘルプ画面表示部206で併合の上一覧表
示するが、この際の各文書の順位づけ、すなわち操作者
への提示の優先度は、相対的に適合率の高い検索で出た
文書ほど高くするようにする。
【0038】したがって、検索結果一覧では第1検索部
202により検索された文書群が最上位に、第4検索部
205により検索された文書群が最下位に、それぞれ表
示され、その間を第2検索部203により検索された文
書群、第3検索部204により検索された文書群が埋め
ることになる。
【0039】各種の手法で検索された文書をただ単に羅
列したのでは、重複分を除くとしても検索結果中の文書
数が多くなりすぎ、操作者の目的とする文書が見つけに
くくなってしまう。ところで操作者の目的とする文書
は、再現率の高い検索、いわゆる「緩い」検索により初
めて拾い出せることもあるが、通常は適合率の高い検
索、いわゆる「絞り込んだ」検索でも拾えていることが
多い。
【0040】そこで本発明の検索結果一覧では、上記文
書を含む可能性の比較的高い、適合率の高い検索でヒッ
トした文書群を上位に、上記可能性の比較的低い、再現
率の高い検索でヒットした文書群を下位に、それぞれ表
示するわけである。
【0041】以下、図2に示す各部の機能について詳細
に説明する。まず、200は問い合わせ文解析部であ
り、後述するヘルプ画面表示部206から入力した問い
合わせ文(任意の自然文)を解析して、後述する特徴ベ
クトルの基礎となるキーワードの切り出しなどをおこな
う。たとえば、「パソコンに画像を取り込むには?」と
いう問い合わせ文からは、上記解析により「パソコン」
「画像」「取り込む」の3つのキーワードが切り出され
る。
【0042】つぎに、201はヘルプ文書管理部であ
り、以下で説明するQ文書DB(データベース)201
a、A文書DB(データベース)201b、Q+A文書
DB(データベース)201cの3つのデータベースを
含む構成である。
【0043】図3は、ヘルプ文書管理部201内の各デ
ータベースに保持されるデータの構造を模式的に示す説
明図である。図示するように、ヘルプ文書管理部201
はそのQ文書DB201aに、ヘルプを構成するすべて
のQ文書、そのA文書DB201bに、ヘルプを構成す
るすべてのA文書を保持している。
【0044】Q文書には「DJ−1」「DJ−2」・・
・のように「DJ−*」の形式の通し番号が、A文書に
は「ZU−1」「ZU−2」・・・のように「ZU−
*」の形式の通し番号が、それぞれ固有の文書IDとし
て付与されている。また、対応するQ文書とA文書はI
D内に同じ数字を含んでおり、たとえば「ZU−1」の
A文書の本文は「DJ−1」のQ文書の本文である質問
に対する回答、「ZU−2」のA文書の本文は「DJ−
2」のQ文書の本文である質問に対する回答である。
【0045】また、ヘルプ文書管理部201はそのQ+
A文書DB201cに、Q文書DB201a内のQ文書
とA文書DB201b内のA文書とを、それぞれ対応す
るもの同士結合したQ+A文書を保持している。Q+A
文書のIDとしては、その元となったQ文書のIDをそ
のまま引き継ぐものとする。たとえば、IDが「DJ−
1」のQ文書と、「ZU−1」のA文書とから作成され
たQ+A文書のIDは「DJ−1」である。
【0046】ヘルプ文書管理部201が保持するデータ
ベースのうち、Q文書DB201aは後述する第2検索
部203、Q+A文書DB201cは後述する第3検索
部204による検索の対象となるデータベースである。
また、ヘルプ文書管理部201は後述するヘルプ画面表
示部206から引き渡されたIDで特定されるQ文書や
A文書を検索するとともに、その本文をヘルプ画面表示
部206に対して出力する。
【0047】図2に戻り、つぎに202は第1検索部で
あり、後述する第2検索部203〜第4検索部205に
比較して最も適合率の高い、すなわち最も絞り込まれた
検索をおこなう機能部である。この第1検索部202
は、以下に説明するKDB(キーワードデータベース)
202aを保持している。
【0048】図4は、第1検索部202内のKDB20
2aに保持されるデータの構造を模式的に示す説明図で
ある。図示するように、KDB202a内には複数の文
書が保持され、各文書の本文は1つのキーワードのみに
より構成される。そして、各文書にはその属性情報(付
属情報)として、当該文書に対応づけられた1〜数個の
Q文書のIDが設定されている。
【0049】このKDB202aはあらかじめ、主に人
手によって作成されるものである。まず、ヘルプを構成
するQ文書とA文書とから、特徴的なキーワードをいく
つか抽出する。特徴的なキーワードとしては、たとえば
ある分野に特有の専門用語であってIDF値の大きいキ
ーワードや、Q文書・A文書を複数のカテゴリに分類し
たときに、あるカテゴリの文書にのみ含まれるようなキ
ーワードなどが考えられる。
【0050】そして、上記で抽出した個々のキーワード
につき、当該キーワードに対応づけるのに最も適切なQ
文書を1〜数個選定する。何をもって最適とするかは任
意であるが、たとえばヘルプであれば、比較的多くの操
作者に参照される事項とあまり参照されることのない事
項とが経験的に分かるので、当該キーワードでヘルプを
引く操作者が、典型的に有している質問のQ文書を最適
として対応づけるようにする。
【0051】たとえば、上述の「美写楽」のヘルプにお
いて「パソコン」という特徴的なキーワード(ありふれ
たキーワードのようであるが、特定のヘルプに範囲を限
れば稀なキーワードとなることもある)でヘルプを引く
操作者は、デジタルカメラで撮影した写真をパソコンで
どう見ればよいのかや、撮影した写真をパソコンにどう
取り込めばよいのかを問い合わせている場合が多い。
【0052】そこで「パソコン」というキーワードに
は、「カメラ画像をパソコンでみる方法を教えてくださ
い。」という質問からなるQ文書(図3よりそのIDは
「DJ−1」である)、「DigiJust−1で画像
をパソコンに取り込む方法を教えてください。」という
質問からなるQ文書(同「DJ−2」)、および「デジ
カメの画像をパソコンで、美写楽でみれるの?」という
質問からなるQ文書(同「DJ−3」)の3つを対応づ
ける。
【0053】具体的には、KDB202a内に「パソコ
ン」という1つのキーワードのみを本文とする文書を作
成し、当該文書の属性情報(付属情報)として、上記で
対応づけた各Q文書のIDを設定する。
【0054】なお、同じキーワードに対応づけられた文
書間の相対的な適切さは、そのIDの登録の順序で表さ
れるものとする。たとえば上記の例では、末尾の「DJ
−3」よりは先頭の「DJ−1」のほうが、キーワード
「パソコン」に対応づけるのにより適切である(「DJ
−3」よりは「DJ−1」のほうがよくある質問であ
る、と言ってもよい)。
【0055】なお、上記のほかにも「パソコン」という
キーワードを含むQ文書や、当該キーワードから想起・
連想される質問を格納したQ文書などはあろうが、KD
B202aで対応づけるQ文書は1キーワードにつき高
々数個(上記の例では3個)までである。逆に言えば、
あまりに多くのQ文書が対応づけられてしまうような、
ありふれたキーワードにつき1文書を作成してKDB2
02aに登録するのは望ましくない。
【0056】なお、図4は特徴的なキーワードとして、
「パソコン」「接続」「印刷」の3つのキーワードが抽
出された場合のKDB202aの保持内容を示すもので
ある。「接続」「印刷」についても、各キーワードを本
文とする文書がKDB202aに作成されている。この
ように、KDB202aは「キーワードのデータベー
ス」ではなく、「キーワードからなる文書のデータベー
ス」、すなわちそれぞれ1個のキーワードのみを保持す
る複数の文書からなる文書データベースである。
【0057】なお、ここでは説明の便宜上、KDB20
2a内の各文書にはそれぞれ1個のキーワードが格納さ
れているものとするが、文書内のキーワードは複数であ
ってもよい。すなわち、KDB202a内の文書は、キ
ーワードごとでなく複数のキーワードの組み合わせにつ
いて作成するようにしてもよい。また、1個のキーワー
ドのみを保持する文書と、複数のキーワードの組を保持
する文書とがKDB202a内に混在しているのであっ
てもよい。
【0058】図2に示した第1検索部202は、問い合
わせ文解析部200から入力した解析結果にもとづいて
問い合わせ文の特徴ベクトルを作成し、この特徴ベクト
ルとKDB202a内の各文書の特徴ベクトルとの内
積、ひいては当該内積から把握される特徴ベクトル間の
距離を順次算出する。
【0059】ここで問い合わせ文の特徴ベクトルは、最
も単純には当該文章に含まれるキーワードに対応する要
素値だけが正の値で、残りの要素値はすべて0となるよ
うなベクトルである。また、KDB202a内の各文書
の特徴ベクトルも、当該文書に含まれるキーワードに対
応する要素値だけが1で、残りの要素値はすべて0とな
るようなベクトルである。そのため算出される内積は、
問い合わせ文に含まれるのと同一のキーワードを含む文
書では何らかの正の値、含まない文書では一律に0とな
る。
【0060】第1検索部202は、この内積値が閾値の
0を上回った文書、すなわち問い合わせ文と同一のキー
ワードを含むために、問い合わせ文と特徴ベクトル間の
内積が大きくなっている文書(問い合わせ文と特徴ベク
トル間の距離が小さくなっている文書、と言ってもよ
い)を参照して、その属性情報として設定されているQ
文書のIDを取得する。そして、これらのIDを後述す
るヘルプ画面表示部206に出力する。なお、以下では
第1検索部202による検索結果中のQ文書、すなわち
上記各IDにより特定されるQ文書を「R1」と総称す
る。
【0061】たとえば、上述の「パソコンに画像を取り
込むには?」という問い合わせ文の特徴ベクトルでは、
「パソコン」「画像」「取り込む」に対応する要素値が
それぞれ1になっている。そのため、同じ位置の要素値
が1であるような特徴ベクトルを有する文書、図4の例
ではキーワード「パソコン」を本文とする文書について
のみ内積値が0を超え(その他の文書では0)、当該文
書に設定されたQ文書のID「DJ−1」「DJ−2」
および「DJ−3」がヘルプ画面表示部206に出力さ
れることになる。
【0062】図2に戻り、つぎに第2検索部203は上
述の第1検索部202に比較してやや緩めの検索をおこ
なう機能部である。この第2検索部203は、ヘルプ文
書管理部201のQ文書DB201aに保持されたQ文
書を、通常のベクトル空間法により検索する。
【0063】すなわち、問い合わせ文解析部200の解
析結果にもとづいて作成した問い合わせ文の特徴ベクト
ルと、Q文書DB201a内の各Q文書の特徴ベクトル
との内積値を順次算出し、この値が所定の閾値を上回っ
たQ文書を特定して、当該値の大きい順にそのIDを後
述するヘルプ画面表示部206に出力する。なお、以下
では第2検索部203による検索結果中のQ文書を「R
2」と総称する。
【0064】この第2検索部203による検索では、R
2内のQ文書の個数に制限がない。すなわち、問い合わ
せ文との内積が所定の閾値を上回るQ文書であれば何個
でもR2に含まれる。この点、上述の第1検索部202
による検索では、KDB202a内の各文書に対応づけ
られたQ文書が数個に限定されている結果、R1中の文
書数もその個数に制限されるのと異なっている。したが
って、一般に第2検索部203による検索では、第1検
索部202による検索と比較して、検索結果中の文書数
が多くなる傾向にある(もちろん例外もある)。
【0065】つぎに、第3検索部204は上述の第2検
索部203に比較してさらに緩めの検索をおこなう機能
部である。この第3検索部204は、ヘルプ文書管理部
201のQ+A文書DB201cに保持されたQ+A文
書を、通常のベクトル空間法により検索し、検索した文
書のIDを後述するヘルプ画面表示部206に出力す
る。なお、以下では第3検索部204による検索結果中
のQ+A文書を「R3」と総称する。
【0066】なお、ここでは対応するQ文書とA文書と
を結合したものをQ+A文書DB201cとしてあらか
じめ用意しておき、第3検索部204による検索はこの
結合後の各文書についておこなうようにしたが、これは
もっぱら既存の検索エンジン(具体的には本出願人が製
造・販売する「Concept Base」)を転用す
る場合の便宜をはかったものであり、このようにしなけ
ればならないというものではない。
【0067】要するに、それ自体が問い合わせ文と類似
するQ文書のほかに、対応するA文書が問い合わせ文と
類似するようなQ文書も検索できればそれでよいので、
たとえばQ+A文書DB201cは設けない構成とし、
第3検索部204はQ文書DB201aとA文書DB2
01bとを平行して検索して、前者については検索され
たQ文書のIDをそのまま、後者については検索された
A文書に対応するQ文書のIDを、それぞれヘルプ画面
表示部206に出力するようにしてもよい。
【0068】このように、検索対象をQ文書に限定して
いる第2検索部203と異なり、第3検索部204では
検索対象が実質的にQ文書およびA文書に拡大されてい
るため、さらに多くの文書を拾い出せる可能性が高い。
【0069】つぎに、第4検索部205は上述の第1検
索部202〜第3検索部204に比較して最も緩い、す
なわち最も適合率の低い(再現率の高い)検索をおこな
う機能部である。この第4検索部205は、以下に説明
するCDB(カテゴリデータベース)205aを保持し
ている。
【0070】あらかじめ図5に示すような、Q文書DB
201a内のQ文書を分類するための多階層の分類体系
を作成しておく。この分類体系は人手により作成するの
であっても、既存の文書分類技術により機械的に作成す
るのであっても、あるいは機械的に作成されたものを人
手により修正するのであってもよい。図示する分類体系
では、「パソコン−接続」「パソコン−取り込む」「画
像−サイズ」「画像−印刷」の、4つのカテゴリが定義
されている。
【0071】そして、各カテゴリについてCDB205
a内に1文書を作成し、その本文には各カテゴリの名称
に含まれるキーワードを、その属性情報には各カテゴリ
に分類されるQ文書のIDを、それぞれ格納する。たと
えば、「パソコン−接続」カテゴリについては「パソコ
ン」および「接続」の2つのキーワードを本文とする文
書がCDB205a内に作成され、その属性情報には当
該カテゴリに分類されるすべてのQ文書のIDが設定さ
れる。
【0072】そして、第4検索部205は問い合わせ文
中のキーワードから作成したその特徴ベクトルと、CD
B205a内の各文書の特徴ベクトルとの内積値を順次
算出し、この値が最も高くなった文書の本文、すなわち
当該文書に対応するカテゴリの名称を後述するヘルプ画
面表示部206に出力する。
【0073】なお、CDB205a内の各文書の特徴ベ
クトルは、いわば各カテゴリの特徴ベクトルであって、
ここでは単純にカテゴリの名称から作成するようにした
が、たとえば各カテゴリに分類される全Q文書の特徴ベ
クトルの平均をとり、この平均をCDB205a内の各
文書の特徴ベクトルとするのであってもよい。
【0074】このように、第4検索部205は文書を直
接検索するのでなく、問い合わせ文に類似するカテゴリ
を検索することで、当該カテゴリに分類される複数の文
書を間接的に検索するのであると言ってもよい。なお、
以下では第4検索部205により検索されたカテゴリ内
のQ文書を「R4」と総称する。
【0075】図2に戻り、つぎにヘルプ画面表示部20
6は後述するヘルプ画面をディスプレイ108に表示す
る機能部である。ヘルプ画面表示部206は、このヘル
プ画面によって操作者からの問い合わせ文の入力を受け
付けるとともに、第1検索部202、第2検索部20
3、第3検索部204から入力したそれぞれのIDで特
定されるQ文書の本文、および第4検索部205から入
力したカテゴリの名称を画面表示する。このヘルプ画面
表示部206の機能については、後述するフローチャー
トで具体例に則して詳細に説明する。
【0076】つぎに、図6はこの発明の実施の形態によ
る文書検索装置における、文書検索のための前準備の手
順を示すフローチャートである。まず、ヘルプを構成す
るすべてのQ文書・A文書から、上述した特徴的なキー
ワードを抽出し(ステップS601)、さらにキーワー
ドごとに適切なQ文書をいくつか選定する(ステップS
602)。そして、KDB202a内に上記キーワード
を本文とする文書を作成し、その属性情報として上記Q
文書のIDを設定する(ステップS603)。
【0077】さらに、上述のQ文書DB201a、A文
書DB201b、Q+A文書DB201cをそれぞれ作
成するとともに(ステップS604)、Q文書DB20
1a内のすべてのQ文書を分類するための分類体系を作
成し(ステップS605)、これにもとづいて上述のC
DB205aを作成する(ステップS606)。
【0078】つぎに、図7はこの発明の実施の形態によ
る文書検索装置における、文書検索および検索結果の表
示の手順を示すフローチャートである。図8に示すよう
なヘルプ画面において、操作者が問い合わせ文を入力し
て「検索」ボタン800をクリックすると(ステップS
701:Yes)、まず問い合わせ文解析部200によ
る当該文章の解析がおこなわれる(ステップS70
2)。
【0079】そして、上記による解析結果を供給された
第1検索部202は、上記結果にもとづいて作成した問
い合わせ文の特徴ベクトルと、上述のKDB202a内
の各文書の特徴ベクトルとを比較して、両者の内積が閾
値を超える文書を特定し、当該文書に設定されているQ
文書のIDをヘルプ画面表示部206に出力する(ステ
ップS703)。
【0080】つぎに、上記解析結果は第2検索部203
に供給され、第2検索部203は上述のQ文書DB20
1aを検索して、ベクトル間の内積が閾値を超えるQ文
書を特定し、当該文書のIDをヘルプ画面表示部206
に出力する(ステップS704)。
【0081】つぎに、上記解析結果は第3検索部204
に供給され、第3検索部204は上述のQ+A文書DB
201cを検索して、ベクトル間の内積が閾値を超える
Q+A文書を特定し、当該文書のIDをヘルプ画面表示
部206に出力する(ステップS705)。
【0082】さらに、上記解析結果は第4検索部205
に供給され、第4検索部205は上述のCDB205a
を検索して、ベクトル間の内積が最大となる文書を特定
し、当該文書の本文、すなわち当該文書に対応するカテ
ゴリの名称をヘルプ画面表示部206に出力する(ステ
ップS706)。
【0083】第1検索部202〜第4検索部205のそ
れぞれの検索結果を受け取ったヘルプ画面表示部206
は、つぎにこれらを併合して一覧表示するが、その前に
併合により重複することになる文書の削除をおこなう
(ステップS707)。たとえば、第1検索部202〜
第3検索部204のそれぞれにより検索された文書群R
1〜R3が、具体的には図9に示すようなものであった
とする。
【0084】この場合、IDが「DJ−2」の文書はR
1とR2の双方に含まれているが、ヘルプ画面表示部2
06は適合率の相対的に高い検索で出たもの、すなわち
第1検索部202による検索結果R1中の「DJ−2」
のみを残して、適合率の相対的に低い検索で出たもの、
すなわち第2検索部203による検索結果R2中の「D
J−2」を削除する。なお、3つの文書群にまたがって
含まれているIDは、適合率の最も高い1つのみを残し
て残り2つを削除する。
【0085】そして、上記による重複解消後のR1〜R
3を併合して1つの文書群とする(ステップS708)
が、このとき適合率の高い検索で出た文書群ほど、併合
後の文書群内での順位が高くなるようにする。
【0086】ここでは上述のように、第1検索部20
2、第2検索部203、第3検索部204の順で適合率
が低下してゆくので、ヘルプ画面表示部206はR1〜
R3をR1、R2、R3の順に結合する。そのため併合
後の文書群(R1+R2+R3)では、図9に示すよう
にR1内の「DJ−1」「DJ−2」「DJ−3」が相
対的に上位に位置し、逆にR3内の「DJ−10」以下
は下位に位置することになる。
【0087】このようにして各部により検索された文書
の最終的な順序が決まると、つぎにヘルプ画面表示部2
06は上記各文書のIDをヘルプ文書管理部201に出
力する。これを受けたヘルプ文書管理部201は、その
保持するQ文書DB201aから上記IDで特定される
Q文書を検索し、検索したQ文書中の本文をヘルプ画面
表示部206に出力する。そして、ヘルプ画面表示部2
06はこれらの本文を、上記で決定した順序にしたがっ
て一覧表示する。また、同時に第4検索部205により
検索されたカテゴリの名称もあわせて表示する(ステッ
プS709)。
【0088】図10は、ヘルプ画面表示部206により
表示されるヘルプ画面の一例を示す説明図である。図示
する検索結果一覧には、第1検索部202〜第3検索部
204により検索された各Q文書の本文が図9に示した
順序で表示されるとともに、第4検索部205により検
索されたカテゴリ名(同図では「パソコン−取り込
む」)があわせて示されている。
【0089】なお、たとえばR1に含まれていたQ文書
の本文は赤、R2に含まれていたQ文書の本文は青、R
3に含まれていたQ文書の本文は緑というように、どの
質問がどの検索で引っかかってきたのかを文字の色分け
で明示するようにしてもよい。あるいは、本文の背景色
を変えるなどの識別表示でもよい。
【0090】また、ここではR4については、その分類
先となるカテゴリの名称を示すのみであるが、R1〜R
3と同様、R4を構成する個々のQ文書の本文を上記一
覧中の末尾に(すなわち、R3に続けて)あわせて表示
するようにしてもよい。この場合、R1〜R3と重複す
るIDがあれば、当該IDをあらかじめR4から削除し
ておくことは言うまでもない。
【0091】図10に示すヘルプ画面において、操作者
が一覧中のいずれかの質問を選択して「表示」ボタン1
000をクリックすると(ステップS710:Ye
s)、ヘルプ画面表示部206は当該質問を格納するQ
文書のIDを参照して、当該質問に対する回答を格納す
るA文書のIDを生成し、ヘルプ文書管理部201に出
力する。
【0092】これを受けたヘルプ文書管理部201は、
その保持するA文書DB201bから上記IDで特定さ
れるA文書を検索し、その本文をヘルプ画面表示部20
6に引き渡す。そして、上記A文書の本文がヘルプ画面
表示部206により、図11に示すように画面表示され
る(ステップS711)。なお、同図において前面のウ
ィンドウに表示されている、「閲覧できます。世界で一
番美しくあなたの画像を再生・・・」という文章は、背
面のウィンドウで選択されている「デジカメの画像をパ
ソコンで、美写楽でみれるの?」という質問に対する回
答である。
【0093】以上説明した実施の形態によれば、同一文
書群につき適合率・再現率のレベルのそれぞれ異なる複
数の検索が重畳的に実施され、しかも最終的な検索結果
一覧では、適合率の最も高い検索で出た文書を筆頭に各
手法による検索結果が併合して表示されるので、検索結
果を絞り込んで見たいときは上記一覧の最初のほうだけ
を、漏れなく見たいときは最後のほうまで、それぞれ見
ることで操作者は自己の目的を達することができる(従
来のように、絞り込みの程度を変えて再び検索をやり直
すなどの作業は不要である)。
【0094】なお、上述した実施の形態では、第1検索
部202〜第4検索部205による検索はすべてベクト
ル空間法を基礎としているが、これは既存の検索エンジ
ン(上述の「Concept Base」)を第1検索
部202〜第4検索部205として機能させることを想
定しているためであって、原理的にはベクトル空間法に
よらなければならないというものではない。
【0095】たとえば、KDB202aのような文書デ
ータベースの代わりに、少なくともキーワードとそれに
対応するQ文書のIDなどからなるRDBや単なるリス
トを設けて、第1検索部202は問い合わせ文中のキー
ワードで当該RDBやリストを検索することにより、Q
文書のIDを取得するように構成してもよい(上述した
第1検索部202による検索は、そもそもがブーリアン
検索と結果的に変わらないものであって、もっぱら既存
の検索エンジンの仕様に合わせてKDB202aのよう
な仕組みを設けているに過ぎない)。
【0096】さらに、第2検索部203による検索をQ
文書についてのブーリアン検索に、第3検索部204に
よる検索をQ+A文書についてのブーリアン検索に、第
4検索部205による検索をカテゴリ名についてのブー
リアン検索に、それぞれ差し替えても、第1検索部20
2から第4検索部205にかけて適合率は順次低下し、
再現率は順次向上してゆくので、上述した実施の形態に
よる発明と同等の効果を得ることができる。
【0097】なお、第1検索部202〜第4検索部20
5の検索手法が同種のものである必要もなく、ある検索
部はベクトル空間法による検索、ある検索部はブーリア
ン検索というように、異種の検索手法が混在していても
よい。要するに、適合率や再現率において相互に異なる
のであれば、各部の検索手法はどのようなものであって
もよい。
【0098】また、組み合わせる検索手法は上述の実施
の形態の4つに限らず、これより多くても少なくてもよ
い。特に、第1検索部202による検索は第2検索部2
03による検索よりも絞り込んだ結果を得るところにあ
るが、問い合わせ文中のキーワードとKDB202a内
の文書のキーワードとに共通するものが多いと、ヒット
する文書の数ひいては当該文書に対応づけられたQ文書
の数も多くなるため、R1のほうがR2よりも逆に多く
の文書を含んでしまうことがある。
【0099】そこで、KDB202aから検索された文
書が複数ある場合には、第1検索部202による検索結
果はなしとする(すなわち、ヘルプ画面表示部206に
は何も出力しない)のが望ましい。この場合、実施され
る検索は実質的に3種類となる。
【0100】なお、上述した実施の形態では検索対象は
ヘルプ文書としたが、これに限るものではなく、たとえ
ば各文書の要約文を格納したデータベースとその全文を
格納したデータベースとがあり、要約文と全文との対応
づけがなされている場合に、要約文のみを検索、要約文
+全文を検索など、適合率・再現率が異なる検索を複数
組み合わせて実施することが可能である。
【0101】なお、上述した問い合わせ文解析部20
0、ヘルプ文書管理部201、第1検索部202、第2
検索部203、第3検索部204、第4検索部205お
よびヘルプ画面表示部206は、それぞれHD105な
どからRAM103に読み出されたプログラムの命令に
したがってCPU101が命令処理を実行することによ
り、各部の機能を実現するものである。このプログラム
はHD105のほか、FD107、CD−ROM113
あるいはMOなどの各種記録媒体に格納することがで
き、あるいはネットワークを介して配布することもでき
る。
【0102】
【発明の効果】以上説明したように請求項1に記載の発
明は、入力された自然文と意味的に類似する文書を検索
する第1の検索手段と、前記自然文と意味的に類似する
文書を検索する第2の検索手段と、前記第1の検索手段
により検索された文書を特定できる情報と前記第2の検
索手段により検索された文書を特定できる情報との両方
に、同一の情報が重複して含まれているか否かを判定す
る判定手段と、前記判定手段により、前記第1の検索手
段により検索された文書を特定できる情報と前記第2の
検索手段により検索された文書を特定できる情報との両
方に、同一の情報が重複して含まれていると判定された
場合に、前記第2の検索手段により検索された文書を特
定できる情報の中から前記同一の情報を削除する削除手
段と、前記第1の検索手段により検索された文書を特定
できる情報に続けて、前記削除手段により前記同一の情
報を削除された、前記第2の検索手段により検索された
文書を特定できる情報を結合する結合手段と、前記結合
手段により前記情報が結合された順序で、前記各情報に
より特定される各文書の本文を表示する表示手段と、を
備えたので、適合率や再現率の異なる各種の手法で検索
された文書が、相対的に適合率の高い手法で検索された
ものを上位、相対的に再現率の高い手法で検索されたも
のを下位として一覧表示され、これによって、文書検索
における適合率と再現率との両立をはかるとともに、検
索結果中の多数の文書を、目的の文書の発見がしやすい
順序で操作者に提示することが可能な文書検索装置が得
られるという効果を奏する。
【0103】また、請求項2に記載の発明は、前記請求
項1に記載の発明において、前記表示手段が前記第1の
検索手段により検索された文書の本文と前記第2の検索
手段により検索された文書の本文との表示形態を異なら
せて表示するので、適合率や再現率の異なる各種の手法
で検索された文書が、どの手法で検索されたものである
かが表示色の区別などにより明示の上で一覧表示され、
これによって、文書検索における適合率と再現率との両
立をはかるとともに、検索結果中の多数の文書を、目的
の文書の発見がしやすい表示形態で操作者に提示するこ
とが可能な文書検索装置が得られるという効果を奏す
る。
【0104】また、請求項3に記載の発明は、前記請求
項1または請求項2に記載の発明において、前記第1の
検索手段が、その本文内に出現する語彙が前記自然文と
共通する文書にあらかじめ対応づけられた文書を、前記
自然文と意味的に類似する文書として検索するととも
に、前記第2の検索手段が、その本文内に出現する語彙
の傾向が前記自然文と類似する文書を、前記自然文と意
味的に類似する文書として検索するので、検索結果一覧
では相対的に適合率の高い第1の検索手段により検索さ
れた文書が上位、相対的に再現率の高い第2の検索手段
により検索された文書が下位に表示されるとともに、い
ずれの手段により検索された文書であるかが表示色の区
別などにより明示され、これによって、文書検索におけ
る適合率と再現率との両立をはかるとともに、検索結果
中の多数の文書を、目的の文書の発見がしやすい順序や
表示形態で操作者に提示することが可能な文書検索装置
が得られるという効果を奏する。
【0105】また、請求項4に記載の発明は、前記請求
項1または請求項2に記載の発明において、前記第1の
検索手段が、その本文内に出現する語彙の傾向が前記自
然文と類似する文書を、前記自然文と意味的に類似する
文書として検索するとともに、前記第2の検索手段が、
その本文内に出現する語彙の傾向が前記自然文と類似す
る文書、およびあらかじめ対応づけられた文書の本文内
に出現する語彙の傾向が前記自然文と類似する文書を、
前記自然文と意味的に類似する文書として検索するの
で、検索結果一覧では相対的に適合率の高い第1の検索
手段により検索された文書が上位、相対的に再現率の高
い第2の検索手段により検索された文書が下位に表示さ
れるとともに、いずれの手段により検索された文書であ
るかが表示色の区別などにより明示され、これによっ
て、文書検索における適合率と再現率との両立をはかる
とともに、検索結果中の多数の文書を、目的の文書の発
見がしやすい順序や表示形態で操作者に提示することが
可能な文書検索装置が得られるという効果を奏する。
【0106】また、請求項5に記載の発明は、前記請求
項1〜請求項4のいずれか一つに記載の発明において、
さらに、前記自然文と意味的に類似する文書が分類され
るカテゴリを検索する第3の検索手段と、前記第3の検
索手段により検索されたカテゴリの名称を表示する第2
の表示手段と、を備えたので、適合率や再現率の異なる
各種の手法で検索された文書が、相対的に適合率の高い
手法で検索されたものを上位、相対的に再現率の高い手
法で検索されたものを下位として一覧表示されるととも
に、いずれの手段により検索された文書であるかが表示
色の区別などにより明示され、これによって、文書検索
における適合率と再現率との両立をはかるとともに、検
索結果中の多数の文書を、目的の文書の発見がしやすい
順序や表示形態で操作者に提示することが可能な文書検
索装置が得られるという効果を奏する。
【0107】また、請求項6に記載の発明は、入力され
た自然文と意味的に類似する文書を検索する第1の検索
工程と、前記自然文と意味的に類似する文書を検索する
第2の検索工程と、前記第1の検索工程で検索された文
書を特定できる情報と前記第2の検索工程で検索された
文書を特定できる情報との両方に、同一の情報が重複し
て含まれているか否かを判定する判定工程と、前記判定
工程で、前記第1の検索工程で検索された文書を特定で
きる情報と前記第2の検索工程で検索された文書を特定
できる情報との両方に、同一の情報が重複して含まれて
いると判定された場合に、前記第2の検索工程で検索さ
れた文書を特定できる情報の中から前記同一の情報を削
除する削除工程と、前記第1の検索工程で検索された文
書を特定できる情報に続けて、前記削除工程で前記同一
の情報を削除された、前記第2の検索工程で検索された
文書を特定できる情報を結合する結合工程と、前記結合
工程で前記情報が結合された順序で、前記各情報により
特定される各文書の本文を表示する表示工程と、を含ん
だので、適合率や再現率の異なる各種の手法で検索され
た文書が、相対的に適合率の高い手法で検索されたもの
を上位、相対的に再現率の高い手法で検索されたものを
下位として一覧表示され、これによって、文書検索にお
ける適合率と再現率との両立をはかるとともに、検索結
果中の多数の文書を、目的の文書の発見がしやすい順序
で操作者に提示することが可能な文書検索方法が得られ
るという効果を奏する。
【0108】また、請求項7に記載の発明によれば、前
記請求項6に記載された方法をコンピュータに実行させ
ることが可能なプログラムが得られるという効果を奏す
る。
【図面の簡単な説明】
【図1】この発明の実施の形態による文書検索装置のハ
ードウェア構成を示す説明図である。
【図2】この発明の実施の形態による文書検索装置の機
能的構成を示す説明図である。
【図3】ヘルプ文書管理部201内の各データベースに
保持されるデータの構造を模式的に示す説明図である。
【図4】第1検索部202内のKDB202aに保持さ
れるデータの構造を模式的に示す説明図である。
【図5】Q文書DB201a内のQ文書が分類される分
類体系を模式的に示す説明図である。
【図6】この発明の実施の形態による文書検索装置にお
ける、文書検索のための前準備の手順を示すフローチャ
ートである。
【図7】この発明の実施の形態による文書検索装置にお
ける、文書検索および検索結果の表示の手順を示すフロ
ーチャートである。
【図8】ヘルプ画面表示部206により表示されるヘル
プ画面の一例(Q文書検索前)を示す説明図である。
【図9】第1検索部202〜第3検索部203による各
検索結果とそれらの併合結果の具体例を示す説明図であ
る。
【図10】ヘルプ画面表示部206により表示されるヘ
ルプ画面の他の一例(Q文書検索後)を示す説明図であ
る。
【図11】ヘルプ画面表示部206により表示されるヘ
ルプ画面の他の一例(A文書表示時)を示す説明図であ
る。
【符号の説明】
100 バスまたはケーブル 101 CPU 102 ROM 103 RAM 104 HDD 105 HD 106 FDD 107 FD 108 ディスプレイ 109 ネットワークI/F 110 通信ケーブル 111 キーボード 112 マウス 113 CD−ROM 114 CD−ROMドライブ 200 問い合わせ文解析部 201 ヘルプ文書管理部 201a Q文書DB 201b A文書DB 201c Q+A文書DB 202 第1検索部 202a KDB 203 第2検索部 204 第3検索部 205 第4検索部 205a CDB 206 ヘルプ画面表示部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 天野 慎太郎 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内 (72)発明者 千葉 隆行 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内 (72)発明者 有働 礼奈 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内 (72)発明者 矢部 裕 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内 (72)発明者 水戸部 勝彦 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内 Fターム(参考) 5B075 ND03 ND34 NK32 NK50 PP03 QM05 UU06

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力された自然文と意味的に類似する文
    書を検索する第1の検索手段と、 前記自然文と意味的に類似する文書を検索する第2の検
    索手段と、 前記第1の検索手段により検索された文書を特定できる
    情報と前記第2の検索手段により検索された文書を特定
    できる情報との両方に、同一の情報が重複して含まれて
    いるか否かを判定する判定手段と、 前記判定手段により、前記第1の検索手段により検索さ
    れた文書を特定できる情報と前記第2の検索手段により
    検索された文書を特定できる情報との両方に、同一の情
    報が重複して含まれていると判定された場合に、前記第
    2の検索手段により検索された文書を特定できる情報の
    中から前記同一の情報を削除する削除手段と、 前記第1の検索手段により検索された文書を特定できる
    情報に続けて、前記削除手段により前記同一の情報を削
    除された、前記第2の検索手段により検索された文書を
    特定できる情報を結合する結合手段と、 前記結合手段により前記情報が結合された順序で、前記
    各情報により特定される各文書の本文を表示する表示手
    段と、 を備えたことを特徴とする文書検索装置。
  2. 【請求項2】 前記表示手段は、前記第1の検索手段に
    より検索された文書の本文と前記第2の検索手段により
    検索された文書の本文との表示形態を異ならせて表示す
    ることを特徴とする前記請求項1に記載の文書検索装
    置。
  3. 【請求項3】 前記第1の検索手段は、その本文内に出
    現する語彙が前記自然文と共通する文書にあらかじめ対
    応づけられた文書を、前記自然文と意味的に類似する文
    書として検索するとともに、 前記第2の検索手段は、その本文内に出現する語彙の傾
    向が前記自然文と類似する文書を、前記自然文と意味的
    に類似する文書として検索することを特徴とする前記請
    求項1または請求項2に記載の文書検索装置。
  4. 【請求項4】 前記第1の検索手段は、その本文内に出
    現する語彙の傾向が前記自然文と類似する文書を、前記
    自然文と意味的に類似する文書として検索するととも
    に、 前記第2の検索手段は、その本文内に出現する語彙の傾
    向が前記自然文と類似する文書、およびあらかじめ対応
    づけられた文書の本文内に出現する語彙の傾向が前記自
    然文と類似する文書を、前記自然文と意味的に類似する
    文書として検索することを特徴とする前記請求項1また
    は請求項2に記載の文書検索装置。
  5. 【請求項5】 さらに、前記自然文と意味的に類似する
    文書が分類されるカテゴリを検索する第3の検索手段
    と、 前記第3の検索手段により検索されたカテゴリの名称を
    表示する第2の表示手段と、 を備えたことを特徴とする前記請求項1〜請求項4のい
    ずれか一つに記載の文書検索装置。
  6. 【請求項6】 入力された自然文と意味的に類似する文
    書を検索する第1の検索工程と、 前記自然文と意味的に類似する文書を検索する第2の検
    索工程と、 前記第1の検索工程で検索された文書を特定できる情報
    と前記第2の検索工程で検索された文書を特定できる情
    報との両方に、同一の情報が重複して含まれているか否
    かを判定する判定工程と、 前記判定工程で、前記第1の検索工程で検索された文書
    を特定できる情報と前記第2の検索工程で検索された文
    書を特定できる情報との両方に、同一の情報が重複して
    含まれていると判定された場合に、前記第2の検索工程
    で検索された文書を特定できる情報の中から前記同一の
    情報を削除する削除工程と、 前記第1の検索工程で検索された文書を特定できる情報
    に続けて、前記削除工程で前記同一の情報を削除され
    た、前記第2の検索工程で検索された文書を特定できる
    情報を結合する結合工程と、 前記結合工程で前記情報が結合された順序で、前記各情
    報により特定される各文書の本文を表示する表示工程
    と、 を含んだことを特徴とする文書検索方法。
  7. 【請求項7】 前記請求項6に記載された方法をコンピ
    ュータに実行させるプログラム。
JP2001335612A 2001-10-31 2001-10-31 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム Expired - Fee Related JP4156225B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001335612A JP4156225B2 (ja) 2001-10-31 2001-10-31 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001335612A JP4156225B2 (ja) 2001-10-31 2001-10-31 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Publications (2)

Publication Number Publication Date
JP2003141162A true JP2003141162A (ja) 2003-05-16
JP4156225B2 JP4156225B2 (ja) 2008-09-24

Family

ID=19150578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001335612A Expired - Fee Related JP4156225B2 (ja) 2001-10-31 2001-10-31 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Country Status (1)

Country Link
JP (1) JP4156225B2 (ja)

Also Published As

Publication number Publication date
JP4156225B2 (ja) 2008-09-24

Similar Documents

Publication Publication Date Title
US7644371B2 (en) User interface and method to facilitate hierarchical specification of queries using an information taxonomy
US9262538B2 (en) Apparatus and method for search and retrieval of documents
JP4778434B2 (ja) データベースクエリユーザインターフェース
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
US8099415B2 (en) Method and apparatus for assessing similarity between online job listings
US7085761B2 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
JP4587512B2 (ja) ドキュメントデータ照会装置
JP3870666B2 (ja) 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US20040098379A1 (en) Multi-indexed relationship media organization system
US20090094223A1 (en) System and method for classifying search queries
JPH08190564A (ja) 情報検索方法及びシステム
JPH08305616A (ja) データ管理システム
JP4352684B2 (ja) 情報提供処理システム、プログラム
JP2002117074A (ja) 情報検索方法
KR20120130196A (ko) 정보 엔터티들의 자동 연관
US12045200B2 (en) System and method for content curation and collaboration
JP4076194B2 (ja) 情報共有装置
US7565374B2 (en) Database visualization and searching
JP2004287835A (ja) オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法
JP2003141162A (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
TW202316291A (zh) 專利檢索系統及其方法
JP2006048521A (ja) 文書検索装置及びその制御方法、並びに制御プログラム
JP2004234582A (ja) 辞書構築方法,システム及び画面
JPS63191271A (ja) 画像情報記憶検索方法
JP4145898B2 (ja) 情報格納検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080617

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees