JP2004086307A - Information retrieving device, information registering device, information retrieving method, and computer readable program - Google Patents
Information retrieving device, information registering device, information retrieving method, and computer readable program Download PDFInfo
- Publication number
- JP2004086307A JP2004086307A JP2002243537A JP2002243537A JP2004086307A JP 2004086307 A JP2004086307 A JP 2004086307A JP 2002243537 A JP2002243537 A JP 2002243537A JP 2002243537 A JP2002243537 A JP 2002243537A JP 2004086307 A JP2004086307 A JP 2004086307A
- Authority
- JP
- Japan
- Prior art keywords
- information
- search
- document
- word
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、コンピュータ等において文書等の情報を検索する場合に適用される情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラムに関する。
【0002】
【従来の技術】
従来、検索条件を入力し、キーワードに基づき検索対象の文書を検索し、検索結果を得る文書検索方法が各種提案されている。
【0003】
図24は従来技術1の文書検索処理を説明するための図である。検索者は検索条件を自然文によって指定する。検索クエリとして「アメリカの大統領」が入力される。入力された検索文字列に対して、形態素解析などの単語切り出し手段によってキーワード抽出を行ない、「アメリカ」及び「大統領」というキーワードが抽出される。抽出したキーワードを基に検索条件を設定する。ここでは、[アメリカ]AND[大統領]という検索条件によって検索を行なう。予め登録されている検索対象文書に対して、上記の検索条件によって検索を行なう。検索の結果、文書ID=1「アメリカ大統領が来日」と文書ID=2「アメリカ大統領選挙」を検索結果として得ることができる。尚、図中、検索結果文書の下に記載しているものは検索結果除外文書である。
【0004】
図25は従来技術2の文書検索処理を説明するための図である。検索者は検索条件をキーワードの論理式等によって指定する。検索式として以下の検索式を指定する。
[[アメリカ]OR[米国]OR[合衆国]]AND[[大統領]]
この時、「アメリカ」や「大統領」といった単語表記を含む文書を検索したい場合、検索者は検索漏れが起きないように論理式を指定しなければいけない。予め登録されている検索対象文書に対して、上記の検索条件によって検索を行なう。検索の結果、文書ID=1「アメリカの大統領が来日」、文書ID=2「アメリカ大統領選挙」、文書ID=3「米国で大統領選挙」、文書ID=4「米国ではプレジデントが最高の」をそれぞれ検索結果として得ることができる。尚、図中、検索結果文書の下に記載しているものは検索結果除外文書である。
【0005】
図26は従来技術3の文書検索処理を説明するための図である。検索者は検索条件を自然文によって指定する。検索クエリとして「アメリカの大統領」が入力される。入力された検索文字列に対して、形態素解析などの単語切り出し手段によってキーワード抽出を行ない、「アメリカ」及び「大統領」というキーワードが抽出される。抽出されたキーワードを基に、検索者の指示或いは自動的に類義語や同義語などの情報を用いてキーワード拡張する。拡張したキーワードを基に検索条件を設定する。ここでは、以下の検索条件に従って検索を実行する。
[[アメリカ]OR[米国]OR[合衆国]OR[USA]]AND[[大統領]OR[プレジデント]]
予め登録されている検索対象文書に対して、上記の検索条件によって検索を行なう。検索の結果、文書ID=1「アメリカの大統領が来日」、文書ID=2「アメリカ大統領選挙」、文書ID=3「米国で大統領選挙」、文書ID=4「米国ではプレジデントが最高の」、文書ID=5「初代合衆国大統領」をそれぞれ検索結果として得ることができる。
【0006】
情報検索に関する技術としては、例えば特開平7−65013号公報や特開平8−255163号公報などが、上記の従来技術3に含まれる技術である。
【0007】
【発明が解決しようとする課題】
しかしながら、上記従来技術においては次のような問題があった。
【0008】
従来技術1では、検索クエリ「アメリカの大統領」に対して「米国」や「プレジデント」で表記された検索結果を得ることができなかった(図24の検索結果除外文書参照)。そのため、検索漏れが多く、すべての検索結果を取得したい場合や、同義語や表記のゆれが多い単語を検索する場合、満足する検索結果を得ることはできなかった。
【0009】
従来技術2では、検索者自身が検索式を考えて設定しなければならないために、網羅的に検索したい場合は、複雑な検索式を自ら設定するために、検索者の負担が増大し操作性において非常に使い勝手が悪かった。
【0010】
従来技術3では、同義語や類義語などの情報を基にキーワードを拡張し、検索を行なうために、漏れの少ない検索結果が得ることができたが、検索キーワードが増加するために検索速度が遅くなるという欠点があった。
【0011】
本発明は、上述した点に鑑みなされたものであり、自然文による検索を行なうときの検索漏れを解消し、操作性を大幅に向上し、検索処理を最小限に抑え、検索速度の高速化を実現可能とした情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラムを提供することを第1の目的とする。
【0012】
また、本発明は、検索用データや内部処理に要するメモリを節約し、検索用データの検索処理や、検索用データへの追加登録処理を高速に実行可能とした情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラムを提供することを第2の目的とする。
【0013】
また、本発明は、検索結果が多数存在した場合においても、検索者の探したい情報をより早く取得し、操作性の向上を可能とした情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラムを提供することを第3の目的とする。
【0014】
【課題を解決するための手段】
上記目的を達成するため、本発明は、情報を検索する情報検索装置であって、情報の登録時に、登録対象の情報からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を見出しとした検索用データを作成する登録処理手段と、情報の検索時に、検索条件からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を基に前記検索用データを検索し、前記検索した内容を前記検索条件と比較することで妥当性を判定し、検索結果を作成する検索処理手段とを有することを特徴とする。
【0015】
また、本発明は、情報を検索する情報検索方法であって、情報の登録時に、登録対象の情報からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を見出しとした検索用データを作成し、情報の検索時に、検索条件からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を基に前記検索用データを検索し、前記検索した内容を前記検索条件と比較することで妥当性を判定し、検索結果を作成することを特徴とする。
【0016】
また、本発明は、コンピュータに、情報の登録時に、登録対象の情報からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を見出しとした検索用データを作成する機能と、情報の検索時に、検索条件からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を基に前記検索用データを検索し、前記検索した内容を前記検索条件と比較することで妥当性を判定し、検索結果を作成する機能とを実行させるコンピュータ読み取り可能なプログラムであることを特徴とする。
【0017】
また、本発明は、情報登録装置において、登録対象の情報からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を見出しとした検索用データを作成する登録処理手段を有することを特徴とする。
【0018】
また、本発明は、情報検索装置において、検索条件からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を基に前記検索用データを検索し、前記検索した内容を前記検索条件と比較することで妥当性を判定し、検索結果を作成する検索処理手段を有することを特徴とする。
【0019】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0020】
[第1の実施の形態]
図1は本発明の第1の実施の形態に係る情報処理装置(情報検索装置)の構成を示すブロック図である。情報処理装置は、文書や画像などのマルチメディア情報を管理すると共に、管理しているマルチメディア情報の中から検索者が検索条件を設定し必要とするファイルを取得可能とするものであり、入力装置1、CPU2、出力装置3、記憶装置4を備えている。
【0021】
入力装置1は、キーボードなどから構成されており、検索条件(クエリ)などの入力に用いる。CPU2は、情報処理装置各部を制御する中央演算処理装置であり、記憶装置4上に展開された処理プログラム4−1により後述の図4(検索文書登録処理)、図5(文書検索処理)、図6(標準表記取得処理)の各フローチャートに示す処理を実行させる。出力装置3は、ディスプレイなどから構成されており、検索結果を表示出力する。記憶装置4は、メモリやハードディスクなどから構成されており、処理プログラム4−1、標準単語データ4−2、検索用データ4−3、後述の文書ID管理情報を記憶する。
【0022】
キーボードなどの入力装置1から入力された検索条件(クエリ)は、メモリやハードディスクなどの記憶装置4上に展開された処理プログラム4−1により、CPU2で処理される。処理プログラム4−1は、同じく記憶装置4に記憶されている標準単語データ4−2を参照して抽出キーワードを標準単語に変更し、標準単語を見出しとし文書の情報や文書に含まれる単語の特徴を格納した検索用データ4−2から、入力装置1から入力された検索条件に対する文書の類似性を計算して取得し、その検索結果をディスプレイなどの出力装置3に出力する。
【0023】
また、本発明の情報検索に関わる動作環境としては、上記図1に示した単体の情報処理装置(コンピュータ)に対応することができる以外に、図2に示すようなローカルなネットワーク環境及び図3に示すようなインターネット環境にも対応することができる。図2のローカルなネットワーク環境は、サーバ21と複数のクライアント22、23、24、25をLAN26を介して接続した例であり、各クライアント22〜25がサーバ21を利用することで情報検索を行なう。また、図3のインターネット環境は、端末31をインターネット32に接続した例であり、端末31がインターネット32に接続することで情報検索を行なう。
【0024】
次に、上記の如く構成された第1の実施の形態に係る情報処理装置における情報検索に関わる動作を図4乃至図19を参照しながら詳細に説明する。図4乃至図6は第1の実施の形態に係る各処理の流れを示すフローチャートである。尚、図4乃至図6の各フローチャートに示す処理は、情報処理装置のCPU2が記憶装置4上に展開された処理プログラム4−1により実行する。
【0025】
<検索文書登録処理>
先ず、第1の実施の形態に係る検索文書登録処理を図4を用いて説明する。図4は検索文書登録処理を示すフローチャートである。ステップS101では、検索者は登録したい文書を情報処理装置の入力装置1から指定する。登録したい文書を指定する場合、1文書でも複数文書でも指定することが可能である。ステップS102では、情報処理装置のCPU2は、上記ステップS101で指定された文書に対して固有の文書IDを付与する。図7は文書ID付与処理の例を示す図である。情報処理装置のCPU2は、文書IDの使用の有無を管理している文書ID管理情報を参照して、上記ステップS101で指定された文書Aに対し、まだ割り当てられていない文書IDを付与する。
【0026】
第1の実施の形態の例では、図7の文書ID管理情報において文書ID=1〜10は既に割り当て済みであるが、文書ID=11がまだ割り当てられていないため、情報処理装置のCPU2は、文書Aに11というIDを付与する。情報処理装置のCPU2は、同時に、文書ID管理情報にもID(11)が使用済みである旨を記憶することで文書ID管理情報を更新する。これによって、情報処理装置(システム)内では文書Aは文書ID(11)として扱うことができる。
【0027】
ステップS103では、情報処理装置のCPU2は、形態素解析処理などによって、文書内に登録するキーワードを抽出する。
【0028】
図8は文書解析処理の例を示す図である。図8では、文書Aの内容の「米国では大統領選挙の開票を行なった。」という解析文からキーワード抽出を行なう処理について説明する。上記解析文に対して形態素解析を実行し形態素の単位に分割することができる。即ち、図8の単語切り出し結果で表される形態素の単位に分割することができる。情報処理装置のCPU2は、この形態素の中から、キーワードとなりうる単語を抽出する。キーワードを抽出する方法は、自立語をキーワードとして抽出するとか、品詞によって判定するなど種々の抽出方法があるが、第1の実施の形態では自立語をキーワードとして抽出するものとする。その結果、図8の抽出キーワードにある形態素がキーワードとして抽出される。
【0029】
ステップS104では、情報処理装置のCPU2は、抽出した検索キーワードの標準表記(単語群に含まれる単語の中から代表する単語の表記)を取得して標準単語として登録する。標準表記取得処理の詳細は図6のキーワードの標準化処理を用いて後述する。
【0030】
図9は標準表記データを一覧表とした例を示す図である。多くの単語の場合、活用形や異表記(ひらがな、カタカナ、漢字の違い)、表記のゆれ(送り仮名の違い)、同義語、類義語など、同じ意味を表すために複数の語が存在する。標準表記データは、これらの語を一定の基準で一つの標準的な表記とするためのデータである。例えば図9によると、「アメリカ」、「米国」、「USA」、「合衆国」、「亜米利加」、「AMERICA」等は全て「アメリカ」という標準表記で表現することができる。また、動詞、形容詞などは、未然、連用、終止、連体、仮定、命令等の活用があるが、それらはすべて終止形として表現する。図9の例では「行なう」と「おこなう」は異表記、「アメリカ」と「亜米利加」は異体字、「大統領」と「プレジデント」は同義語であり、図9では不図示であるが「来日」と「日本訪問」は類義語である。
【0031】
図6は標準表記取得処理を示すフローチャートである。ステップS301では、検索者は上記図4のステップS103で抽出したキーワードを情報処理装置の入力装置1から入力する。従って、第1の実施の形態の文では「米国」「大統領」「選挙」「開票」「行っ」が対象のキーワードとなる。ステップS302では、情報処理装置のCPU2は、それぞれの基となるキーワードで標準表記データを検索する。ステップS303では、情報処理装置のCPU2は、記憶装置4に格納されている標準表記データを取得する。検索結果がない(標準表記がない)単語については、単語そのものを標準表記として、標準表記データを取得する。
【0032】
図10は上記図9の標準表記データを参照して入力表記から標準表記を取得する例を示す図である。その結果、標準表記として「アメリカ」「大統領」「選挙」「開票」「行なう」を取得することができる。
【0033】
上記図4に戻り、ステップS105では、情報処理装置のCPU2は、それぞれの標準表記を見出しとする検索用データを作成する。
【0034】
図11は第1の実施の形態による登録前の検索用データを示す図である。第1の実施の形態での検索用データには、標準表記を見出しとして、出現した文書IDを格納している。例えば、この検索用データによって、単語「アメリカ」は、1,2,3,4,5,8,10の文書に出現することを表現している。見出し語として存在する場合はデータ内に文書IDを追加し、見出し語が存在しない場合は見出し語と文書IDで新たにデータを作成する。
【0035】
図12は検索用データへの登録例を示す図である。図12では検索用データを参照して「アメリカ」は既に見出しとして存在するので、「アメリカ」の見出しに対応する文書ID情報の中に今回登録する文書ID=11の情報を追加する。一方、「開票」は見出しとして存在しないために、新たな見出し「開票」で今回登録する文書ID=11で新規登録する。
【0036】
図13は第1の実施の形態による登録後の検索用データを示す図である。図13では既存の見出しデータには今回追加した文書のID(11)が格納されている。また、図13では上記図11で存在しなかった「開票」については新しく見出しに新規登録されている。
【0037】
<文書検索処理>
次に、第1の実施の形態に係る文書検索処理を図5を用いて説明する。図5は文書検索処理を示すフローチャートである。ステップS201では、検索者は検索条件を自然文もしくはキーワード論理式のいずれかで情報処理装置の入力装置1から入力する。図14は第1の実施の形態での検索条件入力の例である。「アメリカの大統領」という自然文による検索条件入力と、[アメリカ]AND[大統領]という論理式による検索条件入力のどちらの検索条件入力でも検索することが可能である。検索条件を自然文で入力した場合には、ステップS202が実行される。
【0038】
ステップS202では、情報処理装置のCPU2は、上記ステップS201で入力された自然文の検索条件から検索キーワードの抽出を行なう。ここでは、図15の検索キーワード抽出を説明する。図15は検索条件で入力された「アメリカの大統領」という文から検索キーワードを抽出する処理を示す図である。上記検索条件文に対して形態素解析を実行し形態素単位に分割することができる。即ち、図15の単語切り出し結果で表される形態素の単位に分割することができる。情報処理装置のCPU2は、この形態素の中から、キーワードとなりうる単語を抽出する。キーワードを抽出する方法は、上記文書登録処理と同じ抽出方法を用いる必要があるために、文書登録処理と同様に自立語をキーワードとして抽出するものとする。その結果、図15の抽出キーワードにある「アメリカ」と「大統領」の二つの形態素がキーワードとして抽出される。
【0039】
ステップS203では、情報処理装置のCPU2は、抽出したキーワードに対する標準表記を取得して検索キーワードとする。標準表記取得処理の詳細は上記図6のキーワードの標準化処理を用いて説明する。
【0040】
上記図6のステップS301では、検索者は上記図4のステップS103で抽出したキーワードを情報処理装置の入力装置1から入力する。従って、第1の実施の形態の文では「アメリカ」「大統領」が対象のキーワードとなる。ステップS302では、情報処理装置のCPU2は、上記図9の標準表記データを参照して入力されたキーワードの標準表記データを検索する。ステップS303では、情報処理装置のCPU2は、記憶装置4に格納されている標準表記データを取得する。検索結果がない(標準表記がない)単語については、単語そのものを標準表記として、標準表記データを取得する。その結果、それぞれのキーワードに対する標準表記として、図16に示すように「アメリカ」「大統領」が標準表記データとして取得される。
【0041】
次に、上記図5に戻り、ステップS204では、情報処理装置のCPU2は、標準表記取得処理で得られた標準表記を基に検索条件を作成して検索用データを検索する。検索用データは上記図13に示したように見出し領域とデータ領域から構成されている。即ち、見出し情報として標準表記を使用して、データ領域には見出し情報が出現する文書IDの情報が格納されている。図17は「アメリカ」と「大統領」をそれぞれ検索し、文書ID情報を取得している例を示す図である。標準表記「アメリカ」を表す単語は、検索文書IDの「1,2,3,4,5,8,10,11」にそれぞれ格納されており、同様に「大統領」を表す単語は、検索文書IDの「1,2,3,4,5,6,9,11」に格納されている、と検索される。
【0042】
ステップS205では、情報処理装置のCPU2は、上記検索用データの検索で得られた結果に対して、検索結果となりうるかどうかの判定を行なう。入力した検索条件「アメリカの大統領」は、最終的には図18に示すような[アメリカ]AND[大統領]として処理される。従って、{1,2,3,4,5,8,10,11}AND{1,2,3,4,5,6,9,11}となり、この検索条件を満たす文書IDは、図18の検索結果に示すように、1,2,3,4,5,11と判断される。この判断処理では、第1の実施の形態で記述した以外にも、単語の品詞や単語間の関係など、判定基準に用いたい情報を予めデータに登録しておくことによって、自在に組み合わせて使うことが可能である。
【0043】
例えば、登録時には文書IDと共に、キーワードとなったそれぞれの単語の品詞を登録した検索用データを作成しておき、検索時には文書IDと共に、入力された単語品詞の一致・不一致を参照し、検索結果の可否判定を行なうようにしてもよい。
【0044】
また、登録時には文書IDと共に、キーワードとなったそれぞれの単語に付随する付属語情報や接尾・接頭辞情報等の情報を登録した検索用データを作成しておき、検索時にはキーワードに付随する前記情報の一致・不一致又は類似性を検索結果の妥当性の判定に加えるようにしてもよい。
【0045】
また、登録時には文書IDと共に、キーワードとなったそれぞれの単語の出現位置や、タイトル・見出し・箇条書き等の出現状態を登録した検索用データを作成しておき、検索時にはキーワードの位置関係や距離、出現状態を検索結果の妥当性の判定に加えるようにしてもよい。
【0046】
また、登録時には文書IDと共に、文構造を抽出し単語の係り先や受け先等の情報を登録した検索用データを作成しておき、検索時には検索条件の係り受け関係と検索用データに登録された単語の係り受け関係を検索結果の妥当性の判定に加えるようにしてもよい。
【0047】
また、登録時には上記情報(キーワードとなったそれぞれの単語の品詞を示す情報、キーワードとなったそれぞれの単語に付随する付属語情報や接尾・接頭辞情報等の情報、キーワードとなったそれぞれの単語の出現位置やタイトル・見出し・箇条書き等の出現状態を示す情報、文構造を抽出し単語の係り先や受け先等の情報)の任意の組み合わせ又は全部を検索用データとして登録し、検索時には検索用データに含まれる全ての情報を参照し、検索結果の妥当性の判定に加えるようにしてもよい。
【0048】
ステップS206では、情報処理装置のCPU2は、検索結果となった文書をディスプレイ等の出力装置3に表示出力する。図19は検索結果の例を示す図である。「アメリカの大統領」という検索条件に対して、米国、合衆国、プレジデントなどの検索条件にはない単語を、類義語や同義語などを利用して拡張することなく取得することができる。一方で検索結果から除外される文書の例を図19の除外文書に示す。
【0049】
また、検索条件文が「米国のプレジデント」だった場合、キーワード抽出処理では「米国」と「プレジデント」がキーワードとして切り出されるが、上記図9の標準表記データを見ると「米国」は「アメリカ」、「プレジデント」は「大統領」にそれぞれ標準化されるために、最終的な検索条件は[アメリカ]AND[大統領]となり、上記で説明した「アメリカの大統領」を入力して検索したときとまったく同じ検索結果を得ることができる。
【0050】
以上説明したように、第1の実施の形態によれば、文書の登録時には、登録対象の文書に固有の文書IDを付与し、文書からキーワードとなる単語を抽出し、異表記、異体字、同義語、類義語等の特定の意味を持つ複数の単語を一つまたは複数にまとめる単語群データを参照し、抽出キーワードに標準表記を付与し、標準表記を見出しとし文書IDを登録した検索用データを作成する。また、文書の検索時には、指定された検索条件からキーワードとなる単語を抽出し、単語群データを参照し、抽出キーワードに標準表記を付与し、標準表記を基に検索用データを検索し、検索した結果が検索条件に合致するか否かを判定し、最終的な検索結果を作成する。
【0051】
これにより、従来の技術で問題になっていた、自然文による検索を行なうときの検索漏れを解消することができる。また、論理式入力時の検索者の負担を軽くすることができるために、操作性を大幅に向上することができる。更に、検索漏れを防ぐために、同義語や類義語によるキーワードの展開を行なわないために、検索処理を最小限に抑えることができ、検索速度の高速化を実現できるという効果を得ることができる。
【0052】
[第2の実施の形態]
本発明の第2の実施の形態に係る情報処理装置(情報検索装置)は、上記第1の実施の形態と同様に、文書や画像などのマルチメディア情報を管理すると共に、管理しているマルチメディア情報の中から検索者が検索条件を設定し必要とするファイルを取得可能とするものであり、入力装置1、CPU2、出力装置3、記憶装置4を備えている。情報処理装置各部の詳細は上述したので説明を省略する。尚、第2の実施の形態においても、本発明の情報検索に関わる動作環境としては、単体の情報処理装置以外に、図2のローカルなネットワーク環境及び図3のインターネット環境にも対応することができる。
【0053】
第2の実施の形態においては、上記第1の実施の形態で形態素解析した単語をすべてIDによって置き換え、情報処理装置(システム)内では単語IDで処理する方法を採るものである。
【0054】
図20はキーワードを標準単語IDに直すようにした例を示す図である。図20によると、「アメリカ」、「米国」、「亜米利加」、「合衆国」、「USA」、「AMERICA」はすべて単語ID=1として情報処理装置(システム)内で処理される。「米国では大統領選挙の開票を行なった。」を登録した場合、標準表記データを参照して得られる単語IDは、それぞれ、米国=1、大統領=2、選挙=5、開票=4、行なっ=3となる。更に、それぞれの単語IDを見出しとして、文書ID(11)を追加登録する。その結果、検索用データは図21に示すようになる。
【0055】
次に、検索条件「アメリカの大統領」が入力された場合、キーワードとして「アメリカ」と「大統領」が抽出される。図20の標準単語IDデータを参照してID=1とID=2を標準単語IDとして取得することができる。これによって、上記検索用データを検索し、検索結果として文書ID={1,2,3,4,5,11}を得ることができ、第1の実施の形態と同様の結果を単語IDによって得ることが可能である。
【0056】
以上説明したように、第2の実施の形態によれば、情報処理装置(システム)内における単語の扱いは文字列ではなくIDとしているために、検索用データや内部処理に要するメモリを節約することができるほか、検索用データの検索処理や、検索用データへの追加登録処理において、高速に処理を実行することが可能となる効果を得ることができる。
【0057】
[第3の実施の形態]
本発明の第3の実施の形態に係る情報処理装置(情報検索装置)は、上記第1の実施の形態と同様に、文書や画像などのマルチメディア情報を管理すると共に、管理しているマルチメディア情報の中から検索者が検索条件を設定し必要とするファイルを取得可能とするものであり、入力装置1、CPU2、出力装置3、記憶装置4を備えている。情報処理装置各部の詳細は上述したので説明を省略する。尚、第3の実施の形態においても、本発明の情報検索に関わる動作環境としては、単体の情報処理装置以外に、図2のローカルなネットワーク環境及び図3のインターネット環境にも対応することができる。
【0058】
第3の実施の形態においては、上記第1の実施の形態や第2の実施の形態で単語インデックスに登録(格納)するデータは文書IDだけであったものに対し、単語の使用個数(出現個数。出現回数)を文書IDと同時に格納するものである。従って、検索用データには(文書ID/出現回数)のように格納する。
【0059】
図22は上記の(文書ID/出現回数)のように登録した検索用データを示す図である。例えば、「アメリカ」の文書IDデータにおける1/4は、文書ID=1の文書に「アメリカ」は4回出現したことを表している。同様に、文書IDデータから「大統領」は文書ID=1の文書には3回出現していることがわかる。このデータを基に、それぞれのキーワードの文書における重要度を公知のtf・idf法などによって計算し、その結果を基に文書の妥当性としてスコアを付けることができる。このことによって、図23に示す検索結果出力例のように、検索者に対して妥当性が高いと思われる検索結果を高速に提示することが可能となる。
【0060】
以上説明したように、第3の実施の形態によれば、情報検索処理において高速に妥当性の高い文書から検索者に提示することができるために、検索結果が多数存在した場合においても、検索者の探したい情報をより早く得ることが可能となり、操作性の向上という効果を得ることができる。
【0061】
[他の実施の形態]
第1乃至第3の実施の形態では、情報処理装置(情報検索装置)で文書の登録及び検索を行なう場合を説明したが、本発明はこれに限定されるものではなく、画像が付随した文書の登録及び検索を行なう場合にも適用することができる。
【0062】
第1乃至第3の実施の形態では、情報処理装置(情報検索装置)で実行する処理プログラムの供給形態は特定のものに限定されるものではなく、処理プログラムを情報処理装置内部に予め格納しておく構成、処理プログラムを情報処理装置外部から供給する構成のどちらでもよい。
【0063】
第1乃至第3の実施の形態では、情報処理装置(情報検索装置)を図1に示す構成としたが、本発明はこれに限定されるものではなく、例えば情報処理装置にプリンタ等の印刷装置を接続し、検索結果を出力装置により表示出力すると共に印刷装置により印刷出力してもよい。
【0064】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。上述した実施形態の機能を実現するソフトウエアのプログラムコードを記憶した記憶媒体等の媒体をシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体等の媒体に格納されたプログラムコードを読み出し実行することによっても、本発明が達成されることは言うまでもない。
【0065】
この場合、記憶媒体等の媒体から読み出されたプログラムコード自体が上述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体等の媒体は本発明を構成することになる。
【0066】
また、プログラムコードを供給するための記憶媒体等の媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0067】
また、コンピュータが読み出したプログラムコードを実行することにより、上述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行ない、その処理によって上述した実施形態の機能が実現される場合も、本発明に含まれることは言うまでもない。
【0068】
更に、記憶媒体等の媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって上述した実施形態の機能が実現される場合も、本発明に含まれることは言うまでもない。
【0069】
【発明の効果】
以上説明したように、本発明によれば、情報の登録時に、登録対象の情報からキーワードとなる情報を抽出し、抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、正規化を行なった情報を見出しとした検索用データを作成し、情報の検索時に、検索条件からキーワードとなる情報を抽出し、抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、正規化を行なった情報を基に検索用データを検索し、検索した内容を検索条件と比較することで妥当性を判定し、検索結果を作成するため、従来の技術で問題になっていた、自然文による検索を行なうときの検索漏れを解消することができる。また、論理式入力時の検索者の負担を軽くすることができるために、操作性を大幅に向上することができる。更に、検索漏れを防ぐために、同義語や類義語によるキーワードの展開を行なわないために、検索処理を最小限に抑えることができ、検索速度の高速化を実現できるという効果を得ることができる。
【0070】
また、情報検索装置内における単語の扱いは文字列ではなくIDとしているために、検索用データや内部処理に要するメモリを節約することができるほか、検索用データの検索処理や、検索用データへの追加登録処理において、高速に処理を実行することが可能となる効果を得ることができる。
【0071】
また、情報検索処理において高速に妥当性の高い文書から検索者に提示できるために、検索結果が多数存在した場合においても、検索者の探したい情報をより早く得ることが可能となり、操作性の向上という効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報処理装置の構成を示すブロック図である。
【図2】動作環境の一例を示す図である。
【図3】動作環境の一例を示す図である。
【図4】検索文書登録処理の流れを示すフローチャートである。
【図5】文書検索処理の流れを示すフローチャートである。
【図6】キーワードを標準化する標準表記取得処理の流れを示すフローチャートである。
【図7】文書ID付与処理の例を示す図である。
【図8】文書解析を行ないキーワードを抽出する文書解析処理の例を示す図である。
【図9】標準表記のデータ例を示す図である。
【図10】標準表記の取得例を示す図である。
【図11】登録実行前の登録用データの例を示す図である。
【図12】検索用データへの登録例を示す図である。
【図13】登録実行後の検索用データの例を示す図である。
【図14】検索条件の入力例を示す図である。
【図15】検索条件からキーワードを抽出する例を示す図である。
【図16】検索キーワードの標準表記の取得例を示す図である。
【図17】検索用データの検索例を示す図である。
【図18】検索結果に対する可否判定の例を示す図である。
【図19】検索結果の例を示す図である。
【図20】本発明の第2の実施の形態に係る標準単語IDデータの例を示す図である。
【図21】検索用データの例を示す図である。
【図22】本発明の第3の実施の形態に係る検索用データの例を示す図である。
【図23】検索結果の出力例を示す図である。
【図24】従来技術1の文書検索処理を示す図である。
【図25】従来技術2の文書検索処理を示す図である。
【図26】従来技術3の文書検索処理を示す図である。
【符号の説明】
1 入力装置
2 CPU(登録処理手段、検索処理手段、ID付与手段、登録時単語抽出手段、検索時単語抽出手段、登録時情報付与手段、検索時情報付与手段、検索情報登録手段、検索手段、検索結果可否判定手段)
3 出力装置
4 記憶装置
4−1 処理プログラム(登録処理手段、検索処理手段、ID付与手段、登録時単語抽出手段、検索時単語抽出手段、登録時情報付与手段、検索時情報付与手段、検索情報登録手段、検索手段、検索結果可否判定手段)
4−2 標準表記データ(単語群情報)
4−3 検索用データ[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information search device, an information registration device, an information search method, and a computer-readable program which are applied when a computer or the like searches for information such as a document.
[0002]
[Prior art]
Conventionally, various document search methods have been proposed in which a search condition is input, a search target document is searched based on a keyword, and a search result is obtained.
[0003]
FIG. 24 is a diagram illustrating a document search process according to the
[0004]
FIG. 25 is a diagram for explaining a document search process according to the
[[USA] OR [USA] OR [United States]] AND [[President]]
At this time, when searching for a document including a word notation such as "America" or "President", the searcher must specify a logical expression so that search omission does not occur. A search is performed for a search target document registered in advance under the above search conditions. As a result of the search, document ID = 1 “US president comes to Japan”, document ID = 2 “US presidential election”, document ID = 3 “US presidential election”, document ID = 4 “US president is the best” Can be obtained as search results. Note that, in the figure, those described below the search result document are search result exclusion documents.
[0005]
FIG. 26 is a diagram for explaining a document search process according to
[[USA] OR [USA] OR [United States] OR [USA]] AND [[President] OR [President]]
A search is performed for a search target document registered in advance under the above search conditions. As a result of the search, document ID = 1 “US president comes to Japan”, document ID = 2 “US presidential election”, document ID = 3 “US presidential election”, document ID = 4 “US president is the best” , Document ID = 5 “first president of the United States” can be obtained as a search result.
[0006]
As a technique relating to information retrieval, for example, Japanese Patent Application Laid-Open No. H7-65013 and Japanese Patent Application Laid-Open No. H8-255163 are techniques included in the above-mentioned
[0007]
[Problems to be solved by the invention]
However, the prior art described above has the following problems.
[0008]
In the
[0009]
In the
[0010]
In the
[0011]
The present invention has been made in view of the above points, and eliminates search omissions when performing a search using natural sentences, greatly improves operability, minimizes search processing, and increases search speed. It is a first object of the present invention to provide an information search device, an information registration device, an information search method, and a computer-readable program that can realize the above.
[0012]
Further, the present invention saves the memory required for search data and internal processing, and enables an information search device, an information registration device, and a search process for search data and an additional registration process to the search data to be executed at high speed. A second object is to provide an information retrieval method and a computer-readable program.
[0013]
In addition, the present invention provides an information search device, an information registration device, an information search method, and a computer that can obtain information desired by a searcher more quickly even when a large number of search results exist, thereby improving operability. A third object is to provide a readable program.
[0014]
[Means for Solving the Problems]
In order to achieve the above object, the present invention relates to an information retrieval apparatus for retrieving information, which extracts information to be a keyword from information to be registered at the time of information registration, and similarizes the extracted information to be a keyword. Registration processing means for performing normalization for grouping together information, creating search data with the normalized information as a heading, and extracting information serving as a keyword from a search condition when searching for information. Performing normalization to summarize information that is a keyword with similar items, searching the search data based on the normalized information, and comparing the searched content with the search condition to determine validity. And a search processing means for determining and creating a search result.
[0015]
The present invention also relates to an information search method for searching for information, in which, at the time of registering information, a key word is extracted from information to be registered, and the extracted key word information is grouped by similar items. To generate search data with the normalized information as a heading, extract information that is a keyword from search conditions when searching for information, and compare the extracted information that is a keyword with similar ones. Performing the normalization summarized in the above, searching the search data based on the normalized information, determining the validity by comparing the searched content with the search condition, and creating a search result. It is characterized by.
[0016]
In addition, the present invention performs, when registering information, a computer, extracts information to be a keyword from information to be registered, normalizes the extracted information to be a keyword together with similar items, and performs the normalization. A function of creating search data with the performed information as a heading, and, when searching for information, performing information normalization for extracting information that is a keyword from search conditions and combining the extracted information that is a keyword with similar items. A computer-readable program for executing a function of searching the search data based on the normalized information, comparing the searched content with the search condition to determine validity, and generating a search result. It is a featured program.
[0017]
Further, the present invention provides an information registering apparatus, wherein information which is a keyword is extracted from information to be registered, and the extracted information which is a keyword is normalized to be similar to each other, and the normalized information is obtained. It is characterized by having a registration processing means for creating search data with a heading of.
[0018]
Further, in the present invention, in the information search device, information serving as a keyword is extracted from a search condition, normalization is performed to combine the extracted information serving as keywords with similar items, and based on the information obtained by performing the normalization. A search processing unit that searches the search data, compares the searched content with the search condition to determine validity, and creates a search result.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0020]
[First Embodiment]
FIG. 1 is a block diagram illustrating a configuration of an information processing device (information search device) according to the first embodiment of the present invention. The information processing device manages multimedia information such as documents and images, and enables a searcher to set search conditions and obtain necessary files from the managed multimedia information. The apparatus includes a
[0021]
The
[0022]
The search condition (query) input from the
[0023]
The operating environment related to the information search of the present invention can correspond to the single information processing apparatus (computer) shown in FIG. 1 as well as a local network environment shown in FIG. The Internet environment shown in FIG. The local network environment shown in FIG. 2 is an example in which a
[0024]
Next, an operation related to information retrieval in the information processing apparatus according to the first embodiment configured as described above will be described in detail with reference to FIGS. FIGS. 4 to 6 are flowcharts showing the flow of each process according to the first embodiment. 4 to 6 are executed by the
[0025]
<Search document registration process>
First, a search document registration process according to the first embodiment will be described with reference to FIG. FIG. 4 is a flowchart showing the search document registration process. In step S101, the searcher specifies a document to be registered from the
[0026]
In the example of the first embodiment, in the document ID management information of FIG. 7, document IDs = 1 to 10 have already been assigned, but since document ID = 11 has not been assigned yet, the
[0027]
In step S103, the
[0028]
FIG. 8 is a diagram illustrating an example of the document analysis process. FIG. 8 illustrates a process of extracting a keyword from the analytic sentence of the content of the document A, "The presidential election was voted in the United States." Morphological analysis can be performed on the parsed sentence to divide it into morpheme units. That is, it can be divided into morpheme units represented by the word segmentation results in FIG. The
[0029]
In step S104, the
[0030]
FIG. 9 is a diagram showing an example in which standard notation data is listed. In the case of many words, there are a plurality of words for expressing the same meaning, such as inflected forms, different notations (differences in hiragana, katakana, and kanji), fluctuations in notations (differences in kana), synonyms, and synonyms. The standard notation data is data for converting these words into one standard notation based on a certain standard. For example, according to FIG. 9, "USA", "USA", "USA", "USA", "America", "AMERICA", etc. can all be represented by the standard notation "USA". In addition, verbs, adjectives, and the like can be utilized in advance, such as continuous use, termination, union, assumption, and command, all of which are expressed as final forms. In the example of FIG. 9, “do” and “do” are different notations, “America” and “America Rikka” are synonyms, and “president” and “president” are synonyms. "Visit Japan" and "Visit Japan" are synonyms.
[0031]
FIG. 6 is a flowchart showing the standard notation acquisition processing. In step S301, the searcher inputs the keyword extracted in step S103 of FIG. 4 from the
[0032]
FIG. 10 is a diagram showing an example of acquiring the standard notation from the input notation with reference to the standard notation data of FIG. As a result, "USA", "President", "Election", "Counting", and "Perform" can be acquired as standard notations.
[0033]
Returning to FIG. 4 described above, in step S105, the
[0034]
FIG. 11 is a diagram showing search data before registration according to the first embodiment. In the search data according to the first embodiment, a document ID that appears with a standard notation as a heading is stored. For example, the search data expresses that the word “America” appears in 1, 2, 3, 4, 5, 8, and 10 documents. If it exists as a headword, a document ID is added to the data. If there is no headword, new data is created using the headword and the document ID.
[0035]
FIG. 12 is a diagram showing an example of registration in search data. In FIG. 12, since "USA" already exists as a heading with reference to the search data, the information of the document ID = 11 to be registered this time is added to the document ID information corresponding to the heading of "USA". On the other hand, since "opening" does not exist as a heading, a new heading "opening" is newly registered with the document ID = 11 to be registered this time.
[0036]
FIG. 13 is a diagram showing search data after registration according to the first embodiment. In FIG. 13, the existing index data stores the ID (11) of the document added this time. Also, in FIG. 13, “Billing” which did not exist in FIG. 11 is newly registered as a new heading.
[0037]
<Document search processing>
Next, a document search process according to the first embodiment will be described with reference to FIG. FIG. 5 is a flowchart showing the document search process. In step S201, the searcher inputs a search condition from the
[0038]
In step S202, the
[0039]
In step S203, the
[0040]
In step S301 in FIG. 6, the searcher inputs the keyword extracted in step S103 in FIG. 4 from the
[0041]
Next, returning to FIG. 5 described above, in step S204, the
[0042]
In step S205, the
[0043]
For example, at the time of registration, search data in which the part of speech of each word that is a keyword is registered along with the document ID is created, and at the time of search, the match / mismatch of the input word part of speech is referenced with the document ID, and the search result is obtained. May be determined.
[0044]
In addition, at the time of registration, search data in which information such as ancillary word information and suffix / prefix information associated with each keyword word is registered together with the document ID, and the information associated with the keyword is created at the time of search. May be added to the determination of the validity of the search result.
[0045]
At the time of registration, search data in which the appearance position of each word as a keyword and the appearance state of a title, a headline, an itemized list, and the like are registered together with the document ID, and at the time of search, the positional relationship and the distance of the keyword are registered. Alternatively, the appearance state may be added to the determination of the validity of the search result.
[0046]
Also, at the time of registration, the sentence structure is extracted together with the document ID, and search data in which information such as the word's destination and destination is registered is created. At the time of search, the search condition is registered in the dependency relationship and the search data. The dependency relation of the word may be added to the determination of the validity of the search result.
[0047]
In addition, at the time of registration, the above information (information indicating the part of speech of each keyword word, information such as attached word information and suffix / prefix information attached to each keyword word, each keyword word) Information indicating the appearance position such as the title, headline, bullet point, etc., and the sentence structure are extracted, and any combination or all of the word's involvement and recipients are registered as search data. All the information included in the search data may be referred to and added to the determination of the validity of the search result.
[0048]
In step S206, the
[0049]
Also, if the search condition sentence is “President of the United States”, “US” and “President” are cut out as keywords in the keyword extraction processing. , Because “President” is standardized to “President”, the final search condition is [USA] AND [President], which is exactly the same as when the above-mentioned “American President” was entered and searched. You can get search results.
[0050]
As described above, according to the first embodiment, when a document is registered, a unique document ID is assigned to the document to be registered, a keyword word is extracted from the document, and a different notation, a variant character, Search data that refers to word group data that combines multiple words having a specific meaning, such as synonyms and synonyms, into one or more words, assigns standard notations to extracted keywords, and registers document IDs with standard notations as headings. Create When searching for a document, a keyword word is extracted from specified search conditions, word group data is referred to, a standard notation is assigned to the extracted keyword, search data is searched based on the standard notation, and a search is performed. It is determined whether the search result matches the search condition, and a final search result is created.
[0051]
As a result, it is possible to eliminate the omission of a search when performing a search based on a natural sentence, which is a problem in the related art. In addition, since the burden on the searcher when inputting a logical expression can be reduced, operability can be greatly improved. Furthermore, in order to prevent search omission, keywords are not expanded using synonyms or synonyms, so that the search processing can be minimized, and the effect of increasing the search speed can be obtained.
[0052]
[Second embodiment]
An information processing apparatus (information retrieval apparatus) according to the second embodiment of the present invention manages multimedia information such as a document and an image, and manages the multimedia information as in the first embodiment. A searcher can set a search condition and obtain necessary files from media information, and includes an
[0053]
In the second embodiment, a method is adopted in which all words subjected to morphological analysis in the first embodiment are replaced with IDs, and processing is performed using word IDs in the information processing apparatus (system).
[0054]
FIG. 20 is a diagram showing an example in which a keyword is converted into a standard word ID. According to FIG. 20, "USA", "USA", "America", "USA", "USA", and "AMERICA" are all processed in the information processing apparatus (system) as word ID = 1. If "U.S. voted for presidential election." Is registered, the word IDs obtained by referring to the standard notation data are: United States = 1, President = 2, Election = 5, Vote = 4, Vote = It becomes 3. Further, a document ID (11) is additionally registered with each word ID as a heading. As a result, the search data is as shown in FIG.
[0055]
Next, when the search condition “President of the United States” is input, “America” and “President” are extracted as keywords. With reference to the standard word ID data of FIG. 20, ID = 1 and ID = 2 can be acquired as standard word IDs. As a result, the search data can be searched, and a document ID = {1, 2, 3, 4, 5, 11} can be obtained as a search result, and the same result as in the first embodiment can be obtained by a word ID. It is possible to get.
[0056]
As described above, according to the second embodiment, words are handled in the information processing apparatus (system) not by character strings but by IDs, thereby saving search data and memory required for internal processing. In addition to this, it is possible to obtain an effect that the processing can be executed at high speed in the search processing of the search data and the additional registration processing to the search data.
[0057]
[Third Embodiment]
The information processing apparatus (information retrieval apparatus) according to the third embodiment of the present invention manages multimedia information such as a document and an image, and manages the A searcher can set a search condition and obtain necessary files from media information, and includes an
[0058]
In the third embodiment, the data to be registered (stored) in the word index in the first and second embodiments is only the document ID. (The number of occurrences) is stored together with the document ID. Therefore, the search data is stored as (document ID / appearance count).
[0059]
FIG. 22 is a diagram showing search data registered as described above (document ID / number of appearances). For example, 1/4 in the document ID data of "USA" indicates that "USA" appears four times in the document of document ID = 1. Similarly, it can be seen from the document ID data that “President” appears three times in the document with the document ID = 1. Based on this data, the importance of each keyword in the document is calculated by a known tf · idf method or the like, and a score can be given as the validity of the document based on the result. This makes it possible to quickly present search results that are considered to be highly relevant to the searcher, as in the search result output example shown in FIG.
[0060]
As described above, according to the third embodiment, since information can be quickly presented to a searcher from a valid document in an information search process, even when a large number of search results exist, the search can be performed. This makes it possible to obtain information that the user wants to search more quickly, and to obtain an effect of improving operability.
[0061]
[Other embodiments]
In the first to third embodiments, the case where a document is registered and searched by the information processing apparatus (information search apparatus) has been described. However, the present invention is not limited to this. The present invention can also be applied to the case of registering and searching.
[0062]
In the first to third embodiments, the supply form of the processing program to be executed by the information processing apparatus (information retrieval apparatus) is not limited to a specific one, and the processing program is stored in advance in the information processing apparatus. Configuration, or a configuration in which the processing program is supplied from outside the information processing apparatus.
[0063]
In the first to third embodiments, the information processing apparatus (information search apparatus) is configured as shown in FIG. 1. However, the present invention is not limited to this. An apparatus may be connected, and the search result may be displayed and output by the output device, and may be printed and output by the printing device.
[0064]
Further, the present invention may be applied to a system including a plurality of devices or to an apparatus including a single device. A medium such as a storage medium storing software program codes for realizing the functions of the above-described embodiments is supplied to a system or an apparatus, and a computer (or CPU or MPU) of the system or apparatus stores the medium in the medium such as a storage medium. It goes without saying that the present invention is also achieved by reading and executing the program code thus set.
[0065]
In this case, the program code itself read from a medium such as a storage medium realizes the function of the above-described embodiment, and the medium such as a storage medium storing the program code constitutes the present invention. .
[0066]
Further, as a medium such as a storage medium for supplying the program code, for example, a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW, DVD + RW, magnetic tape, nonvolatile memory card, ROM, and the like can be used.
[0067]
When the computer executes the readout program code, not only the functions of the above-described embodiments are realized, but also an OS or the like running on the computer performs actual processing based on the instruction of the program code. It goes without saying that the present invention includes a case where some or all of the processes are performed and the functions of the above-described embodiments are realized by the processing.
[0068]
Furthermore, after the program code read from a medium such as a storage medium is written to a memory provided in a function expansion board or a function expansion unit connected to the computer, based on an instruction of the program code, It is needless to say that the present invention includes a case where a CPU or the like provided in the function expansion board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.
[0069]
【The invention's effect】
As described above, according to the present invention, at the time of registering information, information that is a keyword is extracted from the information to be registered, and the extracted information that is the keyword is grouped together with similar items. Creates search data with the information that has been subjected to the search as the heading, extracts information that will be keywords from the search conditions when searching for information, and performs normalization to combine the extracted information that is the keywords with similar items. The search data is searched based on the converted information, the searched contents are compared with search conditions to determine validity, and search results are created. It is possible to eliminate search omission when performing a search by a sentence. In addition, since the burden on the searcher when inputting a logical expression can be reduced, operability can be greatly improved. Furthermore, in order to prevent search omission, keywords are not expanded using synonyms or synonyms, so that the search processing can be minimized, and the effect of increasing the search speed can be obtained.
[0070]
In addition, since words are handled not as character strings but as IDs in the information search device, it is possible to save search data and memory required for internal processing, and to perform search processing of search data and search data. In the additional registration process, the effect that the process can be executed at high speed can be obtained.
[0071]
In addition, since information can be quickly presented to a searcher from a highly valid document in an information search process, even when a large number of search results exist, it is possible to obtain information desired by the searcher more quickly, and to improve operability. The effect of improvement can be obtained.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of an information processing apparatus according to a first embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of an operation environment.
FIG. 3 is a diagram illustrating an example of an operation environment.
FIG. 4 is a flowchart illustrating a flow of a search document registration process.
FIG. 5 is a flowchart illustrating a flow of a document search process.
FIG. 6 is a flowchart showing the flow of a standard notation acquisition process for standardizing a keyword.
FIG. 7 illustrates an example of a document ID assignment process.
FIG. 8 is a diagram illustrating an example of a document analysis process for extracting a keyword by performing a document analysis.
FIG. 9 is a diagram showing an example of data in standard notation.
FIG. 10 is a diagram illustrating an example of acquiring a standard notation.
FIG. 11 is a diagram illustrating an example of registration data before execution of registration.
FIG. 12 is a diagram showing an example of registration in search data.
FIG. 13 is a diagram showing an example of search data after execution of registration.
FIG. 14 is a diagram showing an input example of a search condition.
FIG. 15 is a diagram illustrating an example of extracting a keyword from a search condition.
FIG. 16 is a diagram illustrating an example of obtaining a standard notation of a search keyword.
FIG. 17 is a diagram illustrating a search example of search data.
FIG. 18 is a diagram illustrating an example of a determination as to whether or not a search result is acceptable.
FIG. 19 is a diagram illustrating an example of a search result.
FIG. 20 is a diagram showing an example of standard word ID data according to the second embodiment of the present invention.
FIG. 21 is a diagram illustrating an example of search data.
FIG. 22 is a diagram showing an example of search data according to the third embodiment of the present invention.
FIG. 23 is a diagram showing an output example of a search result.
FIG. 24 is a diagram showing a document search process according to the
FIG. 25 is a diagram illustrating a document search process according to the
FIG. 26 is a diagram illustrating a document search process according to the
[Explanation of symbols]
1 Input device
2 CPU (registration processing means, search processing means, ID provision means, registration word extraction means, search word extraction means, registration time information provision means, search information provision means, search information registration means, search means, search result availability Judgment means)
3 Output device
4 Storage device
4-1 processing program (registration processing means, search processing means, ID assignment means, registration word extraction means, search word extraction means, registration information addition means, search information addition means, search information registration means, search means, Search result availability determination means)
4-2 Standard notation data (word group information)
4-3 Search data
Claims (24)
情報の登録時に、登録対象の情報からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を見出しとした検索用データを作成する登録処理手段と、
情報の検索時に、検索条件からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を基に前記検索用データを検索し、前記検索した内容を前記検索条件と比較することで妥当性を判定し、検索結果を作成する検索処理手段とを有することを特徴とする情報検索装置。An information search device for searching information,
At the time of registering information, information to be a keyword is extracted from the information to be registered, and the extracted information to be a keyword is normalized by similar items, and a search is performed using the normalized information as a heading. Registration processing means for creating data;
At the time of searching for information, information serving as a keyword is extracted from search conditions, normalization is performed to combine the extracted information serving as keywords with similar items, and the search data is obtained based on the normalized information. An information search apparatus comprising: a search processing unit configured to search, compare the searched content with the search condition, determine validity, and create a search result.
前記登録処理手段は、登録対象の文書に固有の文書IDを付与するID付与手段と、前記文書からキーワードとなる単語を抽出する登録時単語抽出手段と、異表記、異体字、同義語、類義語等の特定の意味を持つ複数の単語を所定単位にまとめる単語群データを参照し、前記抽出したキーワードに単語群情報を付与する登録時情報付与手段と、前記単語群情報を見出しとし前記文書IDを登録した検索用データを作成する検索情報登録手段とを有し、
前記検索処理手段は、指定された検索条件からキーワードとなる単語を抽出する検索時単語抽出手段と、前記単語群データを参照し、前記抽出したキーワードに前記単語群情報を付与する検索時情報付与手段と、前記単語群情報を基に前記検索用データを検索する検索手段と、前記検索した結果が前記検索条件に合致するか否かの可否判定を行ない、最終的な検索結果を作成する検索結果可否判定手段とを有することを特徴とする請求項1記載の情報検索装置。The information includes a document or a document accompanied by an image,
The registration processing means includes an ID assigning means for assigning a unique document ID to a document to be registered, a registration word extracting means for extracting a word serving as a keyword from the document, a different notation, a variant character, a synonym, and a synonym. A word group data for grouping a plurality of words having a specific meaning into a predetermined unit, and a registration-time information providing means for providing word group information to the extracted keyword; and a document ID having the word group information as a heading. Search information registration means for creating search data in which
The search processing means includes a search time word extraction means for extracting a word serving as a keyword from a specified search condition, and a search time information providing means for referring to the word group data and adding the word group information to the extracted keyword. Means, a search means for searching the search data based on the word group information, and a search for determining whether or not the search result matches the search condition to create a final search result 2. The information search device according to claim 1, further comprising a result availability determination unit.
情報の登録時に、登録対象の情報からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を見出しとした検索用データを作成し、
情報の検索時に、検索条件からキーワードとなる情報を抽出し、前記抽出したキーワードとなる情報を類似したもの同士でまとめる正規化を行ない、前記正規化を行なった情報を基に前記検索用データを検索し、前記検索した内容を前記検索条件と比較することで妥当性を判定し、検索結果を作成することを特徴とする情報検索方法。An information search method for searching for information,
At the time of registering information, information to be a keyword is extracted from the information to be registered, and the extracted information to be a keyword is normalized by similar items, and a search is performed using the normalized information as a heading. Create data,
At the time of searching for information, information serving as a keyword is extracted from search conditions, normalization is performed to combine the extracted information serving as keywords with similar items, and the search data is obtained based on the normalized information. An information search method comprising: searching, comparing the searched content with the search condition, determining validity, and creating a search result.
前記登録時に、登録対象の文書に固有の文書IDを付与し、前記文書からキーワードとなる単語を抽出し、異表記、異体字、同義語、類義語等の特定の意味を持つ複数の単語を所定単位にまとめる単語群データを参照し、前記抽出したキーワードに単語群情報を付与し、前記単語群情報を見出しとし前記文書IDを登録した検索用データを作成し、
前記検索時に、指定された検索条件からキーワードとなる単語を抽出し、前記単語群データを参照し、前記抽出したキーワードに前記単語群情報を付与し、前記単語群情報を基に前記検索用データを検索し、前記検索した結果が前記検索条件に合致するか否かの可否判定を行ない、最終的な検索結果を作成することを特徴とする請求項12記載の情報検索方法。The information includes a document or a document accompanied by an image,
At the time of the registration, a unique document ID is assigned to the document to be registered, a word serving as a keyword is extracted from the document, and a plurality of words having a specific meaning such as a different notation, a variant, a synonym, or a synonym are determined. Referring to the word group data to be grouped into units, adding word group information to the extracted keywords, creating search data in which the document ID is registered with the word group information as a heading,
At the time of the search, a word serving as a keyword is extracted from a designated search condition, the word group data is referred to, the word group information is added to the extracted keyword, and the search data is obtained based on the word group information. 13. The information search method according to claim 12, wherein a search is performed to determine whether or not the search result matches the search condition, and a final search result is created.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002243537A JP2004086307A (en) | 2002-08-23 | 2002-08-23 | Information retrieving device, information registering device, information retrieving method, and computer readable program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002243537A JP2004086307A (en) | 2002-08-23 | 2002-08-23 | Information retrieving device, information registering device, information retrieving method, and computer readable program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004086307A true JP2004086307A (en) | 2004-03-18 |
JP2004086307A5 JP2004086307A5 (en) | 2005-10-20 |
Family
ID=32052279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002243537A Pending JP2004086307A (en) | 2002-08-23 | 2002-08-23 | Information retrieving device, information registering device, information retrieving method, and computer readable program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004086307A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006024071A (en) * | 2004-07-09 | 2006-01-26 | Matsushita Electric Ind Co Ltd | Automatic reply retrieving device |
JP2007272884A (en) * | 2006-03-17 | 2007-10-18 | Proquest-Csa Llc | Method and system to index captioned object in published literature for information discovery task |
WO2009060817A1 (en) * | 2007-11-08 | 2009-05-14 | Honda Motor Co., Ltd. | Information retrieval device |
JP2009116737A (en) * | 2007-11-08 | 2009-05-28 | Honda Motor Co Ltd | Information retrieval device |
US7647303B2 (en) | 2004-09-02 | 2010-01-12 | Canon Kabushiki Kaisha | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program |
US9881001B2 (en) | 2012-06-18 | 2018-01-30 | Konica Minolta, Inc. | Image processing device, image processing method and non-transitory computer readable recording medium |
JP2020086541A (en) * | 2018-11-15 | 2020-06-04 | TXP Medical株式会社 | Information processing system |
-
2002
- 2002-08-23 JP JP2002243537A patent/JP2004086307A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006024071A (en) * | 2004-07-09 | 2006-01-26 | Matsushita Electric Ind Co Ltd | Automatic reply retrieving device |
US7647303B2 (en) | 2004-09-02 | 2010-01-12 | Canon Kabushiki Kaisha | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program |
JP2007272884A (en) * | 2006-03-17 | 2007-10-18 | Proquest-Csa Llc | Method and system to index captioned object in published literature for information discovery task |
US8024364B2 (en) | 2006-03-17 | 2011-09-20 | Proquest Llc | Method and system to search objects in published literature for information discovery tasks |
JP2011227932A (en) * | 2006-03-17 | 2011-11-10 | Proquest-Csa Llc | Method and system to index captioned objects in published literature for information discovery tasks |
WO2009060817A1 (en) * | 2007-11-08 | 2009-05-14 | Honda Motor Co., Ltd. | Information retrieval device |
JP2009116737A (en) * | 2007-11-08 | 2009-05-28 | Honda Motor Co Ltd | Information retrieval device |
US9881001B2 (en) | 2012-06-18 | 2018-01-30 | Konica Minolta, Inc. | Image processing device, image processing method and non-transitory computer readable recording medium |
JP2020086541A (en) * | 2018-11-15 | 2020-06-04 | TXP Medical株式会社 | Information processing system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US8494839B2 (en) | Apparatus, method, and recording medium for morphological analysis and registering a new compound word | |
US8280721B2 (en) | Efficiently representing word sense probabilities | |
JP2005251206A (en) | Word collection method and system for use in word segmentation | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
EP3649561A1 (en) | System and method for natural language music search | |
JPH1153384A (en) | Device and method for keyword extraction and computer readable storage medium storing keyword extraction program | |
JP2007257644A (en) | Program, method and apparatus for acquiring translated word based on translated word candidate character string prediction | |
CN102214189B (en) | Data mining-based word usage knowledge acquisition system and method | |
JP2006099428A (en) | Document summary preparation system, method, and program | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
JP4065346B2 (en) | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method | |
JP2004086307A (en) | Information retrieving device, information registering device, information retrieving method, and computer readable program | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
KR101037091B1 (en) | Ontology-based Semantic Retrieval System and Method for Multilingual Authorized Headings through Automatic Language Translation | |
JP2003303194A (en) | Idiom dictionary producing device, retrieval index producing device, document retrieving device, and their method, program, and recording medium | |
JP4298342B2 (en) | Importance calculator | |
KR20020054254A (en) | Analysis Method for Korean Morphology using AVL+Trie Structure | |
JP5148583B2 (en) | Machine translation apparatus, method and program | |
JP2010250389A (en) | Information retrieval system, method and program, and index generation system, method, and program | |
JPH10177575A (en) | Device and method for extracting word and phrase and information storing medium | |
JP3486406B2 (en) | Patent information search device | |
JP2000339342A (en) | Method and device for retrieving document | |
JP2004318328A (en) | Information retrieval method | |
Jena et al. | Semantic desktop search application for Hindi-English code-mixed user query with query sequence analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050630 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050630 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060415 |
|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20070626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080821 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081007 |