[go: up one dir, main page]

JPH0728845A - 文書検索装置及びその方法 - Google Patents

文書検索装置及びその方法

Info

Publication number
JPH0728845A
JPH0728845A JP5173117A JP17311793A JPH0728845A JP H0728845 A JPH0728845 A JP H0728845A JP 5173117 A JP5173117 A JP 5173117A JP 17311793 A JP17311793 A JP 17311793A JP H0728845 A JPH0728845 A JP H0728845A
Authority
JP
Japan
Prior art keywords
document
search
name
search word
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5173117A
Other languages
English (en)
Other versions
JP3135422B2 (ja
Inventor
Takanari Ueda
隆也 上田
Shiro Ito
史朗 伊藤
Yasuo Okuya
泰夫 奥谷
Minoru Fujita
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP05173117A priority Critical patent/JP3135422B2/ja
Publication of JPH0728845A publication Critical patent/JPH0728845A/ja
Application granted granted Critical
Publication of JP3135422B2 publication Critical patent/JP3135422B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 時期により名称に変更があった名称を検索語
とする検索の精度を向上させる。 【構成】 文書検索装置に、文書を該文書に対する日付
情報とともに記憶する文書DB108と、人物の役職の
履歴を、その役職の在任期間と対応づけて記憶する役職
履歴DB105と、検索語を入力する検索語入力部10
1と、該検索語入力部101より入力された検索語と、
前記文書DB108に記憶された検索対象文書の日付情
報とに基づいて、前記役職履歴DB105を参照し、前
記検索語を展開する検索語展開部102と、該検索語展
開部102によって展開された検索語により、前記検索
対象文書を検索する検索処理部107とを具える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書検索装置、特に全
文を対象にして検索を行なう全文検索装置に関するもの
である。
【0002】
【従来の技術】文書データベースの普及と、計算機処理
能力の向上により、大量の文書データベースから、指定
されたキーワードを含む文書を検索する文書検索装置が
用いられるようになってきている。
【0003】特に最近では、検索の際の柔軟性を向上さ
せるために、あらかじめ文書につけられたキーワードを
使って検索するのでなく、全文を対象にして検索するこ
とにより、自由なキーワードを指定できるようにした全
文検索の方式が用いられるようになってきている。この
方式には、どのようなキーワードを使わなければならな
いという制約がないので誰にでも検索することができる
という特徴がある。
【0004】全文検索においては、ユーザが指定したキ
ーワード(以下、検索語と呼ぶ)の表す概念が別の表現
として文書中にあらわれることがあるので、検索システ
ム側が同義語辞書や異表記語辞書を使って、検索語とし
て同義語・異表記語を追加して(これを検索語展開と呼
ぶ)から検索を行なうのが普通である。
【0005】
【発明が解決しようとする課題】ところで固有名詞で表
される事物を検索することを考えると、その名称は時期
によって変更されることがある。例えば会社名や国名が
変更される場合である。また、人物を検索する場合を考
えると、その姓名は変更されなくても、役職についてい
る人物はフルネームで言及されるよりも姓+役職名また
は役職名のみで言及されることのほうが多く、そのよう
な表現形式については時期によって役職が異なること
で、名称が変わることになる。
【0006】従来の同義語辞書はこのように時期によっ
て変更される名称には対応していなかった。これに対処
するために過去に使われた全ての名称を同義語として登
録することも考えられるが、そうすると、ある名称が使
われていない時期の文書についてもその名称を使って検
索することになり、不要な文書まで得られてしまう危険
性がある。また、人物の場合は姓だけを検索語にするこ
とも考えられるが、同姓の他の人も検索されてしまい、
やはり検索の際のノイズが増える。いずれにせよ、従来
の文書検索装置の場合、時期によって変更される名称を
持つ事物については検索精度が下がってしまうという問
題点があった。
【0007】本発明の目的は、上述の欠点を除去し、文
書検索装置の検索精度を向上させることにある。
【0008】
【課題を解決するための手段】上記課題を解決するため
に、本発明の文書検索装置は、文書を該文書に対する日
付情報とともに記憶する文書記憶手段と、事物の名称の
履歴を、各名称を該名称の使用期間と対応づけて記憶す
る名称履歴記憶手段と、検索語を入力する入力手段と、
該入力手段より入力された検索語と、前記文書記憶手段
に記憶された検索対象文書の日付情報とに基づいて、前
記名称履歴記憶手段を参照し、前記検索語を展開する検
索語展開手段と、該検索語展開手段によって展開された
検索語により、前記検索対象文書を検索する検索手段と
を具える。
【0009】また、本発明の他の態様によれば、文書を
該文書に対する日付情報とともに記憶する文書ファイル
中の文書を、検索語を用いて検索する文書検索方法にお
いて、事物の名称の履歴を、各名称を該名称の使用期間
と対応づけて名称履歴メモリに記憶させておき、検索語
を入力し、該入力された検索語と、前記文書ファイルに
記憶された検索対象文書の日付情報とに基づいて、前記
名称履歴メモリを参照して、前記検索語を展開し、該展
開された検索語により、前記検索対象文書を検索するこ
とを特徴とする。
【0010】
【作用】上記文書検索装置は、入力手段より入力された
検索語と、文書記憶手段に記憶された検索対象文書の日
付情報とに基づいて、名称履歴記憶手段を参照して、検
索語展開手段により前記検索語を展開し、展開された検
索語によって、検索手段が前記検索対象文書を検索す
る。
【0011】また、上記文書検索方法によれば、事物の
名称の履歴を、各名称を該名称の使用期間と対応づけて
名称履歴メモリに記憶させておき、検索語を入力し、該
入力された検索語と、前記文書ファイルに記憶された検
索対象文書の日付情報とに基づいて、前記名称履歴メモ
リを参照して、前記検索語を展開し、該展開された検索
語により、前記検索対象文書を検索する。
【0012】
【実施例】以下、図面を参照して本発明を詳細に説明す
る。
【0013】図1は本発明の一実施例に係る装置の構成
を示すブロック図である。本実施例では人名の検索を行
なう場合を例にとる。
【0014】同図において、101は検索語を入力する
検索語入力部、102は入力された検索語に同義語等を
追加する検索語展開部、103は展開された語を含めて
検索語を保持する検索語保持部、104は検索語展開に
用いる同義語辞書である。105は各人物について役職
の履歴を記述した役職履歴データベース、106は検索
対象になっている人物について役職の履歴を保持する役
職履歴保持部、107は文書中に検索語が含まれている
かどうか調べる検索処理部、108は文書を格納した文
書データベース、109は文書の日付を調べる文書日付
判定部、110は検索の結果得られた文書が正しいかど
うかを調べる検索結果判定部、111は役職名に関して
検索結果が正しいかどうかを判定するための規則を保持
する役職判定規則保持部、112は検索結果を保持する
検索結果保持部である。
【0015】図2は本発明をさらに具体的に説明するも
のである。
【0016】同図において、201は図3に示す制御手
順を記憶する制御メモリである。これはROMであって
もよいし、RAMであってもよい。202は制御メモリ
201に記憶されている制御手順にしたがって処理を行
なう中央処理装置である。203はメモリで、検索語保
持部103・検索結果保持部112・役職履歴保持部1
06・役職判定規則保持部111として利用されるエリ
アを有する。204はキーボードであり、検索語をユー
ザが入力するのに用いる。205はディスク装置であ
り、文書データベース・役職履歴データベース・同義語
辞書を有する。206はディスプレイで、CRTあるい
は液晶ディスプレイなどである。これは検索結果を表示
するのに用いる。207はバスである。
【0017】図3は、図1に示した装置における動作の
処理手順を示すフローチャートである。本図を参照しな
がら本発明の一実施例の動作を説明する。ここでは入力
される検索語が1語のみの場合について説明する。ま
た、文書データベース108には文書が時間順に格納さ
れているものとする。
【0018】まず、ステップS301では、検索語入力
部101から入力された検索語について役職履歴データ
ベース105を検索し、検索の結果得られた検索語の人
物の役職の履歴を役職履歴保持部106に保持する。役
職履歴データベース105には、例えば図4のように期
間と役職(もしくは肩書き)が記述されている。この中
で「前首相」「元首相」というのは役職名ではないが肩
書きとして用いられるものであるので、このようなもの
も記述しておく。
【0019】次にステップS302で検索語保持部10
3の初期化を行なう。検索語保持部103には役職履歴
の有無と期間と検索語を保持する。役職履歴があった場
合は、記載されているうちで最も古い役職の開始日の前
日までを期間の初期値とし、役職をつけない姓名を検索
語の初期値とする。例えば「竹下登」の最も古い役職の
開始日が1958/05/21だとすると、図5の
(1)のように役所履歴“有”、期間を「−1959/
05/20]、検索語を「竹下登」とする。役職履歴が
なかった場合は検索語をそのまま入れる。例えば「日本
太郎」の役職履歴がない場合は、図5の(2)のように
役職履歴を“無”、検索語を「日本太郎」とする。
【0020】ステップS303では、文書データベース
108から文書を一つ取り出す。次にステップS304
において、検索語保持部103で役職履歴が“有”にな
っているかどうかを調べる。役職履歴がない場合は通常
の検索を行なえばいいので、ステップS311に移り、
文書に検索語が含まれているかどうかを調べる検索処理
を行なう。
【0021】ステップS304で役職履歴がある場合は
ステップS305に移り、文書日付判定部109で、現
在注目している文書の日付が、検索語保持部103に保
持されている期間に入っているかどうかを調べる。期間
に入っていた場合はステップS307に移り、現在検索
語保持部103に保持されている検索語で検索処理を行
なう。期間に入っていなければ役職名を変更する必要が
あるので、ステップS306に移り、文書の日付に対応
した役職名を役職履歴保持部106から取り出し、さら
に検索語の展開を行なう。検索語展開の際には、同義語
辞書104で役職名の同義語を調べ、それぞれを<姓+
役職名>と<役職名>に展開する。展開した結果と元の
検索語<姓名>は期間とともに検索語保持部103に保
持する。そしてステップS307で検索処理を行なう。
このステップS307の検索処理はステップS311の
検索処理と同じであり、検索語保持部103に保持され
た検索語が文書中に存在するかどうかを調べる。この手
法は、一般に知られている文字列照合アルゴリズムにし
たがってもよいし、あらかじめインデクスを用意してお
き、それを使って検索してもよい。
【0022】ステップS308では、文書中に検索語が
存在した場合に、役職名のみの語があるかどうか調べ
る。なければステップS310に移る。あった場合は、
ステップS309で検索結果が正しいかどうかを判定す
る。<姓+役職名>の場合は検索結果が誤っていること
は少ないが、<役職名>だけの場合は検索結果に誤りが
あることが少なくない。例えば、図8に示す例では、
「(竹下)首相」が検索語の場合、(1)は問題ない
が、(2)は誤りである。そこで、役職判定規則保持部
111に役職名に関する判定規則を入れておき、検索結
果が正しいかどうかを判定する。この規則は例えば「役
職名の前に検索語の<姓>以外の人名が来ているものは
正しくない」というようなものである。正しくないと判
定された結果は検索結果保持部112から削除する。そ
してステップS310に移る。
【0023】ステップS310では文書が残っているか
どうかを調べ、残っていればステップS303に戻って
処理を繰り返す。残っていなければ処理を終了する。
【0024】次に、実例を示して、本実施例のさらなる
説明を行なう。検索語として「竹下登」が与えられたと
する。この検索語に対応する役職履歴データベース10
5の内容は図4のようになる。そこでこれを役職履歴保
持部106に保持する。また、検索語保持部103の初
期状態は図5の(1)に示すようになる。
【0025】一つ目の文書を取り出したときに日付が1
987年1月1日だったとする。これは検索語保持部1
03に記述されている期間「−1958/05/20」
に含まれないので、この日付に対応する役職名を役職履
歴保持部106で調べ「幹事長」を得る。検索語展開の
際には<姓+役職名>と<役職名>に展開するので、
「幹事長」の同義語がなかった場合は図6に示すように
「竹下幹事長」「幹事長」「竹下登」の3語に展開し、
その期間「1986/07/22−1987/11/0
5]とあわせて検索語保持部103に保持する。
【0026】以後、文書の日付が1987年11月5日
までの場合は、この検索語をそのまま使うことができる
が、例えば日付が1987年11月6日になった場合
は、検索語保持部103に保持された期間におさまらな
いことになる。そこで、再び役職履歴保持部106で調
べて「首相」を得る。同義語辞書104で同義語を調べ
て「総理大臣」「総理」が得られたとしたら、前と同様
にして図7に示すように「竹下首相」「竹下総理」「竹
下総理大臣」「首相」「総理」「総理大臣」「竹下登」
の7語に展開して検索語保持部103の内容を変更す
る。
【0027】(他の実施例) 1.上記実施例では役職名を伴う人名を検索する場合に
ついて説明したが、国名や組織名など名称そのものが変
化するものを検索する場合は、役職履歴データベースの
代わりに、それぞれの名称の履歴を格納したデータベー
スを用意し、期間によって検索語を切り替えるようにす
ればよい。
【0028】2.上記実施例では検索語が1語の場合に
ついて説明したが、検索語が複数ある場合でも検索語保
持部に複数の検索語を保持し、個々の語について同様の
処理を行なえばよい。
【0029】3.上記実施例では同時に二つ以上の役職
についていない場合について説明したが、同時に複数の
役職につくような場合は、いずれかの役職が変化する日
付が来るたびに検索語の変更を行なうようにすればよ
い。
【0030】4.上記実施例では文書が時間順に文書デ
ータベースに格納されている場合について説明したが、
文書が時間順に格納されていない場合は、個々の文書の
日付に応じて検索語を切り替えるようにすれば同様に実
施できる。
【0031】5.上記実施例では名称変更の日付と文書
の日付が一致した時に検索語を切り替えるようにした
が、文書に遅れがあるような場合(例えば週刊誌や月刊
誌)は、その遅れの分を考慮して検索語を切り替えるよ
うにしてもよい。
【0032】
【発明の効果】以上説明したように、本発明によれば、
固有名詞の検索を行なう場合、時期による名称の変更を
気にかけることなく目的の文書を得ることができるよう
になると期待できるので、文書検索装置の検索精度が向
上するという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例に係る装置の基本構成を示す
図である。
【図2】本発明の一実施例に係るシステム構成を示すブ
ロック図である。
【図3】本発明の一実施例に係る検索処理手順を示すフ
ローチャートである。
【図4】役職履歴データベースおよび役職履歴保持部内
容の例を示す図である。
【図5】検索語保持部の初期状態の例を示す図である。
【図6】検索語保持部の内容の例を示す図である。
【図7】検索語保持部の内容の例を示す図である。
【図8】検索結果を説明するための実例である。
【符号の説明】
101 検索語入力部 102 検索語展開部 103 検索語保持部 104 同義語辞書 105 役職履歴データベース 106 役職履歴保持部 107 検索処理部 108 文書データベース 109 文書日付判定部 110 検索結果判定部 111 役職判定規則保持部 112 検索結果保持部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文書を該文書に対する日付情報とともに
    記憶する文書記憶手段と、 事物の名称の履歴を、各名称を該名称の使用期間と対応
    づけて記憶する名称履歴記憶手段と、 検索語を入力する入力手段と、 該入力手段より入力された検索語と、前記文書記憶手段
    に記憶された検索対象文書の日付情報とに基づいて、前
    記名称履歴記憶手段を参照し、前記検索語を展開する検
    索語展開手段と、 該検索語展開手段によって展開された検索語により、前
    記検索対象文書を検索する検索手段とを具えたことを特
    徴とする情報検索装置。
  2. 【請求項2】 前記名称履歴記憶手段が、人物の名称の
    履歴として該人物の肩書きとその使用期間を記憶するこ
    とを特徴とする請求項1記載の文書検索装置。
  3. 【請求項3】 文書を該文書に対する日付情報とともに
    記憶する文書ファイル中の文書を、検索語を用いて検索
    する文書検索方法において、 事物の名称の履歴を、各名称を該名称の使用期間と対応
    づけて名称履歴メモリに記憶させておき、 検索語を入力し、 該入力された検索語と、前記文書ファイルに記憶された
    検索対象文書の日付情報とに基づいて、前記名称履歴メ
    モリを参照して、前記検索語を展開し、 該展開された検索語により、前記検索対象文書を検索す
    ることを特徴とする情報検索方法。
JP05173117A 1993-07-13 1993-07-13 文書検索装置及びその方法 Expired - Fee Related JP3135422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05173117A JP3135422B2 (ja) 1993-07-13 1993-07-13 文書検索装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05173117A JP3135422B2 (ja) 1993-07-13 1993-07-13 文書検索装置及びその方法

Publications (2)

Publication Number Publication Date
JPH0728845A true JPH0728845A (ja) 1995-01-31
JP3135422B2 JP3135422B2 (ja) 2001-02-13

Family

ID=15954460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05173117A Expired - Fee Related JP3135422B2 (ja) 1993-07-13 1993-07-13 文書検索装置及びその方法

Country Status (1)

Country Link
JP (1) JP3135422B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245065A (ja) * 2001-02-14 2002-08-30 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラムおよび記録媒体
JP2007199987A (ja) * 2006-01-26 2007-08-09 Hitachi Ltd 特許情報検索システム
JP2008097343A (ja) * 2006-10-12 2008-04-24 Alpine Electronics Inc 施設検索装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6797212B2 (en) 2002-04-18 2004-09-28 Medarray, Inc. Method for forming hollow fibers

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245065A (ja) * 2001-02-14 2002-08-30 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラムおよび記録媒体
JP2007199987A (ja) * 2006-01-26 2007-08-09 Hitachi Ltd 特許情報検索システム
JP2008097343A (ja) * 2006-10-12 2008-04-24 Alpine Electronics Inc 施設検索装置

Also Published As

Publication number Publication date
JP3135422B2 (ja) 2001-02-13

Similar Documents

Publication Publication Date Title
US7440947B2 (en) System and method for identifying query-relevant keywords in documents with latent semantic analysis
JP3691844B2 (ja) 文書処理方法
JP3181548B2 (ja) 情報検索装置及び情報検索方法
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
JPH10232883A (ja) 多言語対応文書検索システム
JPH03172966A (ja) 類似文書検索装置
JPH06309362A (ja) 情報検索方法
US5978798A (en) Apparatus for and method of accessing a database
JPH0728845A (ja) 文書検索装置及びその方法
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPH07325826A (ja) 日本語処理システム
KR20020059555A (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JP3187671B2 (ja) 電子辞書表示装置
JPH05181912A (ja) 文書検索装置
JPH10143530A (ja) 文書検索システムおよび文書検索方法
JPH01307865A (ja) 文字列検索方式
JP2628775B2 (ja) 辞書作成装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH04290158A (ja) 文書作成装置
JP2886864B2 (ja) 文字処理装置
JPH05135112A (ja) 情報処理装置
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPH0765013A (ja) 文書検索装置
JPH1091493A (ja) データベースの構築方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20001114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081201

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091201

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees