[go: up one dir, main page]

JP3287307B2 - 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 - Google Patents

構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Info

Publication number
JP3287307B2
JP3287307B2 JP17318498A JP17318498A JP3287307B2 JP 3287307 B2 JP3287307 B2 JP 3287307B2 JP 17318498 A JP17318498 A JP 17318498A JP 17318498 A JP17318498 A JP 17318498A JP 3287307 B2 JP3287307 B2 JP 3287307B2
Authority
JP
Japan
Prior art keywords
document
text
search
condition
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17318498A
Other languages
English (en)
Other versions
JP2000010988A (ja
Inventor
みさ 波内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP17318498A priority Critical patent/JP3287307B2/ja
Publication of JP2000010988A publication Critical patent/JP2000010988A/ja
Application granted granted Critical
Publication of JP3287307B2 publication Critical patent/JP3287307B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、構造化文書検索技
術に関し、特に、構造化文書の文書構造と、文書中に含
まれる文字列とを検索条件とする複合問合せを処理でき
る構造化文書検索システム、構造化文書検索方法に関す
る。
【0002】
【従来の技術】構造化文書を構成する文書要素を分解し
てデータベースに格納し、そのテキストと共に文書要素
間の関連(「文書構造情報」という)を併せ持つことに
より、文書構造と、これに含まれる文字列を検索条件と
して指定する検索システムが実現されている。
【0003】この種の従来の構造化文書検索システムの
一例として、1994年に発行された「プロシーディングス
・オブ・ファースト・インターナショナル・コンファレ
ンス・オン・ジ・アプリケーション・オブ・データベー
ス・テクノロジーズ・アンド・ゼア・インテグレーショ
ン(Proceedings of 1st International Conferenceon
the Application of Database Technologies & their
Integration (ADTI’94))」の第272頁ないし第283頁に
掲載された「データベース・システムズ・フォー・スト
ラクチャード・ドキュメンツ(Database Systems for S
tructured Documents)」と題するR. Sacks-Davisらに
よる論文(「文献1」という)が参照される。
【0004】文書要素を格納するデータベースには、リ
レーショナル・データベースやオブジェクト指向データ
ベースが用いられるが、特に、オブジェクト指向データ
ベースを利用した場合、文書要素間の関係を直接データ
ベース中のデータ間の関係として表すことができるた
め、文書構造を文書の先頭からその構造に従って巡航
し、検索条件に指定された文字列を含む文書要素を見つ
けることや、特定の構造、例えば「文書要素<author>を
5つ以上含む文書要素<paper>」等、を検出することが
可能となっている。この例は、上記文献1に記載されて
いる。
【0005】文書要素を分解して管理するデータベース
に対する検索方法として、従来より、2つの方法が知ら
れている。
【0006】その一つは、元文書の最初に現れる文書要
素から開始し、包含関係にある文書要素の子要素を順番
に訪問し、条件判定を実行することにより、条件検索を
行う方法である。ここでは、この方法を、「トップダウ
ン(top-down)方式」とよぶことにする。
【0007】別の方法として、文書要素を、文書要素名
(タグ名)ごとに分類した集合を予めデータベース中に
作成しておき、その分類集合から、条件に合致する文字
列を含むものを検索する方法がある。この方法を、「ボ
トムアップ(bottom-up)方式」とよぶ。
【0008】データベースを利用しないで、一般の全文
検索(フルテキストサーチ)エンジンを具備すること
で、高速文書検索を実現する専用文書検索システムも知
られている。
【0009】また、オブジェクト指向データベースと文
書検索システムを組み合わせた例として、1994年に発行
された「プロシーディングス・オブ・ザ・トゥエンティ
ース・ブイエルディービー・コンファレンス(Proceedi
ngs of the 20th VLDB Conference)」の第740頁ないし
第749頁に掲載された「インテグレーティング・ア・ス
トラクチャード・テキスト・リトリーバル・システム・
ウィズ・アン・オブジェクト・オリエンテッド・データ
ベース・システム(Integrating a Structured-Text Re
trieval System with an Object-Oriented Database Sy
stem)」と題するT.W. Yanらによる論文(「文献2」と
いう)が参照される。
【0010】
【発明が解決しようとする課題】トップダウン方式によ
る検索は、文書要素間の包含関係(親子関係)がデータ
ベース中のデータ構造に現れているため、文書構造に関
する条件が検索条件に含まれた場合には、文書構造の情
報を取得して処理することは容易である。しかし、この
トップダウン方式は、検索効率が悪い、という問題点を
有している。
【0011】その理由は、文書要素の条件判定は、文書
の先頭文書要素から構造順に行われるため、文書要素名
などによる検索対象集合の絞り込みができず、不要な文
書要素を訪問する可能性が高いため、である。
【0012】一方のボトムアップ方式による検索は、文
書要素名ごとに予め集合が生成されているため、検索条
件に含まれる文書要素名による絞り込みが予め行われて
いることになり、文書要素名が異なる文書要素は条件判
定対象とならないため、検索効率は良いものの、文書構
造による条件判定が困難である、いう問題点を有してい
る。
【0013】その理由は、文書要素が文書構造とは独立
に分類集合として格納されており、文書構造に関する情
報が欠落する、ためである。
【0014】さらに、全文検索エンジンによる検索方式
の場合には、任意の文字列に対し、高速な検索が可能で
あるが、ボトムアップ方式と同様に、構造情報が失われ
てしまうため、全文検索のみで、文書構造に関する条件
を含む問合せに回答することはできない。
【0015】また、文書構造の情報を格納したデータベ
ースと全文検索エンジンを組み合わせる方式では、構造
情報を検索するためのデータベース・アクセスがボトル
ネックとなり、性能劣化を引き起こす原因ともなる。
【0016】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、構造化文書の文
書構造を検索条件とする問合せに回答できる構造化文書
検索システム及び方法を提供することにある。
【0017】本発明の他の目的は、文書中に任意の文字
列を含むことを検索条件(例えば文書中に含まれる文字
列の適合条件)とする問合せに高速に回答できる構造化
文書検索システム及び方法を提供することにある。
【0018】本発明のさらに他の目的は、構造化文書の
文書構造に関する検索条件と、文書中に含まれる文字列
の適合条件(検索条件)とを含む複合問合せに高速に回
答できる構造化文書検索システム及び方法を提供するこ
とにある。
【0019】
【課題を解決するための手段】前記目的を達成する本発
明の構造化文書検索システムは、 入力手段から入力さ
れた構造化文書を受け取り前記構造化文書のテキスト全
文をテキスト格納部に格納する構造化文書登録手段と、
前記入力された前記構造化文書のテキストを、文書要素
単位に分解して固有のID(識別番号)を付与し、前記
文書要素のそれぞれに対応するテキストと文書要素間の
関連を文書部品格納部に格納する文書要素分解・格納手
段と、前記入力された構造化文書および該構造化文書を
構成する文書要素を単位として、全文インデックスを生
成し、その際、前記文書要素に対するテキストには、該
文書要素のIDと、該文書要素を包含する親文書要素の
IDと、元文書のIDが、テキストとして追加され、そ
の状態のテキストに対して、全文インデックスを生成す
る全文インデックス生成手段と、 前記全文インデック
ス生成手段で生成された全文インデックスを用いてテキ
ストと文書構造に関する検索を実行する全文検索実行手
段と、を含む全文検索手段と、前記入力手段から入力さ
れた構造化文書に対する検索要求を受け取り問合せ条件
を解析する問い合わせ解析手段と、前記文書部品格納部
に格納された文書の構造情報を基に、構造に関する条件
のみを判定する構造条件判定手段と、前記問い合わせ解
析手段の解析に従い、前記全文検索手段もしくは前記構
造条件判定手段を用いて、検索条件に合致する文書ある
いは文書要素の検索を実行する問い合わせ実行手段と、
前記全文検索手段もしくは前記構造条件判定手段による
検索の結果得られた、文書要素IDから、該当する文書
要素IDに対応する文書要素の情報を前記文書部品格納
部から取り出し、さらに、元文書IDより前記テキスト
格納部より元の構造化文書のテキストを取り出し出力手
段に表示出力するように制御する文書要素取り出し手段
と、を備え、複数の条件から構成される複合問合せが与
えられた場合に、前記問合せ実行手段では、前記複数の
条件の各々について一つずつ検索を実行し、その際、2
つ目以降の条件検索では、先に実行した条件の検索結果
を条件に埋め込み検索対象集合を絞り込む新しい問合せ
条件を生成し、ある文書要素のIDと、該文書要素を起
点としその親文書要素あるいは子文書要素など該文書要
素に関連した検索条件が入力として与えられると、前記
文書部品格納部中の文書構造を検索して、前記文書要素
が該条件を満たすか否かを判定する文書要素条件判定手
段をさらに備えたものである。
【0020】
【0021】
【0022】
【0023】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。まず、本発明の好ましい実施の形態につい
てその要部を概説する。
【0024】本発明の構造化文書検索システムは、その
好ましい第1の実施の形態において、個々の文書要素の
テキストに、その文書要素IDと、当該文書要素を包含す
る親文書要素IDと、元の構造化文書IDと、をテキストと
して追加し、この形で、全文インデックスを生成する全
文インデックス生成手段(図1の132)と、文書の構造
情報を格納する文書要素分解・格納手段(図1の112)
と、を備え、構造化文書に対する問合せ中に、文字列の
適合条件と、文書構造に関する条件が含まれる場合に
は、全文検索実行手段(図1の131)によって検索し、
問合せ中に、文書構造に関する条件だけが含まれる場合
には、構造条件判定手段(図1の116)により、文書部
品格納部(図1の122)の情報のみを使って、検索す
る。
【0025】また、本発明の構造化文書検索システム
は、その好ましい第2の実施の形態において、ある文書
要素を起点として、それに関連するすべての文書要素に
対し、複数の問合せ条件の真偽を判定する文書要素条件
判定手段(図10の218)を備え、複合問合せの一部の
条件検索結果の個数が十分少ないときには、検索の結果
得られた文書要素IDと、文書部品格納部(図10の12
2)の情報を使って、検索の結果得られた文書要素に関
連するすべての文書要素を対象として、他の未処理のす
べての条件を一度に判定するよう動作する。
【0026】以下、本発明の実施の形態について図面を
参照して詳細に説明する。
【0027】[実施の形態1]図1は、本発明の第1の
実施の形態の構成を示す図である。図1を参照すると、
本発明の第1の実施の形態は、プログラム制御により動
作するデータ処理装置100と、キーボード等の入力装置1
50と、記憶装置120と、出力装置140と、を備えて構成さ
れている。
【0028】記憶装置120は、テキスト格納部121と、文
書部品格納部122と、全文インデックス格納部123と、を
含む。
【0029】データ処理装置100は、構造化文書管理手
段110と、全文検索手段130と、を含む。
【0030】構造化文書管理手段110は、構造化文書登
録手段111と、文書要素分解/格納手段112と、問合せ処
理手段113と、文書(要素)取出し手段117と、を含む。
【0031】問合せ処理手段113は、問合せ解析手段114
と、問合せ実行手段115と、構造条件判定手段116と、を
含む。
【0032】全文検索手段130は、全文検索実行手段131
と、全文インデックス生成手段132と、を含む。
【0033】これらの手段はつぎのように動作する。
【0034】構造化文書管理手段110は、構造化文書と
その構造情報などを記憶装置120に格納・管理し、また
格納した構造化文書に対する問合せ(検索要求)を処理
して、条件に合致する文書を出力装置140に返却する。
【0035】構造化文書登録手段111は、入力装置150
から入力された構造化文書を受け取り、そのテキスト全
体を、記憶装置121に格納する。そして、構造情報を抽
出して管理するために、そのテキスト全体を文書要素分
解/格納手段112に渡す。
【0036】文書要素分解/格納手段112は、構造化文
書のテキストを、文書要素単位に分解し、文書要素それ
ぞれに対応するテキストと文書要素間の関連を、共に、
記憶装置120の文書部品格納部122に格納する。ここで、
格納する文書要素の情報には、それぞれ固有のID(識別
情報)が付与される。
【0037】問合せ処理手段113は、入力装置150 から
入力された構造化文書に対する検索要求を受け取り、問
合せ解析手段114により問合せ条件を解析する。そし
て、問合せ実行手段115により、全文検索手段130や構造
条件判定手段116を用いて、検索条件に合致する文書あ
るいは文書要素の検索を実行する。
【0038】複数の条件から構成される複合問合せが与
えられた場合には、問合せ実行手段115では、個々の条
件一つ一つについて検索を実行するが、2つ目以降の条
件検索では、先に実行した検索結果によって検索対象集
合を絞り込んでいる新しい問合せ条件を生成する。
【0039】構造条件判定手段116では、文書部品格納
部122に格納された文書の構造情報を基に、構造に関す
る条件のみを判定する。
【0040】文書(要素)取出し手段117は、文書部品
格納部122や、全文検索実行手段131から返却される文書
ID、あるいは文書要素IDから、これに該当するテキスト
を取り出し、出力装置140に送る。
【0041】全文検索手段130は、全文検索インデック
スを生成し、また全文検索により任意の文字列を含む文
書を高速に検索する。
【0042】全文検索実行手段131は、全文インデック
ス格納部123に格納された全文インデックスを用いて、
任意の文字列、およびそれらの組合せに対する検索を実
行する。
【0043】全文インデックス生成手段132は、構造化
文書およびそれを構成する文書要素を単位として全文イ
ンデックスを生成する。ここで、文書要素に対するテキ
ストには、当該文書要素のIDと、当該文書要素を包含す
る親文書要素のIDと、元文書のIDがテキストとして追加
され、その状態のテキストに対して、全文インデックス
が生成される。
【0044】記憶装置120は、構造化文書のテキスト本
体や構造情報、そして、全文検索手段130が利用する全
文インデックスを格納する。
【0045】テキスト格納部121は、構造化文書のテキ
スト本体を格納する。
【0046】文書部品格納部122は、構造化文書の構造
情報を格納する。
【0047】全文インデックス格納部123は、全文検索
手段130が利用する全文インデックスを格納する。
【0048】入力装置150は、入力された構造化文書や
構造化文書に対する問合せを、構造化文書管理手段110
に渡す。
【0049】出力装置140は、構造化文書あるいは文書
要素を画面などに適切な形式で表示する。
【0050】次に、図2、図3及び図4は、本発明の第
1の実施の形態の処理フローを示すフローチャートであ
る。図1、図2乃至図4を参照して、本発明の第1の実
施の形態の全体の動作について詳細に説明する。
【0051】構造化文書の検索に先立ち、図2に示す手
順で、全文インデックスを生成する。
【0052】入力装置150から構造化文書管理手段110に
入力された構造化文書は、構造化文書登録手段111によ
って文書全体がテキスト格納部121に格納される(図2
のステップA1)。
【0053】次に、文書要素分解/格納手段112によっ
て文書要素が抽出され、固有のIDが付与される(図2の
ステップA2)。
【0054】文書要素分解/格納手段112は、文書要素
抽出の過程で得られる情報から文書の構造情報を文書部
品格納部122に生成し(図2のステップA3)、それと
同時に、抽出された個々の文書要素を一つの単位として
全文インデックスが全文インデックス生成手段132によ
って生成される(図2のステップA4)。
【0055】このとき、文書要素に対応するテキストだ
けではなく、当該文書要素のIDと、当該文書要素を包含
する親文書要素のIDと、元文書のIDがテキストとして追
加され、その状態のテキストに対して全文インデックス
が生成される。
【0056】続いて、本発明の第1の実施の形態におけ
る検索処理について、図3及び図4のフローチャートを
用いて説明する。
【0057】まず、入力装置150から入力された構造化
文書の検索要求について問合せ解析手段113が解析し
(図3のステップB1)、検索要求が複数の検索条件か
ら構成される複合問合せか否かを判定する(図3のステ
ップB2)。
【0058】図3のステップB2の判定の結果、複合問
合せである場合には、問合せ実行手段115において、文
書要素の包含関係がより外側、つまり構造化文書中での
出現場所がより文書の冒頭に近い文書要素に対する検索
条件を一つ取り出す(ステップB3)。これは、続く検
索条件の評価の際に、指定する親文書要素IDを取得する
ためである。例えば、文書要素の木構造を例に説明する
と、木構造上のよりルート(root)に近い部分からリー
フ(leaf)部に向かって対象集合を絞り込んでいくこ
とに相当する。
【0059】一方、複合問合せでない場合には、このス
テップB3を行わない。
【0060】次に、問合せ実行手段115において、処理
対象とする検索条件が、文書要素中に含まれる文字列
(キーワード)を条件として含むかどうかを判定する
(図3のステップB4)。
【0061】検索条件中にキーワード条件が含まれてい
る場合には、さらに先に処理を実行して得られた結果が
存在するか否かを判定する(図3のステップB5)。
【0062】複合問合せのうち、一つめの条件を評価す
る場合には、先に実行した処理はないので、この判定は
偽になる。二つめ以降の条件を評価するときには先に実
行した処理の結果が存在するので、問合せ実行手段115
において、処理対象とする検索条件に、先に実行した検
索結果の文書要素IDを親文書要素IDとして持つという条
件を付加する(図3のステップB6)。
【0063】全文検索用のテキストには、図2のステッ
プA4において親文書要素IDがテキストとして付加され
ているので、図3のステップB6では、これを利用した
一種の絞り込み処理を実現することに相当する。
【0064】そして、新しく生成された検索条件に対
し、全文検索実行手段131が全文インデックス格納部123
に格納されている全文インデックスを基に、キーワード
に対する全文検索を実行し、条件に合致する文書要素の
IDを取り出す(図3のステップB7)。
【0065】キーワードが条件として含まれていない場
合には、図3のステップB4からB7の処理は行わず、
構造条件判定手段116が文書部品格納部122の構造情報を
参照し、検索条件に合致する文書要素を検索し、条件に
合致する文書要素のIDを取り出す(図3のステップB
8)。
【0066】検索処理あるいは条件判定処理が終わる
と、問合せ実行手段115において、問合せの中の検索条
件で未処理のものがあるか否かを判定する(図4のステ
ップB9)。未処理のものがある場合には、図3のステ
ップB3に戻り、未処理の条件に対して、上記と同じ処
理を繰り返し実行する。
【0067】図4のステップB9において、すべての検
索条件が処理済みであることが判定されると、文書(要
素)取出し手段117により、得られた文書要素のIDから
それに対応するテキストを取得したり、その文書要素を
含む構造化文書本体を取得したりする(図4のステップ
B10)。
【0068】そして最後に、文書(要素)取出し手段11
7は、取得したテキストを出力装置140に送り、出力装置
140はこれを適切な形式でユーザに提示する(図4のス
テップB11)。
【0069】次に、本発明の第1の実施の形態の作用効
果について説明する。
【0070】本発明の第1の実施の形態では、全文イン
デックスの対象として、テキストだけではなく、その文
書要素のIDと、その文書要素を包含する親要素の文書ID
と、その文書要素を含む構造化文書の文書IDと、をテキ
ストの形式で追加し、「テキスト」+「文書要素ID」+
「構造化文書ID」という形で、全文インデックスが生成
されるように構成されているため、親文書要素が文書構
造に関する条件中に指定されている複合問合せに対し、
別途格納・管理されている構造情報を参照しなくても、
全文検索を実行することによって、条件判定を行うこと
ができる。
【0071】また、本発明の第1の実施の形態では、さ
らに、検索条件が文書の適合条件を含まず、文書構造に
対する条件のみから構成されている場合には、全文検索
は使わず、保持している構造情報から条件判定を行うよ
うに構成されているため、全文検索機能とは独立に、条
件判定を実行できる。
【0072】[実施例1]次に、本発明の第1の実施の
形態についてさらに詳細に説明すべく、具体的な例の適
用した一実施例に即して説明する。なお、本発明の一実
施例の構成及び処理フローは、前記した本発明の第1の
実施の形態と同様とされる。
【0073】本実施例として、以下では、構造化文書の
一つであり、ISO8879およびJIS X 4151の標準規格が制
定されているSMGL(Standard Generalized Markup L
anguage)を例として用いる。
【0074】図5に示すように、「recipe」、「titl
e」、「step」、「item」、「exp」の5つの文書要素か
ら構成されるDTD (Document Type Definition;ドキュ
メント型定義) による、図6に示すようなSGML文書が入
力装置150から入力されると、構造化文書登録手段111に
よって、図6のテキスト全体はテキスト格納部121に格
納される(図2のステップA1)。
【0075】さらに、文書要素分解/格納手段112によ
って文書要素単位に分解・抽出され、文書要素毎に固有
のIDが付与され(図2のステップA2)、図7に示すよ
うな文書要素間の関連を示す情報が、文書部品格納部12
2に生成される(ステップA3)。
【0076】そしてさらに、全文インデックス生成手段
132により、文書要素一つ一つを単位として、全文イン
デックスが全文インデックス格納部123に生成される。
【0077】このとき、文書要素のテキストには、図8
に示すように、その文書要素のID自身の他に、これを包
含する親文書要素のIDと、元文書のIDと、が文字列とし
て挿入される。全文インデックス生成手段132は、図8
に示すように、 「テキスト」+「自ID」+「親ID」+「文書ID」 の文字列を一つの「文書」とみなし、全文インデックス
を生成する(図4のステップA4)。図8に示す例で
は、テキストは「<item>肉を炒める</item>」、自ID
は、pid=8、親IDはpid=6、pid=1、文書ID(doc_i
d)はdid=100である。
【0078】ここで、図9に示すような文字列の適合条
件と文書構造条件を、問合せ条件に含む複合問合せが、
入力装置150によって入力されたとする。
【0079】問合せ処理手段113ではまず、問合せ解析
手段114によって、この問合せを、(1)「<step>に
『炒める』という文字列を含む」(条件1)という条件
と、(2)「それが包含する<exp>に『バター』を含
む」(条件2)という条件、に分解する(図3のステッ
プB1―B2)。
【0080】そして、<exp>を含み、包含関係がより外
側の文書要素である<step>に対する条件1を、最初の処
理対象として選択する(図3のステップB3)。条件中
で指定された文書要素間に包含関係がない場合には、ど
れを選択しても良い。
【0081】問合せ実行手段115では、条件1に文字列
の適合条件が含まれていることを判定し(図3のステッ
プB4)、さらに、この処理より先に行った検索結果が
ないことを判定すると(図3のステップB5)、全文検
索実行手段131に、この問合せを委譲する。
【0082】全文検索実行手段131は、全文インデック
ス格納部123の全文インデックスを参照して、「<step
>」と「炒める」という文字列が同時に含まれている文
書要素を検索する(図3のステップB7)。
【0083】その結果、図16に示した文書要素が、条
件を満足するものとして得られる。
【0084】この後、未処理の条件2が存在することか
ら、図3のステップB3から始まる処理が再び開始され
る。
【0085】条件2には、キーワードが含まれ、さら
に、条件1を検索した結果が存在するので、問合せ実行
手段115は、条件1の検索結果を条件2に埋め込み、新
しい検索条件を生成する(図3のステップB4―B
6)。
【0086】このとき生成される新しい検索条件は、
「『<exp>』と『バター』という文字列が同時に含ま
れ、かつ、『pid=(条件1の検索結果の文書要素ID)』
という文字列を同時に含む文書要素を検索する」(条件
2―1)となる。
【0087】この新しい検索条件2―1の後半部分
(「かつ」以降)が、検索対象集合の絞り込み条件とし
て、新しく付加された検索条件である。
【0088】条件1の結果として得られる文書要素が複
数個あった場合には、各々について、『pid=(文書要素
ID)』の条件が生成され、各々について処理が実行され
る(図3のステップB7)。
【0089】この場合、図7の木構造で示される文書要
素のうち、IDが6と9に対応する文書要素が、条件を満
たすので、(1)「『exp』と『バター』という文字列
が同時に含まれ、かつ『pid=6』という文字列を同時に
含む文書要素を検索する」、(2)「『exp』と『バタ
ー』という文字列が同時に含まれ、かつ『pid=9』とい
う文字列を同時に含む文書要素を検索する」、の2つの
条件が生成される。
【0090】全文検索手段130の機能によっては、これ
らの条件を、同時に評価しても良い。
【0091】検索条件2―1の処理結果として、ID=8と
ID=11の文書要素が得られる。
【0092】これは、元の問合せの処理結果であるか
ら、文書(要素)取出し手段117では、得られた文書要
素IDから該当する文書要素の情報を文書部品格納部122
から取り出し、さらに、元文書IDにより、テキスト格納
部121から、元の構造化文書のテキスト全体を取り出
し、取り出した内容を、出力装置140によって表示する
(図4のステップB10―B11)。
【0093】一方、図10に示すように、キーワードを
含まず、構造に関する条件のみが含まれる問合せが与え
られた場合(図10の例では<step>を4つ以上持つ<rec
ipe>を取り出す)、問合せ実行手段115は、構造条件判
定手段116に処理を委譲し、構造情報判定手段116は、文
書部品格納部122のみを検索して、格納されている<reci
pe>の中から、<step>の文書要素を4つ以上持つものを
検索し、それを文書(要素)取出し手段117にて取り出
し、文書(要素)取出し手段117から出力装置140に渡し
て適切な形で出力する。
【0094】[実施の形態2]次に、本発明の第2の実
施の形態について説明する。
【0095】図11は、本発明の第2の実施の形態の構
成を示す図である。図11を参照すると、本発明の第2
の実施の形態は、問合せ処理手段213が、図1を参照し
て説明した前記第1の実施の形態における問合せ処理手
段113の構成に加え、さらに文書要素条件判定手段218を
有する。
【0096】この文書要素条件判定手段218はつぎのよ
うに動作する。
【0097】文書要素条件判定手段218は、ある文書要
素のIDとそれに関連した検索条件を入力として与えられ
ると、文書部品格納部122中の文書構造を検索して、与
えられた文書要素がその条件を満たすかどうかを判定す
る。ここでの検索条件は、IDが与えられた文書要素のみ
ならず、その親文書要素あるいは子文書要素など、当該
文書要素に関連するすべての文書要素に関するものであ
り、文書要素条件判定手段218は、これを処理する。
【0098】次に、図12及び図13は、本発明の第2
の実施の形態の処理フローを示すフロチャートである。
図11乃至図13を参照して、本発明の第2の実施の形
態の全体の動作について詳細に説明する。
【0099】図12のステップB1―B8および図13
のB10−B11の各処理は、それぞれ、図3及び図4
に示した処理と同一であるため、その説明は省略する。
前記第1の実施の形態では、図4のステップB9におい
て、他に未処理の条件があると判定されると、新しい検
索条件式を生成して全文検索手段130による検索処理を
続行するが、本発明の第2の実施の形態では、ステップ
B7あるいはステップB8での検索処理の結果として得
られた文書要素(ID)数が1個であるか否か判定する
(図13のステップC1)。
【0100】文書要素数が1個である場合には、そのID
と未処理で残っているすべての検索条件を、文書要素条
件判定手段218に送り、文書要素条件判定手段218は、文
書部品格納部122中の情報を用いて、その条件判定を実
行する(図13のステップC2)。
【0101】なお、本発明の第2の実施の形態では、各
条件による検索結果が1個だけの場合に、文書要素条件
判定手段218の処理を実行するとしたが、データ処理装
置200の処理速度が十分に高速である場合には、全文検
索手段130の処理と比べて速度が遅くならない限りにお
いて、検索結果の数を複数個に増やして処理してもよ
い。
【0102】次に、本発明の第2の実施の形態の作用効
果について説明する。
【0103】本発明の第2の実施の形態では、複合問合
せ中の一部の条件による検索結果の数が1個ないし十分
に少ない場合、検索手段を全文検索手段131から文書要
素条件判定手段218に変更し、文書構造格納部122に対し
て残りの検索条件をまとめて評価するというように構成
されているため、複合問合せを構成する個々の条件に対
して全文検索実行手段131による全文検索を一回一回実
施する処理が回避され、データ処理装置200での処理コ
ストが節約できる。
【0104】[実施例2]次に、本発明の第2の実施の
形態についてさらに詳細に説明すべく、具体的な例の適
用した一実施例に即して説明する。なお、本発明の一実
施例の構成及び処理フローは、前記した本発明の第2の
実施の形態と同様とされる。
【0105】図5、図6、図7、図8に示すように、構
造化文書が登録されているときに、図14に示すような
複合問合せが与えられたとする。
【0106】<item>、<exp>、<title>の文書要素間に包
含関係はないので、最初の「<item>に『カレールー』と
いう文字列を含む」という条件を処理する(図12のス
テップB1―B3)。
【0107】全文検索実行手段131での検索の結果、条
件を満足する文書要素が1つだけ(ID=n-2)得られたと
する。本実施例では、これを検出し(図13のステップ
C1)、この文書要素IDと残りすべての条件「<exp>に
『ケチャップ』という文字列を含み、<title>に『おい
しい』という文字列を含む」(条件3)を、文書要素条
件判定手段218に送る。
【0108】文書要素条件判定手段218では、ID=n-2に
対応する文書要素の情報を文書部品格納部122から取得
し、それを起点として当該文書要素に関連するすべての
文書要素を辿り、それらを対象として、条件3を判定す
る(図13のステップC2)。
【0109】ID=n-2の文書要素は条件3を満足しないの
で、文書(要素)取出し手段117では文書要素の情報が
取り出せず(図13のステップB10)、出力装置140
では条件を満足する文書が存在しない旨の表示が行われ
る(図13のステップB11)。
【0110】次に、本発明の第3の実施の形態について
説明する。
【0111】図15を参照すると、本発明の第3の実施
の形態は、構造化文書検索プログラムを記録した記録媒
体400を備える。この記録媒体400としては、磁気ディス
ク、半導体メモリその他の記録媒体であってよい。
【0112】構造化文書検索プログラムは、記録媒体40
0からデータ処理装置300に読み込まれ、データ処理装置
300の動作を制御する。データ処理装置300は、構造化文
書検索プログラムの制御により以下の処理、すなわち第
1および第2の実施の形態におけるデータ処理装置100
および200による処理と同一の処理、を実行する。
【0113】まず、入力装置150により構造化文書が構
造化文書管理手段210に与えられると、その文書本体と
文書構造を表す情報が記憶装置120に生成されるが、文
書構造を表す情報は、文書部品格納部122に格納され
る。この状態で、入力装置150により構造化文書に対す
る問合せが与えられると、構造化文書管理手段210で問
合せを解析し、問合せ処理手段213、あるいは全文検索
手段130によって条件に合致する文書要素あるいは構造
化文書が検索される。検索された文書要素あるいは構造
化文書は、出力装置140に適切な形式で出力される。
【0114】
【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
【0115】本発明の第1の効果は、構造化文書の文書
構造に関する条件と文書要素に含まれる文字列に関する
条件を含む複数の検索条件から構成された複合問合せ
を、全文検索手段のみによって処理することができ、こ
のため文書要素の構造情報を直接アクセスして条件判定
する場合に比べ、処理速度を向上する、ということであ
る。
【0116】その理由は、本発明においては、全文検索
手段が用いる全文インデックスの中に、文書要素間の包
含関係と構造化文書IDの情報が含まれるように全文イン
デックスを生成している、ためである。
【0117】本発明の第2の効果は、複合問合せ中の一
部の条件による検索結果の数が1個ないし十分に少ない
場合、残りの検索条件をまとめて評価することができ、
処理速度を向上する、ということである。
【0118】その理由は、本発明においては、検索結果
の数が1個ないし十分に少なく、かつ未処理の問合せ条
件がまだ残っていることが検出された場合、検索手段
を、全文検索から、文書の構造情報上で直接条件判定を
実行する手段に、変更するためである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロッ
ク図である。
【図2】本発明の第1の実施の形態の動作を説明するた
めの流れ図であり、データ登録処理の動作を示す流れ図
である。
【図3】本発明の第1の実施の形態の動作を説明するた
めの流れ図であり、検索動作を示す流れ図(その1)で
ある。
【図4】本発明の第1の実施の形態の動作を説明するた
めの流れ図であり、検索動作を示す流れ図(その2)で
ある。
【図5】本発明の第1の実施の形態の動作を具体的の説
明するための図であり、処理対象の一例となるSGML文書
のDTDの一例を示す図である。
【図6】本発明の第1の実施の形態の動作を具体的に説
明するための図であり、処理対象の一例となるSGML文書
の一例を示す図である。
【図7】本発明の第1の実施の形態の動作を具体的に説
明するための図であり、処理対象の一例となるSGML文書
の構造情報を示す図である。
【図8】本発明の第1の実施の形態の動作を具体的に説
明するための図であり、全文インデックスを生成する対
象となるテキストの一例を示す図である。
【図9】本発明の第1の実施の形態の動作を具体的に説
明するための図であり、検索条件の一例を示す図であ
る。
【図10】本発明の第1の実施の形態の動作を具体的に
説明するための図であり、検索条件の一例を示す図であ
る。
【図11】本発明の第2の実施の形態の構成を示すブロ
ック図である。
【図12】本発明の第2の実施の形態の動作を説明する
ための流れ図であり、検索動作を示す流れ図(その1)
である。
【図13】本発明の第2の実施の形態の動作を説明する
ための流れ図であり、検索動作を示す流れ図(その2)
である。
【図14】本発明の第1の実施の形態の動作を具体的に
説明するための図であり、検索条件の一例を示す図であ
る。
【図15】本発明の第3の実施の形態の構成を示すブロ
ック図である。
【図16】本発明の第1の実施の形態の動作を具体的に
説明するための図であり、検索結果の一例を示す図であ
る。
【符号の説明】
100、200、300 データ処理装置 110、210 構造化文書管理手段 111 構造化文書登録手段 112 文書要素分解/解析手段 113、213 問合せ処理手段 114問合せ解析手段 115、215 問合せ実行手段 117 文書(要素)取出し手段 218 文書要素条件判定手段 120 記憶装置 121 テキスト格納部 122 文書部品格納部 123 全文インデックス格納部 130 全文検索手段 131 全文検索実行手段 132 全文インデックス生成手段 140 出力装置 150 入力装置 400 記録媒体
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−44579(JP,A) 特開 平6−28403(JP,A) 特開 平8−241332(JP,A) 特開 平5−158984(JP,A) 特開 平8−255155(JP,A) 特開 平6−301721(JP,A) 特開 平4−217073(JP,A) 特開 平7−225771(JP,A) 特開 平7−319918(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 12/00 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力手段から入力された構造化文書を受け
    取り前記構造化文書のテキスト全文をテキスト格納部に
    格納する構造化文書登録手段と、 前記入力された前記構造化文書のテキストを、文書要素
    単位に分解して固有のID(識別番号)を付与し、前記
    文書要素のそれぞれに対応するテキストと文書要素間の
    関連を文書部品格納部に格納する文書要素分解・格納手
    段と、 前記入力された構造化文書および該構造化文書を構成す
    る文書要素を単位として、全文インデックスを生成し、
    その際、前記文書要素に対するテキストには、該文書要
    素のIDと、該文書要素を包含する親文書要素のID
    と、元文書のIDが、テキストとして追加され、その状
    態のテキストに対して、全文インデックスを生成する全
    文インデックス生成手段と、 前記全文インデックス生
    成手段で生成された全文インデックスを用いてテキスト
    と文書構造に関する検索を実行する全文検索実行手段
    と、を含む全文検索手段と、 前記入力手段から入力された構造化文書に対する検索要
    求を受け取り問合せ条件を解析する問い合わせ解析手段
    と、 前記文書部品格納部に格納された文書の構造情報を基
    に、構造に関する条件のみを判定する構造条件判定手段
    と、 前記問い合わせ解析手段の解析に従い、前記全文検索手
    段もしくは前記構造条件判定手段を用いて、検索条件に
    合致する文書あるいは文書要素の検索を実行する問い合
    わせ実行手段と、 前記全文検索手段もしくは前記構造条件判定手段による
    検索の結果得られた、文書要素IDから、該当する文書
    要素IDに対応する文書要素の情報を前記文書部品格納
    部から取り出し、さらに、元文書IDより前記テキスト
    格納部より元の構造化文書のテキストを取り出し出力手
    段に表示出力するように制御する文書要素取り出し手段
    と、 を備え、 複数の条件から構成される複合問合せが与えられた場合
    に、前記問合せ実行手段では、前記複数の条件の各々に
    ついて一つずつ検索を実行し、その際、2つ目以降の条
    件検索では、先に実行した条件の検索結果を条件に埋め
    込み検索対象集合を絞り込む新しい問合せ条件を生成
    し、 ある文書要素のIDと、該文書要素を起点としその親文
    書要素あるいは子文書要素など該文書要素に関連した検
    索条件が入力として与えられると、前記文書部品格納部
    中の文書構造を検索して、前記文書要素が該条件を満た
    すか否かを判定する文書要素条件判定手段をさらに備え
    たことを特徴とする構造化文書検索装置。
JP17318498A 1998-06-19 1998-06-19 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 Expired - Fee Related JP3287307B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17318498A JP3287307B2 (ja) 1998-06-19 1998-06-19 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17318498A JP3287307B2 (ja) 1998-06-19 1998-06-19 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000010988A JP2000010988A (ja) 2000-01-14
JP3287307B2 true JP3287307B2 (ja) 2002-06-04

Family

ID=15955659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17318498A Expired - Fee Related JP3287307B2 (ja) 1998-06-19 1998-06-19 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3287307B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3719089B2 (ja) * 2000-03-16 2005-11-24 松下電器産業株式会社 文書処理装置
JP4932227B2 (ja) * 2005-10-26 2012-05-16 ヤフー株式会社 情報抽出方法
JP6163854B2 (ja) * 2013-04-30 2017-07-19 富士通株式会社 検索制御装置、検索制御方法、生成装置および生成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2737400B2 (ja) * 1990-12-19 1998-04-08 富士ゼロックス株式会社 文書蓄積システムにおける文書検索装置
JPH05158984A (ja) * 1991-12-05 1993-06-25 Ricoh Co Ltd 文字列抽出装置
JPH0628403A (ja) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp 文書検索装置
JP3573471B2 (ja) * 1993-04-19 2004-10-06 株式会社日立製作所 全文デ−タベ−ス検索方法
JPH0744579A (ja) * 1993-05-25 1995-02-14 Ricoh Co Ltd 論理構造文書検索方式
JP3168829B2 (ja) * 1993-10-30 2001-05-21 富士ゼロックス株式会社 検索式作成支援システム
JPH07319918A (ja) * 1994-05-24 1995-12-08 Fuji Xerox Co Ltd 文書検索対象指示装置
JP2896634B2 (ja) * 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
JPH08255155A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法

Also Published As

Publication number Publication date
JP2000010988A (ja) 2000-01-14

Similar Documents

Publication Publication Date Title
US10528650B2 (en) User interface for presentation of a document
US7065523B2 (en) Scoping queries in a search engine
US7676117B1 (en) Systems and methods for using image duplicates to assign labels to images
US7231381B2 (en) Media content search engine incorporating text content and user log mining
US6826576B2 (en) Very-large-scale automatic categorizer for web content
KR101153033B1 (ko) 사본 탐지 및 삭제 방법
US20060155684A1 (en) Systems and methods to present web image search results for effective image browsing
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US7523109B2 (en) Dynamic grouping of content including captive data
JPH11191114A (ja) メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン
JP2004178605A (ja) 情報検索装置及びその方法
JP2001075969A (ja) 画像管理検索装置、画像管理検索方法及び記憶媒体
EP2192503A1 (en) Optimised tag based searching
JP4207438B2 (ja) Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム
US6345271B1 (en) Method and apparatus for transforming queries
US7730062B2 (en) Cap-sensitive text search for documents
US20060080295A1 (en) Document searching system
JP3287307B2 (ja) 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2003196294A (ja) 知識分析システムおよび知識分析方法
JP3786233B2 (ja) 情報検索方法および情報検索システム
US20050228825A1 (en) Method for managing knowledge from the toolbar of a browser
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JPH10143541A (ja) 情報フィルタリング装置および情報フィルタリング方法
JPH10228488A (ja) 情報検索収集方法およびそのシステム
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20011030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020212

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080315

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090315

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090315

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100315

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100315

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110315

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110315

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120315

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120315

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130315

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130315

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140315

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees