JP3287307B2 - 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 - Google Patents
構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体Info
- Publication number
- JP3287307B2 JP3287307B2 JP17318498A JP17318498A JP3287307B2 JP 3287307 B2 JP3287307 B2 JP 3287307B2 JP 17318498 A JP17318498 A JP 17318498A JP 17318498 A JP17318498 A JP 17318498A JP 3287307 B2 JP3287307 B2 JP 3287307B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- text
- search
- condition
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
術に関し、特に、構造化文書の文書構造と、文書中に含
まれる文字列とを検索条件とする複合問合せを処理でき
る構造化文書検索システム、構造化文書検索方法に関す
る。
てデータベースに格納し、そのテキストと共に文書要素
間の関連(「文書構造情報」という)を併せ持つことに
より、文書構造と、これに含まれる文字列を検索条件と
して指定する検索システムが実現されている。
一例として、1994年に発行された「プロシーディングス
・オブ・ファースト・インターナショナル・コンファレ
ンス・オン・ジ・アプリケーション・オブ・データベー
ス・テクノロジーズ・アンド・ゼア・インテグレーショ
ン(Proceedings of 1st International Conferenceon
the Application of Database Technologies & their
Integration (ADTI’94))」の第272頁ないし第283頁に
掲載された「データベース・システムズ・フォー・スト
ラクチャード・ドキュメンツ(Database Systems for S
tructured Documents)」と題するR. Sacks-Davisらに
よる論文(「文献1」という)が参照される。
レーショナル・データベースやオブジェクト指向データ
ベースが用いられるが、特に、オブジェクト指向データ
ベースを利用した場合、文書要素間の関係を直接データ
ベース中のデータ間の関係として表すことができるた
め、文書構造を文書の先頭からその構造に従って巡航
し、検索条件に指定された文字列を含む文書要素を見つ
けることや、特定の構造、例えば「文書要素<author>を
5つ以上含む文書要素<paper>」等、を検出することが
可能となっている。この例は、上記文献1に記載されて
いる。
に対する検索方法として、従来より、2つの方法が知ら
れている。
素から開始し、包含関係にある文書要素の子要素を順番
に訪問し、条件判定を実行することにより、条件検索を
行う方法である。ここでは、この方法を、「トップダウ
ン(top-down)方式」とよぶことにする。
(タグ名)ごとに分類した集合を予めデータベース中に
作成しておき、その分類集合から、条件に合致する文字
列を含むものを検索する方法がある。この方法を、「ボ
トムアップ(bottom-up)方式」とよぶ。
検索(フルテキストサーチ)エンジンを具備すること
で、高速文書検索を実現する専用文書検索システムも知
られている。
書検索システムを組み合わせた例として、1994年に発行
された「プロシーディングス・オブ・ザ・トゥエンティ
ース・ブイエルディービー・コンファレンス(Proceedi
ngs of the 20th VLDB Conference)」の第740頁ないし
第749頁に掲載された「インテグレーティング・ア・ス
トラクチャード・テキスト・リトリーバル・システム・
ウィズ・アン・オブジェクト・オリエンテッド・データ
ベース・システム(Integrating a Structured-Text Re
trieval System with an Object-Oriented Database Sy
stem)」と題するT.W. Yanらによる論文(「文献2」と
いう)が参照される。
る検索は、文書要素間の包含関係(親子関係)がデータ
ベース中のデータ構造に現れているため、文書構造に関
する条件が検索条件に含まれた場合には、文書構造の情
報を取得して処理することは容易である。しかし、この
トップダウン方式は、検索効率が悪い、という問題点を
有している。
の先頭文書要素から構造順に行われるため、文書要素名
などによる検索対象集合の絞り込みができず、不要な文
書要素を訪問する可能性が高いため、である。
書要素名ごとに予め集合が生成されているため、検索条
件に含まれる文書要素名による絞り込みが予め行われて
いることになり、文書要素名が異なる文書要素は条件判
定対象とならないため、検索効率は良いものの、文書構
造による条件判定が困難である、いう問題点を有してい
る。
に分類集合として格納されており、文書構造に関する情
報が欠落する、ためである。
の場合には、任意の文字列に対し、高速な検索が可能で
あるが、ボトムアップ方式と同様に、構造情報が失われ
てしまうため、全文検索のみで、文書構造に関する条件
を含む問合せに回答することはできない。
ースと全文検索エンジンを組み合わせる方式では、構造
情報を検索するためのデータベース・アクセスがボトル
ネックとなり、性能劣化を引き起こす原因ともなる。
てなされたものであって、その目的は、構造化文書の文
書構造を検索条件とする問合せに回答できる構造化文書
検索システム及び方法を提供することにある。
列を含むことを検索条件(例えば文書中に含まれる文字
列の適合条件)とする問合せに高速に回答できる構造化
文書検索システム及び方法を提供することにある。
文書構造に関する検索条件と、文書中に含まれる文字列
の適合条件(検索条件)とを含む複合問合せに高速に回
答できる構造化文書検索システム及び方法を提供するこ
とにある。
明の構造化文書検索システムは、 入力手段から入力さ
れた構造化文書を受け取り前記構造化文書のテキスト全
文をテキスト格納部に格納する構造化文書登録手段と、
前記入力された前記構造化文書のテキストを、文書要素
単位に分解して固有のID(識別番号)を付与し、前記
文書要素のそれぞれに対応するテキストと文書要素間の
関連を文書部品格納部に格納する文書要素分解・格納手
段と、前記入力された構造化文書および該構造化文書を
構成する文書要素を単位として、全文インデックスを生
成し、その際、前記文書要素に対するテキストには、該
文書要素のIDと、該文書要素を包含する親文書要素の
IDと、元文書のIDが、テキストとして追加され、そ
の状態のテキストに対して、全文インデックスを生成す
る全文インデックス生成手段と、 前記全文インデック
ス生成手段で生成された全文インデックスを用いてテキ
ストと文書構造に関する検索を実行する全文検索実行手
段と、を含む全文検索手段と、前記入力手段から入力さ
れた構造化文書に対する検索要求を受け取り問合せ条件
を解析する問い合わせ解析手段と、前記文書部品格納部
に格納された文書の構造情報を基に、構造に関する条件
のみを判定する構造条件判定手段と、前記問い合わせ解
析手段の解析に従い、前記全文検索手段もしくは前記構
造条件判定手段を用いて、検索条件に合致する文書ある
いは文書要素の検索を実行する問い合わせ実行手段と、
前記全文検索手段もしくは前記構造条件判定手段による
検索の結果得られた、文書要素IDから、該当する文書
要素IDに対応する文書要素の情報を前記文書部品格納
部から取り出し、さらに、元文書IDより前記テキスト
格納部より元の構造化文書のテキストを取り出し出力手
段に表示出力するように制御する文書要素取り出し手段
と、を備え、複数の条件から構成される複合問合せが与
えられた場合に、前記問合せ実行手段では、前記複数の
条件の各々について一つずつ検索を実行し、その際、2
つ目以降の条件検索では、先に実行した条件の検索結果
を条件に埋め込み検索対象集合を絞り込む新しい問合せ
条件を生成し、ある文書要素のIDと、該文書要素を起
点としその親文書要素あるいは子文書要素など該文書要
素に関連した検索条件が入力として与えられると、前記
文書部品格納部中の文書構造を検索して、前記文書要素
が該条件を満たすか否かを判定する文書要素条件判定手
段をさらに備えたものである。
に説明する。まず、本発明の好ましい実施の形態につい
てその要部を概説する。
好ましい第1の実施の形態において、個々の文書要素の
テキストに、その文書要素IDと、当該文書要素を包含す
る親文書要素IDと、元の構造化文書IDと、をテキストと
して追加し、この形で、全文インデックスを生成する全
文インデックス生成手段(図1の132)と、文書の構造
情報を格納する文書要素分解・格納手段(図1の112)
と、を備え、構造化文書に対する問合せ中に、文字列の
適合条件と、文書構造に関する条件が含まれる場合に
は、全文検索実行手段(図1の131)によって検索し、
問合せ中に、文書構造に関する条件だけが含まれる場合
には、構造条件判定手段(図1の116)により、文書部
品格納部(図1の122)の情報のみを使って、検索す
る。
は、その好ましい第2の実施の形態において、ある文書
要素を起点として、それに関連するすべての文書要素に
対し、複数の問合せ条件の真偽を判定する文書要素条件
判定手段(図10の218)を備え、複合問合せの一部の
条件検索結果の個数が十分少ないときには、検索の結果
得られた文書要素IDと、文書部品格納部(図10の12
2)の情報を使って、検索の結果得られた文書要素に関
連するすべての文書要素を対象として、他の未処理のす
べての条件を一度に判定するよう動作する。
参照して詳細に説明する。
実施の形態の構成を示す図である。図1を参照すると、
本発明の第1の実施の形態は、プログラム制御により動
作するデータ処理装置100と、キーボード等の入力装置1
50と、記憶装置120と、出力装置140と、を備えて構成さ
れている。
書部品格納部122と、全文インデックス格納部123と、を
含む。
段110と、全文検索手段130と、を含む。
録手段111と、文書要素分解/格納手段112と、問合せ処
理手段113と、文書(要素)取出し手段117と、を含む。
と、問合せ実行手段115と、構造条件判定手段116と、を
含む。
と、全文インデックス生成手段132と、を含む。
その構造情報などを記憶装置120に格納・管理し、また
格納した構造化文書に対する問合せ(検索要求)を処理
して、条件に合致する文書を出力装置140に返却する。
から入力された構造化文書を受け取り、そのテキスト全
体を、記憶装置121に格納する。そして、構造情報を抽
出して管理するために、そのテキスト全体を文書要素分
解/格納手段112に渡す。
書のテキストを、文書要素単位に分解し、文書要素それ
ぞれに対応するテキストと文書要素間の関連を、共に、
記憶装置120の文書部品格納部122に格納する。ここで、
格納する文書要素の情報には、それぞれ固有のID(識別
情報)が付与される。
入力された構造化文書に対する検索要求を受け取り、問
合せ解析手段114により問合せ条件を解析する。そし
て、問合せ実行手段115により、全文検索手段130や構造
条件判定手段116を用いて、検索条件に合致する文書あ
るいは文書要素の検索を実行する。
えられた場合には、問合せ実行手段115では、個々の条
件一つ一つについて検索を実行するが、2つ目以降の条
件検索では、先に実行した検索結果によって検索対象集
合を絞り込んでいる新しい問合せ条件を生成する。
部122に格納された文書の構造情報を基に、構造に関す
る条件のみを判定する。
格納部122や、全文検索実行手段131から返却される文書
ID、あるいは文書要素IDから、これに該当するテキスト
を取り出し、出力装置140に送る。
スを生成し、また全文検索により任意の文字列を含む文
書を高速に検索する。
ス格納部123に格納された全文インデックスを用いて、
任意の文字列、およびそれらの組合せに対する検索を実
行する。
文書およびそれを構成する文書要素を単位として全文イ
ンデックスを生成する。ここで、文書要素に対するテキ
ストには、当該文書要素のIDと、当該文書要素を包含す
る親文書要素のIDと、元文書のIDがテキストとして追加
され、その状態のテキストに対して、全文インデックス
が生成される。
体や構造情報、そして、全文検索手段130が利用する全
文インデックスを格納する。
スト本体を格納する。
情報を格納する。
手段130が利用する全文インデックスを格納する。
構造化文書に対する問合せを、構造化文書管理手段110
に渡す。
要素を画面などに適切な形式で表示する。
1の実施の形態の処理フローを示すフローチャートであ
る。図1、図2乃至図4を参照して、本発明の第1の実
施の形態の全体の動作について詳細に説明する。
順で、全文インデックスを生成する。
入力された構造化文書は、構造化文書登録手段111によ
って文書全体がテキスト格納部121に格納される(図2
のステップA1)。
て文書要素が抽出され、固有のIDが付与される(図2の
ステップA2)。
抽出の過程で得られる情報から文書の構造情報を文書部
品格納部122に生成し(図2のステップA3)、それと
同時に、抽出された個々の文書要素を一つの単位として
全文インデックスが全文インデックス生成手段132によ
って生成される(図2のステップA4)。
けではなく、当該文書要素のIDと、当該文書要素を包含
する親文書要素のIDと、元文書のIDがテキストとして追
加され、その状態のテキストに対して全文インデックス
が生成される。
る検索処理について、図3及び図4のフローチャートを
用いて説明する。
文書の検索要求について問合せ解析手段113が解析し
(図3のステップB1)、検索要求が複数の検索条件か
ら構成される複合問合せか否かを判定する(図3のステ
ップB2)。
合せである場合には、問合せ実行手段115において、文
書要素の包含関係がより外側、つまり構造化文書中での
出現場所がより文書の冒頭に近い文書要素に対する検索
条件を一つ取り出す(ステップB3)。これは、続く検
索条件の評価の際に、指定する親文書要素IDを取得する
ためである。例えば、文書要素の木構造を例に説明する
と、木構造上のよりルート(root)に近い部分からリー
フ(leaf)部に向かって対象集合を絞り込んでいくこ
とに相当する。
テップB3を行わない。
対象とする検索条件が、文書要素中に含まれる文字列
(キーワード)を条件として含むかどうかを判定する
(図3のステップB4)。
る場合には、さらに先に処理を実行して得られた結果が
存在するか否かを判定する(図3のステップB5)。
る場合には、先に実行した処理はないので、この判定は
偽になる。二つめ以降の条件を評価するときには先に実
行した処理の結果が存在するので、問合せ実行手段115
において、処理対象とする検索条件に、先に実行した検
索結果の文書要素IDを親文書要素IDとして持つという条
件を付加する(図3のステップB6)。
プA4において親文書要素IDがテキストとして付加され
ているので、図3のステップB6では、これを利用した
一種の絞り込み処理を実現することに相当する。
し、全文検索実行手段131が全文インデックス格納部123
に格納されている全文インデックスを基に、キーワード
に対する全文検索を実行し、条件に合致する文書要素の
IDを取り出す(図3のステップB7)。
合には、図3のステップB4からB7の処理は行わず、
構造条件判定手段116が文書部品格納部122の構造情報を
参照し、検索条件に合致する文書要素を検索し、条件に
合致する文書要素のIDを取り出す(図3のステップB
8)。
と、問合せ実行手段115において、問合せの中の検索条
件で未処理のものがあるか否かを判定する(図4のステ
ップB9)。未処理のものがある場合には、図3のステ
ップB3に戻り、未処理の条件に対して、上記と同じ処
理を繰り返し実行する。
索条件が処理済みであることが判定されると、文書(要
素)取出し手段117により、得られた文書要素のIDから
それに対応するテキストを取得したり、その文書要素を
含む構造化文書本体を取得したりする(図4のステップ
B10)。
7は、取得したテキストを出力装置140に送り、出力装置
140はこれを適切な形式でユーザに提示する(図4のス
テップB11)。
果について説明する。
デックスの対象として、テキストだけではなく、その文
書要素のIDと、その文書要素を包含する親要素の文書ID
と、その文書要素を含む構造化文書の文書IDと、をテキ
ストの形式で追加し、「テキスト」+「文書要素ID」+
「構造化文書ID」という形で、全文インデックスが生成
されるように構成されているため、親文書要素が文書構
造に関する条件中に指定されている複合問合せに対し、
別途格納・管理されている構造情報を参照しなくても、
全文検索を実行することによって、条件判定を行うこと
ができる。
らに、検索条件が文書の適合条件を含まず、文書構造に
対する条件のみから構成されている場合には、全文検索
は使わず、保持している構造情報から条件判定を行うよ
うに構成されているため、全文検索機能とは独立に、条
件判定を実行できる。
形態についてさらに詳細に説明すべく、具体的な例の適
用した一実施例に即して説明する。なお、本発明の一実
施例の構成及び処理フローは、前記した本発明の第1の
実施の形態と同様とされる。
一つであり、ISO8879およびJIS X 4151の標準規格が制
定されているSMGL(Standard Generalized Markup L
anguage)を例として用いる。
e」、「step」、「item」、「exp」の5つの文書要素か
ら構成されるDTD (Document Type Definition;ドキュ
メント型定義) による、図6に示すようなSGML文書が入
力装置150から入力されると、構造化文書登録手段111に
よって、図6のテキスト全体はテキスト格納部121に格
納される(図2のステップA1)。
って文書要素単位に分解・抽出され、文書要素毎に固有
のIDが付与され(図2のステップA2)、図7に示すよ
うな文書要素間の関連を示す情報が、文書部品格納部12
2に生成される(ステップA3)。
132により、文書要素一つ一つを単位として、全文イン
デックスが全文インデックス格納部123に生成される。
に示すように、その文書要素のID自身の他に、これを包
含する親文書要素のIDと、元文書のIDと、が文字列とし
て挿入される。全文インデックス生成手段132は、図8
に示すように、 「テキスト」+「自ID」+「親ID」+「文書ID」 の文字列を一つの「文書」とみなし、全文インデックス
を生成する(図4のステップA4)。図8に示す例で
は、テキストは「<item>肉を炒める</item>」、自ID
は、pid=8、親IDはpid=6、pid=1、文書ID(doc_i
d)はdid=100である。
件と文書構造条件を、問合せ条件に含む複合問合せが、
入力装置150によって入力されたとする。
手段114によって、この問合せを、(1)「<step>に
『炒める』という文字列を含む」(条件1)という条件
と、(2)「それが包含する<exp>に『バター』を含
む」(条件2)という条件、に分解する(図3のステッ
プB1―B2)。
側の文書要素である<step>に対する条件1を、最初の処
理対象として選択する(図3のステップB3)。条件中
で指定された文書要素間に包含関係がない場合には、ど
れを選択しても良い。
の適合条件が含まれていることを判定し(図3のステッ
プB4)、さらに、この処理より先に行った検索結果が
ないことを判定すると(図3のステップB5)、全文検
索実行手段131に、この問合せを委譲する。
ス格納部123の全文インデックスを参照して、「<step
>」と「炒める」という文字列が同時に含まれている文
書要素を検索する(図3のステップB7)。
件を満足するものとして得られる。
ら、図3のステップB3から始まる処理が再び開始され
る。
に、条件1を検索した結果が存在するので、問合せ実行
手段115は、条件1の検索結果を条件2に埋め込み、新
しい検索条件を生成する(図3のステップB4―B
6)。
「『<exp>』と『バター』という文字列が同時に含ま
れ、かつ、『pid=(条件1の検索結果の文書要素ID)』
という文字列を同時に含む文書要素を検索する」(条件
2―1)となる。
(「かつ」以降)が、検索対象集合の絞り込み条件とし
て、新しく付加された検索条件である。
数個あった場合には、各々について、『pid=(文書要素
ID)』の条件が生成され、各々について処理が実行され
る(図3のステップB7)。
素のうち、IDが6と9に対応する文書要素が、条件を満
たすので、(1)「『exp』と『バター』という文字列
が同時に含まれ、かつ『pid=6』という文字列を同時に
含む文書要素を検索する」、(2)「『exp』と『バタ
ー』という文字列が同時に含まれ、かつ『pid=9』とい
う文字列を同時に含む文書要素を検索する」、の2つの
条件が生成される。
らの条件を、同時に評価しても良い。
ID=11の文書要素が得られる。
ら、文書(要素)取出し手段117では、得られた文書要
素IDから該当する文書要素の情報を文書部品格納部122
から取り出し、さらに、元文書IDにより、テキスト格納
部121から、元の構造化文書のテキスト全体を取り出
し、取り出した内容を、出力装置140によって表示する
(図4のステップB10―B11)。
含まず、構造に関する条件のみが含まれる問合せが与え
られた場合(図10の例では<step>を4つ以上持つ<rec
ipe>を取り出す)、問合せ実行手段115は、構造条件判
定手段116に処理を委譲し、構造情報判定手段116は、文
書部品格納部122のみを検索して、格納されている<reci
pe>の中から、<step>の文書要素を4つ以上持つものを
検索し、それを文書(要素)取出し手段117にて取り出
し、文書(要素)取出し手段117から出力装置140に渡し
て適切な形で出力する。
施の形態について説明する。
成を示す図である。図11を参照すると、本発明の第2
の実施の形態は、問合せ処理手段213が、図1を参照し
て説明した前記第1の実施の形態における問合せ処理手
段113の構成に加え、さらに文書要素条件判定手段218を
有する。
うに動作する。
素のIDとそれに関連した検索条件を入力として与えられ
ると、文書部品格納部122中の文書構造を検索して、与
えられた文書要素がその条件を満たすかどうかを判定す
る。ここでの検索条件は、IDが与えられた文書要素のみ
ならず、その親文書要素あるいは子文書要素など、当該
文書要素に関連するすべての文書要素に関するものであ
り、文書要素条件判定手段218は、これを処理する。
の実施の形態の処理フローを示すフロチャートである。
図11乃至図13を参照して、本発明の第2の実施の形
態の全体の動作について詳細に説明する。
のB10−B11の各処理は、それぞれ、図3及び図4
に示した処理と同一であるため、その説明は省略する。
前記第1の実施の形態では、図4のステップB9におい
て、他に未処理の条件があると判定されると、新しい検
索条件式を生成して全文検索手段130による検索処理を
続行するが、本発明の第2の実施の形態では、ステップ
B7あるいはステップB8での検索処理の結果として得
られた文書要素(ID)数が1個であるか否か判定する
(図13のステップC1)。
と未処理で残っているすべての検索条件を、文書要素条
件判定手段218に送り、文書要素条件判定手段218は、文
書部品格納部122中の情報を用いて、その条件判定を実
行する(図13のステップC2)。
条件による検索結果が1個だけの場合に、文書要素条件
判定手段218の処理を実行するとしたが、データ処理装
置200の処理速度が十分に高速である場合には、全文検
索手段130の処理と比べて速度が遅くならない限りにお
いて、検索結果の数を複数個に増やして処理してもよ
い。
果について説明する。
せ中の一部の条件による検索結果の数が1個ないし十分
に少ない場合、検索手段を全文検索手段131から文書要
素条件判定手段218に変更し、文書構造格納部122に対し
て残りの検索条件をまとめて評価するというように構成
されているため、複合問合せを構成する個々の条件に対
して全文検索実行手段131による全文検索を一回一回実
施する処理が回避され、データ処理装置200での処理コ
ストが節約できる。
形態についてさらに詳細に説明すべく、具体的な例の適
用した一実施例に即して説明する。なお、本発明の一実
施例の構成及び処理フローは、前記した本発明の第2の
実施の形態と同様とされる。
造化文書が登録されているときに、図14に示すような
複合問合せが与えられたとする。
含関係はないので、最初の「<item>に『カレールー』と
いう文字列を含む」という条件を処理する(図12のス
テップB1―B3)。
件を満足する文書要素が1つだけ(ID=n-2)得られたと
する。本実施例では、これを検出し(図13のステップ
C1)、この文書要素IDと残りすべての条件「<exp>に
『ケチャップ』という文字列を含み、<title>に『おい
しい』という文字列を含む」(条件3)を、文書要素条
件判定手段218に送る。
対応する文書要素の情報を文書部品格納部122から取得
し、それを起点として当該文書要素に関連するすべての
文書要素を辿り、それらを対象として、条件3を判定す
る(図13のステップC2)。
で、文書(要素)取出し手段117では文書要素の情報が
取り出せず(図13のステップB10)、出力装置140
では条件を満足する文書が存在しない旨の表示が行われ
る(図13のステップB11)。
説明する。
の形態は、構造化文書検索プログラムを記録した記録媒
体400を備える。この記録媒体400としては、磁気ディス
ク、半導体メモリその他の記録媒体であってよい。
0からデータ処理装置300に読み込まれ、データ処理装置
300の動作を制御する。データ処理装置300は、構造化文
書検索プログラムの制御により以下の処理、すなわち第
1および第2の実施の形態におけるデータ処理装置100
および200による処理と同一の処理、を実行する。
造化文書管理手段210に与えられると、その文書本体と
文書構造を表す情報が記憶装置120に生成されるが、文
書構造を表す情報は、文書部品格納部122に格納され
る。この状態で、入力装置150により構造化文書に対す
る問合せが与えられると、構造化文書管理手段210で問
合せを解析し、問合せ処理手段213、あるいは全文検索
手段130によって条件に合致する文書要素あるいは構造
化文書が検索される。検索された文書要素あるいは構造
化文書は、出力装置140に適切な形式で出力される。
記記載の効果を奏する。
構造に関する条件と文書要素に含まれる文字列に関する
条件を含む複数の検索条件から構成された複合問合せ
を、全文検索手段のみによって処理することができ、こ
のため文書要素の構造情報を直接アクセスして条件判定
する場合に比べ、処理速度を向上する、ということであ
る。
手段が用いる全文インデックスの中に、文書要素間の包
含関係と構造化文書IDの情報が含まれるように全文イン
デックスを生成している、ためである。
部の条件による検索結果の数が1個ないし十分に少ない
場合、残りの検索条件をまとめて評価することができ、
処理速度を向上する、ということである。
の数が1個ないし十分に少なく、かつ未処理の問合せ条
件がまだ残っていることが検出された場合、検索手段
を、全文検索から、文書の構造情報上で直接条件判定を
実行する手段に、変更するためである。
ク図である。
めの流れ図であり、データ登録処理の動作を示す流れ図
である。
めの流れ図であり、検索動作を示す流れ図(その1)で
ある。
めの流れ図であり、検索動作を示す流れ図(その2)で
ある。
明するための図であり、処理対象の一例となるSGML文書
のDTDの一例を示す図である。
明するための図であり、処理対象の一例となるSGML文書
の一例を示す図である。
明するための図であり、処理対象の一例となるSGML文書
の構造情報を示す図である。
明するための図であり、全文インデックスを生成する対
象となるテキストの一例を示す図である。
明するための図であり、検索条件の一例を示す図であ
る。
説明するための図であり、検索条件の一例を示す図であ
る。
ック図である。
ための流れ図であり、検索動作を示す流れ図(その1)
である。
ための流れ図であり、検索動作を示す流れ図(その2)
である。
説明するための図であり、検索条件の一例を示す図であ
る。
ック図である。
説明するための図であり、検索結果の一例を示す図であ
る。
Claims (1)
- 【請求項1】入力手段から入力された構造化文書を受け
取り前記構造化文書のテキスト全文をテキスト格納部に
格納する構造化文書登録手段と、 前記入力された前記構造化文書のテキストを、文書要素
単位に分解して固有のID(識別番号)を付与し、前記
文書要素のそれぞれに対応するテキストと文書要素間の
関連を文書部品格納部に格納する文書要素分解・格納手
段と、 前記入力された構造化文書および該構造化文書を構成す
る文書要素を単位として、全文インデックスを生成し、
その際、前記文書要素に対するテキストには、該文書要
素のIDと、該文書要素を包含する親文書要素のID
と、元文書のIDが、テキストとして追加され、その状
態のテキストに対して、全文インデックスを生成する全
文インデックス生成手段と、 前記全文インデックス生
成手段で生成された全文インデックスを用いてテキスト
と文書構造に関する検索を実行する全文検索実行手段
と、を含む全文検索手段と、 前記入力手段から入力された構造化文書に対する検索要
求を受け取り問合せ条件を解析する問い合わせ解析手段
と、 前記文書部品格納部に格納された文書の構造情報を基
に、構造に関する条件のみを判定する構造条件判定手段
と、 前記問い合わせ解析手段の解析に従い、前記全文検索手
段もしくは前記構造条件判定手段を用いて、検索条件に
合致する文書あるいは文書要素の検索を実行する問い合
わせ実行手段と、 前記全文検索手段もしくは前記構造条件判定手段による
検索の結果得られた、文書要素IDから、該当する文書
要素IDに対応する文書要素の情報を前記文書部品格納
部から取り出し、さらに、元文書IDより前記テキスト
格納部より元の構造化文書のテキストを取り出し出力手
段に表示出力するように制御する文書要素取り出し手段
と、 を備え、 複数の条件から構成される複合問合せが与えられた場合
に、前記問合せ実行手段では、前記複数の条件の各々に
ついて一つずつ検索を実行し、その際、2つ目以降の条
件検索では、先に実行した条件の検索結果を条件に埋め
込み検索対象集合を絞り込む新しい問合せ条件を生成
し、 ある文書要素のIDと、該文書要素を起点としその親文
書要素あるいは子文書要素など該文書要素に関連した検
索条件が入力として与えられると、前記文書部品格納部
中の文書構造を検索して、前記文書要素が該条件を満た
すか否かを判定する文書要素条件判定手段をさらに備え
たことを特徴とする構造化文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17318498A JP3287307B2 (ja) | 1998-06-19 | 1998-06-19 | 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17318498A JP3287307B2 (ja) | 1998-06-19 | 1998-06-19 | 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000010988A JP2000010988A (ja) | 2000-01-14 |
JP3287307B2 true JP3287307B2 (ja) | 2002-06-04 |
Family
ID=15955659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17318498A Expired - Fee Related JP3287307B2 (ja) | 1998-06-19 | 1998-06-19 | 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3287307B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3719089B2 (ja) * | 2000-03-16 | 2005-11-24 | 松下電器産業株式会社 | 文書処理装置 |
JP4932227B2 (ja) * | 2005-10-26 | 2012-05-16 | ヤフー株式会社 | 情報抽出方法 |
JP6163854B2 (ja) * | 2013-04-30 | 2017-07-19 | 富士通株式会社 | 検索制御装置、検索制御方法、生成装置および生成方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2737400B2 (ja) * | 1990-12-19 | 1998-04-08 | 富士ゼロックス株式会社 | 文書蓄積システムにおける文書検索装置 |
JPH05158984A (ja) * | 1991-12-05 | 1993-06-25 | Ricoh Co Ltd | 文字列抽出装置 |
JPH0628403A (ja) * | 1992-07-09 | 1994-02-04 | Mitsubishi Electric Corp | 文書検索装置 |
JP3573471B2 (ja) * | 1993-04-19 | 2004-10-06 | 株式会社日立製作所 | 全文デ−タベ−ス検索方法 |
JPH0744579A (ja) * | 1993-05-25 | 1995-02-14 | Ricoh Co Ltd | 論理構造文書検索方式 |
JP3168829B2 (ja) * | 1993-10-30 | 2001-05-21 | 富士ゼロックス株式会社 | 検索式作成支援システム |
JPH07319918A (ja) * | 1994-05-24 | 1995-12-08 | Fuji Xerox Co Ltd | 文書検索対象指示装置 |
JP2896634B2 (ja) * | 1995-03-02 | 1999-05-31 | 富士ゼロックス株式会社 | 全文登録語検索装置および全文登録語検索方法 |
JPH08255155A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | 全文登録語検索装置および方法 |
-
1998
- 1998-06-19 JP JP17318498A patent/JP3287307B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000010988A (ja) | 2000-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10528650B2 (en) | User interface for presentation of a document | |
US7065523B2 (en) | Scoping queries in a search engine | |
US7676117B1 (en) | Systems and methods for using image duplicates to assign labels to images | |
US7231381B2 (en) | Media content search engine incorporating text content and user log mining | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
KR101153033B1 (ko) | 사본 탐지 및 삭제 방법 | |
US20060155684A1 (en) | Systems and methods to present web image search results for effective image browsing | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
US7523109B2 (en) | Dynamic grouping of content including captive data | |
JPH11191114A (ja) | メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン | |
JP2004178605A (ja) | 情報検索装置及びその方法 | |
JP2001075969A (ja) | 画像管理検索装置、画像管理検索方法及び記憶媒体 | |
EP2192503A1 (en) | Optimised tag based searching | |
JP4207438B2 (ja) | Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム | |
US6345271B1 (en) | Method and apparatus for transforming queries | |
US7730062B2 (en) | Cap-sensitive text search for documents | |
US20060080295A1 (en) | Document searching system | |
JP3287307B2 (ja) | 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 | |
JP2003196294A (ja) | 知識分析システムおよび知識分析方法 | |
JP3786233B2 (ja) | 情報検索方法および情報検索システム | |
US20050228825A1 (en) | Method for managing knowledge from the toolbar of a browser | |
JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
JPH10143541A (ja) | 情報フィルタリング装置および情報フィルタリング方法 | |
JPH10228488A (ja) | 情報検索収集方法およびそのシステム | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20011030 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020212 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080315 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090315 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090315 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100315 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100315 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110315 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110315 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120315 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120315 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130315 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130315 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140315 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |