JP4314221B2 - 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム - Google Patents
構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム Download PDFInfo
- Publication number
- JP4314221B2 JP4314221B2 JP2005219165A JP2005219165A JP4314221B2 JP 4314221 B2 JP4314221 B2 JP 4314221B2 JP 2005219165 A JP2005219165 A JP 2005219165A JP 2005219165 A JP2005219165 A JP 2005219165A JP 4314221 B2 JP4314221 B2 JP 4314221B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- structured document
- identifier
- candidate
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 86
- 238000012545 processing Methods 0.000 claims description 269
- 238000004364 calculation method Methods 0.000 claims description 81
- 238000004458 analytical method Methods 0.000 claims description 42
- 150000001875 compounds Chemical class 0.000 claims description 11
- 238000001341 grazing-angle X-ray diffraction Methods 0.000 description 57
- 238000013500 data storage Methods 0.000 description 17
- 238000011144 upstream manufacturing Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 101001112162 Homo sapiens Kinetochore protein NDC80 homolog Proteins 0.000 description 6
- 102100023890 Kinetochore protein NDC80 homolog Human genes 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 102100029716 DnaJ homolog subfamily A member 3, mitochondrial Human genes 0.000 description 3
- 101000866012 Homo sapiens DnaJ homolog subfamily A member 3, mitochondrial Proteins 0.000 description 3
- 101100427547 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ULS1 gene Proteins 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012783 upstream development Methods 0.000 description 3
- 102100020960 E3 ubiquitin-protein transferase RMND5A Human genes 0.000 description 2
- 101000854471 Homo sapiens E3 ubiquitin-protein transferase RMND5A Proteins 0.000 description 2
- 101000854467 Homo sapiens E3 ubiquitin-protein transferase RMND5B Proteins 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011162 downstream development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
特に、スコアリングは全文検索においては必須機能である。スコアリングを導入することで、ユーザは、精度の高い情報(例えば、文書)を検索結果の上位として取得することが可能となり、必要な情報だけを素早く取得することが可能となる。
前記構造化文書記憶装置は、1つの構造化文書を取得する取得手段と、前記構造化文書を解析する構造情報解析手段と、構造化文書の典型的な構造を示す構造雛型木を予め記憶している構造雛型木記憶手段と、前記構造雛型木を前記解析された構造化文書に合致するように更新する更新手段と、前記1つの構造化文書を複数の語彙に分割する分割手段と、前記1つの構造化文書内の要素ごとに該要素内に存在する全ての語彙に対して語彙ごとに該語彙が発生する頻度を示す発生頻度情報を算出する頻度情報算出手段と、前記語彙ごとに該語彙を含む範囲内で或る出現回数以上の他の語彙が存在するまで前記範囲を拡大する拡大手段と、前記拡大された範囲内で最も出現回数が多い語彙の語彙識別子を前記語彙の関連語彙識別子として付与する関連語彙識別子付与手段と、を具備し、
前記構造化文書検索装置は、複数の構造化文書の部分構造から構成される新たな複合文書を生成するための問合せ言語で記述された問合せデータを受け付ける受付手段と、前記問合せデータを構文解析する構文解析手段と、前記構文解析された問合せデータに含まれる、問合せの回答として要求される要求構造に類似する類似構造を持つ、構造雛型木に含まれるノードを前記構造化文書記憶装置から複数の候補として選択する選択手段と、語彙の間の類似度合いを示す類似度を複数の語彙について記憶している類似関係記憶手段と、前記類似度に基づいて、前記候補ごとに該候補が前記要求構造に類似している度合いを示す構造スコア値を算出する構造スコア値算出手段と、少なくとも、前記候補と前記構造雛型木とを照合することに基づいて、どの順番で各候補を処理するかを示す各候補の処理コストを算出する処理コスト算出手段と、少なくとも前記処理コストと前記構造スコア値とに基づいて、各候補の処理の処理優先度を算出し、該処理優先度の高い候補から順に、処理を行う選択候補として選択する処理優先度算出手段と、前記選択候補から処理を実行する処理実行手段と、複数の前記処理を実行した実行結果を検索結果として取得する結果取得手段と、を具備することを特徴とする。
まず、実施形態の概要を説明する。本実施形態においては、特に、「複数の情報源(例えば、文書)から構造を持つ新規の複合データを生成および加工することができる言語」を考慮したスコアリングについて詳細に説明する。このような言語は加工型の問合せ言語と呼ばれ、例えば、XQueryがそれに該当する。
構造化文書データベースにおける問合せ言語は、全文検索エンジンのようなキーワードレベルの検索と異なり、さらに構造情報を指定することが可能である等が示すように記述レベルが高く、複雑な表現をすることが可能である。特に、W3Cで標準化が成されているXQueryのような複数の情報源から構造を持つ複合データを生成および加工することができる言語は、その記述能力の高さとともに、問合せの最適化を如何に行なうかが問題であり、これら、問合せの最適化とスコアリングを融合して考えることが重要になってくる。
(1)構造化文書記憶装置は、構造化文書を登録する際に、構造情報(スキーマ)の特徴抽出を行い、データベース上に構造雛型木を作成または更新する。次に、構造化文書記憶装置は、文字列値を分割し、語彙索引の語彙索引情報として転置索引リストを作成する。この際に、各語彙索引情報として、構造雛型木上の識別子を付加しておく。これらは、構造化文書検索装置が行う検索時の構造制約条件であり、検索処理速度向上のために用いられる。
構造化文書記憶装置および構造化文書検索装置は、一般に図1に示すようにサーバであり、図1に示すようにクライアントからの問い合せに応じて動作する。クライアントは、入力部101,102、登録部103、検索部104を備えている。これらの装置部分は1つのクライアントに含まれる場合もあるし、第1のクライアントは入力部101と登録部103を備え、第2のクライアントは入力部102と検索部104を備えていてもよい。
構造化文書検索装置は、要求処理部105、検索処理部111を備え、さらにデータベースとして、構造化文書データ記憶部118、語彙索引記憶部119、構造雛型木記憶部120、語彙統計情報記憶部121、意味ネットワーク記憶部122を備えている。
構造情報抽出部107は、クライアントからの格納データに含まれる構造化文書を解析し、解析した構造化文書と、構造雛型木記憶部120に格納されている構造雛型木とを照合し、構造雛型木を解析した構造化文書に合致するように更新し、更新された構造雛型木を構造雛型木記憶部120に記憶させる。また、構造情報抽出部107は、構造雛型木が構造雛型木記憶部120に無い場合には構造化文書に合致する構造雛型木を生成し、生成された構造雛型木を構造雛型木記憶部120に記憶させる。そして、構造情報抽出部107は、格納データに含まれる構造化文書の構造情報(文書中の各要素間の親子兄弟関係など)に関する情報を更新し、構造化文書データ記憶部118に記憶させる。また、構造情報抽出部107は、DOM(Document Object Model)のようなオブジェクトツリー形式に展開し、構造雛型木の各ノードに構造雛型木識別子(以下、TIDと称する)を付与して、構造情報と共にTIDも構造化文書データ記憶部118に記憶させる。TIDの一例は後に図5に示す。
制御部110は、格納処理部106の全体の動作を制御するためのものである。
語彙索引記憶部119は、語彙テーブルと語彙索引情報とを関連付けた転置索引リストを記憶する。
構造雛型木記憶部120は、予め構造雛型木を格納している。また、構造情報抽出部107によって更新された構造雛型木も記憶する。
語彙統計情報記憶部121は、頻度情報を語彙統計情報として記憶する。
制御部116は、検索処理部111の全体の動作を制御するためのものである。
XMLやSGMLは、文書の構造の表現にタグ(要素とも呼ばれる)が用いられる。タグには、開始タグと終了タグがあり、文書構造情報の構成要素を開始タグと終了タグで囲むことにより、文書中の文字列区切りと、その文字列が構造上どの構成要素に属するのかを明確に記述することができる。文字列はテキストと呼ばれることもある。
構造情報抽出部107は、構造化文書構文解析部301、構造雛型木照合部302、構造雛型木更新部303、構造化文書データ格納部304を備えている。
統計情報計算部108は、テキスト分割部305、語彙識別子特定部306、関連語彙計算部307を備えている。
統計情報計算部108は、分割した語彙を文字列で管理するのではなく、分割した語彙にユニークなGIDを対応付ける。GIDの項目は語彙テーブルに含まれる。語彙テーブルの一例については後に図6を参照して説明する。また、語彙テーブルと語彙索引情報の関係については後に図7を参照して説明する。
また、関連語彙計算部307は、関連GIDを探索中の文字列の中で、最も多く発生した語彙に対するTIDが関連TIDであるとして計算する。この場合に、ある語彙が、同一要素中に複数回発生する場合は、二つ目以降の語彙の関連GIDとしては、最大頻度を持つGIDではなく、その次の頻度を持つGIDを関連語彙として付加する。こうすることで、文字列中で発生頻度が高い語彙に関しては、複数の関連GIDを付加することができる。関連語彙計算部307は、このようにして、分割した各語彙に対して語彙索引情報を作成する。語彙索引情報の一例については後に図9を参照して説明する。
問合せ解析部112は、問合せ言語構文解析部401、構造制約条件作成部402、類似構造検索部403を備えている。
問合せプラン作成部113は、クエリ処理コスト見積もり部404、プラン作成部405を備えている。
問合せ実行部114は、処理優先度計算部406、処理実行部407を備えている。
一般的に、処理コストが高くなる候補、というのは事前に分かる。その顕著な例が構造照合オペレータ内の処理である。この場合、処理優先度計算部406は、構造化文書データ記憶部118にアクセスし、そこに記憶されている構造情報(親子兄弟関係など)を調査する。先に述べた上流展開はこれら構造照合オペレータのことである。構造照合オペレータには他に後述する下流展開などがある。構造照合オペレータによって、階層が深かったり、巨大文書に対する構造照合を行なう場合の処理コストは高くなることが予想される。
しかし、処理コストが高いことと、その候補がユーザにとって所望するデータであるかどうかは無関係であり、処理コストが高くても上位にスコアリングされて欲しい情報に関しては、先に処理する必要があり、ユーザが所望せず、かつ処理コストが高い候補集合だけを効率良く処理することが重要となってくる。
結果件数チェック部408は、プラン作成部405が作成したプランに応じて、処理優先度計算部406と処理実行部407を繰り返し実行し、最後のオペレータを実行した後、結果件数をチェックする。結果件数チェック部408は、問合せ処理の結果として、ユーザが所望する取得件数以下である場合は、処理していないオペレータから再び処理を再実行することで、結果的に取得所望件数になるまで処理を繰り返し行わせる。処理実行部407および結果件数チェック部408の具体的な動作については後に図17を参照して説明する。
図5の上方に示したツリーがオブジェクトツリー501の一例であり、図5の下方に示したツリーが構造雛型木502の一例である。構造雛型木照合部302は、オブジェクトツリー501を走査して、構造情報を抽出する。図5の例では、例えば、オブジェクトツリー501には発明者タグが同列で重複する。構造雛型木更新部303は、このような重複する構造は一つに集約して特徴的な構造として抽出し、構造雛型木502に示すようにそれら構造情報を構造雛型木として作成し、逐次、情報を更新する。なお、構造雛型木502に示したTID1、TID2、…、TID10は、構造雛型木識別子の例である。
語彙テーブルには、語彙索引情報として、GID、テキスト分割部305で分割された文字列(Gram)、データベース中での総発生頻出情報、対応する転置索引リストの格納アドレス(転置索引リスト番号)などの情報を記録している。
語彙テーブルに含まれるGIDごとに、転置索引リストが存在する。転置索引リストは、GIDごとに総発生頻出情報に記述されている頻度の数だけ語彙索引情報が存在する。図7の例では、GID=2にはリスト番号37の転置索引リストが対応していて、この転置索引リストは、頻度63に対応して63個の語彙索引情報を含んでいる。
関連語彙計算部307が<姓>鈴木</姓>の文字列ノードに対して索引付けを行なう場合において、最低頻度を仮に3と設定した場合の例を示す。<姓>鈴木</姓>の範囲806では、テーブル801に示すように、「鈴木」の範囲内頻度が1であるので最低頻度3に到達しない。したがって、関連語彙計算部307は頻度計算を行う範囲を拡大する。拡大は、まず、「鈴木」の兄弟要素である、<名>の文字列をマージした「仮想文字列」を対象として頻度情報を再計算する。この拡大処理を属性、子、兄弟、親の順に繰り返す。図8の例では、関連語彙計算部307が頻度を算出する範囲を範囲805まで拡大した時点で、<キーワード>に含まれる「XML」の頻度をカウントすると、807,808,809の3箇所にXMLが存在しているので、最低閾値である「3」になる。範囲が拡大したこの時点で、テーブル801はテーブル802のように更新される。この結果、この例の場合は、「鈴木」という語彙は、GID2である「XML」が関連語彙として語彙索引情報に格納されることになる。すなわち、「鈴木」の関連GIDはGID2である。また、「鈴木」の関連TIDは、「XML」に対するTIDであるので、図5の構造雛型木502により、TID5となる。また、例えば、他の文字列よりも先に「XML」が最低頻度に到達した場合に「XML」を「XML」の関連語彙とするのかどうかは設計事項であるので、どちらかに決めておけばよい。
この場合は、<概略>タグ中には「XML」は2度発生することになる。関連語彙計算部307が、この「XML」に対する関連語彙を探す場合、範囲904では最低頻度に到達する文字列がないので、範囲を拡大する。関連語彙計算部307は、<タイトル>まで拡大すると、最低頻度に到達する文字列「文書」、「検索」の2つを探し出すことができる。すると、XMLの関連語彙は「文書」、「検索」の2つであり、それぞれのGIDはテーブル901により「51」、「87」と求まる。そして、語彙索引情報は、図9のテーブル902に示したように、「文書」、「検索」に対応して2つあり、それぞれ文書ID、要素ID、自TID、オフセット、GID、関連TIDの情報を含んでいる。
クエリ1001が検索部104から与えられると、問合せ言語構文解析部401はクエリ1001をパージングし、問合せグラフ1002を得る。図10の問合せグラフ1002におけるノードが候補集合、アークが制約条件に対応し、例えば、丸2と丸3は構造制約条件/タイトルという制約条件があり、丸3と丸4はcontains(text(),”構造化文書”)という語彙と構造に関する制約条件があることを示している。
丸2と丸3の構造制約は、図10の構造雛型木1003では、それぞれTID4とTID6に対応する。構造制約条件作成部402は、これらをペアとして、[TID4,TID6]をこの丸2と丸3の構造制約として保持しておく。このように、構造制約の親子関係を求めておくことで、構造制約によって、候補となる件数を早期に絞り込むことが可能となる。
XQueryに代表される、加工型問合せ言語においては、Return節には、データベース上には実際に存在しない、仮想的な要素、属性、文字列などを記述することが可能である。図11のクエリでは、<bookList>,<著者>,<名前>や/bookList/著者/名前を持つ構造などは、ユーザがクエリで自由に記述したものであり、データベース上に存在しない仮想データである。また、Return節中の、$xと$yなどの仮想的な構造関係などもデータベース上にはないため、$xが最終的に出力する<book>タグと、$yが最終的に出力する<paper>タグの関係もデータベース中には存在しない。
意味ネットワークは、単語と、この単語に関連する単語とを類似度付きで関連付けたものである。意味ネットワークは、語彙の間の類似関係をグラフで表現したものであり、類似関係のある語彙と語彙をアークで結び、その語彙間の類似度の値をアークに与えて、語彙間のネットワークを構成しているものである。図12の例では、例えば、「構造化文書」は、「構造文書」、「XML」、「SGML」とそれぞれ類似度0.5、類似度0.8、類似度0.8で関連づけられている。
図14の第1プラン1401は、語彙索引検索オペレータ、構造照合オペレータ、結果生成オペレータという3つのオペレータから構成されるプランの例である。なお、このプランは、一般的な検索パターンの基礎として最も実施されるプランである。プラン作成部405は第2プラン1402のような別のプランも作成するが、問合せ実行部114はこの中で最も処理コストが低いプランである第1プラン1401を選択して実行する。
まず、図4などを参照して上述したように、構造照合する場合の処理コストなどの処理コスト値を計算する(ステップS1501)。この処理コスト値として、[0:1]で正規化した値を用いて処理コストを計算する。例えば、照合のための階層が深い場合や、文書サイズが大きい場合などは、処理コストは高くなると予想され、処理コストが高いほど、処理コスト値は低くなるように処理コスト値を設定する。
図16の例は、語彙索引検索オペレータに候補集合リストより生成された候補集合が2つあり、これらに対して語彙スコア値を求める場合である。第1候補集合リストにおける候補1601においては、関連GID=5,関連TID=7に関しては第2候補集合リストに完全に共通に存在するので、これらに対する語彙スコア値は高く設定する。この例では語彙スコア値は1.0に設定されている。
図17は、処理の優先度に従った、処理手順を表したものである。この場合は、5つの候補集合に関して、処理優先度計算部406がそれぞれ処理優先度を求め、優先度が高い2つの候補を優先的に処理することで高速化を計っている。この例では、処理優先度計算部406が得るテーブル1703に示したように、第2候補1704と第5候補1705の優先度が高い。
まず、第1文書1802を登録する場合について説明する。
まず、構造情報抽出部107の処理から始まる。構造化文書構文解析部301が第1文書1802の文書構造を解析した後、構造雛型木照合部302が構造雛型木記憶部120を参照して構造雛型木を照合する。構造化文書構文解析部301は、解析を行なったオブジェクトツリーの各ノードに対して、対応するTIDの情報を付加し、構造化文書データ記憶部118にこれらデータを格納する。この際に、文書IDや要素IDなどもシステムが発行されるが、ここでは文書ID=3とする。構造雛型木記憶部120に既に図19に示す構造雛型木1901があるとすると、構造雛型木照合部302がTID3を基点して構造情報を重ね合わせると、全ての構造が重なりあう形になることがわかる。したがって、この例では、新たに構造雛型木におけるノードが増えることはないので、構造雛型木更新部303が構造雛型木を新たに更新する必要はない。
検索する問合せ言語(クエリ)は、図18に示したクエリAである。まず、問合せ解析部112の処理から始まる。問合せ言語構文解析部401が問合せ構文解析を行い、クエリを構文解析し、問合せグラフを作成する。この例では、問合せ言語構文解析部401は図22に示す問合せグラフ2201を作成する。
図28は、上流展開オペレータを行なう際の候補集合である。上述したように、図24の語彙索引検索オペレータ2401から2つの候補が、語彙索引検索オペレータ2402から5つの候補が発生しており、これらをまとめて語彙索引情報および処理コスト値、構造スコア値、以下で求める語彙スコア値、これらの値から求まる処理優先度を示したものが図28である。なお、これまでの説明において、処理コスト値及び構造スコア値は既に求まっており、現時点は語彙スコア値を計算する段階である。
A.関連GID,関連TIDが共に一致するようであれば語彙スコア値を1に設定
B.関連GID,関連TIDがどちらも一致しないようであれば語彙スコア値を0.5に設定
C.関連GIDだけ一致し、関連TIDが異なるものがあれば、語彙スコア値を0.6に設定
D.関連GID,関連TIDがそれぞれ類義語展開によって展開された値によって一致した場合は、その類似度を語彙スコア値とする。ただし、この場合の語彙スコア値は、C.の語彙スコア値0.6を下回った場合は0.5を下限値とする。
また、第6候補の場合は、関連GID及び関連TIDともに合致するものが無いので、0.5を語彙スコアとして設定する。
以上のような語彙スコア値の求め方は、語彙スコア値に依存してこれら候補の優劣を付けることができればよく、その値をどう設定するかは様々な方法がある。
また、記憶媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーションシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記憶媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記憶媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (16)
- 1つの構造化文書を取得する取得手段と、
前記構造化文書を解析する構造情報解析手段と、
構造化文書の典型的な構造を示す構造雛型木を予め記憶している構造雛型木記憶手段と、
前記構造雛型木を前記解析された構造化文書に合致するように更新する更新手段と、
前記1つの構造化文書を複数の語彙に分割する分割手段と、
前記1つの構造化文書内の要素ごとに該要素内に存在する全ての語彙に対して語彙ごとに該語彙が発生する頻度を示す発生頻度情報を算出する頻度情報算出手段と、
前記語彙ごとに該語彙を含む範囲内で或る出現回数以上の他の語彙が存在するまで前記範囲を拡大する拡大手段と、
前記拡大された範囲内で最も出現回数が多い語彙の語彙識別子を前記語彙の関連語彙識別子として付与する関連語彙識別子付与手段と、
前記語彙ごとに前記関連語彙識別子を記憶している関連語彙識別子記憶手段と、
前記構造雛型木の各ノードに構造雛型木識別子を付与する構造雛型木識別子付与手段と、
或る語彙の関連語彙識別子が最も多く発生するノードの構造雛型木識別子を該或る語彙の関連構造雛型木識別子として付与する関連構造雛型木識別子付与手段と、
前記語彙ごとに関連構造雛型木識別子を記憶している関連構造雛型木識別子記憶手段と、を具備することを特徴とする構造化文書記憶装置。 - 前記解析された構造化文書に基づいて、該構造化文書の構造を抽出する抽出する抽出手段と、
前記抽出された構造を構造雛型木として前記構造雛型木記憶部に記憶させる記憶手段と、をさらに具備することを特徴とする請求項1に記載の構造化文書記憶装置。 - 前記拡大手段は、前記語彙の位置を基点として属性、子要素、兄弟要素、親要素の順に、前記範囲を拡大することを特徴とする請求項1または請求項2に記載の構造化文書記憶装置。
- 請求項1に記載の構造化文書記憶装置を参照する構造化文書検索装置であって、
複数の構造化文書の部分構造から構成される新たな複合文書を生成するための問合せ言語で記述された問合せデータを受け付ける受付手段と、
前記問合せデータを構文解析する構文解析手段と、
前記構文解析された問合せデータに含まれる、問合せの回答として要求される要求構造に類似する類似構造を持つ、構造雛型木に含まれるノードを前記構造化文書記憶装置から複数の候補として選択する選択手段と、
語彙の間の類似度合いを示す類似度を複数の語彙について記憶している類似関係記憶手段と、
前記類似度に基づいて、前記候補ごとに該候補が前記要求構造に類似している度合いを示す構造スコア値を算出する構造スコア値算出手段と、
少なくとも、前記候補と前記構造雛型木とを照合することに基づいて、どの順番で各候補を処理するかを示す各候補の処理コストを算出する処理コスト算出手段と、
少なくとも前記処理コストと前記構造スコア値とに基づいて、各候補の処理の処理優先度を算出し、該処理優先度の高い候補から順に、処理を行う選択候補として選択する処理優先度算出手段と、
前記選択候補から処理を実行する処理実行手段と、
複数の前記処理を実行した実行結果を検索結果として取得する結果取得手段と、を具備することを特徴とする構造化文書検索装置。 - 前記構文解析手段は、前記問合せデータの構造情報を作成し、
前記選択手段は、前記構造情報にもとづいて前記複数の候補を前記構造化文書記憶装置から選択することを特徴とする請求項4に記載の構造化文書検索装置。 - 前記処理優先度算出手段は、前記処理コストの大きさに反比例して対応している処理コスト値と、前記構造スコア値とを掛け合わせた数値に基づいて、各候補の処理の処理優先度を算出することを特徴とする請求項4または請求項5に記載の構造化文書検索装置。
- 前記構造化文書記憶装置は、さらに、語彙ごとに関連語彙識別子を記憶していて、構造雛型木の各ノードに構造雛型木識別子を付与していて、或る語彙の関連語彙識別子が最も多く発生するノードの構造雛型木識別子を該或る語彙の関連構造雛型木識別子として付与し、
前記関連語彙識別子および前記関連構造雛型木識別子にもとづいて、同一の関連語彙識別子を有する語彙と、同一の関連構造雛型木識別子を有する語彙とが一致している数が多いほど値が高くなるように複数の語彙間で正規化した値を語彙スコア値として各語彙に付与する語彙スコア値付与手段をさらに具備し、
前記処理優先度算出手段は、問合せ言語が複数のキーワードから構成される検索を実行した場合、かつ、検索処理途中において、各索引情報の結合処理を行なう場合に、前記語彙スコア値と前記処理コストと前記構造スコア値とに基づいて、各候補の処理の処理優先度を算出することを特徴とする請求項4または請求項5に記載の構造化文書検索装置。 - 構造化文書記憶装置と構造化文書検索装置を具備した構造化文書システムであって、
前記構造化文書記憶装置は、
1つの構造化文書を取得する取得手段と、
前記構造化文書を解析する構造情報解析手段と、
構造化文書の典型的な構造を示す構造雛型木を予め記憶している構造雛型木記憶手段と、
前記構造雛型木を前記解析された構造化文書に合致するように更新する更新手段と、
前記1つの構造化文書を複数の語彙に分割する分割手段と、
前記1つの構造化文書内の要素ごとに該要素内に存在する全ての語彙に対して語彙ごとに該語彙が発生する頻度を示す発生頻度情報を算出する頻度情報算出手段と、
前記語彙ごとに該語彙を含む範囲内で或る出現回数以上の他の語彙が存在するまで前記範囲を拡大する拡大手段と、
前記拡大された範囲内で最も出現回数が多い語彙の語彙識別子を前記語彙の関連語彙識別子として付与する関連語彙識別子付与手段と、を具備し、
前記構造化文書検索装置は、
複数の構造化文書の部分構造から構成される新たな複合文書を生成するための問合せ言語で記述された問合せデータを受け付ける受付手段と、
前記問合せデータを構文解析する構文解析手段と、
前記構文解析された問合せデータに含まれる、問合せの回答として要求される要求構造に類似する類似構造を持つ、構造雛型木に含まれるノードを前記構造化文書記憶装置から複数の候補として選択する選択手段と、
語彙の間の類似度合いを示す類似度を複数の語彙について記憶している類似関係記憶手段と、
前記類似度に基づいて、前記候補ごとに該候補が前記要求構造に類似している度合いを示す構造スコア値を算出する構造スコア値算出手段と、
少なくとも、前記候補と前記構造雛型木とを照合することに基づいて、どの順番で各候補を処理するかを示す各候補の処理コストを算出する処理コスト算出手段と、
少なくとも前記処理コストと前記構造スコア値とに基づいて、各候補の処理の処理優先度を算出し、該処理優先度の高い候補から順に、処理を行う選択候補として選択する処理優先度算出手段と、
前記選択候補から処理を実行する処理実行手段と、
複数の前記処理を実行した実行結果を検索結果として取得する結果取得手段と、
を具備することを特徴とする構造化文書システム。 - 前記構造化文書記憶装置は、
前記語彙ごとに前記関連語彙識別子を記憶している関連語彙識別子記憶手段と、
前記構造雛型木の各ノードに構造雛型木識別子を付与する構造雛型木識別子付与手段と、
或る語彙の関連語彙識別子が最も多く発生するノードの構造雛型木識別子を該或る語彙の関連構造雛型木識別子として付与する関連構造雛型木識別子付与手段と、
前記語彙ごとに関連構造雛型木識別子を記憶している関連構造雛型木識別子記憶手段と、をさらに具備することを特徴とする請求項8に記載の構造化文書システム。 - 前記構造化文書検索装置は、
前記関連語彙識別子および前記関連構造雛型木識別子にもとづいて、同一の関連語彙識別子を有する語彙と、同一の関連構造雛型木識別子を有する語彙とが一致している数が多いほど値が高くなるように複数の語彙間で正規化した値を語彙スコア値として各語彙に付与する語彙スコア値付与手段をさらに具備し、
前記処理優先度算出手段は、問合せ言語が複数のキーワードから構成される検索を実行した場合、かつ、検索処理途中において、各索引情報の結合処理を行なう場合に、前記語彙スコア値と前記処理コストと前記構造スコア値とに基づいて、各候補の処理の処理優先度を算出することを特徴とする請求項9に記載の構造化文書システム。 - コンピュータを使用して行う構造化文書方法であって、
第1取得手段が、1つの構造化文書を取得し、
第1解析手段が、前記構造化文書を解析し、
構造雛型木記憶手段が、構造化文書の典型的な構造を示す構造雛型木を予め記憶し、
更新手段が、前記構造雛型木を前記解析された構造化文書に合致するように更新し、
分割手段が、前記1つの構造化文書を複数の語彙に分割し、
第1算出手段が、前記1つの構造化文書内の要素ごとに該要素内に存在する全ての語彙に対して語彙ごとに該語彙が発生する頻度を示す発生頻度情報を算出し、
拡大手段が、前記語彙ごとに該語彙を含む範囲内で或る出現回数以上の他の該語彙が存在するまで前記範囲を拡大し、
第1付与手段が、前記拡大された範囲内で最も出現回数が多い語彙の語彙識別子を前記語彙の関連語彙識別子として付与し、
受付手段が、複数の構造化文書の部分構造から構成される新たな複合文書を生成するための問合せ言語で記述された問合せデータを受け付け、
第2解析手段が、前記問合せデータを構文解析し、
選択手段が、前記構文解析された問合せデータに含まれる、問合せの回答として要求される要求構造に類似する類似構造を持つ、構造雛型木に含まれるノードを前記構造雛型木記憶手段から複数の候補として選択し、
類似関係記憶手段が、語彙の間の類似度合いを示す類似度を複数の語彙について記憶し、
第2算出手段が、前記類似度に基づいて、前記候補ごとに該候補が前記要求構造に類似している度合いを示す構造スコア値を算出し、
第3算出手段が、少なくとも、前記候補と前記構造雛型木とを照合することに基づいて、どの順番で各候補を処理するかを示す各候補の処理コストを算出し、
第4算出手段が、少なくとも前記処理コストと前記構造スコア値とに基づいて、各候補の処理の処理優先度を算出し、該処理優先度の高い候補から順に、処理を行う選択候補として選択し、
実行手段が、前記選択候補から処理を実行し、
第2取得手段が、複数の前記処理を実行した実行結果を検索結果として取得する、ことを特徴とする構造化文書方法。 - さらに、
関連語彙識別子記憶手段が、前記語彙ごとに前記関連語彙識別子を記憶し、
第2付与手段が、前記構造雛型木の各ノードに構造雛型木識別子を付与し、
第3付与手段が、或る語彙の関連語彙識別子が最も多く発生するノードの構造雛型木識別子を該或る語彙の関連構造雛型木識別子として付与し、
関連構造雛型木識別子記憶手段が、前記語彙ごとに関連構造雛型木識別子を記憶することを特徴とする請求項11に記載の構造化文書方法。 - さらに、
第4付与手段が、前記関連語彙識別子および前記関連構造雛型木識別子にもとづいて、同一の関連語彙識別子を有する語彙と、同一の関連構造雛型木識別子を有する語彙とが一致している数が多いほど値が高くなるように複数の語彙間で正規化した値を語彙スコア値として各語彙に付与することをさらに具備し、
前記処理優先度を算出することは、問合せ言語が複数のキーワードから構成される検索を実行した場合、かつ、検索処理途中において、各索引情報の結合処理を行なう場合に、前記語彙スコア値と前記処理コストと前記構造スコア値とに基づいて、前記プランを構成する各処理の処理優先度を算出することを特徴とする請求項12に記載の構造化文書方法。 - コンピュータを、
1つの構造化文書を取得する取得手段と、
前記構造化文書を解析する構造情報解析手段と、
構造化文書の典型的な構造を示す構造雛型木を予め記憶している構造雛型木記憶手段と、
前記構造雛型木を前記解析された構造化文書に合致するように更新する更新手段と、
前記1つの構造化文書を複数の語彙に分割する分割手段と、
前記1つの構造化文書内の要素ごとに該要素内に存在する全ての語彙に対して語彙ごとに該語彙が発生する頻度を示す発生頻度情報を算出する頻度情報算出手段と、
前記語彙ごとに該語彙を含む範囲内で或る出現回数以上の他の語彙が存在するまで前記範囲を拡大する拡大手段と、
前記拡大された範囲内で最も出現回数が多い語彙の語彙識別子を前記語彙の関連語彙識別子として付与する関連語彙識別子付与手段と、
複数の構造化文書の部分構造から構成される新たな複合文書を生成するための問合せ言語で記述された問合せデータを受け付ける受付手段と、
前記問合せデータを構文解析する構文解析手段と、
前記構文解析された問合せデータに含まれる、問合せの回答として要求される要求構造に類似する類似構造を持つ、構造雛型木に含まれるノードを前記構造雛型木記憶手段から複数の候補として選択する選択手段と、
語彙の間の類似度合いを示す類似度を複数の語彙について記憶している類似関係記憶手段と、
前記類似度に基づいて、前記候補ごとに該候補が前記要求構造に類似している度合いを示す構造スコア値を算出する構造スコア値算出手段と、
少なくとも、前記候補と前記構造雛型木とを照合することに基づいて、どの順番で各候補を処理するかを示す各候補の処理コストを算出する処理コスト算出手段と、
少なくとも前記処理コストと前記構造スコア値とに基づいて、各候補の処理の処理優先度を算出し、該処理優先度の高い候補から順に、処理を行う選択候補として選択する処理優先度算出手段と、
前記選択候補から処理を実行する処理実行手段と、
複数の前記処理を実行した実行結果を検索結果として取得する結果取得手段として機能させるための構造化文書プログラム。 - 前記語彙ごとに前記関連語彙識別子を記憶している関連語彙識別子記憶手段と、
前記構造雛型木の各ノードに構造雛型木識別子を付与する構造雛型木識別子付与手段と、
或る語彙の関連語彙識別子が最も多く発生するノードの構造雛型木識別子を該或る語彙の関連構造雛型木識別子として付与する関連構造雛型木識別子付与手段と、
前記語彙ごとに関連構造雛型木識別子を記憶している関連構造雛型木識別子記憶手段と、をさらに具備することを特徴とする請求項14に記載の構造化文書プログラム。 - 前記関連語彙識別子および前記関連構造雛型木識別子にもとづいて、同一の関連語彙識別子を有する語彙と、同一の関連構造雛型木識別子を有する語彙とが一致している数が多いほど値が高くなるように複数の語彙間で正規化した値を語彙スコア値として各語彙に付与する語彙スコア値付与手段をさらに具備し、
前記処理優先度算出手段は、問合せ言語が複数のキーワードから構成される検索を実行した場合、かつ、検索処理途中において、各索引情報の結合処理を行なう場合に、前記語彙スコア値と前記処理コストと前記構造スコア値とに基づいて、前記プランを構成する各処理の処理優先度を算出することを特徴とする請求項15に記載の構造化文書プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005219165A JP4314221B2 (ja) | 2005-07-28 | 2005-07-28 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
US11/388,131 US7613602B2 (en) | 2005-07-28 | 2006-03-24 | Structured document processing apparatus, structured document search apparatus, structured document system, method, and program |
CNA2006101080668A CN1904896A (zh) | 2005-07-28 | 2006-07-27 | 结构化文档处理装置、搜索装置及结构化文档系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005219165A JP4314221B2 (ja) | 2005-07-28 | 2005-07-28 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007034827A JP2007034827A (ja) | 2007-02-08 |
JP4314221B2 true JP4314221B2 (ja) | 2009-08-12 |
Family
ID=37674160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005219165A Expired - Fee Related JP4314221B2 (ja) | 2005-07-28 | 2005-07-28 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7613602B2 (ja) |
JP (1) | JP4314221B2 (ja) |
CN (1) | CN1904896A (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4525115B2 (ja) * | 2004-03-11 | 2010-08-18 | 日本電気株式会社 | 構造化文書処理装置、構造化文書処理方法、および構造化文書処理プログラム |
US7624117B2 (en) * | 2006-06-12 | 2009-11-24 | Sap Ag | Complex data assembly identifier thesaurus |
EP2038739A4 (en) * | 2006-06-26 | 2012-05-30 | Datallegro Inc | LOAD MANAGER FOR RELATIONAL DATABASE MANAGEMENT SYSTEMS |
KR100837750B1 (ko) * | 2006-08-25 | 2008-06-13 | 엔에이치엔(주) | 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템 |
US8204898B2 (en) * | 2007-02-02 | 2012-06-19 | Telefonaktiebolaget L M Ericsson (Publ) | Multi-site common directory and method for using the multi-site common directory |
JP4398988B2 (ja) | 2007-03-26 | 2010-01-13 | 株式会社東芝 | 構造化文書を管理する装置、方法およびプログラム |
JP4352079B2 (ja) | 2007-03-28 | 2009-10-28 | 株式会社東芝 | 分散データベースから情報を検索するシステム、装置、および方法 |
US20090012984A1 (en) * | 2007-07-02 | 2009-01-08 | Equivio Ltd. | Method for Organizing Large Numbers of Documents |
US20090063465A1 (en) * | 2007-08-29 | 2009-03-05 | Yahoo! Inc. | System and method for string processing and searching using a compressed permuterm index |
US8090724B1 (en) | 2007-11-28 | 2012-01-03 | Adobe Systems Incorporated | Document analysis and multi-word term detector |
US8316041B1 (en) * | 2007-11-28 | 2012-11-20 | Adobe Systems Incorporated | Generation and processing of numerical identifiers |
US7822773B2 (en) * | 2008-01-25 | 2010-10-26 | International Business Machines Corporation | Method and system for reducing complex tree structures to simple tree structures based on relevance of nodes using threshold values |
US8538989B1 (en) * | 2008-02-08 | 2013-09-17 | Google Inc. | Assigning weights to parts of a document |
JP2009199280A (ja) * | 2008-02-21 | 2009-09-03 | Hitachi Ltd | 部分構文木プロファイルを用いた類似性検索システム |
JP5060345B2 (ja) * | 2008-02-29 | 2012-10-31 | 株式会社東芝 | データベース処理装置、情報処理方法及びプログラム |
KR100978581B1 (ko) * | 2008-05-08 | 2010-08-27 | 엔에이치엔(주) | 웹 페이지 열람 중에 편리하게 사전 서비스를 제공하기위한 방법 및 시스템 |
CN102053989A (zh) * | 2009-10-30 | 2011-05-11 | 国际商业机器公司 | 用于确定要被物化的节点的方法和系统 |
CN101820444B (zh) * | 2010-03-24 | 2012-05-02 | 北京航空航天大学 | 一种基于描述信息匹配相似度的资源服务匹配与搜索方法 |
CN101807211B (zh) * | 2010-04-30 | 2012-07-25 | 南开大学 | 一种面向海量小规模xml文档融合路径约束的xml检索方法 |
JP5515117B2 (ja) * | 2010-06-11 | 2014-06-11 | 株式会社日立製作所 | データ処理装置 |
US9633332B2 (en) | 2010-07-13 | 2017-04-25 | Hewlett Packard Enterprise Development Lp | Generating machine-understandable representations of content |
US20130155463A1 (en) * | 2010-07-30 | 2013-06-20 | Jian-Ming Jin | Method for selecting user desirable content from web pages |
US8972260B2 (en) * | 2011-04-20 | 2015-03-03 | Robert Bosch Gmbh | Speech recognition using multiple language models |
CN102214244A (zh) * | 2011-07-07 | 2011-10-12 | 深圳市万兴软件有限公司 | docx文件信息解析方法及系统 |
JP5862260B2 (ja) * | 2011-12-09 | 2016-02-16 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN103176956B (zh) * | 2011-12-21 | 2016-08-03 | 北大方正集团有限公司 | 用于提取文档结构的方法和装置 |
JP5695586B2 (ja) * | 2012-02-24 | 2015-04-08 | 株式会社日立製作所 | Xml文書検索装置及びプログラム |
US20150302050A1 (en) * | 2012-05-24 | 2015-10-22 | Iqser Ip Ag | Generation of requests to a data processing system |
US20130325531A1 (en) * | 2012-05-30 | 2013-12-05 | Bart-Jan Van Putten | Business case development by dynamically reusing business case components |
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
JP5921379B2 (ja) | 2012-08-10 | 2016-05-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | テキスト処理方法、システム及びコンピュータ・プログラム。 |
US9208254B2 (en) * | 2012-12-10 | 2015-12-08 | Microsoft Technology Licensing, Llc | Query and index over documents |
US9471559B2 (en) * | 2012-12-10 | 2016-10-18 | International Business Machines Corporation | Deep analysis of natural language questions for question answering system |
US8893294B1 (en) * | 2014-01-21 | 2014-11-18 | Shape Security, Inc. | Flexible caching |
US10042928B1 (en) | 2014-12-03 | 2018-08-07 | The Government Of The United States As Represented By The Director, National Security Agency | System and method for automated reasoning with and searching of documents |
US11144565B2 (en) * | 2014-12-15 | 2021-10-12 | Inter-University Research Institute Corporation Research Organization Of Information And Systems | Information extraction apparatus, information extraction method, and information extraction program |
US9389909B1 (en) * | 2015-04-28 | 2016-07-12 | Zoomdata, Inc. | Prioritized execution of plans for obtaining and/or processing data |
US10140335B2 (en) * | 2015-11-18 | 2018-11-27 | Sap Se | Calculation scenarios with extended semantic nodes |
CN108509453B (zh) * | 2017-02-27 | 2021-02-09 | 华为技术有限公司 | 一种信息处理方法及装置 |
CN107145584B (zh) * | 2017-05-10 | 2020-06-19 | 西南科技大学 | 一种基于n-gram模型的简历解析方法 |
US11029934B2 (en) * | 2017-12-15 | 2021-06-08 | Uniquesoft, Llc | Method and system for updating legacy software |
CN109872119B (zh) * | 2019-01-17 | 2024-10-25 | 平安科技(深圳)有限公司 | 项目信息管理方法、装置、计算机设备和存储介质 |
US11416526B2 (en) * | 2020-05-22 | 2022-08-16 | Sap Se | Editing and presenting structured data documents |
CN111916165A (zh) * | 2020-08-18 | 2020-11-10 | 泰康保险集团股份有限公司 | 用于评估量表的相似性评估方法及装置 |
WO2022079856A1 (ja) | 2020-10-15 | 2022-04-21 | 日本電信電話株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
CN112364051B (zh) * | 2020-11-25 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 一种数据查询方法及装置 |
CN112580309B (zh) * | 2020-12-22 | 2023-08-04 | 深圳平安智慧医健科技有限公司 | 文档数据处理方法、装置、计算机设备及存储介质 |
CN112818111B (zh) * | 2021-01-28 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、电子设备和介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3607462B2 (ja) | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
US6240407B1 (en) * | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
JP3754253B2 (ja) * | 1999-11-19 | 2006-03-08 | 株式会社東芝 | 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム |
JP4200645B2 (ja) | 2000-09-08 | 2008-12-24 | 日本電気株式会社 | 情報処理装置、情報処理方法および記録媒体 |
JP3842577B2 (ja) | 2001-03-30 | 2006-11-08 | 株式会社東芝 | 構造化文書検索方法および構造化文書検索装置およびプログラム |
US6832219B2 (en) * | 2002-03-18 | 2004-12-14 | International Business Machines Corporation | Method and system for storing and querying of markup based documents in a relational database |
CA2485554A1 (en) * | 2002-05-14 | 2003-11-27 | Verity, Inc. | Searching structured, semi-structured, and unstructured content |
JP4261876B2 (ja) | 2002-11-11 | 2009-04-30 | 株式会社ジャストシステム | 統計装置、検索装置、プログラム、統計方法、検索方法 |
JP4245364B2 (ja) | 2003-02-03 | 2009-03-25 | 株式会社リコー | キーワード抽出装置、プログラム、及び記録媒体 |
JP4247108B2 (ja) | 2003-12-25 | 2009-04-02 | 株式会社東芝 | 構造化文書検索方法、構造化文書検索装置、及びプログラム |
JP4247135B2 (ja) * | 2004-02-10 | 2009-04-02 | 株式会社東芝 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
US7370061B2 (en) * | 2005-01-27 | 2008-05-06 | Siemens Corporate Research, Inc. | Method for querying XML documents using a weighted navigational index |
-
2005
- 2005-07-28 JP JP2005219165A patent/JP4314221B2/ja not_active Expired - Fee Related
-
2006
- 2006-03-24 US US11/388,131 patent/US7613602B2/en active Active
- 2006-07-27 CN CNA2006101080668A patent/CN1904896A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20070027671A1 (en) | 2007-02-01 |
CN1904896A (zh) | 2007-01-31 |
JP2007034827A (ja) | 2007-02-08 |
US7613602B2 (en) | 2009-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4314221B2 (ja) | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム | |
JP3842577B2 (ja) | 構造化文書検索方法および構造化文書検索装置およびプログラム | |
US9424294B2 (en) | Method for facet searching and search suggestions | |
US9171065B2 (en) | Mechanisms for searching enterprise data graphs | |
US9015150B2 (en) | Displaying results of keyword search over enterprise data | |
JP3754253B2 (ja) | 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム | |
JP4644420B2 (ja) | ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置 | |
US20040044659A1 (en) | Apparatus and method for searching and retrieving structured, semi-structured and unstructured content | |
US20040221229A1 (en) | Data structures related to documents, and querying such data structures | |
JP4146479B2 (ja) | 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム | |
JP2000020537A (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US20060015809A1 (en) | Structured-document management apparatus, search apparatus, storage method, search method and program | |
JP2004310561A (ja) | 情報検索方法、情報検索システム及び検索サーバ | |
EP2240875A1 (en) | Method and system for navigation of a data structure | |
JP2009251845A (ja) | 検索結果評価装置及び検索結果評価方法 | |
JP2002297601A (ja) | 構造化文書管理方法および構造化文書管理装置およびプログラム | |
JP2008243075A (ja) | 構造化文書管理装置及び方法 | |
JP3842574B2 (ja) | 情報抽出方法および構造化文書管理装置およびプログラム | |
JP2016085580A (ja) | 文書情報管理システム、文書情報管理方法、及びプログラム | |
Lim et al. | WebView: A tool for retrieving internal structures and extracting information from HTML documents | |
JP5439606B1 (ja) | 構造化文書管理装置、方法およびプログラム | |
JP2004118543A (ja) | 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム | |
JP2006018584A (ja) | 構造化文書管理システム、値索引生成方法及びプログラム | |
Senthilkumar et al. | Efficiently Querying the Indexed Compressed XML Data (IQX) | |
JP2002297604A (ja) | 情構造化文書検索方法および構造化文書検索装置および構造化文書管理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080909 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090421 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090518 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4314221 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140522 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |