JP4860416B2 - 文書検索装置、文書検索方法および文書検索プログラム - Google Patents
文書検索装置、文書検索方法および文書検索プログラム Download PDFInfo
- Publication number
- JP4860416B2 JP4860416B2 JP2006267888A JP2006267888A JP4860416B2 JP 4860416 B2 JP4860416 B2 JP 4860416B2 JP 2006267888 A JP2006267888 A JP 2006267888A JP 2006267888 A JP2006267888 A JP 2006267888A JP 4860416 B2 JP4860416 B2 JP 4860416B2
- Authority
- JP
- Japan
- Prior art keywords
- tag set
- expression
- path expression
- tag
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一方「/提案/*/集約処理」というXPath式は、「<提案>タグから2階層下位の階層に<集約処理>タグが出現する全てのパス」という経路条件を意味する。上記した3つの経路式のうちでは「/提案/内容/集約処理」だけがこの経路条件に適合する。
上記したような省略記号を含む不完全な経路式が入力されたとき、その経路式によって示される経路条件に適合するデータを検索できれば便利である。以下、省略記号を含むなどの理由により、検索対象となるデータの位置を一意に特定するには不充分な経路式のことを「部分経路式」とよび、省略記号を含まない経路式のことを「完全経路式」とよぶ。
この装置は、構造化文書ファイルにおいて階層的に上下関係にあるタグセットと、経路式の一部にそのタグセットを含む1以上の位置とを対応づけたインデックス情報を保持する。この装置は、部分経路式の入力を受け付けると、インデックス情報を参照して、部分経路式に含まれるタグセットが経路式の一部としてあらわれる位置を検索対象位置の候補位置として特定する。
ユーザが文書検索装置100に対して経路式を入力すると、文書検索装置100は経路式に適合するデータを文書データベース200から検索する。文書データベース200の文書ファイルは、XML文書やXHTML文書のようにタグによって構造化された構造化文書ファイルである。本実施例においては、検索対象となる文書ファイルはXMLファイルであるとして説明する。
同図に示すXML文書210を対象として本実施例を説明する。文書データベース200の各文書ファイルには文書IDが付与される。同図に示すXML文書210の文書IDは「1」であるとする。文書IDとは、文書データベース200において文書ファイルを一意に識別するためのIDである。このXML文書210は、アイディア提案書に関するXML文書であり、<提案>や<発案者>など複数のタグを含む。文書位置欄212は、XML文書210に含まれるさまざまなデータの位置を示す。たとえば、<提案>タグのこの文書における文書位置は「1」であり、</集約処理>タグの文書位置は「16」である。また、<発案者>タグの内容データである文字列”竹内真教”の文書位置は「3」である。文書位置は、タグ、属性、コメント、タグの内容となるデータごとに割り当てられ、文書ごとに一意の値となる。
以下においては説明を簡単にするため、タグに対する文書位置を中心として説明する。
完全経路インデックス214は、インデックス保持部130に格納される。経路欄216は、文書データベース200に含まれる経路式の一覧である。経路欄216には図2に示した文書ID=1の文書に含まれる経路式だけでなく、その他の文書に含まれる経路式も含まれる。経路ID欄218は、経路欄216に示す経路の経路IDを示す。経路IDは、経路式を示す文字列を所定規則により変換した数値列である。ハッシュ関数により変換してもよいし、所定のテーブルによって変換してもよいが、いずれにしても、各経路式が実用上差し支えない程度に一意に識別される値であればよい。
経路欄216には、実際には経路式を示す文字列がそのまま格納されるのではなく、経路式を数値表現したデータ(以下、特に区別するときには「数値経路式」とよぶ)が格納される。数値経路式は、実際の経路とは逆順に経路を示す。
数値経路式においては、まず、末端ノードである文字列”竹内真教”を示す4バイトの数値「4857」が先頭にくる。「4857」は所定の変換規則により文字列”竹内真教”を変換することにより得られる数値である。
次の1バイトは、末端ノードの種別を示す。種別は、要素:1、属性:2、テキスト:3、処理命令(PI:Processing Instruction):7、コメント:8のいずれかである。文字列”竹内真教”は、「/提案/発案者/」の内容を示すテキストなので、種別は「3」となる。
次に、<発案者>を示す4バイトの数値「0102」が続く。「0102」も所定の変換規則により文字列”発案者”を変換することにより得られる数値である。<提案>を示す数値は「0881」となる。数値経路式に含まれる各数値は、経路式の構成要素となる「提案」や「竹内真教」などの文字列を一意に識別できる数値であればよい。
以上により、「/提案/発案者/”竹内真教”」という経路式は、経路欄216においては「4857301020881」という13バイトの数値経路式として表される。
完全経路式として「/提案/内容/処理/前処理/集約処理」が入力されたとする。文書検索装置100は、まず、この完全経路式を上述した方法により、数値経路式に変換する。この数値経路式と完全経路インデックス214の経路欄216における数値経路式を比較することにより、経路ID=8、範囲データ[1、14、16]を検出する。数値経路式同士のマッチングにより検出するため、文字列表現の経路式を比較するよりも高速な検索処理が可能である。
部分経路式として「//構成」が入力されたとする。完全な経路がわからないので、文書検索装置100は、末端ノードの「構成」を数値表現に変換する。このとき、文書検索装置100は、「構成」を示す4バイトの数値と経路欄216の数値経路式の先頭4バイトを比較することにより、経路ID=5、範囲データ[1、9、11]を検出する。部分経路式においては、末端ノードがわかるがその上位ノードがわからないことが多い。本来の経路式の逆順となるように数値経路式を構成することにより、部分経路式の末端ノードだけである程度、検索対象データの候補を絞り込むことができる。
インデックス保持部130は、完全経路インデックス214に加えて部分経路インデックス230も格納している。キー欄226は、部分経路インデックス230において検索のキー(Key)となる2つのタグ(以下、「キータグセット」とよぶ)か、1つのタグ(以下、「キータグ」とよぶ)を示す。キータグセットとキータグを併せていうときには単に「キー」とよぶ。キータグセットとは、文書中のタグの階層として直接の上下関係にあるタグの組み合わせを示す。たとえば、XML文書210では<構成>タグの直接の親タグは<内容>なので、「内容/構成」はキータグセットとなる。しかし、<提案>タグや<課題>タグは<構成>タグの直接の親タグではないので「提案/構成」や「課題/構成」はキータグセットとはならない。これに対し、文書に含まれる全てのタグがキータグとなることができる。部分経路インデックス230は、文書データベース200に含まれる全ての文書に含まれるキーを対象としたデータである。
1.経路式に「内容/処理」、「集約処理」を含む。
2.「内容/処理」と「集約処理」の間には何らかの1階層がある、いいかえれば、<内容>から3階層下位に<集約処理>が出現する。
まず、部分経路式から、タグセット「内容/処理」、タグ「集約処理」を抽出する。
キータグ「集約処理」の位置インデックスは、「8、5」、「12、4」の2つである。すなわち、キータグ「集約処理」に関する候補位置は2箇所である。
このように、部分経路インデックス230によれば、不完全な部分検索式が入力されたときに文書データベース200のXML文書自体を経路解析する必要がなくなる。また、完全経路インデックス214の経路欄216から経路条件に整合する経路式を直接探すよりも、候補位置を効率的に絞り込むことができる。部分経路インデックス230を使った検索は、XML文書のタグ階層が深くなるときや検索対象となる文書数が多いときには特に有効な検索方法である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
ユーザインタフェース処理部110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。本実施例においては、ユーザインタフェース処理部110により文書検索装置100のユーザインタフェースサービスが提供されるものとして説明する。別例として、ユーザはインターネットを介して文書検索装置100を操作してもよい。この場合、図示しない通信部が、ユーザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処理結果情報をユーザ端末に送信することになる。
経路分解部122は、部分経路式やXML文書の経路情報を解析する。部分抽出部128は、部分経路式やXML文書からタグやタグセットを抽出する。ID変換部132は、経路式やキーを数値表現に変換する。また、ID変換部132は、経路式から経路IDを生成する。登録部126は、新たなXML文書が文書データベース200に追加されるとき、その文書についてのデータを完全経路インデックス214と部分経路インデックス230に登録する。
部分経路式による検索に際しては、部分抽出部128が部分経路式からキーを抽出し、ID変換部132がキーを数値表現形式のキーIDに変換する。位置特定部134は、このキーIDに基づいて部分経路インデックス230から候補位置を特定する。範囲特定部136は、位置特定部134が特定した候補位置から、範囲データを特定する。結果は、表示部114により画面表示される。
まず、入力部112が部分経路式の入力を受け付ける(S10)。部分抽出部128は、部分検索式から1以上のキーとなるタグセットやタグを抽出する(S12)。ここでは、先ほどの「//内容/処理/*/集約処理」という部分検索式が入力され、キータグセット「内容/処理」とキータグ「集約処理」が抽出されたとする。抽出されたキーは、ID変換部132によってキーIDに変換される。位置特定部134は、部分経路インデックス230を参照して、キーIDから候補位置を特定する(S14)。キータグセット「内容/処理」の位置インデックスであれば、「6、2」、「7、2」、「8、2」、「11、2」、「12、2」の5つの位置インデックスが特定される。
これら請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
Claims (8)
- タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルにおいて、階層的に上下関係にあるタグの組み合わせであるタグセットと、経路式の一部にそのタグセットを含む1以上の位置とを対応づけたインデックス情報を保持するインデックス保持部と、
前記構造化文書ファイルにおける検索対象位置への経路式の一部を示す部分経路式の入力を受け付ける経路式入力部と、
前記部分経路式から階層的に上下関係にあるタグセットを抽出するタグセット抽出部と、
前記インデックス情報を参照して、前記部分経路式から抽出されたタグセットが経路式の一部としてあらわれる位置を前記検索対象位置の候補位置として特定する候補位置特定部と、
を備えることを特徴とする文書検索装置。 - タグセットとは、階層的に直接の上下関係にある2つのタグの組み合わせであることを特徴とする請求項1に記載の文書検索装置。
- 前記タグセット抽出部が、前記部分経路式から第1のタグセットと第2のタグセットを抽出したとき、
前記候補位置特定部は、前記第1のタグセットについての候補位置と前記第2のタグセットについての候補位置を比較して互いに整合する位置を、前記検索対象位置の候補位置として特定することを特徴とする請求項1または2に記載の文書検索装置。 - 前記タグセット抽出部が、前記第1のタグセットを前記第2のタグセットよりも階層的に上位のタグセットとして検出したとき、
前記候補位置特定部は、前記第1のタグセットと前記第2のタグセットの前記部分経路式における階層上の距離と、前記第1のタグセットについての候補位置と前記第2のタグセットについての候補位置との距離が整合する位置を、前記検索対象位置の候補位置として特定することを特徴とする請求項3に記載の文書検索装置。 - 前記インデックス保持部は、更に、前記構造化文書ファイルに含まれるタグと、経路式の一部にそのタグを含む1以上の位置とをインデックス情報の一部として対応づけて保持し、
前記タグセット抽出部は、前記部分経路式から特定タグを抽出し、
前記候補位置特定部は、前記インデックス情報を参照して、前記部分経路式から抽出された特定タグが経路式の一部としてあらわれる位置を前記特定タグについての候補位置として検出すると共に、前記部分経路式から抽出されたタグセットの候補位置と前記特定タグについての候補位置を比較して互いに整合する位置を、前記検索対象位置の候補位置として特定することを特徴とする請求項1から4のいずれかに記載の文書検索装置。 - 前記インデックス保持部は、タグセットを所定規則にしたがって所定長の文字列に変換したタグセットIDと、経路式の一部にそのタグセットを含む1以上の位置を対応づけてインデックス情報として保持し、
前記候補位置特定部は、前記部分経路式から抽出されたタグセットを前記所定規則にしたがってタグセットIDに変換した上で、候補位置を特定することを特徴とする請求項1から5のいずれかに記載の文書検索装置。 - コンピュータに備えられた候補位置特定部が、タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルにおいて、階層的に上下関係にあるタグの組み合わせであるタグセットと、経路式の一部にそのタグセットを含む1以上の位置とを対応づけたインデックス情報を保持するインデックス保持部から、前記インデックス情報を取得するステップと、
コンピュータに備えられた経路式入力部が、前記構造化文書ファイルにおける検索対象位置への経路式の一部を示す部分経路式の入力を受け付けるステップと、
コンピュータに備えられたタグセット抽出部が、前記部分経路式から階層的に上下関係にあるタグセットを抽出するステップと、
前記候補位置特定部が、前記インデックス情報を参照して、前記部分経路式から抽出されたタグセットが経路式の一部としてあらわれる位置を前記検索対象位置の候補位置として特定するステップと、
を備えることを特徴とする文書検索方法。 - コンピュータを、
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルにおいて、階層的に上下関係にあるタグの組み合わせであるタグセットと、経路式の一部にそのタグセットを含む1以上の位置とを対応づけたインデックス情報を保持するインデックス保持部、
前記構造化文書ファイルにおける検索対象位置への経路式の一部を示す部分経路式の入力を受け付ける経路式入力部、
前記経路式入力部が受け付けた前記部分経路式から階層的に上下関係にあるタグセットを抽出するタグセット抽出部、
前記インデックス保持部に保持された前記インデックス情報を参照して、前記タグセット抽出部により前記部分経路式から抽出されたタグセットが経路式の一部としてあらわれる位置を前記検索対象位置の候補位置として特定する候補位置特定部、
として機能させるための文書検索プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006267888A JP4860416B2 (ja) | 2006-09-29 | 2006-09-29 | 文書検索装置、文書検索方法および文書検索プログラム |
US12/442,835 US20100100544A1 (en) | 2006-09-29 | 2007-09-28 | Document searching device, document searching method, and document searching program |
PCT/JP2007/001065 WO2008041366A1 (fr) | 2006-09-29 | 2007-09-28 | Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006267888A JP4860416B2 (ja) | 2006-09-29 | 2006-09-29 | 文書検索装置、文書検索方法および文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008090403A JP2008090403A (ja) | 2008-04-17 |
JP4860416B2 true JP4860416B2 (ja) | 2012-01-25 |
Family
ID=39268232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006267888A Expired - Fee Related JP4860416B2 (ja) | 2006-09-29 | 2006-09-29 | 文書検索装置、文書検索方法および文書検索プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100100544A1 (ja) |
JP (1) | JP4860416B2 (ja) |
WO (1) | WO2008041366A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009295013A (ja) * | 2008-06-06 | 2009-12-17 | Hitachi Ltd | データベース管理方法、データベース管理装置およびプログラム |
JP5191441B2 (ja) * | 2009-05-14 | 2013-05-08 | 日本電信電話株式会社 | インデクス構築方法及び装置及び情報検索方法及び装置及びプログラム |
US20120130999A1 (en) * | 2009-08-24 | 2012-05-24 | Jin jian ming | Method and Apparatus for Searching Electronic Documents |
JP5084895B2 (ja) * | 2010-11-18 | 2012-11-28 | ヤフー株式会社 | テキストデータ読出装置、方法及びプログラム |
WO2013038519A1 (ja) * | 2011-09-14 | 2013-03-21 | 株式会社マイニングブラウニー | ウェブページ解析装置およびウェブページ解析用プログラム |
US11487707B2 (en) * | 2012-04-30 | 2022-11-01 | International Business Machines Corporation | Efficient file path indexing for a content repository |
US8914356B2 (en) | 2012-11-01 | 2014-12-16 | International Business Machines Corporation | Optimized queries for file path indexing in a content repository |
US9323761B2 (en) | 2012-12-07 | 2016-04-26 | International Business Machines Corporation | Optimized query ordering for file path indexing in a content repository |
JP6163854B2 (ja) * | 2013-04-30 | 2017-07-19 | 富士通株式会社 | 検索制御装置、検索制御方法、生成装置および生成方法 |
JP5954742B2 (ja) | 2013-07-23 | 2016-07-20 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文書を検索する装置及び方法 |
JP6900956B2 (ja) * | 2016-11-28 | 2021-07-14 | 富士通株式会社 | 検証プログラム、検証装置、検証方法、インデックス生成プログラム、インデックス生成装置およびインデックス生成方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3692764B2 (ja) * | 1998-02-25 | 2005-09-07 | 株式会社日立製作所 | 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体 |
JP4045400B2 (ja) * | 2001-08-24 | 2008-02-13 | 富士ゼロックス株式会社 | 検索装置及び検索方法 |
US7877400B1 (en) * | 2003-11-18 | 2011-01-25 | Adobe Systems Incorporated | Optimizations of XPaths |
WO2005101246A1 (en) * | 2004-04-09 | 2005-10-27 | Oracle International Corporation | Index for accessing xml data |
JP2006185408A (ja) * | 2004-11-30 | 2006-07-13 | Matsushita Electric Ind Co Ltd | データベース構築装置及びデータベース検索装置及びデータベース装置 |
US7370061B2 (en) * | 2005-01-27 | 2008-05-06 | Siemens Corporate Research, Inc. | Method for querying XML documents using a weighted navigational index |
JP4374014B2 (ja) * | 2006-11-21 | 2009-12-02 | 株式会社日立製作所 | インデクス生成装置及びそのプログラム |
US8161035B2 (en) * | 2009-06-04 | 2012-04-17 | Oracle International Corporation | Query optimization by specifying path-based predicate evaluation in a path-based query operator |
-
2006
- 2006-09-29 JP JP2006267888A patent/JP4860416B2/ja not_active Expired - Fee Related
-
2007
- 2007-09-28 US US12/442,835 patent/US20100100544A1/en not_active Abandoned
- 2007-09-28 WO PCT/JP2007/001065 patent/WO2008041366A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2008090403A (ja) | 2008-04-17 |
WO2008041366A1 (fr) | 2008-04-10 |
US20100100544A1 (en) | 2010-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4860416B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
US9619448B2 (en) | Automated document revision markup and change control | |
US6889223B2 (en) | Apparatus, method, and program for retrieving structured documents | |
US7975220B2 (en) | Apparatus, program product and method for structured document management | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
KR100638695B1 (ko) | 구조화 문서의 데이터를 검색하는 장치 및 방법 | |
US20100169311A1 (en) | Approaches for the unsupervised creation of structural templates for electronic documents | |
TW201250492A (en) | Method and system of extracting web page information | |
JP5413198B2 (ja) | ユーザインタフェース認識装置、ユーザインタフェース認識方法およびプログラム | |
JP2007249322A (ja) | 文書視覚化装置及び文書視覚化プログラム | |
JP2008090404A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
TW201415254A (zh) | 語意標註建議方法及其系統 | |
JP3832693B2 (ja) | 構造化文書検索表示方法及び装置 | |
JP2005190163A (ja) | 構造化データ検索方法、構造化データ検索装置およびプログラム | |
CN112699642A (zh) | 复杂医疗文书的索引提取方法及装置、介质及电子设备 | |
JP5380874B2 (ja) | 情報検索方法、プログラム及び装置 | |
JP2008026964A (ja) | 検索処理装置及びプログラム | |
JP5379416B2 (ja) | 言語処理装置および言語処理方法 | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム | |
Kobayashi et al. | Dataset Construction for Scientific-Document Writing Support by Extracting Related Work Section and Citations from PDF Papers | |
JP5652519B2 (ja) | 情報検索方法、プログラム及び装置 | |
JP4352840B2 (ja) | プログラム、データ処理方法およびデータ処理システム | |
CN116362223B (zh) | 一种网页文章标题和正文的自动识别方法及装置 | |
JP3937944B2 (ja) | 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2007317131A (ja) | 文書管理方法及び文書検索方法及び装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111102 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |