JP5488424B2 - Information processing apparatus, control method therefor, and program - Google Patents
Information processing apparatus, control method therefor, and program Download PDFInfo
- Publication number
- JP5488424B2 JP5488424B2 JP2010261663A JP2010261663A JP5488424B2 JP 5488424 B2 JP5488424 B2 JP 5488424B2 JP 2010261663 A JP2010261663 A JP 2010261663A JP 2010261663 A JP2010261663 A JP 2010261663A JP 5488424 B2 JP5488424 B2 JP 5488424B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- character string
- partial character
- registered
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 130
- 230000010365 information processing Effects 0.000 title claims description 28
- 238000004364 calculation method Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 description 117
- 239000000872 buffer Substances 0.000 description 70
- 238000012545 processing Methods 0.000 description 66
- 238000011156 evaluation Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012804 iterative process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000017105 transposition Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置、及びその制御方法、プログラムに関し、特に、登録された電子文書の中から、入力された電子文書内の文字列と近似する文字列を含む電子文書を検出する技術に関する。 The present invention relates to an information processing apparatus, a control method therefor, and a program, and more particularly, to a technique for detecting an electronic document including a character string that approximates a character string in an input electronic document from registered electronic documents. .
コンピュータおよびインターネットの普及により、電子文書を取り扱う機会は日々増加している。しかし電子文書は複製が容易なため、電子的な情報漏洩や著作権侵害など様々な問題が多く発生している。 With the spread of computers and the Internet, opportunities to handle electronic documents are increasing day by day. However, since electronic documents can be easily copied, various problems such as electronic information leakage and copyright infringement have occurred.
情報漏洩に関しては、近年DLP(Data Leak Prevention)といった製品が注目されている。DLPはネットワーク上やクライアントPC上に設置される情報漏洩対策の製品であり、予め設定された機密文書を特徴付ける条件に基づき、機密文書の外部への送信を制御することができる。 With regard to information leakage, products such as DLP (Data Leak Prevention) have recently attracted attention. DLP is an information leakage countermeasure product installed on a network or on a client PC, and can control transmission of confidential documents to the outside based on conditions that characterize the confidential documents set in advance.
従前より、送受信者や本文中のキーワードなどにより条件を設定しており煩雑な作業が必要であったが、最近は機密文書そのものを登録し、登録した機密文書またはその派生文書が送信されるのを制御する機能を持った製品が現れている。また、大学などでのレポート作成において、インターネット上の文書から部分的に複製を取得し、組み合わせることによりレポートを作成することが問題となっており、これらを検出する製品も登場している。 Previously, conditions were set according to the sender / receiver and keywords in the text and complicated work was required, but recently, confidential documents themselves are registered, and registered confidential documents or their derivative documents are sent. Products with a function to control In addition, when creating reports at universities and the like, it is a problem to create a report by partially copying and combining them from documents on the Internet, and products that detect these have also appeared.
このような製品の実現には、特定の文書に対して、まったく同一の内容を持つ文書だけでなく、部分的な複製や、小規模な編集などにより派生した問合せ文書に近似する文書を見つけ出す技術が必要とされる。 In order to realize such a product, not only a document with exactly the same content as a specific document, but also a technique for finding a document that approximates a query document derived by partial duplication or small-scale editing. Is needed.
従来より指定された文書に似た文書を検索する技術としては、文書の構成要素の一致度合により類似度を算出する類似文検索や、2つの文書を構成する文字列の直接比較することで文書の近似を判定できるDPマッチングなどがある。 Conventionally, as a technique for searching for a document similar to a specified document, a similar sentence search for calculating a similarity based on a matching degree of a component of a document, or a direct comparison of character strings constituting two documents is used. There is DP matching that can determine the approximation of.
特許文献1および特開文献2において、連接文字の出現位置に対する転置インデックスを用いて、検索語との一致度合に応じて検索を行う方法が開示されている。
また、特許文献3においては、文書の構成要素をハッシュ値に変換して縮約した文字列(フィンガープリント)で表現し、フィンガープリントの比較により問合せ文書との一致度合の高い文書を検索する方法が開示されている。
Also, in
しかし、従来の類似文検索では、基本的に文書の構成要素の一致度合により類似度を算出しており、構成要素の順序や位置関係は考慮されておらず、同じような構成要素含めば、記述が大きく異なる文書であっても検出してしまうという問題がある。 However, in the conventional similar sentence search, the similarity is basically calculated based on the degree of coincidence of the components of the document, the order and positional relationship of the components are not considered, and if similar components are included, There is a problem in that even documents with greatly different descriptions are detected.
またDPマッチングなどを用いると、2つの文書を構成する文字列の直接比較により文書の近似度合を求めることができるが、検出の対象となる文書が多くなると、文書数に比例して比較回数が増え、処理時間が増大するという問題がある。 When DP matching or the like is used, the degree of approximation of documents can be obtained by direct comparison of character strings constituting two documents. However, when the number of documents to be detected increases, the number of comparisons increases in proportion to the number of documents. There is a problem that the processing time increases.
さらに特許文献1及び特許文献2で開示されている方法は短い検索語を対象としたもので、検索語を構成する全ての連接文字列について評価を行うため、検索語が長くなると処理量が増大し、検索処理の時間が長くなるという問題がある。
Furthermore, the methods disclosed in
特許文献3においては、フィンガープリントの生成の際、特徴的な構成要素のみを対象とし、比較箇所を削減することで高速化を図っているが、比較箇所の選択基準がそれぞれの文書ごとの統計値に基づいており、登録文書と問合せ文書(検索語となる文字列を含む文書)で基準が異なっているため、異なる構成要素について比較してしまう可能性がある。特に検索対象となる文書の一部しか含まない文書を問合せ文書とする場合については問題が顕著となる。
In
本発明は上記の課題を解決するためになされたものであり、問合せ文書を構成する部分文字列と、同じ位置関係を有する、登録文書内の部分文字列の数に従って、登録文書と問合せ文書との近似度合を算出することで、精度良く近似する登録文書を決定する仕組みを提供することを目的とする。 The present invention has been made in order to solve the above-described problem, and according to the number of partial character strings in the registered document having the same positional relationship as the partial character strings constituting the query document, An object of the present invention is to provide a mechanism for determining a registered document to be approximated with high accuracy by calculating the degree of approximation.
本発明は、指定された文書を示す問合せ文書の近似対象となる文書を示す登録文書に含まれる文章を分解することにより得られる部分文字列と、前記登録文書における当該部分文字列の位置と、を記憶する記憶手段を備え、指定される前記問合せ文書に近似する前記登録文書を決定する情報処理装置であって、前記問合せ文書を分解することにより得られる部分文字列と同じ部分文字列であって、前記記憶手段に記憶された登録文書に含まれる部分文字列を取得する部分文字列取得手段と、前記問合せ文書に対する前記部分文字列の位置及び前記部分文字列取得手段によって取得した登録文書に対する部分文字列の位置から求まる、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の同じ位置関係を有するその部分文字列の数を用いて、前記登録文書と前記問合せ文書との近似度合を算出する算出手段と、前記算出手段による算出結果に従って、問合せ文書に近似する登録文書を決定する決定手段と、を備えることを特徴とする。 The present invention provides a partial character string obtained by decomposing a sentence included in a registered document indicating a document to be approximated to an inquiry document indicating a designated document, a position of the partial character string in the registered document, An information processing apparatus for determining the registered document that approximates the designated query document, wherein the partial character string is the same as the partial character string obtained by decomposing the query document. A partial character string acquisition unit for acquiring a partial character string included in the registered document stored in the storage unit, a position of the partial character string with respect to the inquiry document, and a registration document acquired by the partial character string acquisition unit obtained from the position of the partial character string, the portion having a partial string to substrings with the registered document to the inquiry documents, the same positional relationship A calculating unit that calculates the degree of approximation between the registered document and the query document using the number of character strings; and a determining unit that determines a registered document that approximates the query document according to a calculation result by the calculating unit. It is characterized by that.
また、本発明は、指定された文書を示す問合せ文書の近似対象となる文書を示す登録文書に含まれる文章を分解することにより得られる部分文字列と、前記登録文書における当該部分文字列の位置と、を記憶する記憶手段を備え、指定される前記問合せ文書に近似する前記登録文書を決定する情報処理装置の制御方法であって、前記情報処理装置の部分文字列取得手段が、前記問合せ文書を分解することにより得られる部分文字列と同じ部分文字列であって、前記記憶手段に記憶された登録文書に含まれる部分文字列を取得する部分文字列取得工程と、前記情報処理装置の算出手段が、前記問合せ文書に対する前記部分文字列の位置及び前記部分文字列取得工程によって取得した登録文書に対する部分文字列の位置から求まる、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の同じ位置関係を有するその部分文字列の数を用いて、前記登録文書と前記問合せ文書との近似度合を算出する算出工程と、前記情報処理装置の決定手段が、前記算出工程による算出結果に従って、問合せ文書に近似する登録文書を決定する決定工程と、を備えることを特徴とする。 The present invention also provides a partial character string obtained by decomposing a sentence included in a registered document indicating a document to be approximated by an inquiry document indicating a specified document, and the position of the partial character string in the registered document. And an information processing apparatus control method for determining the registered document that approximates the designated inquiry document, wherein the partial character string acquisition means of the information processing apparatus includes the inquiry document. A partial character string that is the same as the partial character string obtained by decomposing the character string, and that includes the partial character string included in the registered document stored in the storage unit; and the calculation of the information processing apparatus The query statement is obtained from a position of the partial character string with respect to the query document and a position of the partial character string with respect to the registered document acquired by the partial character string acquisition step. A calculation step of using the number of the partial strings having a partial string to substrings with the registered document, the same positional relationship, to calculate the approximate degree of the registered document and the query document for the information The determination unit of the processing device includes a determination step of determining a registered document that approximates the inquiry document according to the calculation result of the calculation step.
また、本発明は、指定された文書を示す問合せ文書の近似対象となる文書を示す登録文書に含まれる文章を分解することにより得られる部分文字列と、前記登録文書における当該部分文字列の位置と、を記憶する記憶手段を備え、指定される前記問合せ文書に近似する前記登録文書を決定する情報処理装置で読み取り実行可能なプログラムあって、前記情報処理装置を、前記問合せ文書を分解することにより得られる部分文字列と同じ部分文字列であって、前記記憶手段に記憶された登録文書に含まれる部分文字列を取得する部分文字列取得手段と、前記問合せ文書に対する前記部分文字列の位置及び前記部分文字列取得手段によって取得した登録文書に対する部分文字列の位置から求まる、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の同じ位置関係を有するその部分文字列の数を用いて、前記登録文書と前記問合せ文書との近似度合を算出する算出手段と、前記算出手段による算出結果に従って、問合せ文書に近似する登録文書を決定する決定手段として機能させることを特徴とする。 The present invention also provides a partial character string obtained by decomposing a sentence included in a registered document indicating a document to be approximated by an inquiry document indicating a specified document, and the position of the partial character string in the registered document. A program that can be read and executed by an information processing apparatus that determines the registered document that approximates the designated query document, and the information processing apparatus disassembles the query document. A partial character string that is the same as the partial character string obtained by the above, and a partial character string acquisition unit that acquires a partial character string included in the registered document stored in the storage unit; and a position of the partial character string with respect to the query document And the partial character string for the query document and the registration sentence obtained from the position of the partial character string for the registered document acquired by the partial character string acquisition means By using the number of the partial strings having a partial character string, the same positional relationship with respect to, and calculating means for calculating an approximate degree between the query document and the registration document, in accordance with the calculated result of said calculation means, query documents It is made to function as a determination means which determines the registration document approximated to.
本発明によれば、近似する文書の検索を高速に実現することができる近似文書検索装置及びその制御方法、プログラムを提供できる。特に、登録文書集合全体における統計値に基づき登録文書の弁別に有効な構成要素を問合せ文書の構成要素から選択するので、問合せ文書が登録文書の一部分しか含まないような場合の検索についても効果を奏する。 According to the present invention, it is possible to provide an approximate document search apparatus, a control method therefor, and a program that can realize a search for an approximate document at high speed. In particular, since effective components for discrimination of registered documents are selected from the components of the query document based on the statistical values in the entire registered document set, it is also effective for searching when the query document contains only a part of the registered document. Play.
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は本発明の実施形態の近似文書検索装置の構成を示す図である。
尚、図1の近似文書検索装置の構成は一例であり、用途や目的に応じて様々な構成例があることは言うまでもない。
100は近似文書検索装置である。近似文書検索装置100は、文書登録部101、登録文書情報保存領域102、近似文書検索部103から構成される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a diagram showing a configuration of an approximate document search apparatus according to an embodiment of the present invention.
Note that the configuration of the approximate document search device in FIG. 1 is an example, and it goes without saying that there are various configuration examples depending on the application and purpose.
文書登録部101は、近似文書検索装置100に入力された登録文書110を構成する文字列を部分文字列に分解し、全ての部分文字列と出現位置を、登録文書の書誌情報とともに、登録文書情報保存領域102に追加する。すなわち、部分文字列は、登録文書に含まれる文章を分解することにより得られる。
The
近似文書検索部103は、近似文書検索装置100に入力された問合せ文書111を構成する文字列を部分文字列に分解し、登録文書情報保存領域102を参照して、全ての部分文字列に対する登録文書における統計情報(後述する情報量や情報エントロピーを含む)や登録文書集合における出現位置情報(出現位置)を取得し、取得した統計情報と出現位置情報に基づき、問合せ文書111に近似する文書を登録文書情報保存領域102に登録された文書集合から探し出し、近似する文書のリストを近似の度合に応じて近似検索結果112として出力する。
The approximate
次に、図1の近似文書検索装置100のハードウェア構成について、図2を用いて説明する。
Next, the hardware configuration of the approximate
図2は、本発明の実施形態における各種端末のハードウェア構成を示す図である。 FIG. 2 is a diagram illustrating a hardware configuration of various terminals according to the embodiment of the present invention.
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
The
また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。RAM203は、CPU201の主メモリ、ワークエリア等として機能する。
Further, the
CPU201は、処理の実行に際して必要なプログラム等をRAM203にロードして、プログラムを実行することで各種動作を実現するものである。
The
また、入力コントローラ(入力C)205は、キーボード209や不図示のマウス等のポインティングデバイスからの入力を制御する。
An input controller (input C) 205 controls input from a pointing device such as a
ビデオコントローラ(VC)206は、CRTディスプレイ(CRT)210等の表示器への表示を制御する。表示器はCRTだけでなく、液晶ディスプレイでも構わない。これらは必要に応じて管理者が使用するものである。本発明には直接関係があるものではない。 A video controller (VC) 206 controls display on a display device such as a CRT display (CRT) 210. The display device may be a liquid crystal display as well as a CRT. These are used by the administrator as needed. The present invention is not directly related.
メモリコントローラ(MC)207は、ブートプログラム、ブラウザソフトウエア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶するハードディスク(HD)やフロッピーディスク(登録商標 FD)或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュメモリ等の外部メモリ211へのアクセスを制御する。
A memory controller (MC) 207 is a hard disk (HD), floppy disk (registered trademark FD) or PCMCIA card slot for storing boot programs, browser software, various applications, font data, user files, editing files, various data, and the like. Controls access to an
通信I/Fコントローラ(通信I/FC)208は、ネットワークを介して、外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いたインターネット通信等が可能である。 A communication I / F controller (communication I / FC) 208 is connected to and communicates with an external device via a network, and executes communication control processing in the network. For example, Internet communication using TCP / IP is possible.
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT210上での表示を可能としている。また、CPU201は、CRT210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
Note that the
本発明を実現するための近似文書検索プログラムは外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。さらに、本発明に係わるプログラムが用いる定義ファイル213及び各種情報テーブル214は外部メモリ211に格納されており、これらについての詳細な説明は後述する。
An approximate document search program for realizing the present invention is recorded in the
(文書登録処理)
次に、近似文書検索装置100における文書登録部101の基本的な処理フローについて、図3を用いて説明する。
(Document registration process)
Next, a basic processing flow of the
図3は文書登録部の文書登録処理における処理フローを示す図である。 FIG. 3 is a diagram showing a processing flow in the document registration processing of the document registration unit.
ステップS301において、文書登録部101は、書誌情報テーブル401に登録する文書の書誌情報を登録する。このとき登録文書を一意に識別するための識別子として文書IDを取得する。
In step S <b> 301, the
ステップS302において、文書登録部101は、登録文書を構成する文字列を2連接文字列に分割し、2連接文字列に対し文書の識別子である文書IDと2連接文字列の出現位置を合成した位置情報を生成する。
ステップS303において、文書登録部101は、ステップS302で取得した2連接文字列に対して繰り返し処理を開始する。
In step S302, the
In step S303, the
ステップS304において、文書登録部101は、2連接文字列と位置情報を転置インデックス402に追加する。登録と同時に転置インデックス402に格納されている2連接文字列の出現頻度を1だけ加算する。
In step S <b> 304, the
図4は、登録文書情報保存領域102の概念図である。登録文書情報保存領域102には、書誌情報テーブル401と転置インデックス402を備えている。
FIG. 4 is a conceptual diagram of the registered document
ステップS305において、文書登録部101は、処理すべき2連接文字列がまだあれば、処理をステップS303に戻し、処理すべき2連接文字列がなければ処理を終了する。
In step S305, the
(ここでの処理の具体例)
次に「本日は晴天なれど大阪湾の波高し。」という一文からなる文書「大阪の天気7月10日.doc」を登録した場合について具体的に説明する。
(Specific example of processing here)
Next, a case where a document “Osaka weather July 10th. Doc” consisting of a single sentence “Today is a sunny day but the wave height of Osaka Bay” will be described in detail.
ステップS301において、文書登録部101は、図5に示すような書誌情報テーブル401に登録する文書の書誌情報として「大阪の天気7月10日.doc」を登録する。このとき登録文書を一意に識別するための識別子として付与された文書ID「15」を取得する。
In step S301, the
ステップS302において、文書登録部101は、登録文書を構成する文字列「本日は晴天なれど大阪湾の波高し。」を2連接文字列に分割し、2連接文字列に対し文書の識別子である文書IDと2連接文字列の出現位置を合成した位置情報を生成する。例えば最初の2連接文字列「本日」に対しては、文書IDである「15」と出現位置「1」から位置情報「15:1」を生成し、次の2連接文字列「日は」に対していは文書IDである「15」と出現位置「2」から位置情報「15:2」を生成する。
In step S <b> 302, the
ステップS303において、文書登録部101は、最初の2連接文字列「本日」から繰り返し処理を開始する。
In step S <b> 303, the
ステップS304において、文書登録部101は、2連接文字列「本日」と位置情報「15:1」を図6に示すような転置インデックス402に追加する。転置インデックス402において、2連接文字列「本日」に対しては、出現頻度として「17」、位置情報「…13:14 14:32」が登録されているので、位置情報「15:1」を追加して「…13:14 14:32 15:1」とし、出現頻度を1だけ加算して「18」とする。
In step S304, the
ステップS305において、文書登録部101は、次の2連接文字列「日は」があるので処理をステップS303に戻す。
In step S305, the
以下同様に全ての2連接文字列に対して処理を繰り返すと、図7に示すように、「大阪の天気7月10日.doc」に出現した任意の2連接文字列に対し、転置インデックス402から出現位置を取得することが可能となる。
Similarly, when the process is repeated for all the two concatenated character strings, as shown in FIG. 7, the transposed
(近似文書検索処理)
次に、近似文書検索装置100における近似文書検索部103の基本的な処理フローについて、図8を用いて説明する。
(Approximate document search process)
Next, a basic processing flow of the approximate
図8は近似文書検索部103の近似文書検索処理における概略フローを示す図である。
FIG. 8 is a diagram showing a schematic flow in the approximate document search process of the approximate
ステップS801において、近似文書検索部103は、問合せ文書を構成する2連接文字列および問合せ文書の登録文書集合における統計値を取得する。
In step S <b> 801, the approximate
ステップS802において、近似文書検索部103は、S801で取得した2連接文字列および問合せ文書全体の統計情報と予め定められた選択基準に基づき、2連接文字列の文書弁別の寄与度合を判定し、文書弁別の寄与度合の高いものを評価連接文字列として選択する。評価連接文字列に対しては転置インデックス402から位置情報を取得し、評価連接文字列の問合せ文書における出現位置で補正する。ここで補正された出現位置を補正位置情報という。
In step S802, the approximate
ステップS803において、近似文書検索部103は、S802で取得した評価連接文字列の補正位置情報ごとに集約し、補正位置情報を含む文書ごとに近似度合を算出し、算出した近似度合に基づき、近似する文書を特定する。
In step S803, the approximate
本実施の形態においては、文書弁別の寄与度合として、連接文字列の情報量を用いる。また、選択基準として、問合せ文書を構成する文字集合の登録文書集合における乱雑さ度合を示す情報エントロピーを用いる。評価する連接文字列に対する情報量を大きい順に積算し、情報量の積算値が選択基準となる情報エントロピー(乱雑さ度合)を超えたときに判断に必要な情報が得られたと考える。
このように登録文書集合から文書の弁別に寄与する度合が小さい連接文字列の評価を行わないことで弁別効果の低い構成要素に対する処理を削減できる。
ステップS801〜ステップS803の詳細については後述する。
(統計情報取得処理)
次に、実施例の近似文書検索処理におけるステップS801の詳細なフローについて図9を用いて説明する。
図9は近似文書検索処理における統計情報取得処理の詳細なフローを示す図である。
ステップS901において、近似文書検索部103は、問合せ文書を構成する文字列を2連接文字列に分解する。
In the present embodiment, the information amount of the connected character string is used as the contribution degree of document discrimination. In addition, information entropy indicating the degree of randomness in the registered document set of the character set constituting the query document is used as a selection criterion. It is considered that the information necessary for the judgment is obtained when the information amount for the connected character string to be evaluated is accumulated in descending order and the accumulated value of the information amount exceeds the information entropy (degree of randomness) as a selection criterion.
In this way, it is possible to reduce processing for a component having a low discrimination effect by not evaluating a connected character string having a small degree of contribution to document discrimination from the registered document set.
Details of steps S801 to S803 will be described later.
(Statistical information acquisition processing)
Next, a detailed flow of step S801 in the approximate document search process of the embodiment will be described with reference to FIG.
FIG. 9 is a diagram showing a detailed flow of statistical information acquisition processing in approximate document search processing.
In step S <b> 901, the approximate
ステップS902において、近似文書検索部103は、一時領域に保存する問合せ文書の統計情報の基準値を0にセットする。
In step S902, the approximate
ステップS903において、近似文書検索部103は、ステップS901で分割した2連接文字列について繰り返し処理を開始する。
In step S903, the approximate
ステップS904において、近似文書検索部103は、登録されている全ての連接文字列の総数と、処理中の2連接文字列に対する出現頻度を転置インデックス402から取得して、図10に示す式を用いて2連接文字列の登録文書集合における出現確率P(W)を算出し、さらに図11に示す式を用いて情報量I(W)を算出する。また、2連接文字列の先頭文字に対し、図12に示す式を用いて情報エントロピーE(C)を算出し、2連接文字列が末尾である場合、全ての文字に対して情報エントロピーを算出する。
In step S904, the approximate
ステップS905において、近似文書検索部103は、ステップS904で取得した情報エントロピーを一時領域にある基準値に加算する。
In step S905, the approximate
ステップS906において、近似文書検索部103は、まだ処理すべき2連接文字列があれば、処理をステップS903に戻す。処理すべき2連接文字列がなければ処理を終了する。
In step S906, the approximate
(評価連接文字列選択処理)
次に、実施例の近似文書検索処理におけるステップS802の処理の詳細なフローについて図14を用いて説明する。
(Evaluation concatenated character string selection process)
Next, the detailed flow of the process of step S802 in the approximate document search process of the embodiment will be described with reference to FIG.
図14は近似文書検索処理における評価連接文字列選択処理の詳細なフローを示す図である。 FIG. 14 is a diagram showing a detailed flow of the evaluation concatenated character string selection process in the approximate document search process.
ステップS1401において、近似文書検索部103は、出現位置バッファを格納する領域をメモリー上に確保して初期化する。
In step S1401, the approximate
ステップS1402において、近似文書検索部103は、ステップS801で取得した、問合せ文書を構成する連接文字列と統計情報の集合を、文書弁別の寄与度合(連接文字列の情報量)の大きい順に並べ替える。
In step S1402, the approximate
ステップS1403において、近似文書検索部103は、並べ替えた連接文字列について繰り返し処理を開始する。
In step S1403, the approximate
ステップS1404において、近似文書検索部103は、転置インデックス402から連接文字列の登録文書集合における出現位置を取得する。
In step S <b> 1404, the approximate
ステップS1405において、近似文書検索部103は、取得した全ての出現位置から連接文字列が問合せ文書に出現した位置を引いた値を補正出現位置として求める。
In step S <b> 1405, the approximate
補正出現位置は、登録文書において問合せ文書が出現したと仮定した場合の問合せ文書の登録文書上での先頭位置を求めることに等しく、同じ補正出現位置をもつ連接文字列は、登録文書上で同じ問合せ文書を構成している可能性があることを示しており、同じ補正出現位置を持つ連接文字列が多いほど問合せ文書を構成している可能性が高くなる。 The corrected appearance position is equivalent to obtaining the head position on the registered document of the query document when it is assumed that the query document appears in the registered document, and the concatenated character string having the same corrected appearance position is the same on the registered document. This indicates that there is a possibility that the query document is configured. The more connected character strings having the same corrected appearance position, the higher the possibility that the query document is configured.
ステップS1406において、近似文書検索部103は、ステップS1405で取得した補正出現位置を出現位置バッファに追加する。出現位置バッファに同じ補正出現位置を持つ出現位置情報が登録されていない場合、一致数を1として問合せ文書における出現位置とともに出現位置情報として登録する。出現位置バッファに同一の補正出現位置を持つ出現位置情報が既に登録されている場合、登録されている出現位置情報の一致数を1加算し、連接文字列の問合せ文書における出現位置が、登録済みの問合せ文書における出現位置より小さければ、登録済みの出現位置情報の問合せ文書における出現位置を処理中の連接文字列の問合せ文書における出現位置で更新する。
In step S1406, the approximate
ステップS1407において、近似文書検索部103は、処理済みの連接文字列の情報量の積算値がステップS801で取得した選択基準となる情報エントロピーを超えているか否かを判定する。情報量の積算値が情報エントロピーを超えていない場合は処理をステップS1408に移す。情報量の積算値が情報エントロピーを超えている場合は処理を終了する。
In step S1407, the approximate
ステップS1408において、近似文書検索部103は、まだ処理すべき連接文字列があれば、処理をステップS1403に戻す。処理すべき連接文字列がなければ処理を終了する。
In step S1408, the approximate
(近似度算出処理)
次に、実施例の近似文書検索処理におけるステップS803の処理の詳細なフローについて図17を用いて説明する。
(Approximation degree calculation process)
Next, a detailed flow of the process of step S803 in the approximate document search process of the embodiment will be described with reference to FIG.
図17は近似文書検索処理における近似度算出処理の詳細なフローを示す図である。 FIG. 17 is a diagram showing a detailed flow of the approximation calculation process in the approximate document search process.
ステップS1701において、近似文書検索部103は、結果バッファの領域をメモリー上に確保して初期化する。
In step S1701, the approximate
ステップS1702において、近似文書検索部103は、文書情報バッファの領域をメモリー上に確保して初期化する。
In step S1702, the approximate
ステップS1703において、近似文書検索部103は、ステップS802において出現位置バッファに格納された出現位置情報について繰り返し処理を開始する。
In step S1703, the approximate
ステップS1704において、近似文書検索部103は、出現位置情報の補正出現位置の一致数が規定値以上であるか否かを判定する。一致数が規定値以上である場合は処理をステップS1705に移す。一致数が規定値未満である場合は処理をステップS1706に移す。
In step S1704, the approximate
ステップS1705において、近似文書検索部103は、出現位置情報を文書情報バッファに追加する。
In step S1705, the approximate
ステップS1706において、近似文書検索部103は、文書情報バッファが空であれば処理をステップS1712に移す。文書情報バッファが空でなければ処理をステップS1707に移す。
In step S1706, if the document information buffer is empty, the approximate
ステップS1707において、近似文書検索部103は、現在処理中の出現位置情報が処理順における末尾であるか、または次の出現位置情報と現在処理中の出現位置情報が異なる文書IDを持つか否かを判定する。
In step S1707, the approximate
現在処理中の出現位置情報が末尾、または現在処理中の出現位置情報次の出現位置情報が異なる文書IDを持つ場合、処理をステップS1708に移す。現在処理中の出現位置情報が末尾でなく、次の出現位置情報が同じ文書IDを持つ場合は、処理をステップS1712に移す。 If the appearance position information currently being processed is at the end, or if the next occurrence position information has a different document ID, the process moves to step S1708. If the appearance position information currently being processed is not the end, and the next appearance position information has the same document ID, the process proceeds to step S1712.
ステップS1708において、近似文書検索部103は、文書情報バッファに登録された出現位置情報から図18に示す式を用いて近似度を算出する。近似度の算出方法については一例であり他の算出方法を用いてもよい。
In step S1708, the approximate
ステップS1709において、近似文書検索部103は、求めた近似度が規定値以上であるか否かを判定する。近似度が規定値以上である場合、処理をステップS1710に移す。近似度が規定値未満である場合、処理をステップS1711に移す。
In step S1709, the approximate
ステップS1710において、近似文書検索部103は、文書IDと近似度(算出結果)を紐づけて結果バッファに登録する。
In step S1710, the approximate
ステップS1711において、近似文書検索部103は、文書情報バッファを初期化する。
In step S1711, the approximate
ステップS1712において、近似文書検索部103は、まだ処理すべき出現位置情報があれば、処理をステップS1703に戻す。処理すべき出現位置情報がなければ処理をステップS1713に移す。
In step S1712, if there is appearance position information that should still be processed, the approximate
ステップS1713において、近似文書検索部103は、結果バッファを近似度の高い順に並び変える。
In step S1713, the approximate
ステップS1714において、近似文書検索部103は、結果バッファの内容を近似検索結果112に格納して処理を終了する。
In step S1714, the approximate
(ここでの処理の具体例)
次に「本日晴天なれど大阪湾の波高し。」という問合せ文書により近似文検索が行われた場合について具体的に説明する。
(Specific example of processing here)
Next, the case where an approximate sentence search is performed by an inquiry document “Naturally sunny sky but the height of Osaka Bay” will be described in detail.
近似文書検索部103は、問合せ文書「本日晴天なれど大阪湾の波高し。」が入力されると、問合せ文書に対して、図9に示す統計情報取得処理を開始する。
The approximate
ステップS901において、近似文書検索部103は、問合せ文書「本日晴天なれど大阪湾の波高し。」が入力されると、問合せ文書を構成する文字列を分解し、「本日」、「日晴」、「晴天」、「天な」、…、「し。」などの2連接文字列を取得する。
In step S <b> 901, when the query document “Today's fine weather is in Osaka Bay” is input, the approximate
ステップS902において、近似文書検索部103は、一時領域に確保した問合せ文書の統計情報の基準値を0にセットする。
In step S902, the approximate
ステップS903において、近似文書検索部103は、ステップS901で分割した最初の2連接文字列「本日」について処理を開始する。このとき転置インデックス402が図13に示すような内容を格納しており、登録されている連接文字列の総数が「5000」であったとする。
In step S903, the approximate
ステップS904において、近似文書検索部103は、2連接文字列「本日」に対し、転置インデックス402から出現頻度「18」を得る。連接文字列の総数は「5000」であるので、図10に示す式を用いて2連接文字列の全登録文書における「本日」の出現確率を求めるとP(本日)=18/5000=0.0036を得る。さらに図11に示す式を用いて2連接文字列「本日」が持つ情報量I(本日)=8.1178を得る。
In step S904, the approximate
また、図13の転置インデックス402において「本」から始まる2連接文字列の出現頻度の総和は284であり、近似文書検索部103は図12に示す式を用いて連接文字列の先頭文字「本」に対する情報エントロピーE(本) = 2.629217を取得する。
In the transposed
ステップS905において、近似文書検索部103は、ステップS904で取得した「本」の情報エントロピーE(本) = 2.629217を一時領域に保存した選択の基準値に加算する。
In step S905, the approximate
ステップS906において、近似文書検索部103は、次に処理すべき2連接文字列「日晴」があるので、処理をステップS903に戻す。
In step S906, the approximate
近似文書検索部103は、同様に処理を進め、末尾の2連接文字列「し。」まで処理を繰り返すと、問合せ文書を構成する全ての2連接文字列に対して、図15に示す出現頻度、出現確率、情報量の一覧を取得する。また選択の基準値として、文字の情報エントロピーの合計値である42.3371を得て、図9の統計情報取得処理を終了する。
When the approximate
次に、近似文書検索部103は、統計情報取得処理で取得した図15に示す出現頻度、出現確率、情報量の一覧と選択基準値42.3371に対して、図14に示す評価連接文字列選択処理を実施する。
Next, the approximate
ステップS1401において、近似文書検索部103は、出現位置バッファをメモリー上に確保して空にする。
In step S1401, the approximate
ステップS1402において、近似文書検索部103は、図15に示す出現頻度、出現確率、情報量の一覧を情報量の大きい順に並べ替える。
In step S1402, the approximate
ステップS1403において、近似文書検索部103は、並べ替えた結果、先頭となった連接文字列「阪湾」に対する処理を開始する。
In step S <b> 1403, the approximate
ステップS1404において、近似文書検索部103は、転置インデックス402から連接文字列「阪湾」の登録文書集合における出現位置として「…13:23 14:43 15:10」を取得する。
In step S <b> 1404, the approximate
ステップS1405において、近似文書検索部103は、図16に示すように、取得した出現位置「…13:23 14:43 15:10」から連接文字列が問合せ文書に出現した位置「9」を引いて補正出現位置として「…13:14 14:34 15:1」を取得する。
In step S1405, the approximate
ステップS1406において、近似文書検索部103は、ステップS1405で取得した補正出現位置「…13:14 14:34 15:1」を出現位置バッファに追加する。出現位置「13:14」については、問合せ文書出現位置「9」, 一致数「1」とともに出現位置情報として出現位置バッファに登録する。同様に出現位置「14:34」および「15:1」に対しても問合せ文書出現位置「9」, 一致数「1」とともに出現位置情報を登録する。
In step S1406, the approximate
ステップS1407において、近似文書検索部103は、処理済みの連接文字列の情報量の積算値は9.9658となり選択基準となる情報エントロピー「42.3371」を超えないので処理をステップS1408に移す。
In step S1407, the approximate
ステップS1408において、近似文書検索部103は、次に処理すべき連接文字列「ど大」があるので処理をステップS1403に戻す。
In step S1408, the approximate
ステップS1403において、近似文書検索部103は、連接文字列「ど大」に対する処理を開始する。
In step S1403, the approximate
ステップS1404において、近似文書検索部103は、転置インデックス402から連接文字列「ど大」の登録文書集合における出現位置として「…12:33 14:25 15:8」を取得する。
In step S <b> 1404, the approximate
ステップS1405において、近似文書検索部103は、取得した出現位置「…12:33 14:25 15:8」から連接文字列が問合せ文書に出現した位置「7」を引いて補正出現位置として「…12:26 14:18 15:1」を取得する。
In step S1405, the approximate
ステップS1406において、近似文書検索部103は、ステップS1405で取得した補正出現位置「…12:26 14:18 15:1」を出現位置バッファに追加する。出現位置「12:26」および「14:18」については、問合せ文書出現位置「7」, 一致数「1」とともに出現位置情報を出現位置バッファに登録する。出現位置「15:1」に対しては、出現位置情報が既に登録されているので、登録済みの出現位置情報に対し、問合せ文書出現位置「9」をより小さい問合せ文書出現位置「7」に置き換え、 一致数「1」に1を加算して「2」とする。
In step S1406, the approximate
ステップS1407において、近似文書検索部103は、処理済みの連接文字列の情報量の積算値は9.9658+9.1178=19.0836となり、選択基準となる情報エントロピー「42.3371」を超えないので処理をステップS1408に移す。
In step S1407, the approximate
近似文書検索部103は、以下同様に連接文字列「波高」、「晴天」と処理し、「本日」まで処理すると処理済みの連接文字列の情報量の積算値は9.9658+9.1178+8.8283+8.4804+8.1178=44.5100となり、選択基準となる情報エントロピー「42.3371」を超えるので繰り返し処理を終了し、図19に示す状態の出現位置バッファを取得し、図14に示す評価連接文字列選択処理を終了する。
The approximate
次に、近似文書検索部103は、図19に示す状態の出現位置バッファに対し、図17に示す近似度算出処理を実施する。
Next, the approximate
ステップS1701において、近似文書検索部103は、結果バッファの領域をメモリー上に確保して空にする。
In step S1701, the approximate
ステップS1702において、近似文書検索部103は、文書情報バッファの領域をメモリー上に確保して空にする。
In step S1702, the approximate
ステップS1703において、近似文書検索部103は、出現位置バッファに格納されている先頭の出現位置情報「3:25」について処理を開始する。
In step S <b> 1703, the approximate
ステップS1704において、近似文書検索部103は、出現位置情報の補正出現位置「3:25」の一致数「1」が規定値(所定値)「3」未満であるので処理をステップS1706に移す。
In step S1704, the approximate
ステップS1706において、近似文書検索部103は、文書情報バッファが空なので処理をステップS1712に移す。
In step S1706, the approximate
ステップS1712において、近似文書検索部103は、次の出現位置情報「12:26」があるので処理をステップS1703に戻す。
In step S1712, the approximate
近似文書検索部103は、出現位置情報「12:26」「13:14」「14:18」「14:34」「15:0」に対しては同様の処理を繰り返す。
The approximate
ステップS1703において、近似文書検索部103は、出現位置バッファに格納されている先頭の出現位置情報「15:1」について処理を開始する。
In step S <b> 1703, the approximate
ステップS1704において、近似文書検索部103は、出現位置情報の補正出現位置「15:1」の一致数「4」が規定値「3」以上であるので処理をステップS1705に移す。
In step S1704, the approximate
ステップS1705において、近似文書検索部103は、出現位置情報「15:1」を文書情報バッファに追加する。
In step S1705, the approximate
ステップS1706において、近似文書検索部103は、文書情報バッファに出現位置情報「15:1」が登録されており、空ではないので処理をステップS1707に移す。
In step S1706, the approximate
ステップS1707において、近似文書検索部103は、現在処理中の出現位置情報「15:1」の文書IDは「15」であり、次の出現位置情報「16:5」の文書IDは「16」であり文書IDが異なるので、ステップS1708に処理を移す。
In step S1707, the approximate
ステップS1708において、近似文書検索部103は、文書情報バッファに登録された出現位置情報から図18に示す式を用いて近似度を算出し、近似度0.75を得る。
In step S1708, the approximate
ステップS1709において、近似文書検索部103は、求めた近似度0.75が近似度の規定値0.5以上であるので、処理をステップS1710に移す。
In step S1709, the approximate
ステップS1710において、近似文書検索部103は、文書ID「15」と近似度0.75を紐づけて結果バッファに登録する。
In step S1710, the approximate
ステップS1711において、近似文書検索部103は、文書情報バッファを空にする。
In step S1711, the approximate
ステップS1712において、近似文書検索部103は、次の出現位置情報「16:5」があるので処理をステップS1703に戻す。
In step S1712, the approximate
ステップS1703において、近似文書検索部103は、出現位置バッファに格納されている先頭の出現位置情報「16:5」について処理を開始する。
In step S <b> 1703, the approximate
ステップS1704において、近似文書検索部103は、出現位置情報の補正出現位置「16:5」の一致数「3」が規定値「3」以上であるので処理をステップS1705に移す。
In step S1704, the approximate
ステップS1705において、近似文書検索部103は、出現位置情報「16:5」を文書情報バッファに追加する。
In step S1705, the approximate
ステップS1706において、近似文書検索部103は、文書情報バッファに出現位置情報「16:5」が登録されており、空ではないので処理をステップS1707に移す。
In step S1706, the approximate
ステップS1707において、近似文書検索部103は、現在処理中の出現位置情報「16:5」の文書IDは16であり、次の出現位置情報「19:32」の文書IDは19であり文書IDが異なるので、ステップS1708に処理を移す。
In step S1707, the approximate
ステップS1708において、近似文書検索部103は、文書情報バッファに登録された出現位置情報から図18に示す式を用いて近似度を算出し、近似度0.5を得る。
In step S1708, the approximate
ステップS1709において、近似文書検索部103は、求めた近似度0.5が近似度の規定値0.5以上であるので、処理をステップS1710に移す。
In step S1709, the approximate
ステップS1710において、近似文書検索部103は、文書ID「16」と近似度0.5を紐づけて結果バッファに登録する。
In step S1710, the approximate
ステップS1711において、近似文書検索部103は、文書情報バッファを空にする。
In step S1711, the approximate
ステップS1712において、近似文書検索部103は、次の出現位置情報「19:32」があるので処理をステップS1703に戻す。
In step S1712, the approximate
近似文書検索部103は、出現位置情報「19:32」以降も処理を繰り返し、全ての出現位置情報を処理して、ステップS1713に処理を移す。
The approximate
ステップS1713において、近似文書検索部103は、結果バッファに登録された文書ID「15」(近似度0.75)と文書ID「16」(近似度0.5)を近似度の高い順に並び変える。
In step S1713, the approximate
ステップS1714において、近似文書検索部103は、結果バッファの内容を検索結果として文書ID「15」(近似度0.75)と文書ID「16」(近似度0.5)を近似検索結果112に格納して処理を終了する。
In step S <b> 1714, the approximate
(第2の実施形態)
(位置関係のずれを許容した近似度算出処理)
(Second Embodiment)
(Approximation degree calculation process that allows positional deviation)
次に、実施例として、問合せ文書において選択された連接文字列の位置関係と、対応する登録文書における連接文字列の位置関係のずれが許容値以内である場合についても一致区間と判定する近似文書検索装置について図20を用いて説明する。 Next, as an example, an approximate document that determines a matching section even when the positional relationship between the connected character strings selected in the query document and the positional relationship between the connected character strings in the corresponding registered document are within an allowable value The search device will be described with reference to FIG.
本実施の形態は、第1の実施の形態と近似度算出処理のみが異なる。 This embodiment is different from the first embodiment only in the approximation calculation processing.
図20は問合せ文書において選択された連接文字列の位置関係と、対応する登録文書における連接文字列の位置関係のずれが許容値以内である場合も一致したと判定する近似度算出の処理フローを示す図である。 FIG. 20 shows a processing flow for calculating the degree of approximation in which it is determined that the positional relationship between the connected character strings selected in the inquiry document and the positional relationship between the connected character strings in the corresponding registered document are within the allowable values. FIG.
図20は第2の実施の形態における、近似文書検索処理の近似度算出処理の詳細なフローを示す図である。 FIG. 20 is a diagram showing a detailed flow of the approximation calculation process of the approximate document search process in the second embodiment.
ステップS1701からステップS1703までの処理は、第1の実施の形態における近似度算出処理(図17)と同様である。 The processing from step S1701 to step S1703 is the same as the approximation calculation processing (FIG. 17) in the first embodiment.
ステップS2001において、近似文書検索部103は、現在の出現位置情報を起点として許容区間を特定する。許容区間は予め規定された許容値以内のずれ(補正位置情報の差)で連続する出現位置情報の集合として取得される。具体的には許容区間と判断した先頭と末尾の位置情報として取得される。このとき同時に許容区間に含まれる出現位置情報の一致数の総和も同時に求める。許容区間特定処理の詳細は後述する。
In step S2001, the approximate
ステップS2002において、近似文書検索部103は、ステップS2001で求めた許容区間に含まれる出現位置情報の一致数の総和が規定値以上であるか判定する。一致数が規定値以上である場合は処理をステップS2003に移す。一致数が規定値未満である場合は処理をステップS2004に移す。
In step S2002, the approximate
ステップS2003において、近似文書検索部103は、許容区間に含まれる全ての出現位置情報を文書情報バッファに追加する。
In step S2003, the approximate
ステップS2004において、近似文書検索部103は、許容区間末尾の出現位置情報を現在処理中の出現位置情報としてセットする。
In step S2004, the approximate
ステップS1706からステップS1707までの処理は、第1の実施の形態における近似度算出処理(図17)と同様である。 The processing from step S1706 to step S1707 is similar to the approximation calculation processing (FIG. 17) in the first embodiment.
ステップS1708において、近似文書検索部103は、文書情報バッファに登録された出現位置情報から図21に示す式を用いて近似度を算出する。近似度の算出式は一例であり、ずれの量に応じて重み付けを行うように構成してもよい。
In step S1708, the approximate
ステップS1709からステップS1714までの処理は、第1の実施の形態における近似度算出処理(図17)と同様である。 The processing from step S1709 to step S1714 is the same as the approximation calculation processing (FIG. 17) in the first embodiment.
(許容区間特定処理)
次に、ステップS2001における許容区間特定処理の詳細について図23を用いて説明する。
(Permissible section identification process)
Next, details of the allowable section specifying process in step S2001 will be described with reference to FIG.
図23はステップS2001における許容区間特定の処理フローを示す図である。 FIG. 23 is a diagram showing a process flow for specifying the allowable section in step S2001.
ステップS2301において、近似文書検索部103は、許容区間全体の一致数の総和を0にセットする。
In step S <b> 2301, the approximate
ステップS2302において、近似文書検索部103は、起点として与えられた出現位置情報を許容区間の先頭としてセットする。
In step S2302, the approximate
ステップS2303において、近似文書検索部103は、起点として与えられた出現位置情報から繰り返し処理を開始する。
In step S2303, the approximate
ステップS2304において、近似文書検索部103は、処理中の出現位置情報の一致数を許容区間全体の一致数の総和に加算する。
In step S2304, the approximate
ステップS2305において、近似文書検索部103は、処理中の出現位置情報を許容区間の末尾としてセットする。
In step S2305, the approximate
ステップS2306において、近似文書検索部103は、処理中の出現位置情報と次の出現位置情報の補正出現位置の差を位置のずれとして求める。補正出現位置が属する文書が異なる場合は、計算機において表現可能な最大値など許容値を超える値を位置のずれの値とする。
In step S2306, the approximate
ステップS2307において、近似文書検索部103は、位置ずれの値が許容値以内であるか否かを判定する。許容値以内である場合、ステップS2308に処理を移す。許容値を超える場合、繰り返し処理を中断し、許容区間特定処理を終了する。
In step S2307, the approximate
ステップS2308において、近似文書検索部103は、出現位置情報のずれの数に1をセットする。ずれの数ではなく、ずれの量を保持し、ずれの量に応じた重み付けにより近似度を求めるように構成してもよい。
In step S2308, the approximate
ステップS2309において、近似文書検索部103は、まだ処理すべき出現位置情報があれば、処理をステップS2303に戻す。処理すべき出現位置情報がなければ処理を終了する。
In step S2309, if there is appearance position information that should still be processed, the approximate
(ここでの処理の具体例)
次に第1の実施の形態における具体例と同じ「本日晴天なれど大阪湾の波高し。」という問合せ文書により近似文検索が行われた場合について説明する。
(Specific example of processing here)
Next, a description will be given of a case where an approximate sentence search is performed using the same inquiry document “Today's clear sky but Osaka Bay wave height” as in the specific example of the first embodiment.
第1の実施の形態と同様に近似文書検索部103は、ステップS801およびステップS802を処理した結果、図22に示すような出現位置バッファを取得する。
Similar to the first embodiment, the approximate
近似文書検索部103は、図22に示す状態の出現位置バッファに対し、図20に示す近似度算出処理を実施する。
The approximate
ステップS1701において、近似文書検索部103は、結果バッファの領域をメモリー上に確保して空にする。
In step S1701, the approximate
ステップS1702において、近似文書検索部103は、文書情報バッファの領域をメモリー上に確保して空にする。
In step S1702, the approximate
ステップS1703において、近似文書検索部103は、出現位置バッファに格納されている先頭の出現位置情報「3:25」について処理を開始する。
In step S <b> 1703, the approximate
近似文書検索部103は、出現位置情報(補正出現位置)「3:25」「12:26」「13:14」「14:18」「14:34」に対しては同様の処理を繰り返す。
The approximate
ステップS1703において、近似文書検索部103は、出現位置バッファに格納されている先頭の出現位置情報「15:0」について処理を開始する。
In step S <b> 1703, the approximate
ステップS2001において、近似文書検索部103は、出現位置情報「15:0」を起点に許容区間と許容区間の一致数の総和を図23に示す許容区間特定処理により求め、許容区間の先頭として「15:0」を、許容区間(所定位置の範囲)の末尾として「15:1」を、許容区間の一致数の総和として「5」を得る。
In step S2001, the approximate
ステップS2002において、近似文書検索部103は、出現位置情報「15:0」を起点とする許容区間の一致数の総和「5」が規定値「3」以上であるので、ステップS2003に処理を移す。
In step S2002, the approximate
ステップS2003において、近似文書検索部103は、許容区間に含まれる出現位置情報「15:0」と出現位置情報「15:1」を文書情報バッファに追加する。
In step S2003, the approximate
ステップS2004において、近似文書検索部103は、許容区間の末尾である出現位置情報「15:1」を処理中の出現位置情報としてセットする。
In step S2004, the approximate
ステップS1706において、近似文書検索部103は、文書情報バッファに出現位置情報「15:0」および出現位置情報「15:1」が登録されており、空ではないので処理をステップS1707に移す。
In step S1706, the approximate
ステップS1707において、近似文書検索部103は、現在処理中の出現位置情報「15:1」の文書IDは「15」であり、次の出現位置情報「16:5」の文書IDは「16」であり文書IDが異なるので、ステップS1708に処理を移す。
In step S1707, the approximate
ステップS1708において、近似文書検索部103は、文書情報バッファに登録された出現位置情報から図21に示す式を用いて近似度を算出し、近似度0.975を得る。
In step S1708, the approximate
ステップS1709において、近似文書検索部103は、求めた近似度0.975が近似度の規定値0.5以上であるので、処理をステップS1710に移す。
In step S1709, the approximate
ステップS1710において、近似文書検索部103は、文書ID「15」と近似度0.975を紐づけて結果バッファに登録する。
In step S1710, the approximate
ステップS1710において、近似文書検索部103は、文書情報バッファを空にする。
In step S1710, the approximate
以下同様な処理を行い、近似文書検索部103は、問合せ文書に近似する文書として、文書ID「15」(近似度0.975)と文書ID「16」(近似度0.5)と文書ID「22」(近似度0.725)を近似検索結果112に格納して処理を終了する。
Thereafter, similar processing is performed, and the approximate
文書ID「16」より記述としては問合せ文書に近いと考えられる文書ID「22」が第1の実施の形態では検出できなかったが、本実施の形態によれば、文書ID「16」よりも高い近似度で検出できるようになり、人間の感覚に近い結果が得られる。 The document ID “22” that is considered to be closer to the inquiry document than the document ID “16” cannot be detected in the first embodiment. It becomes possible to detect with a high degree of approximation, and a result close to human sense is obtained.
(第3の実施形態)
(重複区間除外)
次に、問合せ文書において選択された連接文字列の位置関係と一致する連接文字列の位置関係が1つの登録文書に複数存在する場合に、一致箇所をいずれか一つだけに限定する近似文書検索装置について図24を用いて説明する。
(Third embodiment)
(Excluding overlapping sections)
Next, when there are a plurality of positional relationships of connected character strings that match the positional relationship of the connected character strings selected in the query document, an approximate document search that limits only one matching portion to one registered document. The apparatus will be described with reference to FIG.
図24は第3の実施の形態における、近似文書検索処理の近似度算出処理の詳細なフローを示す図である。 FIG. 24 is a diagram showing a detailed flow of the approximation calculation process of the approximate document search process in the third embodiment.
本実施の形態は、第1の実施の形態と近似度算出処理のみが異なる。 This embodiment is different from the first embodiment only in the approximation calculation processing.
図24は問合せ文書において選択された連接文字列の位置関係と一致する連接文字列の位置関係が1つの登録文書に複数存在する場合に、一致箇所をいずれか一つだけに限定する近似度算出の処理フローを示す図である。 FIG. 24 shows an approximation calculation for limiting the number of matching points to only one when there are a plurality of positional relationships of concatenated character strings that match the positional relationship of the concatenated character strings selected in the query document. It is a figure which shows the processing flow.
ステップS1701からステップS1703までの処理は、第1の実施の形態における近似度算出処理(図17)と同様である。 The processing from step S1701 to step S1703 is the same as the approximation calculation processing (FIG. 17) in the first embodiment.
ステップS2401において、近似文書検索部103は、現在処理中の出現位置情報の問合せ文書出現位置を持つ出現位置情報が文書情報バッファに登録されているか否かを判定する。登録されている場合、ステップS2402に処理を移す。登録されていない場合、ステップS1705に処理を移す。
In step S2401, the approximate
ステップS2402において、近似文書検索部103は、現在処理中の出現位置情報の一致数が、現在処理中の出現位置情報と同一の問合せ文書出現位置を持つ出現位置情報の一致数より大きいか否かを判定する。現在処理中の出現位置情報の一致数のほうが大きい場合、ステップS2403に処理を移す。文書バッファに登録されている出現位置情報の一致数のほうが大きい場合、ステップS1706に処理を移す。
In step S2402, the approximate
ステップS2403において、近似文書検索部103は、現在処理中の出現位置情報の問合せ文書出現位置を持つ出現位置情報を文書情報バッファから削除し、現在処理中の出現位置情報を文書情報バッファに登録する。
In step S2403, the approximate
ステップS1705からステップS1714までの処理は、第1の実施の形態における近似度算出処理(図17)と同様である。 The processing from step S1705 to step S1714 is the same as the approximation calculation processing (FIG. 17) in the first embodiment.
(ここでの処理の具体例)
次に第1の実施の形態における具体例と同じ「本日晴天なれど大阪湾の波高し。」という問合せ文書により近似文検索が行われた場合について説明する。
(Specific example of processing here)
Next, a description will be given of a case where an approximate sentence search is performed using the same inquiry document “Today's clear sky but Osaka Bay wave height” as in the specific example of the first embodiment.
第1の実施の形態と同様に近似文書検索部103は、ステップS801およびステップS802を処理した結果、図25に示すような出現位置バッファを取得する。
Similar to the first embodiment, the approximate
ステップS1701において、近似文書検索部103は、結果バッファの領域をメモリー上に確保して空にする。
In step S1701, the approximate
ステップS1702において、近似文書検索部103は、文書情報バッファの領域をメモリー上に確保して空にする。
In step S1702, the approximate
ステップS1703において、近似文書検索部103は、出現位置バッファに格納されている先頭の出現位置情報「3:25」について処理を開始する。
In step S <b> 1703, the approximate
近似文書検索部103は、出現位置情報「3:25」〜「25:5」までは、第1の実施の形態と同様の処理を繰り返す。
The approximate
ステップS1703において、近似文書検索部103は、出現位置バッファに格納されている先頭の出現位置情報「39:29」について処理を開始する。
In
ステップS1704において、近似文書検索部103は、出現位置情報の補正出現位置「39:29」の一致数「3」が規定値「3」以上であるので処理をステップS2401に移す。
In step S1704, the approximate
ステップS2401において、近似文書検索部103は、出現位置情報の補正出現位置「39:29」の問合せ文書出現位置「17」を持つ出現位置情報が文書情報バッファにあるか否かを判定する。
In step S2401, the approximate
問合せ文書出現位置「17」を持つ出現位置情報が文書情報バッファにはないので、ステップS1705に処理を移す。 Since there is no appearance position information having the inquiry document appearance position “17” in the document information buffer, the process proceeds to step S1705.
ステップS1705において、近似文書検索部103は、出現位置情報「39:29」を問合せ文書出現位置「17」とともに文書情報バッファに追加する。
In step S1705, the approximate
ステップS1706において、近似文書検索部103は、文書情報バッファに出現位置情報「39:29」が登録されており、空ではないので処理をステップS1707に移す。
In step S1706, the approximate
ステップS1707において、近似文書検索部103は、現在処理中の出現位置情報「39:29」の文書IDは「39」であり、次の出現位置情報「39:49」の文書IDは「39」であり文書IDが等しいので、ステップS1712に処理を移す。
In step S1707, the approximate
ステップS1712において、近似文書検索部103は、次の出現位置情報「39:49」があるので処理をステップS1703に戻す。
In step S1712, the approximate
ステップS1703において、近似文書検索部103は、出現位置バッファに格納されている先頭の出現位置情報「39:49」について処理を開始する。
In step S <b> 1703, the approximate
ステップS1704において、近似文書検索部103は、出現位置情報の補正出現位置「39:49」の一致数「3」が規定値「3」以上であるので処理をステップS2401に移す。
In step S1704, the approximate
ステップS2401において、近似文書検索部103は、出現位置情報の補正出現位置「39:49」の問合せ文書出現位置「17」を持つ出現位置情報が文書情報バッファにあるか否かを判定する。
In step S2401, the approximate
問合せ文書出現位置「17」を持つ出現位置情報「39:29」が文書情報バッファにあるので、ステップS2402に処理を移す。 Since the appearance position information “39:29” having the inquiry document appearance position “17” is in the document information buffer, the process proceeds to step S2402.
ステップS2402において、近似文書検索部103は、処理中の出現位置情報「39:49」の一致数「3」と文書情報バッファに登録されている出現位置情報「39:29」の一致数「3」を比較し、処理中の出現位置情報「39:49」が大きくはないので、ステップS1706に処理を移す。
In step S2402, the approximate
以降、第1の実施の形態と同様の処理を行うと、文書ID「39」の文書に対して近似度0.5が得られる。 Thereafter, when processing similar to that of the first embodiment is performed, a degree of approximation of 0.5 is obtained for the document with the document ID “39”.
文書ID「39」は問合せ文書に対し、記述として合致する箇所がそれほど多くないにも関わらず、第1の実施の形態に示した近似文書検索の結果において、文書ID「39」は問合せ文書と完全に合致する場合と同じ近似度1.0となってしまう。これは問合せ文書に合致する箇所に対し、登録文書において複数回出現しているためである。本実施の形態においては複数回出現した場合に一度しか評価しないので、文書ID「39」に対しても近似度0.5となり、人間の感覚に近い結果が得ることができる。 Although the document ID “39” does not match the query document as much as the description, the document ID “39” is the query document in the result of the approximate document search shown in the first embodiment. The degree of approximation is 1.0, which is the same as in the case of perfect match. This is because the location that matches the query document appears multiple times in the registered document. In the present embodiment, since the evaluation is performed only once when it appears a plurality of times, the degree of approximation is also 0.5 for the document ID “39”, and a result close to a human sense can be obtained.
以上、本実施の形態によれば、問合せ文書を構成する部分文字列と、同じ位置関係を有する、登録文書内の部分文字列の数に従って、登録文書と問合せ文書との近似度合を算出することで、精度良く近似する登録文書を決定することができる。 As described above, according to the present embodiment, the degree of approximation between the registered document and the query document is calculated according to the number of partial character strings in the registered document that have the same positional relationship as the partial character strings constituting the query document. Thus, it is possible to determine a registered document that approximates with high accuracy.
また、問合せ文書に出現する構成要素に対する登録文書集合全体における統計値に基づき、登録文書の弁別に有効な構成要素を選択することで、高精度で高速な近似文書の検索を実現する仕組みを提供することをできる。 In addition, based on the statistical value of the entire registered document set for the components that appear in the query document, a mechanism is provided that enables high-precision and high-speed search for approximate documents by selecting valid components for discrimination of registered documents. I can do it.
以上、本発明の実施形態を詳述したが、本発明は、例えば、システム、装置、方法、中継処理装置で読み取り実行可能なプログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 The embodiment of the present invention has been described in detail above. However, the present invention can take an embodiment as a system, an apparatus, a method, a program that can be read and executed by a relay processing apparatus, a storage medium, or the like. Specifically, the present invention may be applied to a system composed of a plurality of devices, or may be applied to an apparatus composed of a single device.
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。 Another object of the present invention is to supply a storage medium storing software program codes for realizing the functions of the above-described embodiments to a system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the storage medium. Needless to say, this can also be achieved by reading and executing the program code stored in.
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code itself and the storage medium storing the program code constitute the present invention.
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。 As a storage medium for supplying the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(基本システム或いはオペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (basic system or operating system) running on the computer based on the instruction of the program code. Needless to say, a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, after the program code read from the storage medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function is determined based on the instruction of the program code. It goes without saying that the CPU or the like provided in the expansion board or function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.
100 近似文書検索装置
101 文書登録部
102 登録文書情報保存領域
103 近似文書検索部
110 登録文書
111 問合せ文書
112 近似検索結果
DESCRIPTION OF
Claims (12)
前記問合せ文書を分解することにより得られる部分文字列と同じ部分文字列であって、前記記憶手段に記憶された登録文書に含まれる部分文字列を取得する部分文字列取得手段と、
前記問合せ文書に対する前記部分文字列の位置及び前記部分文字列取得手段によって取得した登録文書に対する部分文字列の位置から求まる、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の同じ位置関係を有するその部分文字列の数を用いて、前記登録文書と前記問合せ文書との近似度合を算出する算出手段と、
前記問合せ文書の部分文字列を対象に、前記記憶手段に記憶されている登録文書の該部分文字列の出現頻度から求まる出現確率に従って得られる当該部分文字列の情報量を算出する情報量算出手段と、
前記問合せ文書の部分文字列を対象に、前記記憶手段に記憶されている登録文書に含まれる前記問合せ文書の部分文字列の先頭文字に対する出現頻度に従って得られる当該登録文書の情報エントロピーを算出する情報エントロピー算出手段と、
前記算出手段による算出結果に従って、問合せ文書に近似する登録文書を決定する決定手段と、
を備え、
前記算出手段は、前記情報量算出手段によって算出した部分文字列の情報量の大きい順に、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の位置関係を求める度に積算された前記情報量が、前記算出した情報エントロピーを超えるまで、前記部分文字列取得手段、前記算出手段、及び前記決定手段を実行することを特徴とする情報処理装置。 A memory for storing a partial character string obtained by decomposing a sentence included in a registered document indicating a document to be approximated by a query document indicating a specified document, and a position of the partial character string in the registered document An information processing apparatus for determining the registered document that approximates the designated inquiry document, comprising:
A partial character string that is the same as the partial character string obtained by decomposing the query document, and that acquires a partial character string included in the registered document stored in the storage means; and
The same partial character string for the query document and partial character string for the registered document, obtained from the position of the partial character string with respect to the query document and the position of the partial character string with respect to the registered document acquired by the partial character string acquisition unit Calculating means for calculating the degree of approximation between the registered document and the inquiry document using the number of partial character strings having a positional relationship;
Information amount calculation means for calculating the information amount of the partial character string obtained according to the appearance probability obtained from the appearance frequency of the partial character string of the registered document stored in the storage means for the partial character string of the inquiry document When,
Information for calculating the information entropy of the registered document obtained according to the appearance frequency for the first character of the partial character string of the query document included in the registered document stored in the storage unit for the partial character string of the query document Entropy calculating means,
A determination unit that determines a registered document that approximates an inquiry document according to a calculation result by the calculation unit;
With
The calculation means is integrated each time the positional relationship between the partial character string for the query document and the partial character string for the registered document is calculated in descending order of the information amount of the partial character string calculated by the information amount calculation means. The information processing apparatus , wherein the partial character string acquisition unit, the calculation unit, and the determination unit are executed until the information amount exceeds the calculated information entropy .
前記算出手段は、前記補正手段で補正されることにより得られる前記登録文書の補正位置が同じ位置である場合、前記同じ位置関係を有する数として用いることを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。 A correction means for correcting the position of the partial character string of the registered document stored in the storage means according to the position of the partial character string of the inquiry document;
4. The calculation unit according to claim 1, wherein when the correction position of the registered document obtained by correction by the correction unit is the same position, the calculation unit is used as the number having the same positional relationship. The information processing apparatus according to claim 1.
前記情報処理装置の部分文字列取得手段が、前記問合せ文書を分解することにより得られる部分文字列と同じ部分文字列であって、前記記憶手段に記憶された登録文書に含まれる部分文字列を取得する部分文字列取得工程と、
前記情報処理装置の算出手段が、前記問合せ文書に対する前記部分文字列の位置及び前記部分文字列取得工程によって取得した登録文書に対する部分文字列の位置から求まる、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の同じ位置関係を有するその部分文字列の数を用いて、前記登録文書と前記問合せ文書との近似度合を算出する算出工程と、
前記情報処理装置の情報量算出手段が、前記問合せ文書の部分文字列を対象に、前記記憶手段に記憶されている登録文書の該部分文字列の出現頻度から求まる出現確率に従って得られる当該部分文字列の情報量を算出する情報量算出工程と、
前記情報処理装置の前記情報エントロピー算出手段が、前記問合せ文書の部分文字列を対象に、前記記憶手段に記憶されている登録文書に含まれる前記問合せ文書の部分文字列の先頭文字に対する出現頻度に従って得られる当該登録文書の情報エントロピーを算出する情報エントロピー算出工程と、
前記情報処理装置の決定手段が、前記算出工程による算出結果に従って、問合せ文書に近似する登録文書を決定する決定工程と、
を実行し、
前記算出工程は、前記情報量算出工程によって算出した部分文字列の情報量の大きい順に、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の位置関係を求める度に積算された前記情報量が、前記算出した情報エントロピーを超えるまで、前記部分文字列取得工程、前記算出工程、及び前記決定工程を実行することを特徴とする情報処理装置の制御方法。 A memory for storing a partial character string obtained by decomposing a sentence included in a registered document indicating a document to be approximated by a query document indicating a specified document, and a position of the partial character string in the registered document A method of controlling an information processing apparatus for determining the registered document that approximates the designated inquiry document, comprising:
The partial character string acquisition means of the information processing device is the same partial character string as the partial character string obtained by decomposing the query document, and the partial character string included in the registered document stored in the storage means A partial character string acquisition step to be acquired;
The calculation means of the information processing apparatus obtains the partial character string for the inquiry document and the registration obtained from the position of the partial character string for the inquiry document and the position of the partial character string for the registered document acquired by the partial character string acquisition step. A calculation step of calculating the degree of approximation between the registered document and the query document using the number of the partial character strings having the same positional relationship with the partial character strings with respect to the document;
The partial character obtained by the information amount calculation means of the information processing apparatus according to the appearance probability obtained from the appearance frequency of the partial character string of the registered document stored in the storage means for the partial character string of the inquiry document An information amount calculating step for calculating the information amount of the column;
The information entropy calculating means of the information processing apparatus targets the partial character string of the inquiry document according to the appearance frequency with respect to the first character of the partial character string of the inquiry document included in the registered document stored in the storage means. An information entropy calculating step of calculating information entropy of the obtained registered document;
A determination step in which the determination unit of the information processing apparatus determines a registered document that approximates an inquiry document according to a calculation result of the calculation step;
Run
The calculation step is integrated each time the positional relationship between the partial character string for the query document and the partial character string for the registered document is calculated in descending order of the information amount of the partial character string calculated by the information amount calculation step. The control method of the information processing apparatus , wherein the partial character string acquisition step, the calculation step, and the determination step are executed until the information amount exceeds the calculated information entropy .
前記情報処理装置を、
前記問合せ文書を分解することにより得られる部分文字列と同じ部分文字列であって、前記記憶手段に記憶された登録文書に含まれる部分文字列を取得する部分文字列取得手段と、
前記問合せ文書に対する前記部分文字列の位置及び前記部分文字列取得手段によって取得した登録文書に対する部分文字列の位置から求まる、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の同じ位置関係を有するその部分文字列の数を用いて、前記登録文書と前記問合せ文書との近似度合を算出する算出手段と、
前記問合せ文書の部分文字列を対象に、前記記憶手段に記憶されている登録文書の該部分文字列の出現頻度から求まる出現確率に従って得られる当該部分文字列の情報量を算出する情報量算出手段と、
前記問合せ文書の部分文字列を対象に、前記記憶手段に記憶されている登録文書に含まれる前記問合せ文書の部分文字列の先頭文字に対する出現頻度に従って得られる当該登録文書の情報エントロピーを算出する情報エントロピー算出手段と、
前記算出手段による算出結果に従って、問合せ文書に近似する登録文書を決定する決定手段と、
して機能させ、
前記算出手段は、前記情報量算出手段によって算出した部分文字列の情報量の大きい順に、前記問合せ文書に対する部分文字列と前記登録文書に対する部分文字列と、の位置関係を求める度に積算された前記情報量が、前記算出した情報エントロピーを超えるまで、前記部分文字列取得手段、前記算出手段、及び前記決定手段を実行として機能することを特徴とするプログラム。 A memory for storing a partial character string obtained by decomposing a sentence included in a registered document indicating a document to be approximated by a query document indicating a specified document, and a position of the partial character string in the registered document A program that can be read and executed by an information processing apparatus that determines the registered document that approximates the specified inquiry document,
The information processing apparatus;
A partial character string that is the same as the partial character string obtained by decomposing the query document, and that acquires a partial character string included in the registered document stored in the storage means; and
The same partial character string for the query document and partial character string for the registered document, obtained from the position of the partial character string with respect to the query document and the position of the partial character string with respect to the registered document acquired by the partial character string acquisition unit Calculating means for calculating the degree of approximation between the registered document and the inquiry document using the number of partial character strings having a positional relationship;
Information amount calculation means for calculating the information amount of the partial character string obtained according to the appearance probability obtained from the appearance frequency of the partial character string of the registered document stored in the storage means for the partial character string of the inquiry document When,
Information for calculating the information entropy of the registered document obtained according to the appearance frequency for the first character of the partial character string of the query document included in the registered document stored in the storage unit for the partial character string of the query document Entropy calculating means,
A determination unit that determines a registered document that approximates an inquiry document according to a calculation result by the calculation unit ;
To function ,
The calculation means is integrated each time the positional relationship between the partial character string for the query document and the partial character string for the registered document is calculated in descending order of the information amount of the partial character string calculated by the information amount calculation means. Until the amount of information exceeds the calculated information entropy, the partial character string acquisition unit, the calculation unit, and the determination unit function as executions .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010261663A JP5488424B2 (en) | 2010-11-24 | 2010-11-24 | Information processing apparatus, control method therefor, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010261663A JP5488424B2 (en) | 2010-11-24 | 2010-11-24 | Information processing apparatus, control method therefor, and program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012113501A JP2012113501A (en) | 2012-06-14 |
JP2012113501A5 JP2012113501A5 (en) | 2013-01-17 |
JP5488424B2 true JP5488424B2 (en) | 2014-05-14 |
Family
ID=46497658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010261663A Expired - Fee Related JP5488424B2 (en) | 2010-11-24 | 2010-11-24 | Information processing apparatus, control method therefor, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5488424B2 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003044515A (en) * | 2001-08-01 | 2003-02-14 | Aisin Aw Co Ltd | System and program for retrieval |
JP2007026386A (en) * | 2005-07-21 | 2007-02-01 | Fuji Xerox Co Ltd | Image search system and method |
-
2010
- 2010-11-24 JP JP2010261663A patent/JP5488424B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012113501A (en) | 2012-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101707369B1 (en) | Construction method and device for event repository | |
US20150234917A1 (en) | Per-document index for semantic searching | |
JP2004062893A (en) | System and method for automatic retrieval of example sentence based on weighted editing distance | |
US7440938B2 (en) | Method and apparatus for calculating similarity among documents | |
US8290925B1 (en) | Locating product references in content pages | |
GB2569858A (en) | Constructing content based on multi-sentence compression of source content | |
JP2021500664A (en) | Method, system, and computer program (query processing) | |
JP4237813B2 (en) | Structured document management system | |
JP6781373B2 (en) | Search program, search method, and search device | |
JP7395377B2 (en) | Content search methods, devices, equipment, and storage media | |
JP6805720B2 (en) | Data search program, data search device and data search method | |
KR102289395B1 (en) | Document search device and method based on jaccard model | |
US11487817B2 (en) | Index generation method, data retrieval method, apparatus of index generation | |
JP5488424B2 (en) | Information processing apparatus, control method therefor, and program | |
Wesley et al. | Leveraging compression in the tableau data engine | |
JP6384469B2 (en) | Information processing apparatus, information processing system, control method, and program | |
KR101679011B1 (en) | Method and Apparatus for moving data in DBMS | |
JP4091586B2 (en) | Structured document management system, index construction method and program | |
JP2006201926A (en) | Similar document retrieval system, similar document retrieval method and program | |
WO2013150633A1 (en) | Document processing system and document processing method | |
US9996621B2 (en) | System and method for retrieving internet pages using page partitions | |
KR102289411B1 (en) | Weighted feature vector generation device and method | |
JP6131646B2 (en) | SEARCH SYSTEM, PROGRAM, STORAGE MEDIUM, AND SEARCH METHOD | |
JP4304226B2 (en) | Structured document management system, structured document management method and program | |
JP4489828B1 (en) | Information processing apparatus, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121120 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20130531 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130716 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131227 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5488424 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |