JP2008077252A - Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium - Google Patents
Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium Download PDFInfo
- Publication number
- JP2008077252A JP2008077252A JP2006253606A JP2006253606A JP2008077252A JP 2008077252 A JP2008077252 A JP 2008077252A JP 2006253606 A JP2006253606 A JP 2006253606A JP 2006253606 A JP2006253606 A JP 2006253606A JP 2008077252 A JP2008077252 A JP 2008077252A
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- single sentence
- similarity
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体に関わり、文書検索や文書分類など自然言語処理をベースとした文書処理システムに好適なものである。 The present invention relates to a document ranking method, a document retrieval method, a document ranking device, a document retrieval device, and a recording medium, and is suitable for a document processing system based on natural language processing such as document retrieval and document classification.
近年、WWW(World Wide Web)などのインターネット技術の発達に伴い、容易に大量の文書データにアクセスすることが可能になり、大量の文書データの中から興味のある文書データのみを探し出す技術として様々な文書検索技術が提案・利用されてきている。
例えば、代表的なWorld Wide Web(以下、「WWW」と称する)上の検索システムであるgoogleの検索結果に見られるように、検索結果はユーザの利便性のため、問い合わせ語との類似性に応じてランキングされ、提示される。
In recent years, with the development of Internet technologies such as the World Wide Web (WWW), it has become possible to easily access a large amount of document data, and there are various techniques for searching only interesting document data from a large amount of document data. Document retrieval technology has been proposed and used.
For example, as seen in the search result of Google, which is a search system on a typical World Wide Web (hereinafter referred to as “WWW”), the search result is similar to the query word for the convenience of the user. It will be ranked and presented accordingly.
しかしながら、特許文献1において指摘されているように、検索の問い合わせ語数が少なかったり、一般的な語句である場合は大量の検索結果が取得されてしまったり、また急速なWWWの発達により問い合わせ語に適合する文書の数が本質的に増加しているなどの理由により、検索結果もまた大量になってしまい、結果として検索結果を有効に活用することが困難な状況が増えてきている。
このような問題を解決するための方法として、特許文献1、2等があり、検索結果の文書間のリンク構造解析により検索結果を再ランキングすることで、適切な検索結果を提供する手法を提案している。即ち、前述の発明では、検索システムなどで集められた一定の基準(類似検索システムの場合は、問い合わせ語と検索対象文書とのマッチング類似度)を満たす文書集合に対し、異なる基準で再ランキングすることによって、検索結果利用の利便性が高くなることが示されている。
As a method for solving such a problem, there are
ところで、例えば、図1は“郵政民営化and取りまとめ”という問い合わせ語で、googleで検索した結果の一例であるが、検索結果の文書の長さには差異があることがわかる。なお、前記問い合わせ語中の「and」は、アンド検索を示す。さらに、この結果より、問い合わせ語に対応する“話題”に関連する領域の大きさ、さらには詳細度も文書ごとに差異があると推察できる。
従って、検索結果の各文書で、問い合わせ語に対応する“話題”に対応する領域を抽出し、領域の大きさを話題の詳細度として比較することで、検索結果を話題の詳細度でランキングすることができ、これにより検索結果の利便性を高めることができるものと考える。
By the way, for example, FIG. 1 is an example of a query word “postal privatization and management”, which is an example of a search result by Google, but it can be seen that there is a difference in the length of the search result document. Note that “and” in the inquiry word indicates an AND search. Furthermore, from this result, it can be inferred that the size of the area related to the “topic” corresponding to the query word and the level of detail are also different for each document.
Therefore, by extracting the area corresponding to the “topic” corresponding to the query word in each document of the search result, and comparing the size of the area as the detail level of the topic, the search result is ranked by the detail level of the topic. It is possible to improve the convenience of search results.
また、検索結果の文書には問い合わせ語に対応する話題だけでなく、それとは異なるが共通に存在する話題、及び話題領域も存在するはずであり、これらの情報も併せて使うことにより、個々の文書内容を考慮した豊富なランキングが提供できると考えられる。
さらに言えば、異なる文書における特定の話題領域が判明することで、もし領域の大きさが異なっていれば、ある文書が含む話題領域からみると、他の文書の話題領域は、要約であったり、詳細記述であったりと考えることができ、検索結果の再ランキングにととまらず、文書集合の分析や情報抽出にも利用可能であると考えられる。なお、単文連鎖が話題領域を、単文連接集合が単一の話題の話題領域の集合を、また単文連接集合群が、話題領域集合族を夫々示すものとする。
In addition, in the search result document, there should be not only the topic corresponding to the query word, but also the topic and topic area that are different but common, and by using these information together, It is considered that an abundant ranking considering document contents can be provided.
Furthermore, by identifying specific topic areas in different documents, if the areas are different in size, the topic areas of other documents may be summaries when viewed from the topic areas included in one document. It can be considered that it is a detailed description, and it can be used not only for the re-ranking of search results but also for analysis of document sets and information extraction. It is assumed that the simple sentence chain indicates a topic area, the single sentence concatenation set indicates a set of topic areas of a single topic, and the single sentence concatenation set group indicates a topic area set family.
本発明では、文書から単文を抽出し、単文間類似度を求め、単文間類似度と単文の文書内出現位置情報から類似する単文連接集合群を抽出し、抽出した類似短文連接集合群をもとに文書間の関連度を示すスコアを算出し、算出したスコアを基に文書のランキングを行うことにより、文書の話題の量や密度に関連した基準で文書を順位付けできる文書ランキング方法及び文書ランキング装置を提供することを目的とする。また、類似検索した結果に対し、前述のランキング方法を採用することで、検索結果が、文書が含む話題の量や密度に関連した基準で順位付けされている文書検索方法及び文書検索装置を提供することも目的とする。 In the present invention, a single sentence is extracted from a document, a similarity between single sentences is obtained, a similar single sentence connected set group is extracted from the similarity between single sentences and the appearance position information of the single sentence in the document, and the extracted similar short sentence connected set group is also obtained. Document ranking method and document which can rank documents according to criteria related to the amount and density of document topics by calculating a score indicating the degree of association between the documents and ranking the documents based on the calculated score An object is to provide a ranking device. In addition, by using the ranking method described above for similar search results, a document search method and a document search device are provided in which search results are ranked according to criteria related to the amount and density of topics included in the document. The purpose is to do.
上記目的を達成するため、請求項1に記載の本発明は、文書を入力する文書入力ステップと、前記文書から単文を抽出する単文抽出ステップと、前記単文抽出ステップにより抽出した単文間の類似度を算出する単文間類似度算出ステップと、前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出ステップと、前記類似単文連接集合群抽出ステップにより抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出ステップとを有する文書ランキング方法を特徴とする。
請求項2に記載の本発明は、請求項1に記載の文書ランキング方法において、前記文書から形態素を抽出する形態素解析ステップをさらに有し、前記単文抽出ステップにおいて、前記形態素解析ステップにおいて解析された形態素情報に基づいて単文の抽出を行い、
前記単文間類似度算出ステップにおいて解析された形態素情報を基に単文間類似度を算出することを特徴とする。
To achieve the above object, the present invention according to
According to a second aspect of the present invention, the document ranking method according to the first aspect further includes a morpheme analysis step of extracting a morpheme from the document, and the simple sentence extraction step is analyzed in the morpheme analysis step. Extract simple sentences based on morphological information,
The similarity between single sentences is calculated based on the morpheme information analyzed in the single sentence similarity calculation step.
請求項3に記載の本発明は、請求項2に記載の文書ランキング方法において、前記文書スコア算出ステップは、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする。
請求項4に記載の本発明は、請求項3に記載の文書ランキング方法と、類似する文書を検索する文書検索ステップと、検索結果を提示する検索結果提示ステップと、を有し、前記検索結果提示ステップにて提示される検索結果は、前記文書ランキング方法によって順位付けられている文書検索方法を特徴とする。
請求項5に記載の本発明は、文書を入力する文書入力手段と、前記文書から単文を抽出する単文抽出手段と、前記単文抽出手段により抽出した単文間の類似度を算出する単文間類似度算出手段と、前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出手段と、前記類似単文連接集合群抽出手段により抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出手段と、を備える文書ランキング装置を特徴とする。
According to a third aspect of the present invention, in the document ranking method according to the second aspect, in the document score calculating step, the score is calculated based on the importance of the similar single sentence concatenation set included in the document and the ratio including the similar single sentence concatenation set. Is calculated.
A fourth aspect of the present invention includes the document ranking method according to the third aspect, a document search step for searching for similar documents, and a search result presentation step for presenting search results. The search result presented in the presenting step is characterized by a document search method ranked by the document ranking method.
The present invention according to
請求項6に記載の本発明は、請求項5に記載の文書ランキング装置において、前記文書から形態素を抽出する形態素解析手段をさらに備え、前記単文抽出手段において、前記形態素解析手段において解析された形態素情報に基づいて単文の抽出を行い、前記単文間類似度算出手段において解析された形態素情報を基に単文間類似度を算出することを特徴とする。
請求項7に記載の本発明は、請求項6に記載の文書ランキング装置において、前記文書スコア算出手段は、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする。
請求項8に記載の本発明は、請求項7に記載の文書ランキング装置において、文書情報データベースを備え、前記文書入力手段にて入力される文書の識別子、前記形態素解析手段にて抽出された文書の形態素解析結果、前記単文抽出手段で抽出された文書の単文情報、前記単文間類似度算出手段で算出された単文間類似度、前記類似単文連接集合群抽出手段で抽出された類似単文連接集合群、及び前記文書スコア算出手段で算出された文書スコアを夫々適切な形式で前記文書データベースに記憶することを特徴とする。
A sixth aspect of the present invention is the document ranking apparatus according to the fifth aspect, further comprising a morpheme analyzing unit that extracts a morpheme from the document, wherein the simple sentence extracting unit analyzes the morpheme analyzed by the morpheme analyzing unit. A single sentence is extracted based on the information, and a single sentence similarity is calculated based on morpheme information analyzed by the single sentence similarity calculation means.
According to a seventh aspect of the present invention, in the document ranking apparatus according to the sixth aspect, the document score calculating means scores based on the importance of the similar single sentence concatenation set included in the document and the ratio including the similar single sentence concatenation set. Is calculated.
The invention according to
請求項9に記載の本発明は、請求項8に記載の文書ランキング装置と、類似する文書を検索する文書検索手段と、前記検索結果を提示する検索結果提示手段と、を備え、前記検索結果提示手段により提示される検索結果が前記文書ランキング装置によって順位付けられていることを特徴とする。
請求項10に記載の本発明は、請求項1乃至3の何れか1項に記載した文書ランキング方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されている記録媒体を特徴とする。
請求項11に記載の本発明は、請求項4に記載した文書検索方法を実行するプログラムがコンピュータの読み取り可能な形式により記録されている記録媒体を特徴とする。
The present invention described in
A tenth aspect of the present invention is a recording medium on which a program for executing the document ranking method according to any one of the first to third aspects is recorded in a computer-readable format.
The present invention described in
本発明によれば、文書の話題の量や密度に関連した基準で文書を順位付けできるランキング方法を提供することができる。
また類似文書を検索した結果に対し、前述のランキング方法を採用することで、検索結果が、文書が含む話題の量や密度に関連した基準で順位付けされている類似文書検索方法を提供するができる。
ADVANTAGE OF THE INVENTION According to this invention, the ranking method which can rank a document by the reference | standard relevant to the quantity and density of the topic of a document can be provided.
Further, by adopting the ranking method described above for similar document search results, a similar document search method is provided in which the search results are ranked according to criteria related to the amount and density of topics included in the document. it can.
以下、図面を参照しながら本発明の実施形態を説明する。
図2は本発明の一実施形態である情報抽出装置の構成例である。
この図2に示す情報抽出装置はコンピュータにより構成され、文書を登録する入力手段としてのキーボード2、外部からの信号を受信したり、本実施形態の情報抽出装置から信号を送信したりする通信手段である通信I/Oインターフェース3、本実施形態の情報抽出装置における処理を集中して実行するCPU4、メモリ(揮発性のRAMと不揮発性のROMとどちらも想定可能)5、記憶手段としてのハードディスク6、出力手段としてのディスプレイ7やプリンター8などを有する。通信I/Oインターフェース3は、モデムやターミナルアダプタなどが想定でき、通信回線を介してイントラネットまたはインターネット10に接続されているサーバなどからデータを受信できる。CPU4は、メモリ5に記録された手順に従ってプログラムを実行する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 2 is a configuration example of an information extraction apparatus according to an embodiment of the present invention.
The information extraction apparatus shown in FIG. 2 is constituted by a computer, and is a
図3は、本実施形態の情報抽出装置が実行する文書ランキング処理を示したフローチャートである。なお、図3に示す処理は、図2に示すCPU4がメモリ5に記録された手順に従ってプログラムを実行することにより実現されるものである。
この場合、CPU4は、先ずステップS1において文書を入力する文書入力処理を実行する。次にステップS2において文書データベース11を利用して文書から形態素を抽出する形態素解析処理を実行し、ステップS3において文書から単文を抽出する単文抽出処理を実行する。次に、ステップS4において単文抽出処理により抽出した単文間の類似度を算出する単文間類似度算出処理を実行し、続くステップS5において文書データベース11を利用して単文の類似関係と単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出処理を実行する。この後、ステップS6において抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書間スコア算出処理を実行して処理を終えるようにしている。
FIG. 3 is a flowchart showing document ranking processing executed by the information extraction apparatus of this embodiment. Note that the processing shown in FIG. 3 is realized by the
In this case, the
また図4は本実施形態の情報抽出装置が実行する文書検索処理を示したフローチャートである。なお、図4に示す処理は、図2に示すCPU4がメモリ5に記録された手順に従ってプログラムを実行することにより実現されるものである。
この場合、CPU4はステップS11においてさらに類似する文書を検索する文書検索処理を実行し、続くステップS12において図3に示したような文書ランキング方法により文書ランキング処理を実行した後、ステップS13において、検索結果提示処理にて提示処理を実行するようにしている。この場合、検索提示処理により提示される検索結果は、検索結果の文書に上記図3に示した文書ランキング方法を適用することによって順位付けを行うようにしている。
FIG. 4 is a flowchart showing document search processing executed by the information extraction apparatus of this embodiment. Note that the processing shown in FIG. 4 is realized by the
In this case, the
以下、上記した各処理について詳細に説明する。
<文書入力処理>
本実施形態では、文書は、ユーザやアプリケーションによって1つの単位として定められる文字列と定義する。ここでは、図1の文書1から文書4の夫々を文書とし、これらの文書データが適切な形式で入力されるものとする。
入力した文書夫々に固有の識別番号を与える。即ち、文書1から文書4までの文書データの識別番号1から4までの数字を与え、これを文書情報データベースに記録する。
なお、文書情報データベースは、図2に示したハードディスク6などの補助記憶装置上に構築しても良いし、またメモリ5等の主記憶上に構築してもよい。
Hereinafter, each process described above will be described in detail.
<Document input processing>
In this embodiment, a document is defined as a character string determined as one unit by a user or an application. Here, it is assumed that each of
A unique identification number is given to each input document. That is,
The document information database may be constructed on an auxiliary storage device such as the hard disk 6 shown in FIG. 2 or may be constructed on a main memory such as the
<形態素解析処理>
上記ステップS2における形態素解析処理(文書解析処理)では、入力された文書に対し形態素解析処理を施し、文書から形態素列を抽出する。なお、本実施形態では、日本語文書を例示に用いているため、日本語形態素解析処理の動作例を示すが、文書は英語その他外国語であってもよく、その際は、対応する形態素解析システムを用いればよい。
文書識別子1(文書1)の文書の一部、“小泉純一郎首相は25日午前、武部勤自民党幹事長と首相官邸で会い、”というテキストに対し形態素解析を適用した結果を図5に示す。なお、本発明においては特別な形態素解析システムは必要とせず、形態素と品詞情報が得られるものであればいずれのものでも利用してよい。例えば、日本語形態素解析システムとしては、茶筅(http://chasen.naist.jp/hiki/ChaSen/)が良く知られている。
<Morphological analysis>
In the morpheme analysis process (document analysis process) in step S2, the input document is subjected to a morpheme analysis process to extract a morpheme string from the document. In this embodiment, since a Japanese document is used as an example, an operation example of Japanese morphological analysis processing is shown. However, the document may be in English or another foreign language, and in that case, the corresponding morphological analysis is performed. A system may be used.
FIG. 5 shows a result of applying morphological analysis to a part of the document with document identifier 1 (document 1), “Prime Minister Junichiro Koizumi meets with the LDP secretary-general at the Prime Minister's office on the morning of 25th”. In the present invention, no special morphological analysis system is required, and any morpheme and part-of-speech information may be used. For example, a tea bowl (http://chasen.naist.jp/hiki/ChaSen/) is well known as a Japanese morphological analysis system.
図5において、各行が各形態素に対応し、形態素の情報として、表記、品詞情報、及び識別子を記述している。
本実施形態では形態素の品詞として、一般的に自立語品詞とされるものと付属語品詞とされているものの大別を行い、付属語品詞は記号“付”を割り当てている。さらに、自立語品詞は、名詞、未登録語など体言系品詞とされるものは記号“自体”を、動詞、形容動詞など用言系品詞とされるものは記号“自用”を、また、記号は付属語にするが、例外として、句点は記号“句点”を、読点は記号“読点”を割り当てている。
形態素識別子は、形態素の表記と品詞情報が共に異なる場合に異なる識別子を与えているが、簡単のため形態素解析システムが提供する識別子を用いてもよい。
明示しないが文書1の残りのテキストと他の文書についても形態素解析を適用し、解析結果は適切な形式で文書情報データベースに記録される。
In FIG. 5, each line corresponds to each morpheme, and description, part-of-speech information, and an identifier are described as morpheme information.
In the present embodiment, the morpheme parts of speech are generally classified into those that are generally independent parts of speech and those that are attached parts of speech. In addition, self-supporting part-of-speech is the symbol “self” if it is a verbal part of speech such as a noun or unregistered word, the symbol “self-use” if it is a part-of-speech part of speech such as a verb or adjective verb. Is an attached word, except that the symbol “punctuation” is assigned to the punctuation and the symbol “reading” is assigned to the punctuation.
As the morpheme identifier, different identifiers are given when the morpheme notation and the part-of-speech information are different, but an identifier provided by the morpheme analysis system may be used for simplicity.
Although not explicitly shown, the morphological analysis is applied to the remaining text of the
形態素解析処理で生成されるデータの一例として、図6に文書情報テーブル、図7に文書識別子1の形態素リストテーブル、及び図8に形態素情報テーブルの一例を夫々示す。
図6に示す文書情報テーブルは、文書に布置された文書識別子と文書に対応する形態素リストテーブルの形態素リスト識別子、及び文書に対応する単文リストテーブルの単文リスト識別子で構成されている。本実施形態では、文書識別子、形態素リスト識別子及び単文リスト識別子として数値を用い、かつ同一の値を布置しているが、識別子は異なる固有な数値でも、固有な文字情報でもよい。
図7に示す形態素リストテーブルは、個々の文書を構成する全ての形態素識別子により構成されており、出現順にリスト化される。形態素リストの形態素識別子を、図8に示す形態素情報テーブルを参照し、昇順に展開することで、文書を再現することができる。
従って、本データを保持していれば、オリジナルの文書データを文書情報データベースに記憶しておく必要はない。また、形態素リスト識別子の頻度を求めることで、文書内の形態素頻度情報を簡単に求めることもできる。
As an example of data generated by the morpheme analysis processing, FIG. 6 shows a document information table, FIG. 7 shows a morpheme list table of
The document information table shown in FIG. 6 includes a document identifier arranged in a document, a morpheme list identifier of a morpheme list table corresponding to the document, and a single sentence list identifier of a single sentence list table corresponding to the document. In the present embodiment, numerical values are used as document identifiers, morpheme list identifiers, and simple sentence list identifiers, and the same values are arranged. However, the identifiers may be different unique numerical values or unique character information.
The morpheme list table shown in FIG. 7 is composed of all morpheme identifiers constituting individual documents and is listed in the order of appearance. A document can be reproduced by expanding the morpheme identifiers in the morpheme list in ascending order with reference to the morpheme information table shown in FIG.
Therefore, if this data is held, it is not necessary to store the original document data in the document information database. Further, by obtaining the frequency of the morpheme list identifier, it is possible to easily obtain the morpheme frequency information in the document.
図8に示す形態素情報テーブルは、文書から抽出される形態素の識別子、表記、及び品詞情報より構成されており、同一の表記及び品詞情報を持つ形態素のエントリは高々1つである。また、形態素情報テーブルは、全形態素識別子リストテーブルから共有される。
本実施形態では、全文書の解析結果が、図6〜図8に示すテーブル形式で、文書情報データベースに記録されるものとする。
The morpheme information table shown in FIG. 8 includes morpheme identifiers, notation, and part-of-speech information extracted from a document, and there is at most one morpheme entry having the same notation and part-of-speech information. The morpheme information table is shared from all morpheme identifier list tables.
In this embodiment, it is assumed that analysis results of all documents are recorded in the document information database in the table format shown in FIGS.
<単文抽出処理>
ステップS3における単文抽出処理では、入力された文書から単文を抽出する。本実施形態では文書の形態素列に対する規則をもとに単文の範囲を決定する動作例を示すが、形態素解析を行わず文書文字列に対し直接作用させる規則を用いて単文の範囲を求めてもよい。単文の範囲を決定するために、(式1)に記載の形態素品詞に関する正規表現規則を用いる。
(式1)
なお、式1において“[]”はクラスを、“^”はクラス文字の否定を、“+”は1つ以上の連続を、また“|”は選択を夫々示している。(なお、正規表現については“詳説 正規表現 第2版”[ISBN4−87311−130−7]等を参照すれば良い。
<Single sentence extraction processing>
In the single sentence extraction process in step S3, a single sentence is extracted from the input document. In this embodiment, an example of an operation for determining a range of a single sentence based on a rule for a morpheme string of a document is shown. However, even if a range of a single sentence is obtained using a rule that directly acts on a document character string without performing morpheme analysis. Good. In order to determine the range of a single sentence, the regular expression rule regarding the morpheme part-of-speech described in (Formula 1) is used.
(Formula 1)
In
式1は、品詞が句点でも読点でもない品詞の形態素列と、それに続く品詞が自用の形態素と句点の形態素列か、品詞が読点の形態素からなる形態素列にマッチングする正規表現である。
この規則を文書1の形態素解析結果に適用することで求められる単文を図9に示す。文書1からは2つの単文が抽出されており、各単文には固有の識別子を付置している。なお、単文の上段は形態素表記、下段は形態素品詞であり、また視認性にため各形態素には空白の区切りを入れている。
明示しないが文書2から文書4においても単文の抽出を実施し、その結果を図10に示す。文書1からは文書識別子1と2の2単文、文書2からは識別子3〜6の4単文、文書3からは文書識別子7〜14の8単文、及び文書4からは文書識別子15〜24までの10単文が抽出される。抽出した文書の単文情報は文書情報データベースに適切な形式で記憶する。
A simple sentence obtained by applying this rule to the morphological analysis result of
Although not clearly shown, extraction of simple sentences is also performed in
単文抽出処理において生成されるデータの一例として、図11に文書識別子1の単文終端位置リストテーブルを示す。
単文は文書内で連続して出現するため、文書における単文の終端形態素の位置情報により、単文を一意に同定することができる。従って、単文終端位置リストは、単文の終端形態素の、形態素リストテーブルにおけるインデックス番号(出現位置)を、単文の出現順にリスト化したものである。
即ち、図8においては、文書1の句点の、図7のリストテーブルにおけるインデックス番号である8と、図7には明示していないが、文書1の読点のインデックス番号である38が記載される。本実施形態では、全文書の単文抽出結果が、図11に示すテーブル形式で、文書情報データベースに記録されるものとする。
As an example of data generated in the single sentence extraction process, FIG. 11 shows a single sentence end position list table of the
Since simple sentences appear continuously in a document, simple sentences can be uniquely identified by the position information of the terminal sentence morphemes in the document. Therefore, the single sentence end position list is a list of index numbers (appearance positions) in the morpheme list table of the terminal morphemes of the single sentence in the order of appearance of the single sentences.
That is, in FIG. 8, the
<単文間類似度算出処理>
上記ステップS4における単文間類似度算出処理では、抽出した各単文の任意の1対の類似度を算出する。本実施形態では、各単文の品詞が自立語の形態素の頻度情報(頻度ベクトル)を用いて、単文間の類似度を(式2)に示すベクトル間の余弦として算出する動作例を示す。なお、単文の頻度ベクトルについては、図7の形態素リストテーブルと図11の単文終端位置リストテーブルを用いれば、簡単に求めることができるので、ここではその詳細については明示しない。
(式2)
上記式2において、s1とs2は、文書全体で固有の自立語品詞をもつ形態素数と同一の次元をもつ、夫々単文1と単文2の形態素出現頻度ベクトルであり、・はベクトルの内積を、また||はベクトルのノルムを夫々示す。
なお、本実施形態で採用している単文間類似度は文書間類似度において極めて一般的なものであり、文書間類似度に関しては、様々な先行研究がなされているため、単文を文書と見なすことでそれらの類似度を導入することができる。
<Simple sentence similarity calculation processing>
In the single sentence similarity calculation process in step S4, an arbitrary pair of similarities of each extracted single sentence is calculated. In the present embodiment, an example of operation is shown in which the similarity between simple sentences is calculated as a cosine between vectors shown in (Equation 2) using frequency information (frequency vectors) of morphemes where the part of speech of each single sentence is an independent word. Note that the frequency vector of simple sentences can be easily obtained by using the morpheme list table of FIG. 7 and the simple sentence end position list table of FIG.
(Formula 2)
In the
Note that the similarity between single sentences adopted in the present embodiment is very general in the similarity between documents, and regarding the similarity between documents, various previous studies have been made, so a single sentence is regarded as a document. The similarity can be introduced.
図10に示す各単文の明示しない形態素頻度ベクトルを(式2)に適用して算出した結果を図12に示す。なお、図12における行列は、夫々単文識別子であり、行列の要素は、行と列の識別子に対応する単文間の余弦類似度であり、類似度が0.2以上の要素は背景を灰色にしている。また、本実施形態では類似度行列は対象行列になるので下三角成分と、同一単文間類似度は表示していない。例えば、単文1と単文3の類似度は、0.63である。
図12の単文間類似度もまた文書データベースに適切な形式で記憶する。なお、単文間類似度は、文書数が大きくなるとデータ量も膨大になるため、閾値処理を行い、閾値以下の要素値を全て0とし、疎形式のデータ構造を採用することでデータ量を削減可能である。
FIG. 12 shows the result of calculation by applying the morpheme frequency vector of each simple sentence shown in FIG. 10 to (Equation 2). The matrix in FIG. 12 is a single sentence identifier, the elements of the matrix are the cosine similarity between single sentences corresponding to the row and column identifiers, and the elements with similarity of 0.2 or more have a gray background. ing. In the present embodiment, since the similarity matrix is a target matrix, the lower triangular component and the similarity between the same single sentences are not displayed. For example, the similarity between
The similarity between single sentences in FIG. 12 is also stored in an appropriate format in the document database. Note that the amount of data for the similarity between single sentences increases as the number of documents increases. Therefore, threshold processing is performed, all element values below the threshold are set to 0, and the data volume is reduced by adopting a sparse data structure. Is possible.
疎形式データの例として、図12の単文間類似度の一部の有効行インデックスリストテーブルと列インデックス−値リストテーブルを図13に示す。
有効行インデックスリストテーブルの各値は、図12の行列の閾値以上の値の要素を1つ以上持つ行のインデックス番号である。また、列インデックス−値リストテーブルの各値は、有効行インデックスリストテーブルにエントリされる行の閾値以上の値と対応する列インデックス番号である。
なお、有効インデックスリストテーブルの行インデックスと対応する列インデックス−値リストテーブルの対応については、ここでは明示していないが、列インデックス−値リストテーブル自体をリスト化すれば、有効インデックスリストテーブルとは容易に1対1対応にすることができるし、有効インデックスリストテーブルの各要素に対応する列インデックス−値リストテーブルへの参照情報を持たせてもよい。
本実施形態では、全単文間類似度の算出結果が、図13に示すテーブル形式で、文書情報データベースに記録されるものとする。
As an example of sparse format data, FIG. 13 shows a part of the effective row index list table and the column index-value list table of the similarity between single sentences in FIG.
Each value in the valid row index list table is an index number of a row having one or more elements having a value equal to or larger than the threshold value of the matrix in FIG. Each value in the column index-value list table is a column index number corresponding to a value equal to or greater than the threshold value of the row entered in the valid row index list table.
The correspondence between the row index of the effective index list table and the corresponding column index-value list table is not explicitly shown here, but if the column index-value list table itself is listed, what is an effective index list table? One-to-one correspondence can be easily made, and reference information to the column index-value list table corresponding to each element of the effective index list table may be provided.
In the present embodiment, it is assumed that the calculation result of the similarity between all single sentences is recorded in the document information database in the table format shown in FIG.
<類似単文連接集合群抽出処理>
上記ステップS5に示す類似単文連接集合群抽出処理では、抽出した単文の単文間類似度と文書における出現位置に基づき、文書内で隣接し、かつ単文間類似度が一定の値以上である単文集合を全て抽出する。本実施形態では、単文間類似度算出処理までの動作例を継承し、図12に示される単文間類似度行列をもとに類似単文連接集合群を抽出する動作を示す。
図12の単文間類似度行列において、類似度が0.2以上のものは1、0.2以下のものは0としたものを図14に示す。なお、図14において、要素値が1のものは背景を灰色、0のものは白色にしており、また各文書の境界のために線を引いている。
<Similar simple sentence connected set group extraction processing>
In the similar single sentence concatenated set extraction process shown in step S5, based on the extracted single sentence inter-sentence similarity and the appearance position in the document, the single sentence set that is adjacent in the document and the similarity between the single sentences is equal to or greater than a certain value. Are all extracted. In the present embodiment, an operation example up to the processing for calculating the similarity between single sentences is inherited, and an operation for extracting a group of similar single sentence connected sets based on the similarity matrix between single sentences shown in FIG. 12 is shown.
In the inter-sentence similarity matrix of FIG. 12, FIG. 14 shows that the similarity is 1 or more when the similarity is 0.2 or more, and 0 when the similarity is 0.2 or less. In FIG. 14, when the element value is 1, the background is gray, and when the element value is 0, the color is white, and a line is drawn for each document boundary.
本実施形態では、隣接する同一文書内の単文対を要素とする集合を1つのノードと、また単文対間の類似関係をエッジと見なすことで生成されるグラフの連結成分を抽出することで単文対類似グラフを生成し、さらに各連結成分のノード対の文書内における隣接関係もとにノードの融合と連結成分の結合を行うことで類似単文連接集合群を生成する。処理フローを図15に示す。
この場合、CPU4は、まず、ステップS21において、同一文書内の隣接する2つの短文を要素とする集合を生成する。次にステップS22において生成した集合をノードとみなし、異なる文書に含まれる2つのノードを構成する単文すべてに1つ以上の類似関係が存在している場合、ノード間にエッチングを結び、グラフを生成する。そして続くステップS23においてグラフが生成されたか否かの判別を行う。そしてステップS23において肯定結果が得られた場合(S23で「Yes」)、ステップS24に進み、生成したグラフの連結成分を抽出した後、続くステップS25において異なる連結成分における任意の2つのノード対において、対応する各ノードの積集合体がいずれも空でない場合、対応するノードの輪集合を新しいノードとして、グラフを連結する。そして最後にステップS26において生成された各連結成分を類似短文連接集合として抽出して処理を終えるようにする。なお、ステップS23において否定結果が得られた場合(S23で「No」)はそのまま処理を終えることになる。
In the present embodiment, a single sentence is extracted by extracting a connected component of a graph generated by regarding a set having a single sentence pair in an adjacent document as one node and a similarity between the single sentence pairs as an edge. A pair-similar graph is generated, and a similar single sentence concatenated set group is generated by fusing nodes and combining connected components based on the adjacent relationship in the document of the node pair of each connected component. The processing flow is shown in FIG.
In this case, first, in step S21, the
以下、具体的に説明すると、例えば、文書1では{1、2}が1つのノードなり、また文書2では、{3、4}や{4、5}等がノードとなる。
次に、図14より各ノード間にエッジをひく。エッジをひく条件は、ノードを構成する単文間ですくなくとも1つ以上の単文と閾値以上の類似度を有することである(本実施形態の場合、0、2であり、図14では要素値1が対応している)。例えば、ノード{1、2}とノード{3、4}、ノード{1、2}とノード{7、8}にエッジをひくことができる。
結果、図14からは3つの連結成分(グラフ)を抽出でき、その結果を図16に示す。
次に、抽出した連結成分ノード対の文書内における隣接関係もとにノードの融合と連結成分の結合を行う。
More specifically, for example, {1, 2} is one node in
Next, an edge is drawn between each node from FIG. The condition for drawing an edge is that at least one simple sentence between the single sentences constituting the node has a similarity equal to or higher than a threshold (in this embodiment, 0 and 2; in FIG. 14, the
As a result, three connected components (graphs) can be extracted from FIG. 14, and the results are shown in FIG.
Next, node fusion and connection component combination are performed based on the adjacent relationship in the document of the extracted connected component node pair.
本実施形態では、ノードの融合と連結成分の結合の条件を、“異なる連結成分における任意の2つのノード対において、対応する各ノードの積集合がいずれも空でない場合、対応するノードの和集合を新しいノードとして、グラフを連結する”こととする。
図16のグラフでは、グラフ1の{7、8}−{15、16}成分とグラフ2の{8、9}−{16、17}成分が条件を満たすノート対であるので、{7、8}と{8、9}、また{15、16}と{16、17}のノードを夫々融合し、あらたなノード{7、8、9}と{15、16、17}としてグラフ1とグラフ2を結合する。
結果、図14のグラフ1とグラフ2を結合し(グラフ1’)、その結果を図17に示す。この図17の各グラフが、類似単文連接集合になる。
In the present embodiment, the condition of the fusion of nodes and the combination of connected components is as follows: “If any two node pairs in different connected components are not empty, the union of the corresponding nodes Let's connect the graphs with the new node as "."
In the graph of FIG. 16, since the {7, 8}-{15, 16} component of the
As a result, the
なお、本実施形態では、初期ノードを2つの文書連続する単文としたが、初期ノードとして、1つのノードを中心とした窓関数から生成される単文集合としたり、抽出された連結成分の結合についてもよりノードの融合条件を、ノードの和集合の大きさに閾値をもうけるなどより複雑な仕組みを用いることもできる。
抽出した類似単文連接集合群は適切な形式で、文書情報データベースに記録する。
類似単文連接集合群データの一例として、図18に前記グラフ1’及びグラフ2の情報を記載した類似単文連接集合群リストテーブルを示す。
In the present embodiment, the initial node is a single sentence that is continuous in two documents. However, the initial node is a single sentence set generated from a window function centered on one node, or a combination of extracted connected components. It is also possible to use a more complicated mechanism such as setting a threshold for the node fusion condition and the union size of the node.
The extracted similar single sentence concatenated sets are recorded in a document information database in an appropriate format.
As an example of similar single sentence connected set group data, FIG. 18 shows a similar single sentence connected set group list table in which the information of the
ノード識別子は、各グラフのノードに与える識別子であり、単文識別子リストはノードを構成する単文の識別子集合であり、関係ノード識別子リストは、ノードと関係する(辺が結ばれている)他のノードのリストである。たとえば、1行目はノード{1、2}のものであり、識別子は1、ノードを構成する単文は文書識別子1と2、及びこのノードと関係するノードは、識別子2、3、4のノードであることを示している。なお、単文識別子リストと関係ノード識別子リストは図11などのように別途リストテーブルを用意し、この要素にはそのテーブルへの参照情報を記述する形式をとってもよい。
本実施形態では、類似単文連接集合群の算出結果が図18に示すテーブル形式で文書情報データベースに記録されるものとする。
The node identifier is an identifier to be given to each node of the graph, the single sentence identifier list is a set of identifiers of single sentences constituting the node, and the related node identifier list is another node related to the node (with edges connected). It is a list. For example, the first line is of the node {1, 2}, the identifier is 1, the simple sentences constituting the node are
In the present embodiment, it is assumed that the calculation result of the similar single sentence concatenated set group is recorded in the document information database in the table format shown in FIG.
<文書スコア算出処理>
上記図2のステップS6に示す文書スコア算出処理では、抽出した類似単文連接集合の情報をもとに文書スコアを算出する。本実施形態では、類似単文連接集合群までの動作例を継承し、図17に示す類似単文連接集合群が与えられているときに、文書が含む類似単文連接集合の重要度と、類似単文連接集合に含まれる単文の割合をもとに文書スコアを算出する動作を説明する。
まず、スコアの基準として、共通する話題を多く、かつ詳しく含む文書が高いスコアを得ることを考える。1つの共通する話題を図17における1つのグラフを見なすと、要素数の大きいノードをできるだけ多く含む文書がよいスコアをとればよく、例えば、式3のようにスコアを定式化すればよい。
(式3)
式3を基に文書1から文書4のスコアを算出すると、夫々0.66、0.66、2、2となり、文書3、文書4、文書1、文書2の順にランキングされる。
<Document score calculation processing>
In the document score calculation process shown in step S6 of FIG. 2, the document score is calculated based on the extracted information of the similar single sentence concatenation set. In the present embodiment, when the operation example up to the similar single sentence connected set group is inherited and the similar single sentence connected set group shown in FIG. 17 is given, the importance of the similar single sentence connected set included in the document, the similar single sentence connected set, and The operation of calculating the document score based on the ratio of simple sentences included in the set will be described.
First, as a score criterion, consider that a document having many common topics and detailed information obtains a high score. If one graph in FIG. 17 is regarded as one common topic, a document including as many nodes having a large number of elements as possible should have a good score. For example, the score may be formulated as shown in
(Formula 3)
When the scores of the
また、スコアの基準として、共通する話題を多く含むが、共通話題以外はできるだけ含まない文書がよいスコアを得ることを考えると、異なるグラフに属しているノード数を多く含み、またノードに属さない単文がない文書がよいスコアをとればよく、例えば、式4のようにスコアを定式化すればよい。
(式4)
式4を基に文書1から文書4のスコアを算出すると、夫々1、0.5、0.66、0.2となり、文書1、文書3、文書2、文書4の順にランキングされる。
なお、本実施形態では上記2つの基準に基づく動作のみを例示しているが、類似単文連接集合群の情報をもとにより複雑な基準をもとにスコアを算出してもよい。
In addition, as a criterion for scores, considering that a document that contains many common topics but not other common topics as much as possible gets a good score, it contains many nodes that belong to different graphs and does not belong to any nodes. What is necessary is just to take a good score for a document without a single sentence. For example, the score may be formulated as shown in
(Formula 4)
When the scores of the
In the present embodiment, only the operation based on the above two criteria is illustrated, but the score may be calculated based on a complex criterion based on the information of the similar single sentence connected set group.
算出した文書スコアを、文書情報データベースに記録する。
図19に文書スコアデータの例として、前記2つのスコア基準により算出した文書スコアを記載した文書スコアリストテーブルを示す。
文書スコアリストテーブルは、文書識別子、スコア基準1、及びスコア基準2からなり、スコア基準1は前記“共通する話題を多く、かつ詳しく含む文書が高いスコアを得ること”を基準とした文書のスコア値、スコア基準2は前記“共通する話題を多く含むが、共通話題以外はできるだけ含まない文書がよいスコアを得ること”を基準とした文書のスコア値である。
例えば、1行目は文書1のデータであり、識別番号は1、スコア基準1でのスコアは0.66、スコア基準2でのスコアは1である。
なお、本実施形態では文書データのスコア値による順位付けは明示していないが、スコア値をソーティングすれば容易に求めることができる。
本実施形態では、類似単文連接集合群の算出結果が、図19に示すテーブル形式で、文書情報データベースに記録されるものとする。
次に、CPU4はステップS13において結果提示処理を実行する。
The calculated document score is recorded in the document information database.
FIG. 19 shows a document score list table in which document scores calculated based on the two score criteria are shown as an example of document score data.
The document score list table is composed of a document identifier, a
For example, the first line is data of the
In this embodiment, the ranking based on the score value of the document data is not clearly shown, but it can be easily obtained by sorting the score value.
In the present embodiment, it is assumed that the calculation result of the similar single sentence connected set group is recorded in the document information database in the table format shown in FIG.
Next, CPU4 performs a result presentation process in step S13.
<文書検索処理>
ステップS7に示す文書検索処理では、適切に文書の検索を行えるものであればどのようなものであってもよく、例えば前述のgoogleの検索結果を適用すればよい。
例えば、文書検索処理で取得した検索結果として、文書のURLが取得されている場合、wget(例えば、http://wget.sunsite.dk/を参照)等の既知のHTML文書取得ツールを用いることで、HTML文書を取得し、さらにhtml2text(例えば、http://search.cpan.org/~awrigley/html2text-0.003/html2text.plを参照)等の既知のHTML文書をプレーンテキストに変換するツールを用いることで、取得したHTML文書をプレーンテキストに変換する。そして、取得した検索結果のプレーンテキストを前記文書データベースに登録する。
<Document search processing>
In the document search process shown in step S7, any document search process can be used as long as the document search can be appropriately performed. For example, the Google search result described above may be applied.
For example, when a URL of a document is acquired as a search result acquired in the document search process, a known HTML document acquisition tool such as wget (for example, see http://wget.sunsite.dk/) is used. A tool for acquiring HTML documents and converting known HTML documents such as html2text (for example, see http://search.cpan.org/~awrigley/html2text-0.003/html2text.pl) into plain text By using it, the acquired HTML document is converted into plain text. Then, the plain text of the acquired search result is registered in the document database.
<結果提示処理>
例えば、図20に前記文書1から文書4のランキングの表示例を示す。
図20では、文書1から文書4(行方向)までのランキング(列方向)が示されており、”問い合わせ語の一致”は、問い合わせ語:“郵政民営化and取りまとめ”の各文書内でのマッチング頻度によるランキング、“話題の豊富さ”は前記スコア基準1によるランキング、“異なる内容”は前記スコア基準2によるランキングであり、中心から左に行くほどランキング値が高くなっている。
なお、本実施形態において、”問い合わせ語の一致”のランキング結果は、明示しない全文検索システム:Namazu(http://www.namazu.org)を用いて算出している。
例えば、“問い合わせ語の一致”は文書1から文書4までともに同じランキング値であるが、“話題の豊富さ”では前記のとおり、文書3、文書4、文書1、文書2の順にランキングされる。従って、図20によれば、ユーザは多面的な基準でのランキングを一覧でき、所望の文書の閲覧を支援できるといえる。
<Result presentation process>
For example, FIG. 20 shows a display example of ranking of the
In FIG. 20, ranking (column direction) from
In the present embodiment, the ranking result of “query word match” is calculated by using a full-text search system: Namazu (http://www.namazu.org) not explicitly shown.
For example, “query word match” has the same ranking value from
また、図21〜図23に、図20において前記3つのランキング基準で、文書3を選択した場合の表示例を示す。
図21は“問い合わせの一致”基準での文書3であり、この基準における重要部として問い合わせ語にマッチングした部分が強調表示されている。また、図22は“話題の豊富さ”基準での文書3であり、この基準における重要部、即ち検索された文書群内での共通話題部分、として前記類似単文連接集合群を構成するノードに含まれる単文が強調表示されている。また、図23は“異なる内容”基準での文書3であり、この基準における重要部、即ち検索された文書群内での共通話題以外の部分、として前記類似単文連接集合群を構成するノードに含まれない単文が強調表示されている。これにより、ユーザは、各基準における文書内での重要部を閲覧することもできる。
21 to 23 show display examples when the
FIG. 21 shows the
なお、図22では前記類似単文連接集合群の情報を用いているので、他の文書への参照情報を同様に表示することで、より分析的な閲覧が可能になる。
結果、本発明により、文書の話題の量や密度に関連した基準で文書を順位付けできるランキング方法を提供することで、ユーザが検索結果などの文書群を多面的な観点から閲覧・分析することが可能となる。
なお、前述した情報抽出装置の各機能をコンピュータに実行させるためのプログラムを記録した、コンピュータ読み取り可能なフロッピディスクや光ディスク等の記録媒体を作成することもできる。その記録媒体を汎用のパーソナルコンピュータ等のフロッピィディスク装置やCD−ROMリーダ等の光ディスク装置に装着して、そこに記録されているプログラムを読み取って内部のハードディスク等の記録装置にインストールさせることにより、この発明による情報抽出装置として機能を持たせることが可能となる。
In FIG. 22, the information of the similar single sentence concatenated set group is used, so that the reference information to other documents is displayed in the same manner, thereby enabling more analytical browsing.
As a result, according to the present invention, by providing a ranking method that can rank documents according to criteria related to the amount and density of document topics, a user can browse and analyze a group of documents such as search results from a multifaceted viewpoint. Is possible.
Note that a computer-readable recording medium such as a floppy disk or an optical disk on which a program for causing a computer to execute each function of the information extraction apparatus described above is recorded can be created. By mounting the recording medium on a floppy disk device such as a general-purpose personal computer or an optical disk device such as a CD-ROM reader, reading the program recorded there and installing it in a recording device such as an internal hard disk, It is possible to provide a function as an information extraction device according to the present invention.
2…キーボード、3…通信I/Oインターフェース、4…CPU、5…メモリ、6…ハードディスク、7…ディスプレイ、8…プリンター、10…インターネット、11…文書データベース 2 ... Keyboard, 3 ... Communication I / O interface, 4 ... CPU, 5 ... Memory, 6 ... Hard disk, 7 ... Display, 8 ... Printer, 10 ... Internet, 11 ... Document database
Claims (11)
前記文書から単文を抽出する単文抽出ステップと、
前記単文抽出ステップにより抽出した単文間の類似度を算出する単文間類似度算出ステップと、
前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出ステップと、
前記類似単文連接集合群抽出ステップにより抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出ステップと、
を有することを特徴とする文書ランキング方法。 A document input step for entering a document;
A single sentence extraction step of extracting a single sentence from the document;
A single sentence similarity calculation step for calculating a similarity between single sentences extracted by the single sentence extraction step;
A similar single sentence concatenated set group extracting step for extracting a similar single sentence concatenated set group from the similarity relation of the single sentence and the appearance position information in the document of the single sentence;
A document score calculating step for calculating a score of a document based on the similar single sentence connected set group extracted by the similar single sentence connected set group extracting step;
A document ranking method characterized by comprising:
前記文書から形態素を抽出する形態素解析ステップをさらに有し、
前記単文抽出ステップにおいて、前記形態素解析ステップにおいて解析された形態素情報に基づいて単文の抽出を行い、
前記単文間類似度算出ステップにおいて解析された形態素情報を基に単文間類似度を算出することを特徴とする文書ランキング方法。 The document ranking method according to claim 1,
Further comprising a morphological analysis step of extracting morphemes from the document;
In the simple sentence extraction step, simple sentences are extracted based on the morpheme information analyzed in the morpheme analysis step,
A document ranking method characterized in that the similarity between single sentences is calculated based on the morpheme information analyzed in the single sentence similarity calculation step.
前記文書スコア算出ステップは、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする文書ランキング方法。 The document ranking method according to claim 2,
The document score calculating step calculates a score based on the importance of a similar single sentence concatenation set included in the document and a ratio including the similar single sentence concatenation set.
類似する文書を検索する文書検索ステップと、
検索結果を提示する検索結果提示ステップと、を有し、
前記検索結果提示ステップにて提示される検索結果は、前記文書ランキング方法によって順位付けられていることを特徴とする文書検索方法。 A document ranking method according to claim 3,
A document search step for searching for similar documents;
A search result presentation step for presenting a search result,
The search result presented in the search result presentation step is ranked according to the document ranking method.
前記文書から単文を抽出する単文抽出手段と、
前記単文抽出手段により抽出した単文間の類似度を算出する単文間類似度算出手段と、
前記単文の類似関係と前記単文の文書内の出現位置情報から類似する単文連接集合群を抽出する類似単文連接集合群抽出手段と、
前記類似単文連接集合群抽出手段により抽出された類似単文連接集合群に基づいて文書のスコアを算出する文書スコア算出手段と、
を備えることを特徴とする文書ランキング装置。 A document input means for inputting a document;
Simple sentence extraction means for extracting a simple sentence from the document;
A single sentence similarity calculating means for calculating a similarity between single sentences extracted by the single sentence extracting means;
Similar single sentence concatenated set extraction means for extracting similar single sentence concatenated sets from the single sentence similarity and the appearance position information in the single sentence document;
Document score calculating means for calculating a score of a document based on the similar single sentence connected set group extracted by the similar single sentence connected set group extracting means;
A document ranking apparatus comprising:
前記文書から形態素を抽出する形態素解析手段をさらに備え、
前記単文抽出手段において、前記形態素解析手段において解析された形態素情報に基づいて単文の抽出を行い、前記単文間類似度算出手段において解析された形態素情報を基に単文間類似度を算出することを特徴とする文書ランキング装置。 The document ranking apparatus according to claim 5, wherein
Further comprising morpheme analysis means for extracting morphemes from the document;
The simple sentence extracting means extracts simple sentences based on the morpheme information analyzed by the morpheme analyzing means, and calculates the similarity between simple sentences based on the morpheme information analyzed by the simple sentence similarity calculating means. Feature document ranking device.
前記文書スコア算出手段は、前記文書が含む類似単文連接集合の重要度と類似単文連接集合を含む割合とによりスコアを算出することを特徴とする文書ランキング装置。 The document ranking apparatus according to claim 6, wherein
The document ranking calculating device, wherein the document score calculating means calculates a score based on the importance of a similar single sentence concatenation set included in the document and a ratio including the similar single sentence concatenation set.
文書情報データベースを備え、
前記文書入力手段にて入力される文書の識別子、前記形態素解析手段にて抽出された文書の形態素解析結果、前記単文抽出手段で抽出された文書の単文情報、前記単文間類似度算出手段で算出された単文間類似度、前記類似単文連接集合群抽出手段で抽出された類似単文連接集合群、及び前記文書スコア算出手段で算出された文書スコアを夫々適切な形式で前記文書データベースに記憶することを特徴とする文書ランキング装置。 The document ranking apparatus according to claim 7, wherein
It has a document information database,
Document identifier input by the document input unit, morphological analysis result of the document extracted by the morpheme analysis unit, single sentence information of the document extracted by the single sentence extraction unit, calculated by the similarity between single sentences calculation unit Storing the single-sentence similarity between the single sentences, the similar single-sentence connected set group extracted by the similar single-sentence connected set group extracting unit, and the document score calculated by the document score calculating unit in an appropriate format in the document database. Document ranking device characterized by this.
類似する文書を検索する文書検索手段と、前記検索結果を提示する検索結果提示手段と、を備え、前記検索結果提示手段により提示される検索結果が前記文書ランキング装置によって順位付けられていることを特徴とする文書検索装置。 A document ranking device according to claim 8,
A document search means for searching for similar documents, and a search result presentation means for presenting the search results, wherein the search results presented by the search result presentation means are ranked by the document ranking device. Feature document retrieval device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006253606A JP2008077252A (en) | 2006-09-19 | 2006-09-19 | Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006253606A JP2008077252A (en) | 2006-09-19 | 2006-09-19 | Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008077252A true JP2008077252A (en) | 2008-04-03 |
Family
ID=39349260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006253606A Pending JP2008077252A (en) | 2006-09-19 | 2006-09-19 | Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008077252A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010146222A (en) * | 2008-12-18 | 2010-07-01 | Hitachi Ltd | Document classification apparatus, document classification method, and program |
US9122680B2 (en) | 2009-10-28 | 2015-09-01 | Sony Corporation | Information processing apparatus, information processing method, and program |
WO2016147624A1 (en) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | Search system, search method, and search program |
JP2016538616A (en) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | Knowledge extraction method and system |
JP2018504727A (en) * | 2015-11-27 | 2018-02-15 | 小米科技有限責任公司Xiaomi Inc. | Reference document recommendation method and apparatus |
-
2006
- 2006-09-19 JP JP2006253606A patent/JP2008077252A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010146222A (en) * | 2008-12-18 | 2010-07-01 | Hitachi Ltd | Document classification apparatus, document classification method, and program |
JP4521459B2 (en) * | 2008-12-18 | 2010-08-11 | 株式会社日立製作所 | Document classification apparatus, document classification method, and program |
US9122680B2 (en) | 2009-10-28 | 2015-09-01 | Sony Corporation | Information processing apparatus, information processing method, and program |
JP2016538616A (en) * | 2013-09-29 | 2016-12-08 | ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド | Knowledge extraction method and system |
WO2016147624A1 (en) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | Search system, search method, and search program |
JPWO2016147624A1 (en) * | 2015-03-13 | 2017-12-21 | 日本電気株式会社 | SEARCH SYSTEM, SEARCH METHOD, AND SEARCH PROGRAM |
US10909154B2 (en) | 2015-03-13 | 2021-02-02 | Nec Corporation | Search system, search method and search program |
JP2018504727A (en) * | 2015-11-27 | 2018-02-15 | 小米科技有限責任公司Xiaomi Inc. | Reference document recommendation method and apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | A survey of text question answering techniques | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
US20090300046A1 (en) | Method and system for document classification based on document structure and written style | |
US8782049B2 (en) | Keyword presenting device | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
TWI656450B (en) | Method and system for extracting knowledge from Chinese corpus | |
JP2005250980A (en) | Document retrieval system, retrieval condition input device, retrieval execution device, document retrieval method and document retrieval program | |
JP5718405B2 (en) | Utterance selection apparatus, method and program, dialogue apparatus and method | |
JP2009288870A (en) | Document importance calculation system, and document importance calculation method and program | |
JP2008077252A (en) | Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium | |
JP2009295052A (en) | Compound word break estimating device, method, and program for estimating break position of compound word | |
JPH0844771A (en) | Information retrieval device | |
WO2010103916A1 (en) | Device for presentation of characteristic words in document and program giving priority of characteristic words | |
JP5269399B2 (en) | Structured document retrieval apparatus, method and program | |
JP6106489B2 (en) | Semantic analyzer and program | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
JP4783563B2 (en) | Index generation program, search program, index generation method, search method, index generation device, and search device | |
JP2006215717A (en) | System, method, and program for information retrieval | |
JP2007200252A (en) | Abbreviation generation/validity evaluation method, synonym database generation/update method, abbreviation generation/validity evaluation device, synonym database generation/update device, program, and recording medium | |
JPH11259524A (en) | Information retrieval system, information processing method in information retrieval system and record medium | |
JP4484957B1 (en) | Retrieval expression generation device, retrieval expression generation method, and program | |
JP2008090396A (en) | Electronic document retrieval method, electronic document retrieval device, and program | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites | |
JP2012243130A (en) | Information retrieval device, method and program | |
JP4148247B2 (en) | Vocabulary acquisition method and apparatus, program, and computer-readable recording medium |