JP5326781B2 - Extraction rule creation system, extraction rule creation method, and extraction rule creation program - Google Patents
Extraction rule creation system, extraction rule creation method, and extraction rule creation program Download PDFInfo
- Publication number
- JP5326781B2 JP5326781B2 JP2009110435A JP2009110435A JP5326781B2 JP 5326781 B2 JP5326781 B2 JP 5326781B2 JP 2009110435 A JP2009110435 A JP 2009110435A JP 2009110435 A JP2009110435 A JP 2009110435A JP 5326781 B2 JP5326781 B2 JP 5326781B2
- Authority
- JP
- Japan
- Prior art keywords
- tagged text
- extraction rule
- tag
- pattern
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 193
- 238000000034 method Methods 0.000 title claims description 79
- 238000011156 evaluation Methods 0.000 claims abstract description 148
- 239000000284 extract Substances 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 description 48
- 238000003786 synthesis reaction Methods 0.000 description 48
- 238000010586 diagram Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 11
- 230000007704 transition Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書から情報を抽出するための抽出規則を作成する抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラムに関する。 The present invention relates to an extraction rule creation system, an extraction rule creation method, and an extraction rule creation program for creating an extraction rule for extracting information from a document.
ある文書の中から必要な情報を抽出する場合、ユーザが、何らかの規則(パターン)に合致する情報を抽出したいと考える場合がある。抽出したい情報のパターンが分かれば、そのパターンを用いて他の文書からも情報を抽出することが可能になる。 When extracting necessary information from a document, a user may want to extract information that matches some rule (pattern). If the pattern of information to be extracted is known, it is possible to extract information from other documents using the pattern.
例えば、ユーザが、文書内から人名を抽出する場合について考える。仮に、ユーザが、
人名の中から容疑者名を集めたいと考えている場合、ユーザが抽出したい情報のパターンは「「人名」+容疑者」であると推測できる。また、ユーザが、姓が「ab(abは、姓を表す漢字2文字)」である人名を集めたいと考えている場合、ユーザが抽出したい情報のパターンは「ab+「名詞」」であると推測できる。このように、ユーザが抽出した情報のパターンが分かれば、そのパターンに合致する情報を他の文書からも抽出できるようになる。
For example, consider a case where a user extracts a person name from a document. If the user
When it is desired to collect suspect names from personal names, it can be assumed that the pattern of information that the user wants to extract is “person name” + suspect. In addition, when the user wants to collect personal names whose surname is “ab (ab is two kanji characters representing the surname)”, the information pattern that the user wants to extract is “ab +“ noun ””. I can guess. In this way, if the pattern of information extracted by the user is known, information that matches the pattern can be extracted from other documents.
特許文献1には、訓練用コーパスから情報抽出規則を簡易に生成する情報抽出規則生成装置が記載されている。特許文献1に記載された情報抽出規則生成装置は、木構造表示部が表示部に構文木を表示させる。作業者は、表示部に表示された構文木を参照しながら、マウス操作やキーボード操作に基づいてアノテーションを入力する。木構造正規表現抽出部は、木構造及びアノテーションをもとに、対応する規則を表示する木構造表現を抽出する。
また、非特許文献1には、ルールの自動生成と対話的選択に基づく情報抽出ルール作成支援方法が記載されている。非特許文献1に記載された方法では、1つの事例から予め複数の抽出規則を自動作成し、各抽出規則に基づいて抽出処理を実行する。そして、抽出結果をユーザに提示した後、ユーザはその抽出結果に対する正否を対話的に入力することで、適切な抽出規則を絞り込む。これにより、ユーザは抽出結果の正否を入力するのみで、適切な抽出規則を作成することができる。
Non-Patent
ユーザが文書内から人名を抽出する場合、ユーザは、人名に関連する何らかのパターンに合致する情報を欲していると考えられる。しかし、上述の例のように、ユーザが文書内から人名を抽出する場合、ユーザが抽出したい情報を表すパターンは複数推測できる。例えば、ユーザが人名の中から容疑者名を集めたい場合、ユーザが抽出したい情報のパターンは、「「人名」+容疑者」になる。また、ユーザが、姓が「ab(abは、姓を表す漢字2文字)」である人名を集めたいと考えている場合には、ユーザが抽出したい情報のパターンは、「ab+「名詞」」になる。このように、「文書内から人名を抽出する」という情報だけでは、ユーザが欲する情報を抽出するためのパターンは複数推測されるため、情報を抽出するためのパターンを効率よく作成することは困難である場合が多い。 When a user extracts a person name from a document, the user is considered to want information that matches some pattern related to the person name. However, as in the above-described example, when a user extracts a person name from a document, a plurality of patterns representing information that the user wants to extract can be estimated. For example, when the user wants to collect suspect names from personal names, the pattern of information that the user wants to extract is ““ person name ”+ suspect”. When the user wants to collect personal names whose surname is “ab (ab is two kanji characters representing surname)”, the pattern of information that the user wants to extract is “ab +“ noun ””. become. Thus, it is difficult to efficiently create a pattern for extracting information because multiple patterns for extracting information desired by the user are inferred only by the information “extract a person's name from a document”. In many cases.
特許文献1に記載された情報抽出規則生成装置では、ユーザが、表示部に表示された構文木をもとに複雑な抽出規則を記述しなければならない。そのため、特許文献1に記載された装置を使って抽出規則を作成するためには、多くの時間を要してしまうという課題がある。また、特許文献1に記載された装置では、入力方法が複雑なため、ユーザが操作方法を理解しなければならないという課題がある。
In the information extraction rule generation device described in
また、非特許文献1に記載された方法では、適切な抽出規則を作成するために、ユーザは抽出結果に対する正否を入力するのみでよい。しかし、適切な抽出結果が得られるまで、ユーザは繰り返し抽出結果の正否を入力する必要がある。そのため、抽出規則を生成するためには、依然としてユーザの手間が大きいという問題がある。
Further, in the method described in
そこで、本発明は、ユーザが欲する情報を抽出するための規則を効率よく作成することができる抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラムを提供することを目的とする。 Therefore, an object of the present invention is to provide an extraction rule creation system, an extraction rule creation method, and an extraction rule creation program that can efficiently create rules for extracting information desired by a user.
本発明による抽出規則作成システムは、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段と、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成手段と、タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出手段と、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出手段とを備え、評価値算出手段が、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出することを特徴とする。 The extraction rule creation system according to the present invention is information added to an arbitrary position in a character string, and includes position information indicating the position of the character string to which the information is added and an attribute of a word corresponding to the position. Tagged text storage means for storing tagged text that is a document including a set of tags that is information indicating attribute information to be indicated, and characters that are information indicating the position of the tagged text and a character string in the tagged text When column position information is given, a word or tag corresponding to the position indicated by the character string position information is combined with words or tags before and after the word or tag to extract information from the tagged text For each tagged text stored in the tagged text storage means, an extraction rule creating means for creating an extraction rule that is a rule of The matching sentence position information extracting means for extracting the matching sentence position information that is information indicating the position of the matching sentence, and the evaluation value calculation for calculating the evaluation value that is a value obtained by evaluating the extraction rule based on the matching sentence position information The evaluation value calculation means calculates the evaluation value higher as the number of matching sentences appearing in one tagged text is smaller, and calculates the evaluation value as the matching sentence appears in more tagged texts. It is characterized by doing.
本発明による抽出規則作成方法は、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成ステップと、タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出ステップと、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出ステップとを含み、評価値算出ステップで、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出することを特徴とする。 The extraction rule creation method according to the present invention is information added to an arbitrary position in a character string, and includes position information indicating the position of the character string to which the information is added and an attribute of a word corresponding to the position. When a tagged text that is a document including a set of tags that is attribute information to be indicated and character string position information that is information indicating the position of the character string in the tagged text is given, the character string An extraction rule creating step for creating an extraction rule that is a rule for extracting information from tagged text by combining a word or tag corresponding to the position indicated by the position information and a word or tag before and after the word or tag. Then, for each tagged text stored in the tagged text storage means, the matching sentence position information which is the information indicating the position of the matching sentence including the word or the tag that matches the extraction rule is extracted. A matching sentence position information extraction step, and an evaluation value calculation step that calculates an evaluation value that is a value obtained by evaluating the extraction rule based on the matching sentence position information. In the evaluation value calculation step, within one tagged text The evaluation value is calculated to be higher as there are fewer conforming sentences appearing in, and the evaluation value is calculated to be higher as matching sentences appear in more tagged text.
本発明による抽出規則作成プログラムは、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報と、その位置に対応する単語の属性を示す属性情報とを表す情報であるタグの集合を含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段を備えたコンピュータに適用される抽出規則作成プログラムであって、コンピュータに、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成処理、タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出処理、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出処理を実行させ、評価値算出処理で、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出させることを特徴とする。 The extraction rule creation program according to the present invention is information added to an arbitrary position in a character string, and includes position information indicating the position of the character string to which the information is added and an attribute of a word corresponding to the position. An extraction rule creation program applied to a computer having tagged text storage means for storing tagged text, which is a document including a set of tags, which is information representing attribute information to be displayed. When the character string position information, which is information indicating the position of the character string in the tagged text, is given, the word or tag corresponding to the position indicated by the character string position information, and before and after the word or tag Extraction rule creation processing that creates extraction rules that are rules for extracting information from tagged text by combining words or tags, tagged text For each of the tagged text stored in the storage means, a matching sentence position information extraction process for extracting matching sentence position information, which is information indicating a position of a matching sentence including a word or tag that matches the extraction rule, and matching sentence position information Based on the evaluation value, the evaluation value calculation process for calculating the evaluation value, which is an evaluation value of the extraction rule, is executed. In the evaluation value calculation process, the lower the number of matching sentences that appear in one tagged text, the higher the evaluation value is calculated. In addition, the evaluation value is calculated to be higher as the matching sentence appears in more tagged text.
本発明によれば、ユーザが欲する情報を抽出するための規則を効率よく作成することができる。 According to the present invention, it is possible to efficiently create a rule for extracting information desired by a user.
以下、本発明の説明で使用する用語について定義する。タグ付きテキストとは、少なくとも、文字列の集合である本文と、文字列中の任意の位置に付加されたタグの集合を含む文書である。図1は、タグ付きテキストの例を示す説明図である。図1に例示するタグ付きテキストは、「奈良県警は14日、abcd容疑者(20)を強盗殺人の容疑で逮捕したと発表。」という本文(ただし、abは姓を表す漢字2文字、cdは名を表す漢字2文字)と、本文中の各文字列に対して付加されたタグの集合を含んでいることを示す。 Hereinafter, terms used in the description of the present invention will be defined. The tagged text is a document including at least a body that is a set of character strings and a set of tags added at arbitrary positions in the character strings. FIG. 1 is an explanatory diagram illustrating an example of tagged text. The tagged text illustrated in FIG. 1 is the main text that says “Nara Prefectural Police arrested suspected abcd (20) on 14th for murder of robbery.” (Where ab is a two-character kanji character representing a surname, cd Indicates a set of tags added to each character string in the text.
タグとは、単語の属性を表す文字列(以下、タグ名と記す。)と、タグを付加する文字列の本文中の位置(開始位置及び終了位置)を含む情報である。開始位置及び終了位置は、タグが付加された文字列の本文中の位置を、例えば、文頭を「0」とし、文字間を数えた数で表現する。図1に例示するタグ付きテキストでは、「abcd」に付加されたタグを、タグ名「人名」、開始位置「9」、終了位置「13」とするタグを用いて表現できる。また、以下の説明では、タグ名をTとするタグを「Tタグ」と記すこともある。 The tag is information including a character string representing a word attribute (hereinafter referred to as a tag name) and a position (start position and end position) in the text of the character string to which the tag is added. The start position and the end position are represented by the number in the text of the character string to which the tag is added, for example, with the beginning of the sentence being “0” and the number of characters counted. In the tagged text illustrated in FIG. 1, the tag added to “abcd” can be expressed using tags with a tag name “person name”, a start position “9”, and an end position “13”. In the following description, a tag whose tag name is T may be referred to as a “T tag”.
指定抽出位置とは、ユーザ又は外部のプログラム等が抽出しようとする文字列を指定するタグ付きテキスト中の文字列の位置であり、開始位置及び終了位置によって表される情報である。例えば、図1に例示するタグ付きテキストに対し、ユーザが指定抽出位置として、開始位置9文字目、終了位置13文字目を指定した場合、そのユーザは、文字列「abcd」を抽出したいと考えていることが分かる。 The designated extraction position is a position of a character string in the tagged text that designates a character string to be extracted by a user or an external program, and is information represented by a start position and an end position. For example, when the user designates the 9th character at the start position and the 13th character at the end position as the designated extraction position for the tagged text illustrated in FIG. 1, the user wants to extract the character string “abcd”. I understand that
事例とは、一つのタグ付きテキストと、そのタグ付きテキストに対して指定する指定抽出位置の組を表す情報であり、ユーザ又は外部のプログラム等により作成される。 A case is information representing a set of one tagged text and a designated extraction position designated for the tagged text, and is created by a user or an external program.
抽出規則とは、タグ付きテキストから情報を抽出するための規則である。この抽出規則を適切に作成することにより、ユーザが欲する情報をタグ付きテキストから抽出できるようになる。抽出規則は、少なくとも、文字列、タグ名及びワイルドカードの組み合わせ(テンプレートと記すこともある。)で表現され、そのテンプレート中には、指定抽出位置を示す情報を含む。 An extraction rule is a rule for extracting information from tagged text. By appropriately creating this extraction rule, information desired by the user can be extracted from the tagged text. The extraction rule is expressed by a combination of at least a character string, a tag name, and a wild card (sometimes referred to as a template), and the template includes information indicating a designated extraction position.
図2は、本発明における抽出規則を表現した構文の例を示す説明図である。図2に例示する構文では、抽出規則Rが、フレーズPHと抽出位置パターンEPとからなる列を一つ以上含む文字列で定義されていることを示す。フレーズPHとは、一つ以上の条件KEYからなる文字列である。また、条件KEYは、文字列そのもの、”[”と”]”で囲まれたタグ名、ワイルドカード(*)、又は空文字(φ)のいずれかにより表現される。なお、抽出規則を表現した構文のことを、抽出するパターン(もしくは、単にパターン)と記すこともある。 FIG. 2 is an explanatory diagram showing an example of a syntax expressing the extraction rule in the present invention. The syntax illustrated in FIG. 2 indicates that the extraction rule R is defined by a character string including one or more columns each including the phrase PH and the extraction position pattern EP. The phrase PH is a character string composed of one or more condition keys. The condition KEY is expressed by any one of a character string itself, a tag name surrounded by “[” and “]”, a wild card (*), or a null character (φ). The syntax expressing the extraction rule may be described as a pattern to be extracted (or simply a pattern).
抽出位置パターンEPは、指定抽出位置におけるタグ付きテキストの構成要素を組み合わせたパターンである。具体的には、抽出位置パターンEPは、一つ以上タグを含み、文字列とタグからなるパターンである。図2に例示する構文では、抽出位置パターンEPが、構成要素EPHの前後を記号「$」で囲んだ文字列として定義されていることを示す。構成要素EPHは、タグと条件EKEYとからなる列を一つ以上含む文字列、又は、構成要素EPH自身に、条件EKEYを結合した文字列である。また、条件EKEYは、文字列そのもの、又は、”[”と”]”で囲まれたタグ名、又は空文字(φ)のいずれかにより表現される。 The extraction position pattern EP is a pattern obtained by combining the components of the tagged text at the designated extraction position. Specifically, the extraction position pattern EP is a pattern including one or more tags and including a character string and a tag. The syntax illustrated in FIG. 2 indicates that the extraction position pattern EP is defined as a character string surrounded by the symbol “$” before and after the constituent element EPH. The component element EPH is a character string including one or more columns including a tag and a condition EKEY, or a character string obtained by combining the component element EPH with the condition EKEY. The condition EKEY is represented by either the character string itself, the tag name surrounded by “[” and “]”, or the empty character (φ).
抽出規則Rの例として、「$[人名]$容疑者」という規則が挙げられる。この抽出規則は、人名タグと、「容疑者」という文字列が隣接している部分から、人名タグが付加されている部分の文字列を抽出する、という規則であることを示す。 As an example of the extraction rule R, there is a rule of “$ [person name] $ suspect”. This extraction rule indicates that the character string of the part to which the personal name tag is added is extracted from the part where the personal name tag and the character string “suspect” are adjacent.
また、別の例として、「奈良*$ab[名詞]$」(ただし、abは、姓を表す漢字2文字)という規則が挙げられる。この抽出規則は、「奈良」という文字列の後ろに任意の文字列(*)が存在し、その後ろに「ab」という文字列が存在し、さらにその直後に名詞タグが隣接している文から、「ab」と名詞タグ部分の文字列とを合わせて抽出する、という規則であることを示す。 Another example is a rule of “Nara * $ ab [noun] $” (where ab is two kanji characters representing a surname). This extraction rule is a sentence in which an arbitrary character string (*) exists after the character string “Nara”, followed by a character string “ab”, and immediately followed by a noun tag. Therefore, it is indicated that the rule is that “ab” and the character string of the noun tag part are extracted together.
なお、以下の説明では、タグ付きテキストの集合と一つ以上の事例とをもとに抽出規則を作成する問題を抽出規則作成問題と呼ぶことがある。 In the following description, a problem of creating an extraction rule based on a set of tagged text and one or more cases may be referred to as an extraction rule creation problem.
以下、本発明の実施形態を図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明による抽出規則作成システムの一実施形態を示すブロック図である。本発明における抽出規則作成システムは、対象文書記憶部11と、パターン合成部12と、パターン評価部13と、文書検索部14とを備えている。
FIG. 3 is a block diagram showing an embodiment of the extraction rule creation system according to the present invention. The extraction rule creation system according to the present invention includes a target
対象文書記憶部11は、抽出対象のタグ付きテキストの集合を記憶する記憶装置である。対象文書記憶部11は、図1に例示したタグ付きテキストを任意の形式で保持する。図4は、対象文書記憶部11がタグ付きテキストを記憶する形式の例を示す説明図である。図4に示す例では、対象文書記憶部11が、本文テーブルとタグテーブルの二つのテーブルに分けて図1に例示したタグ付きテキストを記憶していることを示す。
The target
本文テーブルは、タグ付きテキストを文ごとに記憶するテーブルである。本文テーブルは、タグ付きテキストのユニークな識別子である文書IDと、文のユニークな識別子である文IDとを、本文の文字列と対応付けて記憶する。 The body table is a table that stores tagged text for each sentence. The body table stores a document ID that is a unique identifier of tagged text and a sentence ID that is a unique identifier of a sentence in association with a character string of the body.
また、タグテーブルは、あるタグ付きテキストに付加されたすべてのタグを記憶するテーブルである。タグテーブルは、あるタグのタグ名と、本文の開始位置及び終了位置と、タグが付加された文書の文書IDと、タグが付加された文の文IDとを対応付けて記憶する。 The tag table is a table that stores all tags added to a certain tagged text. The tag table stores the tag name of a tag, the start position and end position of the text, the document ID of the document to which the tag is added, and the sentence ID of the sentence to which the tag is added in association with each other.
タグ付きテキストは、例えば、管理者によって予め対象文書記憶部11に登録されていてもよく、また、後述の文書検索部14によって対象文書記憶部11に登録されてもよい。
For example, the tagged text may be registered in advance in the target
パターン合成部12は、後述する方法により、一つ以上の事例(すなわち、タグ付きテキストと、そのタグ付きテキストに対して指定する指定抽出位置の組)が与えられたときに、指定抽出位置のタグ付きテキストの単語又はタグと、その単語又はタグの前後の単語又はタグとをもとに抽出規則の候補を合成(作成)する。図5は、パターン合成部12によって作成されたパターンの例を示す説明図である。例えば、図1に例示するタグ付きテキストと、そのタグ付きテキストの9文字目から13文字目を指定抽出位置とする事例が与えられると、パターン合成部12は、その事例及びその指定抽出位置付近の単語又はタグとをもとに、図5に例示するパターンを作成する。
When one or more cases (that is, a set of tagged text and a designated extraction position designated for the tagged text) are given by the method described later, the
パターン評価部13は、パターン合成部12が作成したパターンが対象文書記憶部11に記憶されたタグ付きテキスト内に発生する位置、及びその発生頻度の分布を調べ、この分布をもとに評価値を算出する。すなわち、パターン評価部13は、対象文書記憶部11に記憶されたタグ付きテキストごとに、パターン合成部12が作成したパターンに適合する単語又はタグを含む文の位置を抽出し、その位置をもとに評価値を算出する。具体的には、パターン評価部13は、対象文書記憶部11に記憶されたタグ付きテキストごとに、パターン合成部12が作成した抽出規則(パターン)に適合する単語又はタグを含む文の位置を抽出する。以下、抽出規則に適合する単語又はタグを含む文を適合文と記す。そして、パターン評価部13は、1つのタグ付きテキスト内に現れる適合文がより少ないほどその抽出規則の評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほどその抽出規則の評価値を高く算出する。
The
例えば、対象文書記憶部11内のタグ付きテキスト内にパターンpが登場した総数(すなわち、適合するパターンが含まれる数)をpf(p)、対象文書記憶部11内のタグ付きテキスト内にパターンpが登場した回数(すなわち、適合するパターンが含まれる文書の種類)をdf(p)とするとき、評価値ipfdf(p)は次の式1で算出できる。
For example, the total number of occurrences of the pattern p in the tagged text in the target document storage unit 11 (that is, the number that includes a matching pattern) is pf (p), and the pattern in the tagged text in the target
以下の説明では、パターン評価部13が式1を用いて評価値を算出する場合について説明する。なお、評価値の算出方法は、1つのタグ付きテキスト内に現れる適合文がより少ないほどその抽出規則の評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほどその抽出規則の評価値を高く算出するような他の式を用いて算出してもよい。
In the following description, a case where the
図6は、パターン評価部13が算出した評価値の例を示す説明図である。パターン評価部13は、例えば、図5に例示するパターンごとに、対象文書記憶部11に記憶されたタグ付きテキスト内に発生する位置及びその発生頻度の分布を調べ、その分布をもとに評価値を算出する。
FIG. 6 is an explanatory diagram illustrating an example of evaluation values calculated by the
文書検索部14は、ユーザもしくは外部のプログラム等が検索クエリとして抽出条件(抽出対象のキーワード)を指定すると、その条件に該当するタグ付きテキストを抽出する。文書検索部14は、例えば、指定した条件に該当するタグ付きテキストを抽出する文書検索システムなどにより実現される。抽出対象のタグ付きテキストは、文書検索部14内の記憶部(図示せず)に、例えば、図4に例示するフォーマットで予め記憶されている。文書検索部14は、その記憶部(図示せず)から条件を満たす文書ID及び文IDのリストを抽出し、各文書IDが示すタグ付きテキストを読み込み、そのタグ付きテキストを対象文書記憶部11に登録してもよい。なお、対象文書記憶部11にタグ付きテキストを登録するとは、対象文書記憶部11にタグ付きテキストを記憶させることを意味する。
When the user or an external program or the like specifies an extraction condition (extraction target keyword) as a search query, the
また、上記記憶部に記憶されたフォーマットが、図4に例示するフォーマットと異なる場合、文書検索部14は、抽出条件に該当するタグ付きテキストを、図4に例示するフォーマットに変換して、対象文書記憶部11に登録してもよい。
If the format stored in the storage unit is different from the format illustrated in FIG. 4, the
上記内容により、文書検索部14は、キーワードで表現された検索クエリを元に、抽出対象のタグ付きテキストの集合を選択的に収集し、対象文書記憶部11内に挿入する処理を行うと言うことができる。
Based on the above contents, the
このように、文書検索部14が、ユーザもしくは外部のプログラム等が指定した検索クエリをもとにタグ付きテキストを抽出し、抽出したタグ付きテキストを対象文書記憶部11に登録することにより、対象文書記憶部11内のタグ付きテキストの集合を変化させることができる。抽出対象のタグ付きテキストを変化させることにより、ユーザが欲するパターンの評価値をより高くできるため、効率よく抽出規則を取り出すことができる。
As described above, the
パターン合成部12と、パターン評価部13と、文書検索部14とは、プログラム(抽出規則作成プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、パターン合成部12、パターン評価部13及び文書検索部14を含む装置が備える記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、パターン合成部12、パターン評価部13及び文書検索部14として動作してもよい。また、パターン合成部12と、パターン評価部13と、文書検索部14とは、それぞれが専用のハードウェアで実現されていてもよい。
The
次に、動作について説明する。以下の説明では、まず、パターン合成部12が、入力された事例をもとにパターンを合成(作成)し、パターン評価部13が、パターン合成部12が作成した各パターンを評価する処理(以下、これらの処理をまとめて、事例入力プロセスと記すこともある。)について説明する。その後、文書検索部14が、内部の記憶部(図示せず)に記憶するタグ付きテキストの中から、キーワードを本文に含むタグ付きテキストの集合を作成する処理(以下、この処理を、検索プロセスと記すこともある。)について説明する。
Next, the operation will be described. In the following description, first, the
なお、以下の説明では、パターン合成部12が、入力された事例をもとにパターンを合成(作成)する処理を、合成ステップと記し、パターン評価部13が、パターン合成部12が作成した各パターンを評価する処理を、評価ステップと記す。
In the following description, a process in which the
初めに、事例入力プロセスについて説明する。事例入力プロセスは、ユーザもしくは外部のプログラムがパターン合成部12に事例を入力することにより処理を開始する。
First, the case input process will be described. The case input process starts when a user or an external program inputs a case to the
図7は、合成ステップの例を示すフローチャートである。パターン合成部12は、ある事例(すなわち、タグ付きテキストと指定抽出位置を含む情報)が入力されると、まず、タグ付きテキストから指定抽出位置の文字列とタグをすべて取り出し、タグを一つ以上含むすべての組み合わせを抽出してパターンを作成する(ステップS10)。
FIG. 7 is a flowchart showing an example of the synthesis step. When a certain example (that is, information including a tagged text and a specified extraction position) is input, the
図8は、パターン合成部12がパターンを選び出す方法の例を示す状態遷移図である。図8に示す例では、事例として、図1に例示するタグ付きテキストと、指定抽出位置「9文字目から13文字目」とが入力された場合について説明する。パターン合成部12は、図1に例示するタグ付きテキストから、図8に例示する状態遷移のすべてのパターンを調べ、「abcd」,「ab[名詞]」,「[名詞]cd」,「[名詞][名詞]」,「[人名]」という5つのパターンを取り出す。このうち、タグを一つ以上含む組合せとして、「ab[名詞]」,「[名詞]cd」,「[名詞][名詞]」,「[人名]」の4つのパターンを抽出する。
FIG. 8 is a state transition diagram illustrating an example of a method by which the
タグを含まないパターンは、特定の文字列(たとえば、「abcd」という文字列)しか収集できず、抽出規則としては効果が小さい。そのため、タグを一つ以上含む組合せを抽出することにより、無駄なパターンを予め省き、以後の計算量を小さくすることができる。 A pattern that does not include a tag can collect only a specific character string (for example, a character string “abcd”), and has a small effect as an extraction rule. Therefore, by extracting a combination including one or more tags, useless patterns can be omitted in advance, and the amount of calculation thereafter can be reduced.
ステップS10における処理(アルゴリズム)について、図9を用いて説明する。図9は、ステップS10におけるアルゴリズムの例を示すフローチャートである。図9に例示するアルゴリズムは、メソッド(generate)を再帰的に呼び出すことによってパターンを作成する。ここで、generateメソッドは、generateメソッドが呼び出された時点で作成されているパターンnowと、その時点の位置posと、終了位置endという3つの引数を持つ。 The process (algorithm) in step S10 will be described with reference to FIG. FIG. 9 is a flowchart illustrating an example of the algorithm in step S10. The algorithm illustrated in FIG. 9 creates a pattern by recursively calling a method (generate). Here, the generate method has three arguments: a pattern now created when the generate method is called, a position pos at that time, and an end position end.
初めに、パターン合成部12は、generateメソッドの引数として、now=””(空)、pos=指定抽出位置の開始位置、end=指定抽出位置の終了位置、を受け取り、generateメソッドが示す処理を開始する。generateメソッドにおいて、パターン合成部12は、位置posが終了位置endより大きいかどうかを調べる(ステップS11)。位置posが終了位置endより大きい場合(ステップS11におけるYES)、パターン合成部12は、処理を終了する(ステップS12)。位置posが終了位置endより大きくなく(ステップS11におけるNO)、位置posが終了位置endと等しい場合(ステップS13におけるYES)、パターン合成部12は、状態遷移の終了位置に到達したと判定し、その時点のパターンnowを調べる。パターンnowにタグが一つでも含まれていれば、パターンnowの値をパターンとして抽出し、処理を終了する(ステップS14)。
First, the
一方、位置posが終了位置endと等しくない場合(ステップS13におけるNO)、パターン合成部12は、位置posを開始位置とするタグTをすべて取り出し、それらのタグTを現在のパターンに追加する。また、パターン合成部12は、現在の位置posをタグTの終了位置に更新した情報でgenerateメソッドを呼び出す(ステップS15)。さらに、パターン合成部12は、現在の位置posの次の文字cを取り出す(ステップS16)。そして、パターン合成部12は、パターンnowにその文字cを追加し、現在の位置posに1を加算した情報でgenerateメソッドを呼び出す(ステップS17)。
On the other hand, when the position pos is not equal to the end position end (NO in step S13), the
generateメソッドは、上記内容を実行するための処理である。すなわち、generateメソッドは、指定抽出位置を右に移動させながらパターンを作成する処理であると言える。 The generate method is a process for executing the above contents. That is, it can be said that the generate method is a process of creating a pattern while moving the designated extraction position to the right.
次に、パターン合成部12は、指定抽出位置の右側R文字の文字列とタグとを組み合わせたパターン、及び、指定抽出位置の左側L文字の文字列とタグとを組み合わせたパターンを作成する(図7におけるステップS20)。RとLの値は、例えば、予めユーザや開発者によって指定される任意の整数である。
Next, the
指定抽出位置の右側R文字(左側L文字)の文字列とタグを組み合わせたパターンは、図9に例示するアルゴリズムと同様のアルゴリズムによって作成できるため、詳細な説明は省略する。すなわち、指定抽出位置の右側R文字のパターンを作成する場合、パターン合成部12は、generateメソッドの引数を、now=””(空)、pos=指定抽出位置の終了位置、end=指定抽出位置の終了位置+Rとして処理を行えばよい。また、指定抽出位置の左側L文字のパターンを作成する場合、パターン合成部12は、generateメソッドの引数を、now=””(空)、pos=指定抽出位置の開始位置−L、end=指定抽出位置の開始位置として処理を行えばよい。
A pattern in which a character string of a right R character (left L character) at a designated extraction position and a tag are combined can be created by an algorithm similar to the algorithm illustrated in FIG. That is, when creating a pattern of R characters on the right side of the designated extraction position, the
なお、指定抽出位置の右側R文字(左側L文字)には、タグが含まれていなくてもよいため、この場合、パターン合成部12は、ステップS14において、パターンnowにタグが含まれているか否か判断してなくてよい。
Since the right R character (left L character) of the designated extraction position does not need to include a tag, in this case, the
次に、パターン合成部12は、名詞タグを元にパターンを作成する(図7におけるステップS30)。具体的には、パターン合成部12は、指定抽出位置、指定抽出位置の左側L文字、及び指定抽出位置の右側R文字以外に登場する名詞をすべて取り出す。そして、パターン合成部12は、これらの名詞のうち、指定抽出位置に対して左側にある名詞を左パターン語Plw、指定抽出位置に対して右側にある名詞を右パターン語Prwとして抽出する。
Next, the
なお、以下の説明では、パターン合成部12が名詞タグをもとにパターンを作成(すなわち、本文中から名詞を取り出す)場合について説明するが、パターン合成部12がパターンを作成する対象とするタグは、名詞タグに限られない。例えば、名詞以外の動詞、形容詞、形容動詞などの自立語であってもよい。このような語を利用してパターンを作成することにより、助詞のように一般的で無意味な語をパターンから排除することができる。
In the following description, a case where the
パターン合成部12は、ステップS10において作成されたパターンの一覧(以下、リストAと記す。)と、ステップS20において作成された右パターンの一覧(以下、リストRPと記す。)及び左パターンの一覧(以下、リストLPと記す。)と、ステップS30において作成された左パターン語の一覧(以下、リストLWと記す。)及び右パターン語の一覧(以下、リストRWと記す。)とを合成して、抽出規則の候補を作成する(ステップS40)。
The
ステップS40における処理(アルゴリズム)について、図10を用いて説明する。図10は、ステップS40におけるアルゴリズムの例を示すフローチャートである。図10に例示するアルゴリズムでは、まずパターン合成部12は、リストRP、リストLP、リストLW及びリストRWに対して、空文字””を追加する(ステップS41)。この空文字””は、そのリストに含まれるパターンを利用しないことを意味するものである。パターン合成部12は、各リスト(すなわち、リストA、リストRP、リストLP、リストLW及びリストRW)からそれぞれ一つのパターンを取り出し、取り出した各リストのパターンのすべての組合せに対して以下のステップS42〜S47に示す処理を行う。
The process (algorithm) in step S40 will be described with reference to FIG. FIG. 10 is a flowchart illustrating an example of the algorithm in step S40. In the algorithm illustrated in FIG. 10, the
パターン合成部12は、リストAから取り出したパターンに指定抽出位置を示す記号である「$」を追加したパターンRを作成する(ステップS42)。次に、パターン合成部12は、リストRPから取り出したパターンPrを、パターンRの右側に追加する(ステップS43)。同様に、パターン合成部12は、リストLPから取り出したパターンPlを、パターンRの左側に追加する(ステップS44)。次に、パターン合成部12は、リストRWから取り出したパターンPrwの左側にワイルドカード「*」を付加したパターンを、パターンRの右側に追加する(ステップS45)。同様に、パターン合成部12は、リストLWから取り出したパターンPlwの右側にワイルドカード「*」を付加したパターンを、パターンRの左側に追加する(ステップS46)。最後に、パターン合成部12は、作成したパターンRをパターン評価部13に通知する(ステップS47)。このように、パターン合成部12は、与えられた事例をもとに作成したパターンをパターン評価部13に通知する。
The
次に、評価ステップの動作について説明する。図11は、評価ステップの例を示すフローチャートである。パターン評価部13は、パターン合成部12から各パターンを受け取ると、パターンに適合する文を探し、適合する文の文書IDと文IDの組を抽出する(ステップS50)。そして、パターン評価部13は、抽出した文書ID及び文IDから、受け取ったパターンの評価値を算出する(ステップS60)。なお、以下の説明では、ステップS50における処理を検索処理、ステップS60における処理を、評価値算出処理と記す。
Next, the operation of the evaluation step will be described. FIG. 11 is a flowchart illustrating an example of the evaluation step. When the
検索処理について、図12を用いて説明する。図12は、検索処理の例を示すフローチャートである。パターン評価部13は、対象文書記憶部11に記憶された本文テーブル内の各レコードを順に読み込み、各レコードの文書ID及び文IDに対応するタグをタグテーブルから読み込む(ステップS51)。次にパターン評価部13は、各文及び各タグと入力されたパターンとを比較し(ステップS52)、両者の間にマッチングが成立(すなわち、パターンに適合する文、又はタグが存在)したときに、その文の文書IDと文IDとを抽出する(ステップS53)。
The search process will be described with reference to FIG. FIG. 12 is a flowchart illustrating an example of search processing. The
なお、検索処理を行う方法は、上記方法に限定されない。パターン合成部12が作成したパターンに適合する文の位置を抽出できる方法であれば、他の方法であってもよい。
The method for performing the search process is not limited to the above method. Any other method may be used as long as it can extract the position of a sentence that matches the pattern created by the
ステップS52において、両者の間にマッチングが成立したか否か判定する処理について、図13を用いて説明する。図13は、ステップS52における判定処理の例を示すフローチャートである。パターン評価部13は、パターン合成部12から受け取ったパターンPと、ステップS51で読み込んだ文S及びその文Sに付加されたタグの集合TListをもとに、以下のステップS71〜S85の処理を行う。
Processing for determining whether or not matching has been established between the two in step S52 will be described with reference to FIG. FIG. 13 is a flowchart illustrating an example of the determination process in step S52. The
パターン評価部13は、予め定められた構文(”[”, ”]”,”*”,”$”の記号)に基づき、パターンPを、タグ名、文字列及びワイルドカードの各条件に区切り、区切った条件の一覧(以下、条件列リストListと記す。)を作成する(ステップS71)。例えば、「$[人名]$容疑者*逮捕」というパターンの場合、パターン評価部13は、「[人名]」、「容疑者」、「*」、「逮捕」という4つの条件に区切ることができる。パターン評価部13は、区切った条件を、パターンの先頭から順に条件列リストListに格納する。
The
次に、パターン評価部13は、文中の位置を表す変数iを0に、ワイルドカードの有無を表す変数flagを1にそれぞれ初期化する(ステップS72)。そして、パターン評価部13は、条件列リスListから先頭の条件Cを取り出す(ステップS73)。取り出した条件Cがタグ名の場合(ステップS74におけるYES)、パターン評価部13は、変数flagが1であるか否か調べる(ステップS75)。変数flagが1の場合(ステップS75におけるYES)、この状態は、ワイルドカードが有効であるか、パターンの先頭であるかのいずれかであると言える。この場合、パターン評価部13は、タグの集合TListの中から、開始位置が変数iより大きく、条件Cで指定されたタグTが存在するか否か調べる(ステップS76)。条件Cで指定されたタグTがタグの集合TListに存在する場合(ステップS76におけるYES)、パターン評価部13は、タグTが条件Cに一致したと判断して、変数iにタグTの終了位置を代入する(ステップS78)。
Next, the
一方、ステップS76において、条件Cで指定されたタグTがタグの集合TListに存在しない場合(ステップS76におけるNO)、パターン評価部13は、パターンが不一致である旨の情報を出力し、処理を終了する。
On the other hand, when the tag T specified by the condition C does not exist in the tag set TList in step S76 (NO in step S76), the
また、ステップS75において、変数flagが1でない場合(ステップS75におけるNO)、ワイルドカードは有効でないことが分かる。この場合、パターン評価部13は、タグの集合TListの中から、開始位置が変数iと等しく、条件Cで指定されたタグTが存在するか否か調べる(ステップS77)。条件Cで指定されたタグTがタグの集合TListに存在する場合(ステップS77におけるYES)、パターン評価部13は、タグTが条件Cに一致したと判断して、変数iにタグTの終了位置を代入する(ステップS78)。一方、ステップS77において、条件Cで指定されたタグTがタグの集合TListに存在しない場合(ステップS77におけるNO)、パターン評価部13は、パターンが不一致である旨の情報を出力し、処理を終了する。
In step S75, if the variable flag is not 1 (NO in step S75), it is understood that the wild card is not valid. In this case, the
ステップS74において、パターン評価部13が取り出した条件がタグ名でない場合(ステップS74におけるNO)、パターン評価部13は、条件Cが文字列か否か調べる(ステップS79)。条件Cが文字列の場合(ステップS79におけるYES)、パターン評価部13は、変数flagが1であるか否か調べる(ステップS80)。変数flagが1の場合(ステップS80におけるYES)、ワイルドカードは有効であることが分かる。この場合、パターン評価部13は、読み込んだ文Sのi文字目以降に条件Cとして指定された文字列Wが存在するか否か調べる(ステップS81)。文字列Wが存在する場合(ステップS81におけるYES)、パターン評価部13は、文字列Wが条件Cに一致したと判断して、変数iに文字列Wの文字数を加算する(ステップS83)。一方、ステップS81において、文字列Wが存在しない場合(ステップS81におけるNO)、パターン評価部13は、パターンが不一致である旨の情報を出力し、処理を終了する。
In step S74, when the condition extracted by the
また、ステップS80において、変数flagが1でない場合(ステップS80におけるNO)、ワイルドカードは有効でないことが分かる。この場合、パターン評価部13は、読み込んだ文Sのi文字目に条件Cとして指定された文字列Wが存在するか否か調べる(ステップS82)。文字列Wが存在する場合(ステップS82におけるYES)、パターン評価部13は、文字列Wが条件Cに一致したと判断して、変数iに文字列Wの文字数を加算する(ステップS83)。一方、ステップS82において、文字列Wが存在しない場合(ステップS82におけるNO)、パターン評価部13は、パターンが不一致である旨の情報を出力し、処理を終了する。
In step S80, if the variable flag is not 1 (NO in step S80), it is understood that the wild card is not valid. In this case, the
ステップS78で、変数iにタグTの終了位置を代入した後、又は、ステップS83で、変数iに文字列Wの文字数を加算した後、パターン評価部13は、条件リストListが空か否か(すなわち、条件Cの取り出しが完了したか否か)判断する(ステップS84)。条件リストListが空である場合(ステップS84におけるYES)、パターン評価部13は、すべての条件Cが満たされたと判断し、パターンが一致した旨の情報を出力し、処理を終了する。一方、条件リストListが空でない場合(ステップS84におけるNO)、パターン評価部13は、変数flagに0を代入して(ステップS85)、ステップS73以降の処理を繰り返す。
After substituting the end position of the tag T for the variable i in step S78, or after adding the number of characters of the character string W to the variable i in step S83, the
また、ステップS79において、条件Cが文字列でない場合(ステップS79におけるNO)、条件Cはワイルドカードである。よって、パターン評価部13は、flagに1を代入して(ステップS86)、ステップS73以降の処理を繰り返す。
In step S79, if condition C is not a character string (NO in step S79), condition C is a wild card. Therefore, the
このようにして、パターン評価部13は、パターン合成部12から受け取ったパターンPが、ステップS51で読み込んだ文S及びその文Sに付加されたタグの集合TListと一致するか否かを示す情報を出力できる。
In this manner, the
次に、評価値算出処理について説明する。評価値算出処理では、パターン評価部13は、検索処理において抽出された文書IDと文IDの組から、pf(p)とdf(p)とを算出する。パターン評価部13は、例えば、pf(p)の値を、文書IDと文IDの組の数を数えることで算出し、df(p)の値を、文書IDと文IDの組のうち、文書IDの種類数を数えることで算出する。パターン評価部13は、例えば、式1で示した式に基づき評価値を算出する。
Next, the evaluation value calculation process will be described. In the evaluation value calculation process, the
なお、パターン合成部12及びパターン評価部13は、各処理の論理的前後関係が変わらない限り、事例入力プロセス内の処理を任意の順序で行ってもよい。
Note that the
次に、検索プロセスについて説明する。検索プロセスは、ユーザもしくは外部のプログラムが文書検索部14にクエリ(すなわち、条件)を入力することにより処理を開始する。
Next, the search process will be described. The search process starts when a user or an external program inputs a query (that is, a condition) to the
文書検索部14は、クエリとして抽出対象のキーワードが指定されると、文書検索部14内の記憶部(図示せず)に記憶されたタグ付きテキストの中から、指定されたキーワードを本文に含むタグ付きテキストの集合を作成する。次に、文書検索部14は、対象文書記憶部11内のデータをすべていったん空にした上で、作成したタグ付きテキストの集合を、例えば、図4に例示するフォーマットで対象文書記憶部11に登録する。
When the keyword to be extracted is specified as a query, the
なお、事例入力プロセスが処理済みである場合(すなわち、抽出規則であるパターンが既に作成されている場合)、パターン評価部13は、文書検索部14が対象文書記憶部11にタグ付きテキストの集合を登録した直後に、評価ステップの処理を開始しても良い。これにより、対象文書記憶部11内のタグ付きテキスト集合の変化に伴う評価値の変化を即座に反映させることができる。
When the case input process has been processed (that is, when a pattern as an extraction rule has already been created), the
本発明によれば、パターン合成部12が、タグ付きテキスト及び抽出位置情報が与えられたときに、抽出位置情報の単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて抽出規則を作成する。そして、パターン評価部13は、対象文書記憶部11に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む文(適合文)の文書ID及び文IDを抽出し、その文書ID及び文IDをもとに評価値を算出する。このとき、パターン評価部13は、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出する。そのため、ユーザが欲する情報を抽出するための規則(抽出規則)を効率よく作成することができる。
According to the present invention, when the tagged text and the extraction position information are given, the
例えば、事例として、図1に例示するタグ付きテキストと、9文字目から13文字目の「abcd」が指定抽出位置として入力された場合を考える。例えば、ユーザが単に人名を集めたいと考えていると推測した場合には、抽出規則を「$[人名]$」にすべきである。また、ユーザが容疑者名を集めたいと考えていると推測した場合には、抽出規則を「$[人名]$容疑者」にすべきである。さらに、ユーザが姓「ab」を持つ人名を集めたいと考えていると推測した場合には、抽出規則を「$ab[名詞]$」にすべきである。このように、単に事例のみが入力された場合、上記のようにユーザが何を欲しているかによって決定すべき抽出規則は異なる。 For example, as a case, consider a case where the tagged text illustrated in FIG. 1 and “abcd” from the ninth character to the thirteenth character are input as the designated extraction position. For example, if it is assumed that the user simply wants to collect personal names, the extraction rule should be "$ [person name] $". Also, if it is assumed that the user wants to collect suspect names, the extraction rule should be “$ [person name] $ suspects”. Further, if it is assumed that the user wants to collect names with the surname “ab”, the extraction rule should be “$ ab [noun] $”. Thus, when only a case is input, the extraction rule to be determined differs depending on what the user wants as described above.
一般的に、抽出規則作成問題の難しさは、ユーザもしくは外部のプログラムがどのような情報を抽出したいかを入力される事例から推測しなければならない点にあるといえる。しかし、本発明によれば、タグ付きテキストの集合と一つ以上の事例とをもとに、抽出規則を作成し、さらにその抽出規則ごとに評価値を算出する。よって、ユーザの手間を減らしつつユーザの抽出要求に応じた抽出規則を作成することができる。 In general, it can be said that the difficulty of the extraction rule creation problem is that a user or an external program must infer what information the user wants to extract from an input example. However, according to the present invention, an extraction rule is created based on a set of tagged text and one or more cases, and an evaluation value is calculated for each extraction rule. Therefore, the extraction rule according to the user's extraction request can be created while reducing the user's trouble.
また、文書検索部14が、指定された条件に該当するタグ付きテキストを抽出して対象文書記憶部11に登録し、パターン評価部13が、対象文書記憶部11に登録されたタグ付きテキストごとに適合文の文書ID及び文IDを抽出してもよい。この場合、パターン評価部13が抽出するタグ付きテキストを変化させることにより、ユーザが欲するパターンの評価値をカスタマイズできるため、ユーザの欲する情報に合わせた抽出規則を効率よく取り出すことができる。
Further, the
また、パターン合成部12が、作成した抽出規則のうち、タグを一つ以上含む組合せのパターンを選択してもよい。この場合、無駄なパターンが予め省かれるため、以後の計算量を小さくすることができる。
The
また、パターン合成部12が、抽出位置情報が示す位置に対応する単語又はタグの前後の単語又はタグのうち、予め定められた種類の自立語(名詞など)を組み合わせて抽出規則を作成してもよい。この場合、助詞のように一般的で無意味な語をパターンから排除することができる。
In addition, the
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。以下の説明では、図1に例示する新聞記事データがタグ付きテキストとして文書検索部14に記憶されている場合に、ユーザが殺人事件の容疑者名のリストを作成したいと考えている場合を例に挙げて説明する。
Hereinafter, the present invention will be described with reference to specific examples, but the scope of the present invention is not limited to the contents described below. In the following description, when the newspaper article data illustrated in FIG. 1 is stored in the
検索プロセスにおいて、例えば、ユーザが「殺人 容疑者」といったキーワードを指定すると、文書検索部14は内部に記憶するタグ付きテキストの中から、殺人事件の逮捕情報に関するタグ付きテキストの集合を作成し、対象文書記憶部11に登録する。これにより、殺人事件に関するタグ付きテキストが対象文書記憶部11に記憶される。
In the search process, for example, when the user designates a keyword such as “suspected murderer”, the
次に、事例入力プロセスにおいて、例えば、ユーザが図1に例示するタグ付きテキストと、9文字目から13文字目という指定抽出位置をパターン合成部12に入力すると、パターン合成部12は、合成ステップを開始する。ここでは、ステップS10,S20,S30の処理で、図14に例示するリストA、リストRP、リストLP、リストRW、リストLWが作成されるものとする。さらに、ステップS40において、パターン合成部12は、これらのパターンを組み合わせ、図5に例示するパターンを作成し、パターン評価部13に通知する。
Next, in the case input process, for example, when the user inputs the tagged text illustrated in FIG. 1 and the designated extraction position from the ninth character to the thirteenth character to the
次に、評価ステップにおいて、パターン評価部13は、通知を受けた各パターンに対して、検索処理及び評価値算出処理を行い、図5に例示するパターン及び図6に例示する評価値を算出する。本実施例においては、対象文書記憶部11内に「殺人 容疑者」というキーワードを元に作成したタグ付きテキストの集合が記憶されているため、殺人事件の逮捕情報に関する文章が多いと考えられる。そのため、「$[人名]$容疑者」や「$[人名]$容疑者*殺人」や「$[人名]$容疑者*殺害」などのパターンにおける評価値が高くなる。
Next, in the evaluation step, the
本発明における評価値は、より多くの文書に多く登場し、より頻度の低いパターンが高くなる値である。このため、対象文書記憶部11内のすべてのタグ付きテキストに対して各1回登場するようなパターンが高く評価されることを意味する。このため、「奈良」や「ab(ただし、abは姓を表す漢字2文字)」など、特定の事件に特化したキーワードは、より多くの文書に多く登場するとは言えないため、評価値は低くなる。さらに、「$[人名]$」のように、任意の人名に適合するパターンは、容疑者名だけでなく被害者名などにまで適合して頻度が高くなるため、評価値は低くなる。「$[人名]$容疑者」や「$[人名]$容疑者*殺人」や「$[人名]$容疑者*殺害」などのパターンにおける評価値が高くなるのは、このためである。
The evaluation value according to the present invention is a value that appears more frequently in more documents and that a less frequent pattern becomes higher. For this reason, it means that a pattern that appears once for every tagged text in the target
他にも、本発明はテキストからユーザの欲しい情報を語句単位でリストアップして出力するリストアップ型の検索を実現する検索システムとして利用できる。また、取り出した値をグラフなどで可視化するテキストマイニングシステムとしても利用できる。 In addition, the present invention can be used as a search system that realizes a list-type search in which information desired by a user is listed from a text and output in units of words. It can also be used as a text mining system that visualizes the extracted values with a graph or the like.
次に、本発明の最小構成を説明する。図15は、本発明の最小構成を示すブロック図である。本発明による抽出規則作成システムは、文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報(例えば、開始位置及び終了位置)と、その位置に対応する単語の属性を示す属性情報(例えば、名詞、人名など)とを表す情報であるタグの集合とを含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段81(例えば、対象文書記憶部11)と、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報(例えば、抽出位置情報)が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則(例えば、パターン)を作成する抽出規則作成手段82(例えば、パターン合成部12)と、タグ付きテキスト記憶手段81に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報(例えば、文書ID及び文ID)を抽出する適合文位置情報抽出手段83(例えば、パターン評価部13)と、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出手段84(例えば、パターン評価部13)とを備えている。 Next, the minimum configuration of the present invention will be described. FIG. 15 is a block diagram showing the minimum configuration of the present invention. The extraction rule creation system according to the present invention is information added to an arbitrary position in a character string, and position information indicating the position of the character string to which the information is added (for example, a start position and an end position), Tagged text storage means 81 for storing tagged text that is a document including attribute information (for example, a noun, a person name, etc.) indicating the attribute of a word corresponding to the position and a set of tags. When the target document storage unit 11) and character string position information (for example, extracted position information) which is information indicating the position of the tagged text and the character string in the tagged text are given, the character string position information An extraction rule (e.g., a rule for extracting information from tagged text by combining a word or tag corresponding to the position indicated by and a word or tag before and after the word or tag) For example, for each tagged text stored in the extraction rule creation means 82 (for example, the pattern synthesis unit 12) and the tagged text storage means 81 for creating a pattern, a matching sentence including a word or tag that matches the extraction rule Based on the matching sentence position information, the matching sentence position information extracting means 83 (for example, the pattern evaluation unit 13) that extracts matching sentence position information (for example, document ID and sentence ID) that is information indicating the position of Evaluation value calculation means 84 (for example, pattern evaluation unit 13) that calculates an evaluation value that is a value obtained by evaluating a rule is provided.
評価値算出手段84は、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出する(例えば、式1に基づいて評価値を算出する)。
The evaluation
そのような構成により、ユーザが欲する情報を抽出するための規則を効率よく作成することができる。 With such a configuration, it is possible to efficiently create a rule for extracting information desired by the user.
また、上記の実施形態には、以下に示す構成の抽出規則作成システムが開示されている。 Also, the above embodiment discloses an extraction rule creation system having the following configuration.
(1)文字列中の任意の位置に付加された情報であって、その情報が付加された文字列の位置を示す位置情報(例えば、開始位置及び終了位置)と、その位置に対応する単語の属性を示す属性情報(例えば、名詞、人名など)とを表す情報であるタグの集合とを含む文書であるタグ付きテキストを記憶するタグ付きテキスト記憶手段(例えば、対象文書記憶部11)と、タグ付きテキスト及びそのタグ付きテキスト中の文字列の位置を示す情報である文字列位置情報(例えば、抽出位置情報)が与えられたときに、その文字列位置情報が示す位置に対応する単語又はタグと、その単語又はタグの前後の単語又はタグとを組み合わせて、タグ付きテキストから情報を抽出するための規則である抽出規則(例えば、パターン)を作成する抽出規則作成手段(例えば、パターン合成部12)と、タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報(例えば、文書ID及び文ID)を抽出する適合文位置情報抽出手段(例えば、パターン評価部13)と、適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出手段(例えば、パターン評価部13)とを備え、評価値算出手段が、1つのタグ付きテキスト内に現れる適合文がより少ないほど評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど評価値を高く算出する(例えば、式1に基づいて評価値を算出する)抽出規則作成システム。 (1) Information added to an arbitrary position in a character string, and position information (for example, start position and end position) indicating the position of the character string to which the information is added, and a word corresponding to the position Tagged text storage means (for example, target document storage unit 11) that stores tagged text that is a document including attribute information (for example, nouns, personal names, etc.) indicating a set of tags. When a character string position information (for example, extracted position information) that is information indicating the position of a tagged text and a character string in the tagged text is given, a word corresponding to the position indicated by the character string position information Or, an extraction rule that creates an extraction rule (for example, a pattern) that is a rule for extracting information from a tagged text by combining a tag and the word or a word or tag before or after the tag. Relevant sentence position information which is information indicating the position of a relevant sentence including a word or tag that matches the extraction rule for each tagged text stored in the generating means (for example, the pattern synthesis unit 12) and the tagged text storage means. Based on the matching sentence position information extraction unit (for example, the pattern evaluation unit 13) that extracts (for example, document ID and sentence ID), an evaluation value that is a value obtained by evaluating the extraction rule is calculated based on the matching sentence position information. Evaluation value calculation means (for example, pattern evaluation unit 13), and the evaluation value calculation means calculates the evaluation value higher as the number of matching sentences appearing in one tagged text is smaller, and in more tagged text An extraction rule creation system that calculates a higher evaluation value as a matching sentence appears in (for example, calculates an evaluation value based on Equation 1).
(2)複数のタグ付きテキストの中から、指定された条件に該当するタグ付きテキストを抽出し、そのタグ付きテキスト抽出手段が抽出したタグ付きテキストをタグ付きテキスト記憶手段に登録するタグ付きテキスト登録手段(例えば、文書検索部14)を備え、適合文位置情報抽出手段が、タグ付きテキスト登録手段が登録したタグ付きテキストごとに適合文位置情報を抽出する抽出規則作成システム。 (2) Tagged text that extracts tagged text corresponding to a specified condition from a plurality of tagged text and registers the tagged text extracted by the tagged text extracting means in the tagged text storage means. An extraction rule creation system comprising registration means (for example, a document search unit 14), wherein the matching sentence position information extraction means extracts matching sentence position information for each tagged text registered by the tagged text registration means.
(3)抽出規則作成手段が、作成した抽出規則のうち、タグを一つ以上含む組合せを選択する抽出規則作成システム。 (3) An extraction rule creation system in which the extraction rule creation means selects a combination including one or more tags from the created extraction rules.
(4)抽出規則作成手段が、文字列位置情報が示す位置に対応する単語又はタグの前後の単語又はタグのうち、予め定められた種類の自立語(例えば、名詞)を組み合わせて抽出規則を作成する抽出規則作成システム。 (4) The extraction rule creating means combines the predetermined types of independent words (for example, nouns) out of the words or tags before and after the word or tag corresponding to the position indicated by the character string position information, and sets the extraction rule. Extraction rule creation system to be created.
(5)抽出規則作成手段が、文字列位置情報が示す位置に対応する単語又はタグと予め定められた種類の自立語との間にワイルドカード(例えば、「*」)を組み合わせて抽出規則を作成する抽出規則作成システム。 (5) The extraction rule creating means combines the wild card (for example, “*”) between a word or tag corresponding to the position indicated by the character string position information and a predetermined type of self-supporting word, and sets the extraction rule. Extraction rule creation system to be created.
本発明は、文書から情報を抽出するための抽出規則を作成する抽出規則作成システムに好適に適用される。 The present invention is suitably applied to an extraction rule creation system that creates an extraction rule for extracting information from a document.
11 対象文書記憶部
12 パターン合成部
13 パターン評価部
14 文書検索部
11 target
Claims (9)
前記タグ付きテキスト及び当該タグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、当該文字列位置情報が示す位置に対応する単語又はタグと、当該単語又はタグの前後の単語又はタグとを組み合わせて、前記タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成手段と、
前記タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、前記抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出手段と、
前記適合文位置情報をもとに、前記抽出規則を評価した値である評価値を算出する評価値算出手段とを備え、
前記評価値算出手段は、1つのタグ付きテキスト内に現れる適合文がより少ないほど前記評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど前記評価値を高く算出する
ことを特徴とする抽出規則作成システム。 Information added to an arbitrary position in the character string, which is position information indicating the position of the character string to which the information is added and attribute information indicating the attribute of the word corresponding to the position. Tagged text storage means for storing tagged text that is a document including a set of tags;
When character string position information, which is information indicating the position of the tagged text and the character string in the tagged text, is given, the word or tag corresponding to the position indicated by the character string position information, the word or An extraction rule creating means for creating an extraction rule that is a rule for extracting information from the tagged text by combining words or tags before and after the tag;
For each tagged text stored in the tagged text storage means, matched sentence position information extracting means for extracting matched sentence position information, which is information indicating the position of a matched sentence including a word or tag that matches the extraction rule; ,
Evaluation value calculation means for calculating an evaluation value, which is a value obtained by evaluating the extraction rule, based on the relevant sentence position information;
The evaluation value calculation means calculates the evaluation value higher as there are fewer matching sentences appearing in one tagged text, and calculates the evaluation value as the matching sentences appear in more tagged text. An extraction rule creation system characterized by
適合文位置情報抽出手段は、前記タグ付きテキスト登録手段が登録したタグ付きテキストごとに適合文位置情報を抽出する
請求項1記載の抽出規則作成システム。 Tagged text registration means for extracting the tagged text corresponding to the specified condition from the plurality of tagged text and registering the tagged text in the tagged text storage means,
The extraction rule creation system according to claim 1, wherein the matching sentence position information extraction unit extracts matching sentence position information for each tagged text registered by the tagged text registration unit.
請求項1または請求項2に記載の抽出規則作成システム。 The extraction rule creation system according to claim 1 or 2, wherein the extraction rule creation means selects a combination including one or more tags from the created extraction rules.
請求項1から請求項3のうちのいずれか1項に記載の抽出規則作成システム。 The extraction rule creating means creates an extraction rule by combining predetermined types of independent words among words or tags before and after the word or tag corresponding to the position indicated by the character string position information. 4. The extraction rule creation system according to any one of items 3.
請求項4記載の抽出規則作成システム。 The extraction rule creating means according to claim 4, wherein the extraction rule creating means creates an extraction rule by combining a wild card between a word or tag corresponding to the position indicated by the character string position information and a predetermined type of independent word. system.
タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、前記抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出ステップと、
前記適合文位置情報をもとに、抽出規則を評価した値である評価値を算出する評価値算出ステップとを含み、
前記評価値算出ステップで、1つのタグ付きテキスト内に現れる適合文がより少ないほど前記評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど前記評価値を高く算出する
ことを特徴とする抽出規則作成方法。 Information added to an arbitrary position in the character string, which is position information indicating the position of the character string to which the information is added and attribute information indicating the attribute of the word corresponding to the position. When a tagged text that is a document including a set of tags and character string position information that is information indicating a position of a character string in the tagged text are given, a word corresponding to the position indicated by the character string position information Or an extraction rule creating step for creating an extraction rule that is a rule for extracting information from the tagged text by combining the tag and the word or the word or tag before and after the tag;
For each tagged text stored in the tagged text storage means, a matching sentence position information extracting step for extracting matching sentence position information, which is information indicating a position of a matching sentence including a word or tag that matches the extraction rule;
An evaluation value calculating step of calculating an evaluation value that is a value obtained by evaluating the extraction rule based on the relevant sentence position information;
In the evaluation value calculating step, the evaluation value is calculated to be higher as there are fewer matching sentences appearing in one tagged text, and the evaluation value is calculated to be higher as matching sentences appear in more tagged text. An extraction rule creation method characterized by
適合文位置情報抽出ステップで、前記テキスト登録ステップで登録したタグ付きテキストごとに適合文位置情報を抽出する
請求項6記載の抽出規則作成方法。 A tagged text registration step of extracting tagged text corresponding to a specified condition from a plurality of tagged text and registering the tagged text in the tagged text storage means;
The extraction rule creation method according to claim 6, wherein in the matching sentence position information extraction step, matching sentence position information is extracted for each tagged text registered in the text registration step.
前記コンピュータに、
前記タグ付きテキスト及び当該タグ付きテキスト中の文字列の位置を示す情報である文字列位置情報が与えられたときに、当該文字列位置情報が示す位置に対応する単語又はタグと、当該単語又はタグの前後の単語又はタグとを組み合わせて、前記タグ付きテキストから情報を抽出するための規則である抽出規則を作成する抽出規則作成処理、
前記タグ付きテキスト記憶手段に記憶されたタグ付きテキストごとに、前記抽出規則に適合する単語又はタグを含む適合文の位置を示す情報である適合文位置情報を抽出する適合文位置情報抽出処理、
前記適合文位置情報をもとに、前記抽出規則を評価した値である評価値を算出する評価値算出処理を実行させ、
前記評価値算出処理で、1つのタグ付きテキスト内に現れる適合文がより少ないほど前記評価値を高く算出し、より多くのタグ付きテキスト内に適合文が現れるほど前記評価値を高く算出させる
ための抽出規則作成プログラム。 Information added to an arbitrary position in the character string, which is position information indicating the position of the character string to which the information is added and attribute information indicating the attribute of the word corresponding to the position. An extraction rule creation program applied to a computer having tagged text storage means for storing tagged text that is a document including a set of tags,
In the computer,
When character string position information, which is information indicating the position of the tagged text and the character string in the tagged text, is given, the word or tag corresponding to the position indicated by the character string position information, the word or An extraction rule creation process for creating an extraction rule that is a rule for extracting information from the tagged text by combining words or tags before and after the tag,
For each tagged text stored in the tagged text storage means, a matching sentence position information extraction process for extracting matching sentence position information, which is information indicating a position of a matching sentence including a word or tag that matches the extraction rule;
Based on the relevant sentence position information, an evaluation value calculation process for calculating an evaluation value that is a value obtained by evaluating the extraction rule is executed,
In the evaluation value calculation process, the evaluation value is calculated to be higher as there are fewer matching sentences appearing in one tagged text, and the evaluation value is calculated to be higher as matching sentences appear in more tagged text. Extraction rule creation program.
複数のタグ付きテキストの中から、指定された条件に該当するタグ付きテキストを抽出し、当該タグ付きテキストをタグ付きテキスト記憶手段に登録するタグ付きテキスト登録処理を実行させ、
適合文位置情報抽出処理で、前記テキスト登録処理で登録したタグ付きテキストごとに適合文位置情報を抽出させる
請求項8記載の抽出規則作成プログラム。 On the computer,
Extract the tagged text that meets the specified conditions from the tagged text, and execute the tagged text registration process for registering the tagged text in the tagged text storage means,
The extraction rule creation program according to claim 8, wherein in the matching sentence position information extraction process, the matching sentence position information is extracted for each tagged text registered in the text registration process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009110435A JP5326781B2 (en) | 2009-04-30 | 2009-04-30 | Extraction rule creation system, extraction rule creation method, and extraction rule creation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009110435A JP5326781B2 (en) | 2009-04-30 | 2009-04-30 | Extraction rule creation system, extraction rule creation method, and extraction rule creation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010262332A JP2010262332A (en) | 2010-11-18 |
JP5326781B2 true JP5326781B2 (en) | 2013-10-30 |
Family
ID=43360366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009110435A Active JP5326781B2 (en) | 2009-04-30 | 2009-04-30 | Extraction rule creation system, extraction rule creation method, and extraction rule creation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5326781B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984883B (en) * | 2020-08-11 | 2024-05-14 | 北京百度网讯科技有限公司 | Label mining method, device, equipment and storage medium |
CN113381986B (en) * | 2021-05-30 | 2022-05-17 | 北京亚鸿世纪科技发展有限公司 | Reduction method and device for network security scanning rule set |
US12045609B1 (en) * | 2022-06-27 | 2024-07-23 | Amazon Technologies, Inc. | Rule creation for code analysis |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001318792A (en) * | 2000-05-10 | 2001-11-16 | Nippon Telegr & Teleph Corp <Ntt> | Intrinsic expression extraction rule generation system and method, recording medium recorded with processing program therefor, and intrinsic expression extraction device |
JP4015661B2 (en) * | 2004-12-24 | 2007-11-28 | 日本電信電話株式会社 | Named expression extraction device, method, program, and recording medium recording the same |
WO2008093569A1 (en) * | 2007-01-29 | 2008-08-07 | Nec Corporation | Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program |
-
2009
- 2009-04-30 JP JP2009110435A patent/JP5326781B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010262332A (en) | 2010-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7639257B2 (en) | Glyphlets | |
JP3983265B1 (en) | Dictionary creation support system, method and program | |
JP3372532B2 (en) | Computer-readable recording medium for emotion information extraction method and emotion information extraction program | |
JP2008152522A (en) | Data mining system, data mining method, and data search system | |
JP2010262577A (en) | System, method and program for creation of extraction rule | |
JP5629976B2 (en) | Patent specification evaluation / creation work support apparatus, method and program | |
JP2005038395A (en) | Database retrieval device | |
JP5326781B2 (en) | Extraction rule creation system, extraction rule creation method, and extraction rule creation program | |
JP2011065255A (en) | Data processing apparatus, data name generation method and computer program | |
JPH09198395A (en) | Document retrieval device | |
JP2007279978A (en) | Document search apparatus and document search method | |
JP2007257369A (en) | Information retrieval device | |
JP5117744B2 (en) | Word meaning tag assigning device and method, program, and recording medium | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JPH0844771A (en) | Information retrieval device | |
JPWO2008018287A1 (en) | Search device and search database generation device | |
JP2008112363A (en) | Document processor and document processing program | |
JP6623840B2 (en) | Synonym detection device, synonym detection method, and computer program for synonym detection | |
KR100504632B1 (en) | Apparatus for extracting information desired by users from unstructured documents and method thereof | |
JP3848014B2 (en) | Document search method and document search apparatus | |
KR102215580B1 (en) | Electronic device for selecting important keywords for documents based on style attributes and operating method thereof | |
JP5733285B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
JP2009104475A (en) | Similar document retrieval device, and similar document retrieval method and program | |
JP5379416B2 (en) | Language processing apparatus and language processing method | |
JP2005011301A (en) | Document processor and document processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130708 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5326781 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |