JP2007115118A - Reputation information extraction method, apparatus and program - Google Patents
Reputation information extraction method, apparatus and program Download PDFInfo
- Publication number
- JP2007115118A JP2007115118A JP2005307291A JP2005307291A JP2007115118A JP 2007115118 A JP2007115118 A JP 2007115118A JP 2005307291 A JP2005307291 A JP 2005307291A JP 2005307291 A JP2005307291 A JP 2005307291A JP 2007115118 A JP2007115118 A JP 2007115118A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- expression
- evaluation
- word
- reputation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、評判情報抽出方法及び装置及びプログラムに係り、特に、文から製品などの対象事物に関する評判情報を抽出するための評判情報抽出方法及び装置及びプログラムに関する。 The present invention relates to a reputation information extraction method, apparatus, and program, and more particularly, to a reputation information extraction method, apparatus, and program for extracting reputation information related to an object such as a product from a sentence.
Webページには、製品や人物など(以下では「対象事物」と記す)についての評判が書かれた文を含むページが数多く存在する。例えば、携帯電話については、「電池の持ちがよい」や「デザインがかわいい」といった評判を含む文が書かれている。このような評判を含む文から「電池の持ち」のような対象事物の性質を表す属性表現と「よい」のような評価表現の組を評判情報として抽出することができれば、製品を購入する際の参考情報などとして抽出した評判情報が役立つ。そのため、文から対象事物に関する評判情報を抽出する研究が行われている。 There are many Web pages including sentences in which a reputation about a product, a person, and the like (hereinafter referred to as “target thing”) is written. For example, for a mobile phone, a sentence including a reputation such as “battery is good” or “cute design” is written. If you can extract as a reputation information a set of attribute expressions that express the characteristics of the subject matter, such as “battery possession” and evaluation expressions, such as “good”, from such a sentence containing reputation, Reputation information extracted as reference information is useful. For this reason, research has been conducted to extract reputation information about the subject matter from sentences.
従来は、「色」や「重さ」のような対象事物の性質を表す属性表現のリストと、「よい」や「美しい」のような属性表現に対する評価を表す評価表現のリストを作成し(例えば、非特許文献1参照)、属性表現リストと評価表現リストを参照して、評判が含まれる文からパターンマッチングにより属性表現と評価表現の組を評判情報として抽出するという方法がとられている(例えば、非特許文献2参照)。 Previously, we created a list of attribute expressions that represent the properties of the target object such as “color” and “weight”, and a list of evaluation expressions that represent evaluations for attribute expressions such as “good” and “beautiful” ( For example, refer to Non-Patent Document 1), and a method of extracting a pair of attribute expression and evaluation expression as reputation information by pattern matching from a sentence including reputation by referring to the attribute expression list and the evaluation expression list. (For example, refer nonpatent literature 2).
また、属性表現リストを用いない方法として、対象事物に関連する表現を持つ文から、文が評判を含むかどうかを判定するという方法が提案されている(例えば、非特許文献3参照)。
しかしながら、属性表現の種類は多岐にわたり、新しい製品などの出現と共に属性表現も増え続けていくため、上記の非特許文献1のような方法を用いても全ての属性表現を属性表現リストに登録することはできない。そのため、上記の非特許文献2のような方法では、評判を含む文中に対象事物の性質を表す表現が含まれていても、その表現が属性表現リストに登録されていなければ評判情報を抽出することができない。例えば、映画に関する属性表現が記述された属性表現リストがあり、ある新作の映画にXという映画初登場の俳優が出演した場合、Xは属性表現リストに登録されていないため、「Xがかっこいい」という文には評判情報が含まれているにも関わらず、評判情報を抽出できない。
However, since there are a wide variety of attribute expressions and the number of attribute expressions continues to increase with the appearance of new products, all the attribute expressions are registered in the attribute expression list even using the method described in Non-Patent
また、属性表現リストを用いずに文が評判を含むかどうかを判定する上記の非特許文献3の方法では、対象事物と関連のある表現及び評判を表しやすい表現が含まれていれば、対象事物の性質を表していない属性表現を持つ文であっても、その対象事物についての評判を含む文であると判定されてしまう。例えば、ある映画について書かれた文書の中に、「Xの出演している番組も面白い」という文が存在していた場合、この文には対象事物と関連のある表現「X」及び評判を表しやすい表現「面白い」が含まれているので、映画の性質を表していない属性表現「番組」を持つ文であっても、映画についての評判を含む文であると判定されてしまう。その結果、この方法からでは、対象事物について述べられていない評判情報を抽出してしまう。
Further, in the method of Non-Patent
本発明は、上記の点に鑑みなされたもので、属性表現リストに依存することなく属性表現候補を取得することにより、属性表現が属性表現リストに含まれていないために抽出できなかった評判情報を抽出できるだけでなく、文の構造に着目して評価表現に対応した属性表現候補を取得し、取得した属性表現候補に対して複数の文書における対象事物と属性表現に関する単語情報を用いて対象事物の性質としての適切さを調べることにより、対象事物について正しく述べられている評判情報を抽出することができるような評判情報抽出方法及び装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and by obtaining attribute expression candidates without depending on the attribute expression list, reputation information that cannot be extracted because the attribute expression is not included in the attribute expression list. In addition to extracting text, candidate attribute expressions corresponding to evaluation expressions are acquired by focusing on the structure of the sentence, and the target objects are obtained by using the target object in a plurality of documents and the word information related to the attribute expressions for the acquired attribute expression candidates. It is an object of the present invention to provide a reputation information extraction method, apparatus, and program capable of extracting reputation information that is correctly stated about a subject matter by examining the appropriateness of the property.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明(請求項1)は、入力された文から製品を含む対象事物に関する評判情報を抽出する評判情報抽出方法であって、
入力された文を単語に分割する単語分割ステップ(ステップ1)と、
評価表現リスト記憶手段に格納されている、対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、単語分割ステップで分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得ステップ(ステップ2)と、
評価表現に対し、文構造を格納した文構造記憶手段を参照して、対象事物の性質である属性表現候補を取得する属性表現候補取得ステップ(ステップ3)と、
属性表現候補に対し、複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出ステップ(ステップ4)と、
属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出ステップ(ステップ5)と、を行う。
The present invention (Claim 1) is a reputation information extraction method for extracting reputation information about an object including a product from an input sentence,
A word dividing step (step 1) for dividing the inputted sentence into words;
By referring to the evaluation expression list stored in the evaluation expression list storing the evaluation expressions that are evaluations related to the properties of the target object, the evaluation expression is searched from the word string divided in the word dividing step and searched. An evaluation expression acquisition step (step 2) of acquiring the evaluated evaluation expression;
An attribute expression candidate acquisition step (step 3) for acquiring an attribute expression candidate that is a property of the target thing with reference to the sentence structure storage means that stores the sentence structure for the evaluation expression;
Attribute likelihood calculating step for calculating attribute likelihood representing appropriateness as a target thing with reference to word information storage means storing word information related to the target thing and attribute candidate in a plurality of documents for the attribute expression candidate (Step 4),
A reputation information extraction step (step 5) is performed in which an attribute expression candidate having an attribute likelihood higher than a predetermined threshold is defined as an attribute expression, and a set of the attribute expression and an evaluation expression corresponding to the attribute expression is extracted as reputation information. .
また、本発明(請求項2)は、請求項1の評判情報抽出方法であって、
属性尤度算出ステップにおいて、単語情報として単語の出現頻度を用いる。
The present invention (Claim 2) is the reputation information extraction method of
In the attribute likelihood calculation step, the word appearance frequency is used as the word information.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項3)は、入力された文から製品を含む対象事物に関する評判情報を抽出する評判情報抽出装置であって、
対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納した評価表現リスト記憶手段6と、
文構造を格納した文構造記憶手段7と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段8と、
入力された文を単語に分割する単語分割手段1と、
評価表現リスト記憶手段6に格納されている、評価表現リストを参照して、単語分割手段1で分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得手段2と、
評価表現に対し、文構造記憶手段7を参照して、対象事物の性質である属性表現候補を取得する属性表現候補取得手段3と、
属性表現候補に対し、単語情報記憶手段8を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出手段4と、
属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出手段5と、を有する。
The present invention (Claim 3) is a reputation information extraction device that extracts reputation information about an object including a product from an input sentence,
An evaluation expression list storage means 6 for storing an evaluation expression list in which evaluation expressions that are evaluations related to the properties of the object are described;
Sentence structure storage means 7 storing the sentence structure;
Word information storage means 8 for storing word information related to a target thing and attribute expression candidates in a plurality of documents;
Word dividing means 1 for dividing an inputted sentence into words;
Evaluation expression acquisition means 2 for searching for an evaluation expression from the word string divided by the word dividing means 1 with reference to the evaluation expression list stored in the evaluation expression list storage means 6 and acquiring the searched evaluation expression When,
For the evaluation expression, referring to the sentence structure storage means 7, the attribute expression candidate acquisition means 3 for acquiring the attribute expression candidate that is the property of the target thing,
Attribute likelihood calculating means 4 for calculating the attribute likelihood representing the appropriateness as the target object with reference to the word information storage means 8 for the attribute expression candidate,
Reputation information extraction means 5 for extracting attribute expression candidates whose attribute likelihood is higher than a predetermined threshold as attribute expressions and extracting a combination of the attribute expression and an evaluation expression corresponding to the attribute expression as reputation information.
また、本発明(請求項4)は、請求項3の評判情報抽出装置であって、
単語情報記憶手段8は、単語情報として単語の出現頻度を格納し、
属性尤度算出手段4は、
単語情報記憶手段の単語の出現頻度を用いて属性尤度を算出する。
Moreover, this invention (Claim 4) is the reputation information extraction apparatus of
The word information storage means 8 stores the appearance frequency of words as word information,
The attribute likelihood calculating means 4
The attribute likelihood is calculated using the word appearance frequency in the word information storage means.
本発明(請求項5)は、対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納した評価表現リスト記憶手段と、
文構造を格納した文構造記憶手段と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段と、
を有するコンピュータを、請求項3または4記載の評判情報抽出装置として機能させる評判情報抽出プログラムである。
The present invention (Claim 5) includes an evaluation expression list storage unit that stores an evaluation expression list in which an evaluation expression that is an evaluation related to the property of a target object is described;
A sentence structure storage means for storing the sentence structure;
Word information storage means for storing word information related to a target thing and attribute expression candidates in a plurality of documents;
A reputation information extracting program that causes a computer having the function to function as the reputation information extracting device according to
上記のように本発明によれば、属性表現リストに依存することなく属性表現候補を取得するため、属性表現リストを参照する従来の技術よりも多くの評判情報を抽出することができる。 As described above, according to the present invention, since the attribute expression candidates are acquired without depending on the attribute expression list, it is possible to extract more reputation information than the conventional technology that refers to the attribute expression list.
また、文の構造に着目して評価表現に対応した属性表現候補を取得し、取得した属性表現候補に対して複数の文書における対象事物と属性表現に関する単語情報を用いて対象事物の性質としての適切さを調べるため、属性表現リストを参照しない従来の技術よりも対象事物について述べてられている評判情報を正しく抽出することができる。 In addition, the attribute expression candidate corresponding to the evaluation expression is acquired by paying attention to the structure of the sentence, and the acquired attribute expression candidate is used as a property of the target object using word information regarding the target object and the attribute expression in a plurality of documents. In order to check the appropriateness, it is possible to correctly extract the reputation information described about the subject matter rather than the conventional technique that does not refer to the attribute expression list.
また、本発明では、自動的に属性表現を取得するため、属性表現リストを参照する従来の技術で必要な属性表現リストを作成するコストを削減することができる。 In the present invention, since the attribute expression is automatically acquired, it is possible to reduce the cost of creating the attribute expression list necessary in the conventional technique for referring to the attribute expression list.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の一実施の形態における評判情報抽出装置の構成を示す。 FIG. 3 shows a configuration of a reputation information extracting device according to an embodiment of the present invention.
同図に示す評判情報抽出装置は、単語分割部1、評価表現取得部2、属性表現候補取得部3、属性尤度算出部4、評判情報抽出部5、評価表現リスト記憶部6、文構造データベース7、単語情報データベース8から構成される。
The reputation information extraction apparatus shown in the figure includes a
評価表現リスト記憶部6は、対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納する。
The evaluation expression
文構造データベース7は、文の構造を格納する。
The
単語情報データベース8は、複数の文書における対象事物と属性表現に関する単語情報を格納する。
The
単語分割部1は、入力された単語を分割し、単語列を取得し、入力された対象事物と共に評価表現取得部2に渡す。
The
評価表現取得部2は、評価表現リスト記憶部6に格納されている対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、文中の単語列から評価表現を検索し、検索された評価表現を取得し、属性表現候補取得部3に渡す。
The evaluation
属性表現取得部3は、評価表現に対し、文構造データベース7に格納された文の構造に着目して属性表現候補を取得し、属性尤度算出部4に渡す。
The attribute
属性尤度算出部4は、属性表現候補に対し、複数の文書における対象事物と属性表現に関する単語情報が格納された単語情報データベース8を参照して、属性表現としての適切さを表す属性尤度を算出し、評判情報抽出部5に渡す。
The attribute
評判情報抽出部5は、属性尤度が閾値よりも高い属性表現候補を属性表現とし、属性表現とそれに対応する評価表現の組を評判情報として抽出し、出力する。
The reputation
以下に、上記の構成における動作を説明する。 The operation in the above configuration will be described below.
図4は、本発明の一実施の形態における評判情報抽出装置の全体の動作のフローチャートである。 FIG. 4 is a flowchart of the overall operation of the reputation information extracting apparatus according to the embodiment of the present invention.
ステップ100) まず、単語分割部1は、入力された文を単語に分割し、単語列を得る。
Step 100) First, the
ステップ200) 次に、評価表現取得部2により、対象事物の性質に関する評価である評価表現が記載された評価表現リスト記憶部6の評価表現リストを参照して、文中の単語列から評価表現を検索し、検索された評価表現を取得する。
Step 200) Next, the evaluation
ステップ300) 次に、属性表現候補取得部3により、ステップ200で得られた評価表現に対し、文構造データベース7に格納された文構造に着目して属性表現候補を取得する。
Step 300) Next, the attribute expression
ステップ400) 次に、属性尤度算出部4により、属性表現候補に対し、複数の文書における対象事物と属性表現に関する単語情報が格納された単語情報データベース8を参照して、属性表現としての適切さを表す属性尤度を算出する。
Step 400) Next, the attribute
ステップ500) 最後に、評判情報抽出部5により、ステップ400で算出された属性尤度が閾値よりも高い属性表現候補を属性表現とし、属性表現とそれに対応する評価表現の組を評判情報として抽出する。
Step 500) Finally, the reputation
なお、抽出された評判情報はユーザの表示装置に表示する、または、記憶手段に格納するようにしても良い。 It should be noted that the extracted reputation information may be displayed on the display device of the user or stored in the storage means.
以下、図面と共に、具体例を用いて前述のフローチャートに沿って本発明の実施例を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the above-described flowcharts using specific examples together with the drawings.
以下の実施例では、まず、図5に示す文から評判情報を抽出する場合について説明する。 In the following example, first, a case where reputation information is extracted from the sentence shown in FIG. 5 will be described.
また、対象事物として映画の名前である「スペースウォーズ」が与えられているものとする。対象事物はこのようにはじめから与えられてもよいし、対象表現リストを参照するなどして入力文中から取得してもよい。 Further, it is assumed that “Space Wars”, which is the name of a movie, is given as an object. The target thing may be given from the beginning as described above, or may be acquired from the input sentence by referring to the target expression list.
ステップ100では、単語分割部1により、図5の文を単語に分割し、単語列を得る。ここでは、既存の形態素解析技術を用いて単語分割を行い、各単語の表記、品詞の情報を得るものとする。単語に分割した例を図6に示す。
In
ステップ200では、評価表現取得部2により、評価表現リスト記憶部6の対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、文中の単語列から評価表現を検索し、検索された評価表現を取得する。評価表現リストの例を図7に示す。単語分割部1で得られた図6の単語列から、図7の評価表現リストが含まれているかを調べ、評価表現が含まれていればその評価表現を取得する。ここでは、図6の単語列全体から評価表現が含まれているかどうかを調べるが、単語列の一部から調べてもよい。図6の単語列中に図7の5番目の「きれい」という評価表現が含まれているため、評価表現として「きれい」を取得する。
In
ステップ300では、属性表現候補取得部3により、文構構造データベース7に格納された文の構造に着目して、属性表現候補を取得する。文構造データベース7に格納されている文の構造の例を図8に示す。図8では、文の構造として、文中のある名詞W1の後に「は」「が」「も」の何れかの助詞が出現し、その直後または1つ以上の副詞W2を挟んで評価表現W3が出現するという構造かどうかに着目し、その構造を持つ場合には最初に出現した名詞W1を属性表現候補として取得する。着目する文の構造は、この例のように1つでもよいし、複数でもよい。属性表現候補の取得方法については文の構造に着目していればこれに限定されることなく、係り受け解析を用いて文の構造を解析し、評価表現に係る文節中に含まれる名詞を属性表現候補として取得するなどとしてもよい。図6の単語列は、「CG」という名詞の後に助詞「が」が出現し、1つの副詞「とても」を挟んで評価表現「きれい」が出現するという図8に示された文の構造を持つため、最初に出現した名詞である「CG」を属性表現候補として取得する。
In
ステップ400では、属性尤度算出部4により、属性表現候補に対し、複数の文書における対象事物と属性表現に関する単語情報を格納した単語情報データベース8を参照して、属性表現としての適切さを表す属性尤度を算出する。単語情報データベース8は、入力文とは別の複数の文書のそれぞれに対して単語分割を行い、各文書中における単語出現頻度を求めて記憶したものである。単語情報データベース8の例を図9に示す。なお、利用する単語情報は単語の出現頻度に限定されるものではなく、単語の文書中での位置情報を利用したり、単語の品詞情報を利用したり、単語の属するカテゴリの情報を利用したり、それらを組み合わせた情報を利用したりしてもよい。単語情報データベース8から対象事物と属性表現候補の頻度が共に1以上である文書の数A、対象事物の頻度が1以上であり、属性表現候補の頻度が0である文書の数B、対象表現の頻度が0であり属性表現候補の頻度が1以上である文書の数C、対象表現と属性表現候補の頻度が0である文書の数Dを取得し、これらの値から以下の式により属性尤度Lを算出する。
In
L=2A/(2A+B+C) 式(1)
属性尤度の算出方法は、上記の式に限定されるものではなく、単語情報データベース8に格納されている頻度をもとに、「H. Shutze, Dimensions of Meaning, Proceedings of Supercomputing 92, pp.787-796, 1992」に示される概念ベースを作成し、対象表現と属性表現候補の概念ベクトル間の距離を属性尤度とするなどとしてもよい。
L = 2A / (2A + B + C) Formula (1)
The attribute likelihood calculation method is not limited to the above formula, and based on the frequency stored in the
具体的には、図9の文書番号「2」の文書を例にとると、文書中での単語「スペースウォーズ」の頻度が“2”、単語「CG」の頻度が“1”、単語「ポップコーン」「今日」「シーン」の頻度は“0”であることを示している。この単語情報データベース8を元に、図10の各値を計算する。属性表現候補に対し、各文書がA〜Dのどれに相当するか調べていき、それぞれに相当する文書の数が図10の各値となる。例えば、「CG」を例にとると、文書番号1の文書はD、文書番号2の文書はA、文書番号3の文書はB、文書番号4の文書はC、…となる。
Specifically, taking the document with the document number “2” in FIG. 9 as an example, the frequency of the word “Space Wars” in the document is “2”, the frequency of the word “CG” is “1”, and the word “ The frequency of “popcorn”, “today”, and “scene” is “0”. Based on this
図10と上記の式(1)を用いて、属性表現候補毎に属性尤度を算出する。属性表現候補「CG」について属性尤度Lを算出すると、
L=2×28/(2×28+152+93)≒0.19
となる。
The attribute likelihood is calculated for each attribute expression candidate using FIG. 10 and the above equation (1). When the attribute likelihood L is calculated for the attribute expression candidate “CG”,
L = 2 × 28 / (2 × 28 + 152 + 93) ≈0.19
It becomes.
ステップ500では、評判情報抽出部5により、属性尤度が閾値以上の属性表現候補を属性表現とし、属性表現とそれに対応する評価表現の組を評判情報として抽出する。ここでは、閾値を0.15とする。閾値はこのように全ての入力文に対して固定の値でもよいし、属性表現候補の20%が閾値以上となるように入力文に対して異なる値を設定したりしてもよい。属性表現候補「CG」の属性尤度は0.19であり、閾値以上の値であるため、属性表現候補「CG」は属性表現となる。よって、図5の文に対して、属性表現「CG」とそれに対応する評価表現「きれい」という1組の評判情報が抽出される。
In
次に、図11に示す文から評判情報を抽出する場合について説明する。 Next, the case where reputation information is extracted from the sentence shown in FIG. 11 will be described.
対象事物としては、先ほどと同様に「スペースウォーズ」が与えられているものとする。 It is assumed that “Space Wars” is given as the subject matter as before.
ステップ100では、単語分割部1により、図11の文を単語分割し、単語列を得る。単語に分割した結果を図12に示す。
In
ステップ200では、評価表現取得部2により、評価表現リスト記憶部6の対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、文中の単語列から評価表現を検索し、検索された評価表現を取得する。図12の単語列の中に図7の3番目の「おいし(い)」という評価表現が含まれているため、評価表現として「おいし(い)」を取得する。
In
ステップ300では、属性表現候補取得部3により、文構造データベース7に格納された文の構造に着目して、属性表現候補を取得する。図11の単語列は、「ポップコーン」という名詞の後に助詞「が」が出現し、その直後に評価表現「おいし(い)」が出現するという図8に示された文の構造を持つため、最初に出現した名詞である「ポップコーン」を属性表現候補として取得する。
In
ステップ400では、属性尤度算出部4により、属性表現候補に対し、複数の文書における対象事物と属性表現に関する単語情報を格納した単語情報データベース8を参照して、属性表現としての適切さを表す属性尤度を算出する。図9と上記の式(1)により、属性表現候補「ポップコーン」について属性尤度Lを算出すると、
L=2×10/(2×10+170+50)≒0.08
となる。
In
L = 2 × 10 / (2 × 10 + 170 + 50) ≈0.08
It becomes.
ステップ500では、評判情報抽出部5により、属性尤度が閾値以上の属性表現候補を属性表現とし、属性表現とそれに対応する評価表現の組を評判情報として抽出する。先程と同様に、閾値を0.15とすると、属性表現候補「ポップコーン」の属性尤度は0.08であり、閾値未満の値であるため、属性表現候補「ポップコーン」は属性表現とならない。よって、図11の文からは、評判情報が抽出されない。
In
このように、属性表現リストに依存することなく、文の構造に着目して属性表現候補を取得するため、属性表現が属性表現リストに含まれていないために評判情報が抽出されないということが起こらなくなる。また、取得した属性表現候補に対して、複数の文書における対象事物と属性表現に関する単語情報を用いて、「CG」のような対象事物の性質として適切な属性表現候補の属性尤度は高い値となり、「ポップコーン」のように対象事物の性質として適切でない属性表現候補の属性尤度は低い値となるように属性尤度を算出し、属性尤度が高い値を持つ属性表現候補のみを属性表現とするため、対象事物について述べられている評判情報を正しく抽出することができる。 As described above, since the attribute expression candidates are obtained by focusing on the sentence structure without depending on the attribute expression list, reputation information is not extracted because the attribute expression is not included in the attribute expression list. Disappear. Moreover, the attribute likelihood of the attribute expression candidate appropriate as the property of the target thing such as “CG” is high with respect to the acquired attribute expression candidate using word information related to the target thing and the attribute expression in a plurality of documents. The attribute likelihood is calculated so that the attribute likelihood of the attribute expression candidate that is not appropriate as the property of the target object such as “popcorn” has a low value, and only the attribute expression candidate having a high attribute likelihood is attributed. Since it is expressed, it is possible to correctly extract the reputation information described about the object.
なお、上記の実施の形態及び実施例で示した一連の動作をプログラムとして構築し、評判情報抽出装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行させる、または、ネットワークを介して流通させることも可能である。 The series of operations shown in the above embodiments and examples is constructed as a program, installed in a computer used as a reputation information extraction device, and executed by a control means such as a CPU, or via a network. It is also possible to distribute.
また、構築されたプログラムを評判情報抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。 Also, the constructed program is stored in a hard disk device connected to a computer used as a reputation information extracting device, a portable storage medium such as a flexible disk, a CD-ROM, etc., and installed and executed on the computer. Is also possible.
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiments and examples, and various modifications and applications can be made within the scope of the claims.
本発明は、製品についての顧客満足度の調査などに利用可能である。 The present invention can be used for surveys of customer satisfaction about products.
1 単語分割手段、単語分割部
2 評価表現取得手段、評価表現取得部
3 属性表現候補取得手段、属性表現候補取得部
4 属性尤度算出抽出手段、属性尤度算出抽出部
5 評判情報抽出手段、評判情報抽出部
6 評価表現リスト記憶手段、評価表現リスト記憶部
7 文構造記憶手段、文構造データベース
8 単語情報記憶手段、単語情報データベース
DESCRIPTION OF
Claims (5)
前記入力された文を単語に分割する単語分割ステップと、
評価表現リスト記憶手段に格納されている、対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、前記単語分割ステップで分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得ステップと、
前記評価表現に対し、文構造を格納した文構造記憶手段を参照して、前記対象事物の性質である属性表現候補を取得する属性表現候補取得ステップと、
前記属性表現候補に対し、複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出ステップと、
前記属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出ステップと、
を行うことを特徴とする評判情報抽出方法。 A reputation information extraction method for extracting reputation information about an object including a product from an input sentence,
A word dividing step of dividing the input sentence into words;
With reference to the evaluation expression list described in the evaluation expression, which is an evaluation related to the properties of the target object, stored in the evaluation expression list storage means, the evaluation expression is searched from the word string divided in the word dividing step, An evaluation expression acquisition step of acquiring the searched evaluation expression;
An attribute expression candidate acquisition step of acquiring an attribute expression candidate that is a property of the target thing with reference to a sentence structure storage unit that stores a sentence structure for the evaluation expression;
Attribute likelihood calculation for calculating attribute likelihood representing appropriateness as a target thing with reference to word information storage means storing word information related to the target thing and attribute expression candidates in a plurality of documents for the attribute expression candidate Steps,
Reputation information extraction step for extracting a set of attribute expression and an evaluation expression corresponding to the attribute expression as reputation information as an attribute expression candidate whose attribute likelihood is higher than a predetermined threshold;
Reputation information extraction method characterized by performing.
前記単語情報として単語の出現頻度を用いる請求項1記載の評判情報抽出方法。 In the attribute likelihood calculating step,
The reputation information extraction method according to claim 1, wherein a word appearance frequency is used as the word information.
対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納した評価表現リスト記憶手段と、
文構造を格納した文構造記憶手段と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段と、
前記入力された文を単語に分割する単語分割手段と、
前記評価表現リスト記憶手段に格納されている、前記評価表現リストを参照して、前記単語分割手段で分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得手段と、
前記評価表現に対し、前記文構造記憶手段を参照して、前記対象事物の性質である属性表現候補を取得する属性表現候補取得手段と、
前記属性表現候補に対し、前記単語情報記憶手段を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出手段と、
前記属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出手段と、
を有することを特徴とする評判情報抽出装置。 A reputation information extraction device that extracts reputation information about an object including a product from an input sentence,
An evaluation expression list storage means for storing an evaluation expression list in which evaluation expressions that are evaluations related to the properties of the object are described;
A sentence structure storage means for storing the sentence structure;
Word information storage means for storing word information related to a target thing and attribute expression candidates in a plurality of documents;
Word dividing means for dividing the inputted sentence into words;
Evaluation expression acquisition means for retrieving an evaluation expression from the word string divided by the word dividing means by referring to the evaluation expression list stored in the evaluation expression list storage means and acquiring the searched evaluation expression When,
With respect to the evaluation expression, referring to the sentence structure storage means, attribute expression candidate acquisition means for acquiring an attribute expression candidate that is a property of the target thing,
For the attribute expression candidate, referring to the word information storage means, attribute likelihood calculating means for calculating an attribute likelihood representing appropriateness as a target object,
Reputation information extraction means for extracting a set of attribute expressions and evaluation expressions corresponding to the attribute expressions as reputation information, with the attribute expression candidates having an attribute likelihood higher than a predetermined threshold as attribute expressions;
A reputation information extraction device characterized by comprising:
前記属性尤度算出手段は、
前記単語情報記憶手段の前記単語の出現頻度を用いて前記属性尤度を算出する、
請求項3記載の評判情報抽出装置。 The word information storage means stores the appearance frequency of words as the word information,
The attribute likelihood calculating means includes:
Calculating the attribute likelihood using the appearance frequency of the word in the word information storage means;
The reputation information extraction device according to claim 3.
文構造を格納した文構造記憶手段と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段と、
を有するコンピュータを、
請求項3または4記載の評判情報抽出装置として機能させることを特徴とする評判情報抽出プログラム。 An evaluation expression list storage means for storing an evaluation expression list in which evaluation expressions that are evaluations related to the properties of the object are described;
A sentence structure storage means for storing the sentence structure;
Word information storage means for storing word information related to a target thing and attribute expression candidates in a plurality of documents;
A computer having
5. A reputation information extraction program that functions as the reputation information extraction device according to claim 3.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005307291A JP2007115118A (en) | 2005-10-21 | 2005-10-21 | Reputation information extraction method, apparatus and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005307291A JP2007115118A (en) | 2005-10-21 | 2005-10-21 | Reputation information extraction method, apparatus and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007115118A true JP2007115118A (en) | 2007-05-10 |
Family
ID=38097216
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005307291A Pending JP2007115118A (en) | 2005-10-21 | 2005-10-21 | Reputation information extraction method, apparatus and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2007115118A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009151483A (en) * | 2007-12-19 | 2009-07-09 | Dainippon Printing Co Ltd | Opinion extraction device |
| CN102486803A (en) * | 2010-12-01 | 2012-06-06 | 爱信艾达株式会社 | Searching device, searching method and computer-readable storage medium |
-
2005
- 2005-10-21 JP JP2005307291A patent/JP2007115118A/en active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009151483A (en) * | 2007-12-19 | 2009-07-09 | Dainippon Printing Co Ltd | Opinion extraction device |
| CN102486803A (en) * | 2010-12-01 | 2012-06-06 | 爱信艾达株式会社 | Searching device, searching method and computer-readable storage medium |
| CN102486803B (en) * | 2010-12-01 | 2016-09-14 | 爱信艾达株式会社 | Retrieval device, search method and computer-readable recording medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Delpeuch | Opentapioca: Lightweight entity linking for wikidata | |
| JP6361351B2 (en) | Method, program and computing system for ranking spoken words | |
| CN113821588B (en) | Text processing method, device, electronic equipment and storage medium | |
| CN112632223B (en) | Case and event knowledge graph construction method and related equipment | |
| JP2017138985A (en) | Mobile search method and apparatus based on artificial intelligence | |
| CN109960721B (en) | Constructing content based on multiple compression of source content | |
| WO2016135905A1 (en) | Information processing system and information processing method | |
| Cordobés et al. | Graph-based techniques for topic classification of tweets in Spanish | |
| KR20190118744A (en) | Method and system for providing biomedical passage retrieval using deep-learning based knowledge structure construction | |
| JP2019082931A (en) | Retrieval device, similarity calculation method, and program | |
| CN110309355A (en) | Generation method, device, equipment and the storage medium of content tab | |
| CN109271624A (en) | A kind of target word determines method, apparatus and storage medium | |
| CN102844755A (en) | Method of extracting named entity | |
| CN103744887A (en) | Method and device for people search and computer equipment | |
| CN117609612A (en) | Resource recommendation methods, devices, storage media and electronic equipment | |
| Hobel et al. | Deriving the geographic footprint of cognitive regions | |
| JP5355483B2 (en) | Abbreviation Complete Word Restoration Device, Method and Program | |
| JP2007241888A (en) | Information processing apparatus and method, and program | |
| Zhu et al. | Get into the spirit of a location by mining user-generated travelogues | |
| Li et al. | Multimodal question answering over structured data with ambiguous entities | |
| CN110110218A (en) | A kind of Identity Association method and terminal | |
| JP6676698B2 (en) | Information retrieval method and apparatus using relevance between reserved words and attribute language | |
| JP2010198278A (en) | Apparatus, method, and program for classification of reputation information | |
| Apturkar et al. | Sentiment analysis of speech with application to various languages | |
| KR101983477B1 (en) | Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification |