JP2007115118A - 評判情報抽出方法及び装置及びプログラム - Google Patents
評判情報抽出方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP2007115118A JP2007115118A JP2005307291A JP2005307291A JP2007115118A JP 2007115118 A JP2007115118 A JP 2007115118A JP 2005307291 A JP2005307291 A JP 2005307291A JP 2005307291 A JP2005307291 A JP 2005307291A JP 2007115118 A JP2007115118 A JP 2007115118A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- expression
- evaluation
- word
- reputation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】属性表現リストに依存することなく属性表現候補を取得する。
【解決手段】本発明は、入力された文を単語に分割し、対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、分割された単語列から評価表現を検索し、検索された評価表現を取得し、評価表現に対し、文構造に着目して対象事物の性質である属性表現候補を取得し、属性表現候補に対し、複数の文書における対象事物と属性表現候補に関する単語情報を参照して、対象事物としての適切さを表す属性尤度を算出し、属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する。
【選択図】 図1
【解決手段】本発明は、入力された文を単語に分割し、対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、分割された単語列から評価表現を検索し、検索された評価表現を取得し、評価表現に対し、文構造に着目して対象事物の性質である属性表現候補を取得し、属性表現候補に対し、複数の文書における対象事物と属性表現候補に関する単語情報を参照して、対象事物としての適切さを表す属性尤度を算出し、属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する。
【選択図】 図1
Description
本発明は、評判情報抽出方法及び装置及びプログラムに係り、特に、文から製品などの対象事物に関する評判情報を抽出するための評判情報抽出方法及び装置及びプログラムに関する。
Webページには、製品や人物など(以下では「対象事物」と記す)についての評判が書かれた文を含むページが数多く存在する。例えば、携帯電話については、「電池の持ちがよい」や「デザインがかわいい」といった評判を含む文が書かれている。このような評判を含む文から「電池の持ち」のような対象事物の性質を表す属性表現と「よい」のような評価表現の組を評判情報として抽出することができれば、製品を購入する際の参考情報などとして抽出した評判情報が役立つ。そのため、文から対象事物に関する評判情報を抽出する研究が行われている。
従来は、「色」や「重さ」のような対象事物の性質を表す属性表現のリストと、「よい」や「美しい」のような属性表現に対する評価を表す評価表現のリストを作成し(例えば、非特許文献1参照)、属性表現リストと評価表現リストを参照して、評判が含まれる文からパターンマッチングにより属性表現と評価表現の組を評判情報として抽出するという方法がとられている(例えば、非特許文献2参照)。
また、属性表現リストを用いない方法として、対象事物に関連する表現を持つ文から、文が評判を含むかどうかを判定するという方法が提案されている(例えば、非特許文献3参照)。
「意見抽出のための評価表現の収集」言語処理学会論文集、Vol.12, No.3, pp.203-222, 2005 「Web文書集合からの意見情報抽出と着眼点に基づく要約生成」言語処理学会第10回年次大会、pp.644-647, 2004 「ドメイン特徴語の自動取得によるWeb掲示板からの意見文抽出」言語処理学会第11回年次大会、pp.672-675, 2005
「意見抽出のための評価表現の収集」言語処理学会論文集、Vol.12, No.3, pp.203-222, 2005 「Web文書集合からの意見情報抽出と着眼点に基づく要約生成」言語処理学会第10回年次大会、pp.644-647, 2004 「ドメイン特徴語の自動取得によるWeb掲示板からの意見文抽出」言語処理学会第11回年次大会、pp.672-675, 2005
しかしながら、属性表現の種類は多岐にわたり、新しい製品などの出現と共に属性表現も増え続けていくため、上記の非特許文献1のような方法を用いても全ての属性表現を属性表現リストに登録することはできない。そのため、上記の非特許文献2のような方法では、評判を含む文中に対象事物の性質を表す表現が含まれていても、その表現が属性表現リストに登録されていなければ評判情報を抽出することができない。例えば、映画に関する属性表現が記述された属性表現リストがあり、ある新作の映画にXという映画初登場の俳優が出演した場合、Xは属性表現リストに登録されていないため、「Xがかっこいい」という文には評判情報が含まれているにも関わらず、評判情報を抽出できない。
また、属性表現リストを用いずに文が評判を含むかどうかを判定する上記の非特許文献3の方法では、対象事物と関連のある表現及び評判を表しやすい表現が含まれていれば、対象事物の性質を表していない属性表現を持つ文であっても、その対象事物についての評判を含む文であると判定されてしまう。例えば、ある映画について書かれた文書の中に、「Xの出演している番組も面白い」という文が存在していた場合、この文には対象事物と関連のある表現「X」及び評判を表しやすい表現「面白い」が含まれているので、映画の性質を表していない属性表現「番組」を持つ文であっても、映画についての評判を含む文であると判定されてしまう。その結果、この方法からでは、対象事物について述べられていない評判情報を抽出してしまう。
本発明は、上記の点に鑑みなされたもので、属性表現リストに依存することなく属性表現候補を取得することにより、属性表現が属性表現リストに含まれていないために抽出できなかった評判情報を抽出できるだけでなく、文の構造に着目して評価表現に対応した属性表現候補を取得し、取得した属性表現候補に対して複数の文書における対象事物と属性表現に関する単語情報を用いて対象事物の性質としての適切さを調べることにより、対象事物について正しく述べられている評判情報を抽出することができるような評判情報抽出方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、入力された文から製品を含む対象事物に関する評判情報を抽出する評判情報抽出方法であって、
入力された文を単語に分割する単語分割ステップ(ステップ1)と、
評価表現リスト記憶手段に格納されている、対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、単語分割ステップで分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得ステップ(ステップ2)と、
評価表現に対し、文構造を格納した文構造記憶手段を参照して、対象事物の性質である属性表現候補を取得する属性表現候補取得ステップ(ステップ3)と、
属性表現候補に対し、複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出ステップ(ステップ4)と、
属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出ステップ(ステップ5)と、を行う。
入力された文を単語に分割する単語分割ステップ(ステップ1)と、
評価表現リスト記憶手段に格納されている、対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、単語分割ステップで分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得ステップ(ステップ2)と、
評価表現に対し、文構造を格納した文構造記憶手段を参照して、対象事物の性質である属性表現候補を取得する属性表現候補取得ステップ(ステップ3)と、
属性表現候補に対し、複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出ステップ(ステップ4)と、
属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出ステップ(ステップ5)と、を行う。
また、本発明(請求項2)は、請求項1の評判情報抽出方法であって、
属性尤度算出ステップにおいて、単語情報として単語の出現頻度を用いる。
属性尤度算出ステップにおいて、単語情報として単語の出現頻度を用いる。
図2は、本発明の原理構成図である。
本発明(請求項3)は、入力された文から製品を含む対象事物に関する評判情報を抽出する評判情報抽出装置であって、
対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納した評価表現リスト記憶手段6と、
文構造を格納した文構造記憶手段7と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段8と、
入力された文を単語に分割する単語分割手段1と、
評価表現リスト記憶手段6に格納されている、評価表現リストを参照して、単語分割手段1で分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得手段2と、
評価表現に対し、文構造記憶手段7を参照して、対象事物の性質である属性表現候補を取得する属性表現候補取得手段3と、
属性表現候補に対し、単語情報記憶手段8を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出手段4と、
属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出手段5と、を有する。
対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納した評価表現リスト記憶手段6と、
文構造を格納した文構造記憶手段7と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段8と、
入力された文を単語に分割する単語分割手段1と、
評価表現リスト記憶手段6に格納されている、評価表現リストを参照して、単語分割手段1で分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得手段2と、
評価表現に対し、文構造記憶手段7を参照して、対象事物の性質である属性表現候補を取得する属性表現候補取得手段3と、
属性表現候補に対し、単語情報記憶手段8を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出手段4と、
属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出手段5と、を有する。
また、本発明(請求項4)は、請求項3の評判情報抽出装置であって、
単語情報記憶手段8は、単語情報として単語の出現頻度を格納し、
属性尤度算出手段4は、
単語情報記憶手段の単語の出現頻度を用いて属性尤度を算出する。
単語情報記憶手段8は、単語情報として単語の出現頻度を格納し、
属性尤度算出手段4は、
単語情報記憶手段の単語の出現頻度を用いて属性尤度を算出する。
本発明(請求項5)は、対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納した評価表現リスト記憶手段と、
文構造を格納した文構造記憶手段と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段と、
を有するコンピュータを、請求項3または4記載の評判情報抽出装置として機能させる評判情報抽出プログラムである。
文構造を格納した文構造記憶手段と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段と、
を有するコンピュータを、請求項3または4記載の評判情報抽出装置として機能させる評判情報抽出プログラムである。
上記のように本発明によれば、属性表現リストに依存することなく属性表現候補を取得するため、属性表現リストを参照する従来の技術よりも多くの評判情報を抽出することができる。
また、文の構造に着目して評価表現に対応した属性表現候補を取得し、取得した属性表現候補に対して複数の文書における対象事物と属性表現に関する単語情報を用いて対象事物の性質としての適切さを調べるため、属性表現リストを参照しない従来の技術よりも対象事物について述べてられている評判情報を正しく抽出することができる。
また、本発明では、自動的に属性表現を取得するため、属性表現リストを参照する従来の技術で必要な属性表現リストを作成するコストを削減することができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における評判情報抽出装置の構成を示す。
同図に示す評判情報抽出装置は、単語分割部1、評価表現取得部2、属性表現候補取得部3、属性尤度算出部4、評判情報抽出部5、評価表現リスト記憶部6、文構造データベース7、単語情報データベース8から構成される。
評価表現リスト記憶部6は、対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納する。
文構造データベース7は、文の構造を格納する。
単語情報データベース8は、複数の文書における対象事物と属性表現に関する単語情報を格納する。
単語分割部1は、入力された単語を分割し、単語列を取得し、入力された対象事物と共に評価表現取得部2に渡す。
評価表現取得部2は、評価表現リスト記憶部6に格納されている対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、文中の単語列から評価表現を検索し、検索された評価表現を取得し、属性表現候補取得部3に渡す。
属性表現取得部3は、評価表現に対し、文構造データベース7に格納された文の構造に着目して属性表現候補を取得し、属性尤度算出部4に渡す。
属性尤度算出部4は、属性表現候補に対し、複数の文書における対象事物と属性表現に関する単語情報が格納された単語情報データベース8を参照して、属性表現としての適切さを表す属性尤度を算出し、評判情報抽出部5に渡す。
評判情報抽出部5は、属性尤度が閾値よりも高い属性表現候補を属性表現とし、属性表現とそれに対応する評価表現の組を評判情報として抽出し、出力する。
以下に、上記の構成における動作を説明する。
図4は、本発明の一実施の形態における評判情報抽出装置の全体の動作のフローチャートである。
ステップ100) まず、単語分割部1は、入力された文を単語に分割し、単語列を得る。
ステップ200) 次に、評価表現取得部2により、対象事物の性質に関する評価である評価表現が記載された評価表現リスト記憶部6の評価表現リストを参照して、文中の単語列から評価表現を検索し、検索された評価表現を取得する。
ステップ300) 次に、属性表現候補取得部3により、ステップ200で得られた評価表現に対し、文構造データベース7に格納された文構造に着目して属性表現候補を取得する。
ステップ400) 次に、属性尤度算出部4により、属性表現候補に対し、複数の文書における対象事物と属性表現に関する単語情報が格納された単語情報データベース8を参照して、属性表現としての適切さを表す属性尤度を算出する。
ステップ500) 最後に、評判情報抽出部5により、ステップ400で算出された属性尤度が閾値よりも高い属性表現候補を属性表現とし、属性表現とそれに対応する評価表現の組を評判情報として抽出する。
なお、抽出された評判情報はユーザの表示装置に表示する、または、記憶手段に格納するようにしても良い。
以下、図面と共に、具体例を用いて前述のフローチャートに沿って本発明の実施例を説明する。
以下の実施例では、まず、図5に示す文から評判情報を抽出する場合について説明する。
また、対象事物として映画の名前である「スペースウォーズ」が与えられているものとする。対象事物はこのようにはじめから与えられてもよいし、対象表現リストを参照するなどして入力文中から取得してもよい。
ステップ100では、単語分割部1により、図5の文を単語に分割し、単語列を得る。ここでは、既存の形態素解析技術を用いて単語分割を行い、各単語の表記、品詞の情報を得るものとする。単語に分割した例を図6に示す。
ステップ200では、評価表現取得部2により、評価表現リスト記憶部6の対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、文中の単語列から評価表現を検索し、検索された評価表現を取得する。評価表現リストの例を図7に示す。単語分割部1で得られた図6の単語列から、図7の評価表現リストが含まれているかを調べ、評価表現が含まれていればその評価表現を取得する。ここでは、図6の単語列全体から評価表現が含まれているかどうかを調べるが、単語列の一部から調べてもよい。図6の単語列中に図7の5番目の「きれい」という評価表現が含まれているため、評価表現として「きれい」を取得する。
ステップ300では、属性表現候補取得部3により、文構構造データベース7に格納された文の構造に着目して、属性表現候補を取得する。文構造データベース7に格納されている文の構造の例を図8に示す。図8では、文の構造として、文中のある名詞W1の後に「は」「が」「も」の何れかの助詞が出現し、その直後または1つ以上の副詞W2を挟んで評価表現W3が出現するという構造かどうかに着目し、その構造を持つ場合には最初に出現した名詞W1を属性表現候補として取得する。着目する文の構造は、この例のように1つでもよいし、複数でもよい。属性表現候補の取得方法については文の構造に着目していればこれに限定されることなく、係り受け解析を用いて文の構造を解析し、評価表現に係る文節中に含まれる名詞を属性表現候補として取得するなどとしてもよい。図6の単語列は、「CG」という名詞の後に助詞「が」が出現し、1つの副詞「とても」を挟んで評価表現「きれい」が出現するという図8に示された文の構造を持つため、最初に出現した名詞である「CG」を属性表現候補として取得する。
ステップ400では、属性尤度算出部4により、属性表現候補に対し、複数の文書における対象事物と属性表現に関する単語情報を格納した単語情報データベース8を参照して、属性表現としての適切さを表す属性尤度を算出する。単語情報データベース8は、入力文とは別の複数の文書のそれぞれに対して単語分割を行い、各文書中における単語出現頻度を求めて記憶したものである。単語情報データベース8の例を図9に示す。なお、利用する単語情報は単語の出現頻度に限定されるものではなく、単語の文書中での位置情報を利用したり、単語の品詞情報を利用したり、単語の属するカテゴリの情報を利用したり、それらを組み合わせた情報を利用したりしてもよい。単語情報データベース8から対象事物と属性表現候補の頻度が共に1以上である文書の数A、対象事物の頻度が1以上であり、属性表現候補の頻度が0である文書の数B、対象表現の頻度が0であり属性表現候補の頻度が1以上である文書の数C、対象表現と属性表現候補の頻度が0である文書の数Dを取得し、これらの値から以下の式により属性尤度Lを算出する。
L=2A/(2A+B+C) 式(1)
属性尤度の算出方法は、上記の式に限定されるものではなく、単語情報データベース8に格納されている頻度をもとに、「H. Shutze, Dimensions of Meaning, Proceedings of Supercomputing 92, pp.787-796, 1992」に示される概念ベースを作成し、対象表現と属性表現候補の概念ベクトル間の距離を属性尤度とするなどとしてもよい。
属性尤度の算出方法は、上記の式に限定されるものではなく、単語情報データベース8に格納されている頻度をもとに、「H. Shutze, Dimensions of Meaning, Proceedings of Supercomputing 92, pp.787-796, 1992」に示される概念ベースを作成し、対象表現と属性表現候補の概念ベクトル間の距離を属性尤度とするなどとしてもよい。
具体的には、図9の文書番号「2」の文書を例にとると、文書中での単語「スペースウォーズ」の頻度が“2”、単語「CG」の頻度が“1”、単語「ポップコーン」「今日」「シーン」の頻度は“0”であることを示している。この単語情報データベース8を元に、図10の各値を計算する。属性表現候補に対し、各文書がA〜Dのどれに相当するか調べていき、それぞれに相当する文書の数が図10の各値となる。例えば、「CG」を例にとると、文書番号1の文書はD、文書番号2の文書はA、文書番号3の文書はB、文書番号4の文書はC、…となる。
図10と上記の式(1)を用いて、属性表現候補毎に属性尤度を算出する。属性表現候補「CG」について属性尤度Lを算出すると、
L=2×28/(2×28+152+93)≒0.19
となる。
L=2×28/(2×28+152+93)≒0.19
となる。
ステップ500では、評判情報抽出部5により、属性尤度が閾値以上の属性表現候補を属性表現とし、属性表現とそれに対応する評価表現の組を評判情報として抽出する。ここでは、閾値を0.15とする。閾値はこのように全ての入力文に対して固定の値でもよいし、属性表現候補の20%が閾値以上となるように入力文に対して異なる値を設定したりしてもよい。属性表現候補「CG」の属性尤度は0.19であり、閾値以上の値であるため、属性表現候補「CG」は属性表現となる。よって、図5の文に対して、属性表現「CG」とそれに対応する評価表現「きれい」という1組の評判情報が抽出される。
次に、図11に示す文から評判情報を抽出する場合について説明する。
対象事物としては、先ほどと同様に「スペースウォーズ」が与えられているものとする。
ステップ100では、単語分割部1により、図11の文を単語分割し、単語列を得る。単語に分割した結果を図12に示す。
ステップ200では、評価表現取得部2により、評価表現リスト記憶部6の対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、文中の単語列から評価表現を検索し、検索された評価表現を取得する。図12の単語列の中に図7の3番目の「おいし(い)」という評価表現が含まれているため、評価表現として「おいし(い)」を取得する。
ステップ300では、属性表現候補取得部3により、文構造データベース7に格納された文の構造に着目して、属性表現候補を取得する。図11の単語列は、「ポップコーン」という名詞の後に助詞「が」が出現し、その直後に評価表現「おいし(い)」が出現するという図8に示された文の構造を持つため、最初に出現した名詞である「ポップコーン」を属性表現候補として取得する。
ステップ400では、属性尤度算出部4により、属性表現候補に対し、複数の文書における対象事物と属性表現に関する単語情報を格納した単語情報データベース8を参照して、属性表現としての適切さを表す属性尤度を算出する。図9と上記の式(1)により、属性表現候補「ポップコーン」について属性尤度Lを算出すると、
L=2×10/(2×10+170+50)≒0.08
となる。
L=2×10/(2×10+170+50)≒0.08
となる。
ステップ500では、評判情報抽出部5により、属性尤度が閾値以上の属性表現候補を属性表現とし、属性表現とそれに対応する評価表現の組を評判情報として抽出する。先程と同様に、閾値を0.15とすると、属性表現候補「ポップコーン」の属性尤度は0.08であり、閾値未満の値であるため、属性表現候補「ポップコーン」は属性表現とならない。よって、図11の文からは、評判情報が抽出されない。
このように、属性表現リストに依存することなく、文の構造に着目して属性表現候補を取得するため、属性表現が属性表現リストに含まれていないために評判情報が抽出されないということが起こらなくなる。また、取得した属性表現候補に対して、複数の文書における対象事物と属性表現に関する単語情報を用いて、「CG」のような対象事物の性質として適切な属性表現候補の属性尤度は高い値となり、「ポップコーン」のように対象事物の性質として適切でない属性表現候補の属性尤度は低い値となるように属性尤度を算出し、属性尤度が高い値を持つ属性表現候補のみを属性表現とするため、対象事物について述べられている評判情報を正しく抽出することができる。
なお、上記の実施の形態及び実施例で示した一連の動作をプログラムとして構築し、評判情報抽出装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行させる、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムを評判情報抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、製品についての顧客満足度の調査などに利用可能である。
1 単語分割手段、単語分割部
2 評価表現取得手段、評価表現取得部
3 属性表現候補取得手段、属性表現候補取得部
4 属性尤度算出抽出手段、属性尤度算出抽出部
5 評判情報抽出手段、評判情報抽出部
6 評価表現リスト記憶手段、評価表現リスト記憶部
7 文構造記憶手段、文構造データベース
8 単語情報記憶手段、単語情報データベース
2 評価表現取得手段、評価表現取得部
3 属性表現候補取得手段、属性表現候補取得部
4 属性尤度算出抽出手段、属性尤度算出抽出部
5 評判情報抽出手段、評判情報抽出部
6 評価表現リスト記憶手段、評価表現リスト記憶部
7 文構造記憶手段、文構造データベース
8 単語情報記憶手段、単語情報データベース
Claims (5)
- 入力された文から製品を含む対象事物に関する評判情報を抽出する評判情報抽出方法であって、
前記入力された文を単語に分割する単語分割ステップと、
評価表現リスト記憶手段に格納されている、対象事物の性質に関する評価である評価表現が記載された評価表現リストを参照して、前記単語分割ステップで分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得ステップと、
前記評価表現に対し、文構造を格納した文構造記憶手段を参照して、前記対象事物の性質である属性表現候補を取得する属性表現候補取得ステップと、
前記属性表現候補に対し、複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出ステップと、
前記属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出ステップと、
を行うことを特徴とする評判情報抽出方法。 - 前記属性尤度算出ステップにおいて、
前記単語情報として単語の出現頻度を用いる請求項1記載の評判情報抽出方法。 - 入力された文から製品を含む対象事物に関する評判情報を抽出する評判情報抽出装置であって、
対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納した評価表現リスト記憶手段と、
文構造を格納した文構造記憶手段と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段と、
前記入力された文を単語に分割する単語分割手段と、
前記評価表現リスト記憶手段に格納されている、前記評価表現リストを参照して、前記単語分割手段で分割された単語列から評価表現を検索し、検索された評価表現を取得する評価表現取得手段と、
前記評価表現に対し、前記文構造記憶手段を参照して、前記対象事物の性質である属性表現候補を取得する属性表現候補取得手段と、
前記属性表現候補に対し、前記単語情報記憶手段を参照して、対象事物としての適切さを表す属性尤度を算出する属性尤度算出手段と、
前記属性尤度が所定の閾値よりも高い属性表現候補を属性表現とし、該属性表現と該属性表現に対応する評価表現の組を評判情報として抽出する評判情報抽出手段と、
を有することを特徴とする評判情報抽出装置。 - 前記単語情報記憶手段は、前記単語情報として単語の出現頻度を格納し、
前記属性尤度算出手段は、
前記単語情報記憶手段の前記単語の出現頻度を用いて前記属性尤度を算出する、
請求項3記載の評判情報抽出装置。 - 対象事物の性質に関する評価である評価表現が記載された評価表現リストを格納した評価表現リスト記憶手段と、
文構造を格納した文構造記憶手段と、
複数の文書における対象事物と属性表現候補に関する単語情報を格納した単語情報記憶手段と、
を有するコンピュータを、
請求項3または4記載の評判情報抽出装置として機能させることを特徴とする評判情報抽出プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005307291A JP2007115118A (ja) | 2005-10-21 | 2005-10-21 | 評判情報抽出方法及び装置及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005307291A JP2007115118A (ja) | 2005-10-21 | 2005-10-21 | 評判情報抽出方法及び装置及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007115118A true JP2007115118A (ja) | 2007-05-10 |
Family
ID=38097216
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005307291A Pending JP2007115118A (ja) | 2005-10-21 | 2005-10-21 | 評判情報抽出方法及び装置及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2007115118A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009151483A (ja) * | 2007-12-19 | 2009-07-09 | Dainippon Printing Co Ltd | 意見抽出装置 |
| CN102486803A (zh) * | 2010-12-01 | 2012-06-06 | 爱信艾达株式会社 | 检索装置、检索方法以及计算机可读存储介质 |
-
2005
- 2005-10-21 JP JP2005307291A patent/JP2007115118A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009151483A (ja) * | 2007-12-19 | 2009-07-09 | Dainippon Printing Co Ltd | 意見抽出装置 |
| CN102486803A (zh) * | 2010-12-01 | 2012-06-06 | 爱信艾达株式会社 | 检索装置、检索方法以及计算机可读存储介质 |
| CN102486803B (zh) * | 2010-12-01 | 2016-09-14 | 爱信艾达株式会社 | 检索装置、检索方法以及计算机可读存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Delpeuch | Opentapioca: Lightweight entity linking for wikidata | |
| JP6361351B2 (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
| CN113821588B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
| CN112632223B (zh) | 案事件知识图谱构建方法及相关设备 | |
| JP2017138985A (ja) | 人工知能に基づくモバイル検索方法及び装置 | |
| CN109960721B (zh) | 基于源内容的多重压缩构造内容 | |
| WO2016135905A1 (ja) | 情報処理システム及び情報処理方法 | |
| Cordobés et al. | Graph-based techniques for topic classification of tweets in Spanish | |
| KR20190118744A (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
| JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
| CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 | |
| CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
| CN102844755A (zh) | 提取命名实体的方法 | |
| CN103744887A (zh) | 一种用于人物搜索的方法、装置和计算机设备 | |
| CN117609612A (zh) | 资源推荐方法、装置、存储介质及电子设备 | |
| Hobel et al. | Deriving the geographic footprint of cognitive regions | |
| JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
| JP2007241888A (ja) | 情報処理装置および方法、並びにプログラム | |
| Zhu et al. | Get into the spirit of a location by mining user-generated travelogues | |
| Li et al. | Multimodal question answering over structured data with ambiguous entities | |
| CN110110218A (zh) | 一种身份关联方法及终端 | |
| JP6676698B2 (ja) | 予約語及び属性言語間の関連度を用いた情報検索方法及び装置 | |
| JP2010198278A (ja) | 評判情報分類装置、評判情報分類方法及びプログラム | |
| Apturkar et al. | Sentiment analysis of speech with application to various languages | |
| KR101983477B1 (ko) | 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템 |