JP4148247B2

JP4148247B2 - 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP4148247B2
Application number: JP2005194298A
Authority: JP
Inventors: 浩之戸田; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-07-01
Filing date: 2005-07-01
Publication date: 2008-09-10
Anticipated expiration: 2025-07-01
Also published as: JP2007011892A

Description

本発明は、語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、インターネットに代表されるコンピュータネットワークにおいて、ＨＴＭＬやＸＭＬ、ＳＧＭＬ等のタグ付テキストから語彙を獲得するための語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。

コンピュータネットワークにおける情報検索において、検索結果が大量になることが、頻繁となり、検索システムの利用者は、キーワードでの検索を行った後に、得られた検索結果から本当に欲しい情報を獲得する遠いう作業が強いられている。

そのような問題に対して、検索結果のテキスト情報から固有名詞等の文書中でキーとなる用語を抽出し、それらの用語のうち検索結果中で重要であると考えられる用語を選択し、検索結果と共に提示することで、効率的な文書の検索を容易に実現するという方法がある。

これにより、ユーザは検索結果を一つ一つ見ながら所望の情報を探したり、追加キーワードを考え再検索を行わなくとも、所望の情報を絞り込むことができる。

これを実現するため基本的な技術として、テキスト中の固有名詞等を特定する手法が必要となる。

最も単純な方法として、人手で辞書を作成し、その辞書語とマッチする語をテキストから抽出するという手法が考えられる。

また、特定の辞書は持たず、文書中に存在する固有名詞を予め人手で特定し、特定した学習データから、形態素（品詞情報）レベルのパターンとして抽出ルールを作成し、予め学習データに含まれた語のみでなく、新たな語の抽出も可能とする手法もある（例えば、特許文献１、非特許文献１参照）。
特開２００３−３３１２５４号公報 Sekine.S.: Named Entity: History and Future, http://cs.nyu.edu/sekinepaper/NEsurvey 200402.pdf

しかしながら、上記の従来技術には以下の問題点がある。

辞書を人手で作成する手法は、確実にテキスト中の該当部分を特定することができるが、辞書の更新にかかるコストが非常に大きいため、幅広い分野や属性の辞書語を収集することは現実的に難しい。

また、学習データを利用する手法は、学習データを元にルールを自動生成することによって、学習データに存在する語彙に加えて、学習データにはない新しい語彙についてもテキストから自動的に抽出することができる。

しかし、その一方で抽出ルールの生成では、学習データから特徴的なパターンの抽出が必要となる。例えば、新聞記事における人物名や場所名などのデータには、特徴的な出現パターンが存在するため、比較的高精度に抽出することができるが、抽出対象が一般的なＷｅｂページなどを対象とした場合には表現が多様になり、必ずしも高精度の特定ができない。また、人物や場所名ではなく、その名称自体が多用な表現を持つ「店の名前」や「本のタイトル」等の場合には、同様にパターン化が難しく高精度の表現の抽出は難しい。

本発明は、上記の点に鑑みなされたもので、コンピュータネットワークにおけるテキストから、特定の属性（人物名や本のタイトル等）のデータを、少ないデータ例を元に、テキストやタググ付き文書中でデータ例の出現するパターンを特定し、そのパターンによって抽出されたキーワードの出現頻度や分布から不要語の除去を行い、自動的に獲得することが可能な語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、特定の属性のキーワード例を元にＨＴＭＬやＸＭＬを含む電子テキストを解析し、語彙を獲得する装置における語彙獲得方法であって、
テキスト検索手段が、外部から入力された特定の属性のキーワード例に基づいて、ＨＴＭＬやＸＭＬを含む電子テキストを蓄積するテキスト蓄積手段を検索し、該キーワード例を含むテキストを取得するテキスト検索ステップ（ステップ１）と、
キーワード位置特定手段が、検索されたテキストから、キーワード例の出現位置を特定するキーワード位置特定ステップ（ステップ２）と、
キーワード出現パターン抽出手段が、テキスト検索ステップにおいて取得されたテキストにおいて、キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出ステップ（ステップ３）と、
キーワード候補抽出手段が、キーワード例の各キーワードの出現位置及びキーワード例に共通の出現パターンに基づいてテキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出ステップ（ステップ４）と、
キーワード抽出手段が、キーワードの候補の各キーワードについて、テキスト検索ステップにおいて取得されたテキストの数Ｎ _Ａ、該テキスト検索ステップにおいて取得されたテキストのうち該キーワード候補を含むテキストの数N _Ａ ^W 、テキスト蓄積手段に蓄積されているテキストの数N ^Ｗから各キーワードの評価値（Ｎ _Ａ ^W ／Ｎ _A ）×log（N _Ａ ^W ／N ^W ）を求め、該評価値が所定の閾値よりも高いキーワードをキーワードの候補から抽出するキーワード抽出ステップ（ステップ５）と、を行う。

図２は、本発明の原理構成図である。

本発明（請求項２）は、特定の属性のキーワード例を元にＨＴＭＬやＸＭＬを含む電子テキストを解析し、語彙を獲得する語彙獲得装置であって、
ＨＴＭＬやＸＭＬを含む電子テキストを蓄積するテキスト蓄積手段２と、
外部から入力された特定の属性のキーワード例に基づいて、テキスト蓄積手段２を検索し、該キーワード例を含むテキストを取得するテキスト検索手段３と、
検索されたテキストから、キーワード例の出現位置を特定するキーワード位置特定手段４と、
テキスト検索手段３において取得されたテキストにおいて、キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出手段５と、
キーワード例の各キーワードの出現位置及びキーワード例に共通の出現パターンに基づいてテキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出手段６と、
キーワードの候補の各キーワードについて、テキスト検索手段において取得されたテキストの数Ｎ _Ａ、該テキスト検索手段３において取得されたテキストのうち該キーワード候補を含むテキストの数N _Ａ ^W 、テキスト蓄積手段２に蓄積されているテキストの数N ^Ｗから各キーワードの評価値（Ｎ _Ａ ^W ／Ｎ _A ）×log（N _Ａ ^W ／N ^W ）を求め、該評価値が所定の閾値よりも高いキーワードをキーワードの候補から抽出するキーワード抽出手段７と、を有する。

本発明（請求項３）は、請求項２記載の語彙獲得装置を構成する各手段としてコンピュータを機能させるための語彙獲得プログラムである。

本発明（請求項４）は、請求項３記載の語彙獲得プログラムを格納したコンピュータ読み取り可能な記憶媒体である。

本発明によれば、特定の属性の少ないキーワードを元に、その該当属性のキーワードが出現する位置及びパターンを自動で抽出し、この２つの特徴を利用し、高い精度でキーワード候補の出現するルールを特定し、予め指定されたキーワードを複数含むテキスト中で上記で特定したルールにマッチするキーワードを抽出し、ここで抽出された個々のキーワードの出現頻度や分布を元に最終的な抽出候補のキーワードを特定することで、高精度に語彙を獲得することが可能となる。

この語彙獲得により得られた辞書を用いることにより、テキストから特定属性のキーワードを抽出することが可能となる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における語彙獲得装置の構成を示す。

同図に示す語彙獲得装置１０は、抽出を想定する属性のキーワードを例として入力するデータ例入力装置２０、インターネット３０と接続され、テキスト収集部１、テキスト蓄積部２、テキスト検索部３、キーワード位置特定部４、キーワード出現パターン抽出部５、キーワード候補抽出部６、及びキーワード抽出部７から構成される。

テキスト収集部１は、インターネット３０上に存在するＨＴＭＬやＸＭＬのテキストデータを収集し、テキスト蓄積部２に格納する。また、既に収集済みのテキストがローカルディスク上に存在する場合には、それを対象に収集を行い、テキスト蓄積部２に格納する。

テキスト蓄積部２は、テキスト収集部１によって収集されたテキストデータを蓄積する。蓄積されるテキストデータは、ＨＴＭＬ形式のテキストデータや、ＸＭＬ形式のタグ付きテキストデータである。

テキスト検索部３は、データ例入力装置２０から入力された、場所や人物等の固有名詞や属性などからなるキーワード例を元にテキスト蓄積部２に格納されたテキストデータを検索し、当該キーワード例を複数含むテキストデータを特定する。

キーワード位置特定部４は、テキスト検索部３によってデータ例入力装置２０から入力されたキーワード例に含まれるキーワードを複数内包するテキストを解析し、当該キーワードが存在する位置を特定する。位置を特定する例を図４に示す。

図４（ａ）に示すＨＴＭＬの場合に、キーワード例として「恋し君へ」と「水戸黄門様」が与えられた場合に、当該キーワード例が含まれる部分を特定し、HTMLタグ構造を木構造と見做し、「HTMLタグの下のBODYタグの下の、trタグの下の、tdタグの下に該当するデータ存在する」という判断を行う。この処理を各々のキーワードについて行う。その結果、
「/HTML/BODY/tr/td」
が得られる。

図４（ｂ）に示すＨＴＭＬの場合に、キーワード例として「恋し君へ」と「水戸黄門様」が与えられた場合に、当該キーワード例が存在する位置として、
「/HTML/BODY/」
が得られる。得られたキーワード例の出現位置は、キーワード候補抽出部６に転送される。

キーワード出現パターン抽出部５は、テキスト検索部３によって検索された、データ入力装置２０から入力されたキーワード例を複数内包するテキストを解析し、キーワードが出現するパターンを特定する。例えば、キーワード「恋し君へ」や「水戸黄門様」が含まれる部分を特定し、各キーワードについて、一文字ずつ文書の先頭部分に向かって文字を取得し、キーワード間で比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、同じパターンを抽出する。

図５（ａ）において、キーワード例として「恋し君へ」と「水戸黄門様」が与えられた場合に、当該キーワードの出現パターンとして、
「<tr><td>ENTITY</td><td>」
が得られる。なお、出現パターン中の“ENTITY”の部分は、最終的に抽出したい語彙が含まれる部分である。

また、図５（ｂ）において、キーワード例として「恋し君へ」と「水戸黄門様」が与えられた場合に、当該キーワードの出現パターンとして、
「，ENTITY，」
が得られる。得られたキーワード例の出現パターンは、キーワード候補抽出部６に転送される。なお、出現パターン中の“ENTITY”の部分は、最終的に抽出したい語彙が含まれる部分である。

キーワード候補抽出部６は、キーワード位置特定部４によって抽出されたキーワード例の位置と、キーワード出現パターン抽出部５によって得られたキーワード例の出現パターンに基づいて、テキスト検索部３により検索されたテキストを解析し、キーワード候補を抽出する。

キーワード抽出部７は、キーワード候補抽出部６で抽出されたキーワード候補からキーワードの出現頻度及び分布の評価に基づいて、抽出するキーワードを特定する。

キーワード候補を評価する基準としては、以下のような基準αが考えられる。

ここで、
・Ｎ_Ａは、テキスト検索部３によって特定された解析対象テキストの数を示す。
・Ｎ_Ａ ^ｗは、テキスト検索部３によって特定された解析対象テキスト中で現在評価するキーワードを含む文書の数を示す。
・Ｎ^ｗは、文書集合全体中で現在評価するキーワードｗを含む文書の数を示す。

上記のように求められた評価値が所定の閾値より高いものをキーワードとして抽出する。

次に、上記の構成における動作を説明する。

本発明は、データを収集するための前処理段階と、実際に語彙を獲得する段階の２つに分かれている。

図６は、本発明の一実施の形態における前処理のフローチャートである。

ステップ１０１）テキスト収集部１は、入力装置（図示せず）からＵＲＬの入力を受け付け、当該ＵＲＬを起点とするリンクを辿りながら、テキストを収集し、テキスト蓄積部２に格納する。

ステップ１０２）テキスト検索部３は、テキスト蓄積部２から文書を読み出して分析し、入力装置（図示せず）から指定されたキーワードを含む文書を特定するためのインデクスを作成する。

次に、語彙獲得のための処理について説明する。

図７は、本発明の一実施の形態における語彙獲得のフローチャートである。

ステップ２０１）テキスト検索部３は、データ例入力装置から、抽出する語彙の例となる少なくとも１つのキーワード例の入力を受け付ける。

ステップ２０２）テキスト検索部３では、受け付けたキーワード例に基づいてテキスト蓄積部２を検索して、当該キーワード例を含むテキストを取得する。

ステップ２０３）キーワード位置特定部４は、テキスト検索部３で検索されたテキストを１つずつ解析し、個々のテキスト毎に、データ例入力装置２０から入力されたキーワード例が出現する位置を特定する。

ステップ２０４）キーワード出現パターン抽出部４は、テキスト検索部３で検索されたテキストを１つずつ解析し、個々のテキスト毎に、データ例入力装置２０から入力されたキーワード例が存在する出現パターンを特定する。

ステップ２０５）キーワード候補抽出部６は、キーワード位置特定部４で特定された位置情報及び、キーワード出現パターン抽出部５で特定されたパターンに基づいて、ステップ２０２で検索されたテキストからキーワード候補を抽出する。

ステップ２０６）キーワード抽出部７は、テキスト検索部３により検索された解析対象のテキストの数、及び、キーワード候補抽出部６で抽出されたキーワードを含む文書数及び、抽出された文書集合全体中で評価すべきキーワードを含む文書数を用いて、キーワード候補を評価する評価値を求め、予め設定された閾値以上の閾値を持つキーワード候補をキーワードとして抽出する。この評価値が、予め決定された閾値に満たないキーワードについては不要語と見做し、候補から削除する。この閾値は経験的に設定されるものである。また、別の方式としては、テキストから抽出されるキーワードの出現頻度を算出し、頻度が閾値を超えないものとしては、それを不要語と見做し、候補から削除することも考えられる。この閾値も同様に、経験的に設定されるものである。

この後、当該キーワード抽出部７で抽出されたキーワードを辞書等の記憶手段４０に格納する。なお、記憶手段に格納する前に、一旦表示装置に表示するようにしてもよい。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、コンピュータネットワークにおける情報検索技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における語彙獲得装置の構成図である。本発明の一実施の形態におけるキーワード位置特定部の動作の例である。本発明の一実施の形態におけるキーワード出現パターン抽出部の動作の例である。本発明の一実施の形態における前処理のフローチャートである。本発明の一実施の形態における語彙獲得のフローチャートである。

符号の説明

１テキスト収集部
２テキスト蓄積手段、テキスト蓄積部
３テキスト検索手段、テキスト検索部
４キーワード位置特定手段、キーワード位置特定部
５キーワード出現パターン抽出手段、キーワード出現パターン抽出部
６キーワード候補抽出手段、キーワード候補抽出部
７キーワード抽出手段、キーワード抽出部
１０語彙獲得装置
２０データ例入力装置
３０インターネット
４０記憶装置

Claims

特定の属性のキーワード例を元にＨＴＭＬやＸＭＬを含む電子テキストを解析し、語彙を獲得する装置における語彙獲得方法であって、
テキスト検索手段が、外部から入力された特定の属性のキーワード例に基づいて、前記ＨＴＭＬやＸＭＬを含む電子テキストを蓄積するテキスト蓄積手段を検索し、該キーワード例を含むテキストを取得するテキスト検索ステップと、
キーワード位置特定手段が、検索された前記テキストから、前記キーワード例の出現位置を特定するキーワード位置特定ステップと、
キーワード出現パターン抽出手段が、前記テキスト検索ステップにおいて取得されたテキストにおいて、前記キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出ステップと、
キーワード候補抽出手段が、前記キーワード例の各キーワードの出現位置及び前記キーワード例に共通の出現パターンに基づいて前記テキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出ステップと、
キーワード抽出手段が、前記キーワードの候補の各キーワードについて、前記テキスト検索ステップにおいて取得されたテキストの数Ｎ _Ａ、該テキスト検索ステップにおいて取得されたテキストのうち該キーワード候補を含むテキストの数N _Ａ ^W 、前記テキスト蓄積手段に蓄積されているテキストの数N ^Ｗから各キーワードの評価値（Ｎ _Ａ ^W ／Ｎ _A ）×log（N _Ａ ^W ／N ^W ）を求め、該評価値が所定の閾値よりも高いキーワードを前記キーワードの候補から抽出するキーワード抽出ステップと、
を行うことを特徴とする語彙獲得方法。
特定の属性のキーワード例を元にＨＴＭＬやＸＭＬを含む電子テキストを解析し、語彙を獲得する語彙獲得装置であって、
前記ＨＴＭＬや前記ＸＭＬを含む電子テキストを蓄積するテキスト蓄積手段と、
外部から入力された特定の属性のキーワード例に基づいて、前記テキスト蓄積手段を検索し、該キーワード例を含むテキストを取得するテキスト検索手段と、
検索された前記テキストから、前記キーワード例の出現位置を特定するキーワード位置特定手段と、
前記テキスト検索手段において取得されたテキストにおいて、前記キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出手段と、
前記キーワード例の各キーワードの出現位置及び前記キーワード例に共通の出現パターンに基づいて前記テキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出手段と、
前記キーワードの候補の各キーワードについて、前記テキスト検索手段において取得されたテキストの数Ｎ _Ａ、該テキスト検索手段において取得されたテキストのうち該キーワード候補を含むテキストの数N _Ａ ^W 、前記テキスト蓄積手段に蓄積されているテキストの数N ^Ｗから各キーワードの評価値（Ｎ _Ａ ^W ／Ｎ _A ）×log（N _Ａ ^W ／N ^W ）を求め、該評価値が所定の閾値よりも高いキーワードを前記キーワードの候補から抽出するキーワード抽出手段と、
を有することを特徴とする語彙獲得装置。
請求項２記載の語彙獲得装置を構成する各手段としてコンピュータを機能させるための語彙獲得プログラム。
請求項３記載の語彙獲得プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。