JP3571231B2 - 情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体 - Google Patents
情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP3571231B2 JP3571231B2 JP28162198A JP28162198A JP3571231B2 JP 3571231 B2 JP3571231 B2 JP 3571231B2 JP 28162198 A JP28162198 A JP 28162198A JP 28162198 A JP28162198 A JP 28162198A JP 3571231 B2 JP3571231 B2 JP 3571231B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- classification
- input
- information
- categories
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 53
- 239000013598 vector Substances 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 30
- 206010039203 Road traffic accident Diseases 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、多量の文書データ等の情報を複数のカテゴリに分類する情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
近年、インターネットなどのコンピュータネットワークを通じて、大量の電子化された文書をやり取りできるようになっている。そのため、個人が必要とする情報を探索できるようなサービスがネットワーク上で実現されている。しかし、そのために自分が獲得した情報が大量になってしまい、個々の情報の持つ特徴を抽出することが困難となる。そこで、獲得した情報を分類し整理する技術が必要となる。
【0003】
従来から文書情報を自動的に分類する手法の研究が行われている。代表的な手法としては、図書館のように分類するための区切り(カテゴリと呼ぶ)が既知で、新規の情報に対しそれぞれ適切と思われるカテゴリに分類する手法(“分類体系相互の関係を利用したテキストの自動分類”山本,増山(豊橋技術科学大学)内藤(NTT),自然言語学会研究会 1995)や、分類するカテゴリが未知で、文書集合の中から類似する文書を集めて分類カテゴリを作成し割り当てるという方法(“競合学習ニューラルネットワークによる自動分割”菊池,松岡ら(宇都宮大 他),電子情報通信学会論文誌 1995)などがある。これらの技術により、大量の文書の分類整理を行う。
【0004】
本発明が対象としている分類手法は、あらかじめ分類するためのカテゴリが既知の場合の手法である。このような手法の従来技術においては、あらかじめ分類するためのカテゴリと、そこに入るべきサンプルの文書または単語をシステムに対して与えると、システムはそれらの情報から単語の重要度を計算し、カテゴリの特徴として単語とそのカテゴリに対する重要度が対のベクトルを生成する。分類する文書に対しても同様に、単語と文書に対する重要度を計算し、ベクトルを生成する(“Automatic Text Processing”Gerard Salton,ADDISON−WESLEY pud,1989)。
【0005】
カテゴリiそれぞれに生成される特徴ベクトルWi は、
となる。ちなみに、Nは次元数を表している。同様に分類対象となる文書に対しても特徴ベクトルを生成する。
【0006】
分類は、カテゴリの持つ特徴ベクトルと文書の持つ特徴ベクトルとの距離を定義し、その値を利用して各文書を類似するカテゴリに割り当てる。また、距離が非常に離れている、すなわち、どのカテゴリとも類似しないと判断した場合は、どのカテゴリにも割り当てない。
【0007】
【発明が解決しようとする課題】
従来の手法では、分類したいカテゴリの総数や出現する単語の数が多ければ多いほど、その数に比例して計算時間も増大するという問題がある。
【0008】
本発明は、上記に鑑みてなされたもので、その目的とするところは、多量の文書データ等の情報を複数のカテゴリに短時間で効率的に分類し得る情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体を提供することにある。
【0009】
【課題を解決するための手段】
上記目的を達成するため、請求項1記載の本発明は、多量の情報を複数のカテゴリに分類する情報自動分類方法であって、予め入力され自然言語で記述された文書データを記憶する第1のステップと、予め入力された分類するためのカテゴリとその特徴から特徴ベクトルを計算し記憶する第2のステップと、予め入力された分類基準を記憶する第3のステップと、前記第2のステップで記憶されたカテゴリおよびその特徴と前記第3のステップで記憶された分類基準とを用いて、カテゴリを新規に作成し、前記第2のステップで記憶されたカテゴリで類似したものを同一の中間カテゴリに割り当てる第4のステップと、前記第2のステップで記憶されたカテゴリと前記第4のステップで得たカテゴリとを用いて、前記文書データを分類する第5のステップとを有することを要旨とする。
【0010】
請求項1記載の本発明にあっては、文書データを入力して記憶し、分類するためのカテゴリとその特徴を入力し、この入力されたカテゴリと特徴から特徴ベクトルを計算し記憶し、分類基準を入力して記憶し、前記入力されたカテゴリおよびその特徴と前記分類基準とを用いて、カテゴリを新規に作成し、前記入力されたカテゴリで類似したものを同一の中間カテゴリに割り当て、この処理で得たカテゴリと前記入力されたカテゴリとを用いて、入力された文書データを分類するため、多量の文書データを複数のカテゴリに短時間で効率的に分類することができる。
【0011】
また、請求項2に記載の本発明は、請求項1において、前記第4のステップは、前記カテゴリとその特徴に対して当該カテゴリ間の距離関数を分類基準に応じて作成し、この作成した距離関数を用いて前記カテゴリ間の距離を計算して中間カテゴリを生成することを要旨とする。
【0012】
請求項2記載の本発明にあっては、入力されたカテゴリとその特徴に対してカテゴリ間の距離関数を分類基準に応じて作成し、この距離関数を用いて入力カテゴリ間の距離を計算して中間カテゴリを生成する。
【0013】
また、請求項3に記載の本発明は、請求項1または2において、前記第5のステップは、第4のステップで生成した中間カテゴリへの分類を行い、この分類結果と前記分類基準とに基づいて前記カテゴリへの分類の要否を決定することを要旨とする。
【0014】
請求項3記載の本発明にあっては、前記生成した中間カテゴリへの分類を行い、この分類結果と分類基準とに基づいて入力カテゴリへの分類の要否を決定する。
【0015】
また、請求項4に記載の本発明は、多量の情報を複数のカテゴリに分類する情報自動分類装置であって、自然言語で記述された文書データを予め入力するための文書入力部と、前記文書入力部に入力された文書データを記憶する文書記憶部と、分類するためのカテゴリとその特徴を予め入力するためのカテゴリ情報入力部と、前記カテゴリ情報入力部に入力されたカテゴリと特徴から特徴ベクトルを計算し記憶するカテゴリ情報記憶部と、分類基準を予め入力するための分類基準入力部と、前記分類基準入力部に入力された分類基準を記憶する分類基準記憶部と、前記カテゴリ情報入力部に入力されたカテゴリおよびその特徴と前記分類基準入力部に入力された分類基準とを用いて、カテゴリを新規に作成し、前記カテゴリ情報入力部に入力されたカテゴリで類似したものを同一の中間カテゴリに割り当てる中間カテゴリ計算部と、前記カテゴリ情報入力部に入力されたカテゴリと前記中間カテゴリ計算部で得たカテゴリとを用いて、前記文書入力部に入力された文書データを分類する実カテゴリ計算部とを有することを要旨とする。
【0016】
請求項4記載の本発明にあっては、文書データを入力して記憶し、分類するためのカテゴリとその特徴を入力し、この入力されたカテゴリと特徴から特徴ベクトルを計算し記憶し、分類基準を入力して記憶し、前記入力されたカテゴリおよびその特徴と前記分類基準とを用いて、カテゴリを新規に作成し、前記入力されたカテゴリで類似したものを同一の中間カテゴリに割り当て、この処理で得たカテゴリと前記入力されたカテゴリとを用いて、入力された文書データを分類するため、多量の文書データを複数のカテゴリに短時間で効率的に分類することができる。
【0017】
また、請求項5に記載の本発明は、請求項4において、前記中間カテゴリ計算部は、前記カテゴリ情報入力部に入力されたカテゴリとその特徴に対してカテゴリ間の距離関数を分類基準に応じて作成し、この作成した距離関数を用いて前記カテゴリ情報入力部に入力されたカテゴリ間の距離を計算して中間カテゴリを生成することを要旨とする。
【0018】
請求項5記載の本発明にあっては、入力されたカテゴリとその特徴に対してカテゴリ間の距離関数を分類基準に応じて作成し、この距離関数を用いて入力カテゴリ間の距離を計算して中間カテゴリを生成する。
【0019】
また、請求項6に記載の本発明は、請求項4または5において、前記実カテゴリ計算部は、前記中間カテゴリ計算部で生成した中間カテゴリへの分類を行い、この分類結果と前記分類基準入力部に入力された分類基準とに基づいて前記カテゴリ情報入力部で入力されたカテゴリへの分類の要否を決定することを要旨とする。
【0020】
請求項6記載の本発明にあっては、前記生成した中間カテゴリへの分類を行い、この分類結果と分類基準とに基づいて入力カテゴリへの分類の要否を決定する。 請求項7記載の本発明は、多量の情報を複数のカテゴリに分類する情報自動分類プログラムを記録した記録媒体であって、自然言語で記述された文書データを入力する第1の処理と、第1の処理で入力された文書データを記憶する第2の処理と、分類するためのカテゴリとその特徴を入力する第3の処理と、第3の処理で入力されたカテゴリと特徴から特徴ベクトルを計算し記憶する第4の処理と、分類基準を入力する第5の処理と、第5の処理で入力された分類基準を記憶する第6の処理と、第3の処理で入力されたカテゴリおよびその特徴と第5の処理で入力された分類基準とを用いて、カテゴリを新規に作成し、第3の処理で入力されたカテゴリで類似したものを同一の中間カテゴリに割り当てる第7の処理と、第3の処理で入力されたカテゴリと第7の処理で得たカテゴリとを用いて、第1の処理で入力された文書データを分類する第8の処理とを有する情報自動分類プログラムを記録媒体に記録することを要旨とする。
【0021】
また、請求項7に記載の本発明は、多量の情報を複数のカテゴリに分類する情報自動分類プログラムを記録した記録媒体であって、予め入力され自然言語で記述された文書データを記憶する第1の処理と、予め入力された分類するためのカテゴリとその特徴から特徴ベクトルを計算し記憶する第2の処理と、予め入力された分類基準を記憶する第3の処理と、前記第2の処理で記憶されたカテゴリおよびその特徴と前記第3の処理で記憶された分類基準とを用いて、カテゴリを新規に作成し、前記第2の処理で記憶されたカテゴリで類似したものを同一の中間カテゴリに割り当てる第4の処理と、前記第2の処理で記憶されたカテゴリと前記第4の処理で得たカテゴリとを用いて、前記文書データを分類する第5の処理とを有することを要旨とする。
【0022】
また、請求項8に記載の本発明は、請求項7において、前記第4の処理は、前記カテゴリとその特徴に対して当該カテゴリ間の距離関数を分類基準に応じて作成し、この作成した距離関数を用いて前記カテゴリ間の距離を計算して中間カテゴリを生成することを要旨とする。
【0023】
請求項8記載の本発明にあっては、入力されたカテゴリとその特徴に対してカテゴリ間の距離関数を分類基準に応じて作成し、この距離関数を用いて入力カテゴリ間の距離を計算して中間カテゴリを生成する情報自動分類プログラムを記録媒体に記録するため、該記録媒体を用いて、その流通性を高めることができる。
【0024】
また、請求項9に記載の本発明は、請求項7または8において、第5の処理は、第4のステップで生成した中間カテゴリへの分類を行い、この分類結果と前記分類基準とに基づいて前記カテゴリへの分類の要否を決定することを要旨とする。
【0025】
請求項9記載の本発明にあっては、前記生成した中間カテゴリへの分類を行い、この分類結果と分類基準とに基づいて入力カテゴリへの分類の要否を決定する情報自動分類プログラムを記録媒体に記録するため、該記録媒体を用いて、その流通性を高めることができる。
【0026】
【発明の実施の形態】
以下、図面を用いて本発明の実施の形態について説明する。本発明の情報自動分類方法では、分類したいカテゴリである実カテゴリを予めいくつかの組である中間カテゴリに分けておき、中間カテゴリでの条件を満たした場合のみ実カテゴリとの距離計算を行うことで計算時間を短縮している。従って、まず中間カテゴリの生成について図5を参照しながら説明する。
【0027】
本発明では、実カテゴリの持つ特徴ベクトルを用いて、カテゴリ間に距離を導入する。各実カテゴリ間の距離を計算し、類似する実カテゴリ同士を抽出し、2つ以上の類似したカテゴリを新規に作成した中間カテゴリに割り当てる。
【0028】
カテゴリ間の距離関数として、特徴ベクトルの内積やカテゴリ間の単語の共起関係、それらを組み合わせて利用する。例えば、カテゴリiとカテゴリjの単語の共起関係Iijを、
【数1】
と定義する。共起関係Iijはカテゴリiとカテゴリjでどれだけ共通の単語を有しているかを表す関数である。また、カテゴリiとカテゴリjの単語の重なり具合Rij、
【数2】
などの関数も考えられる。特徴ベクトルの内積の値やカテゴリ間の共起関係の値の組合わせなどで、カテゴリ間の類似度を定義する。
【0029】
実カテゴリ間の距離関数を利用して、中間カテゴリと実カテゴリの類似度を定義できる。なぜなら、中間カテゴリの特徴ベクトルを、例えば、中間カテゴリに割り当てられた実カテゴリの持つ特徴ベクトルの平均とすれば、中間カテゴリと実カテゴリの距離関数として、上記の式3、4を利用することがきる。同様に、中間カテゴリと中間カテゴリ間の類似度も定義できる。
【0030】
これらのカテゴリ間の距離関数を用いて、類似しているカテゴリ同士を同一の中間カテゴリに割り当てていく。しかし、カテゴリ間の距離関数を用いて中間カテゴリを生成する際、すべての実カテゴリが一つの中間カテゴリに割り当てられる場合がある。このようにして生成された中間カテゴリには、不要な実カテゴリと文書間の類似度計算を生じさせるようなものが存在する。一般的にそれを避けるために、なんらかの閾値αを導入し、実カテゴリ間の類似度がαより小さくなった場合に中間カテゴリの生成を止める手法をとる。
【0031】
この閾値αの値を決定するには、人手によって与えるか、いくつかのサンプル文書を用いて動作実験を行った結果を利用することになる。しかし、本発明では、閾値を導入する代わりに、共起関係Iijや単語の重なり具合Rijの値を中間カテゴリ内の実カテゴリ同士に適用することによって、中間カテゴリの生成を止める。具体的には、中間カテゴリMk と中間カテゴリMl において「Mk に属するすべての実カテゴリCi と、Ml に属するすべての実カテゴリCj に対し、実カテゴリ間の距離関数の値が0より大きい」という条件を満たす場合のみ、中間カテゴリMk と中間カテゴリMl から新たな中間カテゴリを生成するという中間カテゴリ生成条件を導入する。これにより、人手による閾値の入力などのわずらわしい操作が不要なうえ、不必要な実カテゴリと文書間の類似度計算を減らすことができる。
【0032】
次に、実際の分類処理について説明する。文書の分類には、まず、文書と中間カテゴリとの距離を計算する。この距離により類似していると判断した場合に、中間カテゴリに属している実カテゴリとの距離を計算し分類するかどうかを判断する。
【0033】
中間カテゴリの生成と分類処理時の判断基準は、実カテゴリでの分類基準に依存している。例えば、文書は実カテゴリのいずれか一つに必ず入るように分類する場合、実カテゴリはすべていずれかの中間カテゴリに属するように分類する。また、どこにも分類されない文書、すなわち、適切な実カテゴリがない文書は分類しない場合、中間カテゴリでの判断によっては実カテゴリとの計算を一度もせずに“どのカテゴリにも分類しない”という判断を下すことができる。また、中間カテゴリの生成に共起関係を利用し、判断基準として分類対象の文書内に存在する単語が中間カテゴリに存在するかどうかを利用すると、容易に分類精度を落とさず高速化できる。
【0034】
また、中間カテゴリは1層に限ったわけではなく、中間カテゴリ間に距離を導入し中間カテゴリの中間カテゴリを作成し、多段階で分類するかどうかを判断することで、より高速化な分類を行うことができる。
【0035】
以上の説明に基づき図5に示すフローチャートを参照して中間カテゴリ生成処理について説明する。図5では、まずカテゴリ集合Ca内のすべての実カテゴリ間の距離(類似度)を計算する(ステップS11)。類似度が最も大きい実カテゴリ(あるいは中間カテゴリ)1組をカテゴリ集合Caから選択する(ステップS13)。そして、この選択した実カテゴリの組の類似度の値が0より大きいか否かをチェックする(ステップS15)。0より大きくない場合には処理を終了するが、0より大きい場合には、2つの実カテゴリ(または中間カテゴリ)に対して上述した「中間カテゴリ生成条件」が成立するか否かをチェックする(ステップS17)。成立しない場合には、選択された2つのカテゴリ間の類似度を0とし(ステップS19)、ステップS13に戻って、同じ処理を繰り返すが、成立する場合には、2つのカテゴリを、新たな中間カテゴリを生成して割り当て、カテゴリ集合Caに加える(ステップS21)。それから、2つのカテゴリをカテゴリ集合Caから取り除く(ステップS23)。また、新たに生成した中間カテゴリとカテゴリ集合Ca内の他の実カテゴリ(または中間カテゴリ)との距離を計算する(ステップS25)。それから、ステップS13に戻って、同じ処理を繰り返す。
【0036】
図1は、本発明の一実施形態に係わる情報自動分類装置の構成を示すブロック図である。同図において、101は文書入力部、102は文書記憶部、103はカテゴリ情報入力部、104はカテゴリ情報記憶部、105は初期値入力部、106は初期値記憶部、107は中間カテゴリ計算部、108は実カップラ計算部である。
【0037】
図1に示す情報自動分類装置では、処理を施したい文書を文書入力部101で入力する。処理を施したい文書としては、コンピュータに入力した文書すべてが含まれる。例えば、新聞記事やインターネット上のHTMLファイルやネットニュース、文字放送やFM多重放送やテレビでの放送原稿等がある。また、文書記憶部102では、文書入力部101において入力した情報を、情報発信媒体それぞれ、あるいは、情報発信媒体のいくつか、あるいは、すべての情報発信媒体全体の文書を取り出せるように記憶する。
【0038】
カテゴリ情報入力部103では、システム利用者が分類したいカテゴリとそれに入るサンプルとなる文書情報やキーワードを入力する。例えば、スポーツのサッカーに関する情報を集めるのであれば、「サッカー」に関するカテゴリと新聞記事やインターネット上から収集したサッカーに関する文書やキーワードを入力する。カテゴリ情報記憶部104では、カテゴリ情報入力部103で入力された情報の記憶と、入力された情報から特徴ベクトルの計算とその結果の記憶を行う。
【0039】
初期値入力部105では、システムが計算を行う際の分類条件や分類基準等の初期値を入力する。例えば、分類時の誤りの基準や、「すべての文書を類似するいずれか一つの実カテゴリに分類する」や「一つの文書を複数の実カテゴリに分類する」などの分類条件を入力する。初期値記憶部106は、初期値入力部105で入力された初期値を記憶する。
【0040】
中間カテゴリ計算部107では、カテゴリ情報入力部103と初期値入力部105で入力された情報から、中間カテゴリを作成する。カテゴリ情報入力部103で入力された実カテゴリの情報から特徴ベクトルを生成し、初期値入力部105で入力された情報を利用して、実カテゴリ間の距離関数を決定し中間カテゴリを生成する。また、同時に中間カテゴリに属する実カテゴリに対して文書の分類を行うかどうかの判断基準も決定する。
【0041】
実カテゴリ計算部108では、文書入力部101で入力された文書を実カテゴリに割り当てる処理を行う。中間カテゴリ計算部107の処理結果である中間カテゴリと判断基準を利用して、まず、中間カテゴリと文書との距離を計算する。その結果と中間カテゴリ計算部107で決定した中間カテゴリでの判断基準を用いて、中間カテゴリに属する実カテゴリと文書との距離計算を行うかどうかを判断する。計算する必要があれば、実際に文書と実カテゴリとの距離計算を行い、初期値入力部105で入力された分類基準に従って、文書を実カテゴリに割り当てる。
【0042】
次に、図2および図3を参照して、具体例を用いて本発明の処理の流れを具体的に説明する。なお、図2および図3において、実線は類似度の計算を行って、分類し、点線は類似度を計算したが、分類しなかったことを示している。また、システムに入力する文書集合は、新聞社の1998年の新聞記事とする。文書集合を文書入力部101より入力する。
【0043】
次に、カテゴリ情報入力部103より、収集したいカテゴリとそこに入るサンプルとなる文書や単語を入力する。例えば、「“交通事故”に関する記事を集める分類カテゴリ」や「“電気自動車”に関する記事を集める分類カテゴリ」や「“地震”に関する記事を集める分類カテゴリ」や「“天候”に関する記事を集める分類カテゴリ」を入力し、それぞれのカテゴリに入るべきサンプル文書として、過去の“文通事故”に関するいくつかの記事を「“交通事故”に関する記事を集める分類カテゴリ」へ、“電気自動車”に関するいくつかの記事を「“電気自動車”に関する記事を集める分類カテゴリ」へ、“地震”に関するいくつかの記事を「“地震”に関する記事を集める分類カテゴリ」へ、雷雨や台風や空梅雨などの“天候”に関するいくつかの記事を「“天候”に関する記事を集める分類カテゴリ」に割り当てることを入力する。
【0044】
カテゴリ情報記憶部104では、カテゴリ情報入力部103で入力された情報から、各カテゴリの特徴ベクトルを作成し記憶する。例えば、「“交通事故”に関する記事を集める分類カテゴリ」では、入力されたサンプルの文書から特徴ベクトルとして、
((自動車,0.23),(スピード,0.13),(夜間,0.08),(死者,0.05), …) (5)
などを生成し記憶する。また、「“電気自動車”に関する記事を集める分類カテゴリ」では、入力されたサンプルの文書から特徴ベクトルとして、
((自動車,0.20),(電気,0.12),(燃費,0.10),(スピード,0.04), …) (6)
などを生成し記憶する。また、「“地震”に関する記事を集める分類カテゴリ」では、入力されたサンプルの文書から特徴ベクトルとして、
((地震,0.15),(震度,0.10),(死者,0.07),(津波,0.04), …) (7)
などを生成し記憶する。また、「“天候”に関する記事を集める分類カテゴリ」では、入力されたサンプルの文書から特徴ベクトルとして、
((異常気象,0.12),(エルニーニョ,0.10),(雷,0.07),(電気,0.04), …)(8)
などを生成し記憶する。
【0045】
次に、初期値入力部105より、分類するための初期値の入力を行う。ここでは、「いずれか一つの実カテゴリに割合当てる」という条件と「どの実カテゴリにも割り当てられない文書が存在することを許可する」という条件を与えたとする。
【0046】
以上の入力処理から、まず、中間カテゴリ計算部107の処理を行う。例えば、「“交通事故”に関する記事を集める分類カテゴリ」と「“電気自動車”に関する記事を集める分類カテゴリ」と「“地震”に関する記事を集める分類カテゴリ」と「“天候”に関する記事を集める分類カテゴリ」に対し、カテゴリ間の距離関数として単語の共起関係Iijを利用する。類似するカテゴリとして、「“交通事故”に関する記事を集める分類カテゴリ」と「“電気自動車”に関する記事を集める分類カテゴリ」が「“電気自動車”に関する記事を集める分類カテゴリ」と「“天候”に関する記事を集める分類カテゴリ」がある。しかし、[中間カテゴリ生成条件]から、「“交通事故”に関する記事を集める分類カテゴリ」と「“電気自動車”に関する記事を集める分類カテゴリ」と「“天候”に関する記事を集める分類カテゴリ」が一つの中間カテゴリに割り当てられることはない。この場合は、単語の共起関係Iijの値から、「“交通事故”に関する記事を集める分類カテゴリ」と「“電気自動車”に関する記事を集める分類カテゴリ」が一つの中間カテゴリに割り当てられたとする。この場合に、生成された中間カテゴリ名を話を分かりやすくするために「“自動車”の中間カテゴリ」と呼ぶことにする。「“自動車”の中間カテゴリ」が持つ特徴ベクトルを、「中間カテゴリ内の実カテゴリが持つ特徴ベクトルに共通に存在する単語」として生成すると、
例えば、
((自動車,0.215),( スピード,0.065),…) (9)
という特徴ベクトルを生成する。各単語の重みは、元の特徴ベクトルの平均値とした。また、判断基準は「文書に存在する単語が、中間カテゴリが持つ特徴ベクトルに一つでも存在するかどうか」とする。
【0047】
次に、実カテゴリ計算部108で、文書の実カテゴリへの分類処理が行われる。1998年の新聞記事で、例えば、「自動車がスピードの出し過ぎでガードレールに衝突」という記事が図2に示すようにあったとする。この記事の特徴ベクトルは、
となったとする。この特徴ベクトルと、「“自動車”の中間カテゴリ」と文書内の単語に比較する。この場合、「自動車」「スピード」という単語が記事の特徴ベクトルと中間カテゴリのそれの両方に存在するため、中間カテゴリでの判断基準を満たす。そのため、実カテゴリの「“交通事故”に関する記事を集める分類カテゴリ」と「“電気自動車”に関する記事を集める分類カテゴリ」との分類を行い、最終的に「“交通事故”に関する記事を集める分類カテゴリ」に割り当てる。
【0048】
また、「高校生サッカーの試合で、A高校が優勝」という記事が図3に示すようにあったとする。この記事の特徴ベクトルは、
((高校生,0.18),(サッカー,0.15),(優勝,0.10),(A高校,0.09), …) (11)
となったとする。この場合、「“自動車”の中間カテゴリ」の持つ特徴ベクトルと比較すると、共通の単語が存在せず判断基準を満たさない。そのため、実カテゴリである「“交通事故”に関する記事を集める分類カテゴリ」と「“電気自動車”に関する記事を集める分類カテゴリ」との分類を行わない。
【0049】
ここで、[中間カテゴリ生成条件]の効果について図4を参照して説明する。もし、[中間カテゴリ生成条件]がなければ、単語の共起関係Iijの値から、「“交通事故”に関する記事を集める分類カテゴリ」と「“電気自動車”に関する記事を集める分類カテゴリ」と「“天候”に関する記事を集める分類カテゴリ」が、一つの中間カテゴリに割り当てられる。この中間カテゴリの特徴ベクトルは、
((自動車,0.15),(スピード,0.05),(電気,0.04), …) (12)
となる。この中間カテゴリに対し、前例の「自動車のスピードの出し過ぎでガードレールに衝突」という記事の分類を行うとすると、“自動車”という単語から中間カテゴリでの分類基準を通過する。そのため、自動車とは直接関係しない「“天候”に関する記事を集める分類カテゴリ」との類似度計算を行うことになる。一般に、このような不要な計算を避けるために、少数の実験や人手によって「実カテゴリ間の距離がαより大きい場合、中間カテゴリを生成する」という条件を導入するが、適切なα値を決定するのは難しい。[中間カテゴリ生成条件]を用いることで、中間カテゴリを生成する前に、新たに生成される中間カテゴリ内の実カテゴリ同士がある程度類似しているかどうかを調査を行い、そのおかげで関係のある実カテゴリ同士だけが一つの中間カテゴリ内に存在するようになる。
【0050】
次に、本発明の効果を確認するために行った実験について説明する。この実験では、分類対象の文書データとしてウェブページ2,000件を用い、実カテゴリの初期値を800個、特徴ベクトル要素として単語数を100,000語とした。このデータでは分類において最低限510,000回の類似度の計算が必要である。
【0051】
その結果、中間カテゴリを生成しない従来の方法では、1,600,000回(=510,000+1,090,000)の類似度の計算を行ったのに対して、本発明の方法では、1,100,000回(=510,000+690,000)で済むことが明らかになった。すなわち、不要な類似度の計算の回数を109万回から69万回の約半分に低減でき、効率的な分類が可能になった。
【0052】
【発明の効果】
以上説明したように、本発明によれば、多量の文書データの複数のカテゴリへの分類において、中間カテゴリの生成および該カテゴリへの分類を行うことにより、分類に不要な類似度の計算回数を低減でき、効率化を図ることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係わる情報自動分類装置の構成を示すブロック図である
。
【図2】図1の情報自動分類装置による分類処理の一例を示す図である。
【図3】図1の情報自動分類装置による分類処理の他の例を示す図である。
【図4】図1の情報自動分類装置の中間カテゴリ生成処理時において中間カテゴリ生成条件を用いた場合と用いない場合の中間カテゴリの生成例を示す図である。
【図5】中間カテゴリの生成処理を示すフローチャートである。
【符号の説明】
101 文書入力部
102 文書記憶部
103 カテゴリ情報入力部
104 カテゴリ情報記憶部
105 初期値入力部
106 初期値記憶部
107 中間カテゴリ計算部
108 実カテゴリ計算部
Claims (9)
- 多量の情報を複数のカテゴリに分類する情報自動分類方法であって、
予め入力され自然言語で記述された文書データを記憶する第1のステップと、
予め入力された分類するためのカテゴリとその特徴から特徴ベクトルを計算し記憶する第2のステップと、
予め入力された分類基準を記憶する第3のステップと、
前記第2のステップで記憶されたカテゴリおよびその特徴と前記第3のステップで記憶された分類基準とを用いて、カテゴリを新規に作成し、前記第2のステップで記憶されたカテゴリで類似したものを同一の中間カテゴリに割り当てる第4のステップと、
前記第2のステップで記憶されたカテゴリと前記第4のステップで得たカテゴリとを用いて、前記文書データを分類する第5のステップと
を有することを特徴とする情報自動分類方法。 - 前記第4のステップは、
前記カテゴリとその特徴に対して当該カテゴリ間の距離関数を分類基準に応じて作成し、この作成した距離関数を用いて前記カテゴリ間の距離を計算して中間カテゴリを生成することを特徴とする請求項1記載の情報自動分類方法。 - 前記第5のステップは、
第4のステップで生成した中間カテゴリへの分類を行い、この分類結果と前記分類基準とに基づいて前記カテゴリへの分類の要否を決定することを特徴とする請求項1または2記載の情報自動分類方法。 - 多量の情報を複数のカテゴリに分類する情報自動分類装置であって、
自然言語で記述された文書データを予め入力するための文書入力部と、
前記文書入力部に入力された文書データを記憶する文書記憶部と、
分類するためのカテゴリとその特徴を予め入力するためのカテゴリ情報入力部と、
前記カテゴリ情報入力部に入力されたカテゴリと特徴から特徴ベクトルを計算し記憶するカテゴリ情報記憶部と、
分類基準を予め入力するための分類基準入力部と、
前記分類基準入力部に入力された分類基準を記憶する分類基準記憶部と、
前記カテゴリ情報入力部に入力されたカテゴリおよびその特徴と前記分類基準入力部に入力された分類基準とを用いて、カテゴリを新規に作成し、前記カテゴリ情報入力部に入力されたカテゴリで類似したものを同一の中間カテゴリに割り当てる中間カテゴリ計算部と、
前記カテゴリ情報入力部に入力されたカテゴリと前記中間カテゴリ計算部で得たカテゴリとを用いて、前記文書入力部に入力された文書データを分類する実カテゴリ計算部と
を有することを特徴とする情報自動分類装置。 - 前記中間カテゴリ計算部は、
前記カテゴリ情報入力部に入力されたカテゴリとその特徴に対してカテゴリ間の距離関数を分類基準に応じて作成し、この作成した距離関数を用いて前記カテゴリ情報入力部に入力されたカテゴリ間の距離を計算して中間カテゴリを生成することを特徴とする請求項4記載の情報自動分類装置。 - 前記実カテゴリ計算部は、
前記中間カテゴリ計算部で生成した中間カテゴリへの分類を行い、この分類結果と前記分類基準入力部に入力された分類基準とに基づいて前記カテゴリ情報入力部で入力されたカテゴリへの分類の要否を決定することを特徴とする請求項4または5記載の情報自動分類装置。 - 多量の情報を複数のカテゴリに分類する情報自動分類プログラムを記録した記録媒体であって、
予め入力され自然言語で記述された文書データを記憶する第1の処理と、
予め入力された分類するためのカテゴリとその特徴から特徴ベクトルを計算し記憶する第2の処理と、
予め入力された分類基準を記憶する第3の処理と、
前記第2の処理で記憶されたカテゴリおよびその特徴と前記第3の処理で記憶された分類基準とを用いて、カテゴリを新規に作成し、前記第2の処理で記憶されたカテゴリで類似したものを同一の中間カテゴリに割り当てる第4の処理と、
前記第2の処理で記憶されたカテゴリと前記第4の処理で得たカテゴリとを用いて、前記文書データを分類する第5の処理と
を有することを特徴とする情報自動分類プログラムを記録した記録媒体。 - 前記第4の処理は、
前記カテゴリとその特徴に対して当該カテゴリ間の距離関数を分類基準に応じて作成し、この作成した距離関数を用いて前記カテゴリ間の距離を計算して中間カテゴリを生成することを特徴とする請求項7記載の情報自動分類プログラムを記録した記録媒体。 - 第5の処理は、
第4のステップで生成した中間カテゴリへの分類を行い、この分類結果と前記分類基準とに基づいて前記カテゴリへの分類の要否を決定することを特徴とする請求項7または8記載の情報自動分類プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28162198A JP3571231B2 (ja) | 1998-10-02 | 1998-10-02 | 情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28162198A JP3571231B2 (ja) | 1998-10-02 | 1998-10-02 | 情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000112971A JP2000112971A (ja) | 2000-04-21 |
JP3571231B2 true JP3571231B2 (ja) | 2004-09-29 |
Family
ID=17641688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28162198A Expired - Lifetime JP3571231B2 (ja) | 1998-10-02 | 1998-10-02 | 情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3571231B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3625054B2 (ja) * | 2000-11-29 | 2005-03-02 | 松下電器産業株式会社 | 技術文書検索装置 |
US7062498B2 (en) * | 2001-11-02 | 2006-06-13 | Thomson Legal Regulatory Global Ag | Systems, methods, and software for classifying text from judicial opinions and other documents |
DE102007013139A1 (de) * | 2007-03-15 | 2008-09-18 | Stefan Kistner | Verfahren und Computerprommprodukt zur Klassifizierung elektronischer Daten |
US10860801B2 (en) * | 2018-09-12 | 2020-12-08 | Samsung Electronics Co., Ltd. | System and method for dynamic trend clustering |
-
1998
- 1998-10-02 JP JP28162198A patent/JP3571231B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2000112971A (ja) | 2000-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Analysis of hourly road accident counts using hierarchical clustering and cophenetic correlation coefficient (CPCC) | |
US8572088B2 (en) | Automated rich presentation of a semantic topic | |
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
US20020069197A1 (en) | Method and apparatus for categorizing information, and a computer product | |
US7333985B2 (en) | Dynamic content clustering | |
Kumar et al. | A novel framework to analyze road accident time series data | |
CN102855282B (zh) | 一种文档推荐方法及装置 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN105787025A (zh) | 网络平台公共账号分类方法及装置 | |
US20080235267A1 (en) | Method and Apparatus For Automatically Generating a Playlist By Segmental Feature Comparison | |
JP3571231B2 (ja) | 情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体 | |
Raghav et al. | Text and citations based cluster analysis of legal judgments | |
CN111078867A (zh) | 一种文本分类方法及装置 | |
JP2000242652A (ja) | 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 | |
Sharafat et al. | Legal data mining from civil judgments | |
CN116451103B (zh) | 一种基于标签的态势要素推荐方法 | |
Su et al. | A personalized music recommender system using user contents, music contents and preference ratings | |
JP4073734B2 (ja) | 入力単語候補を推薦する情報検索システム | |
CN117493906A (zh) | 一种城市事件分拨方法、系统及存储介质 | |
JP3571214B2 (ja) | 大量情報自動分類方法および装置と大量情報自動分類プログラムを記録した記録媒体 | |
KR101355956B1 (ko) | 논쟁적인 이슈에 관한 상반된 관점들을 제시할 수 있는 기사 분류 방법 및 시스템 | |
Zhang et al. | A new term significance weighting approach | |
CN110555199A (zh) | 基于热点素材的文章生成方法、装置、设备及存储介质 | |
CN100378713C (zh) | 为对象分类的自动确定显著特点的方法和装置 | |
JP3566856B2 (ja) | 情報自動分類方法およびその装置およびこの方法を記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040309 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040623 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080702 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090702 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100702 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110702 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120702 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130702 Year of fee payment: 9 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |