JP4143234B2

JP4143234B2 - 文書分類装置、文書分類方法及び記憶媒体

Info

Publication number: JP4143234B2
Application number: JP28201499A
Authority: JP
Inventors: 栄治剣持
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-10-01
Filing date: 1999-10-01
Publication date: 2008-09-03
Anticipated expiration: 2019-10-01
Also published as: JP2001101227A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書群を文書の内容に従って複数の文書部分集合に自動分類する文書群分類装置などに係わり、特に、分類基準の異なる部分文書集合を多数抽出することができる文書分類装置などに関する。
【０００２】
【従来の技術】
近年、インターネットなどの普及により大量の文書情報へのアクセスが可能になったことなどに伴い、収集した大量の文書情報を意味のあるグループに（例えば話題毎に）分類することにより、所望の文書情報へのアクセスを効率的に行えるようにしたり、大量の文書集合の分析作業を効率的に行えるようにする必要性が高まっている。
しかし、大量の文書情報を利用者が手動で分類するのでは、人的／時間的コストが膨大なものになる。そのため、近年では、文書集合を文書の内容により自動分類できる装置が提供されるに至っている。
そのような自動分類においては、例えば、日本語形態素解析などの自然言語処理を用いて文書からそれらを構成する複数の単語を抽出することにより、文書を複数の単語の出現頻度のベクトル（文書特徴ベクトル）として空間表現する。この技術は文書のベクトル空間モデルと呼ばれ、広く用いられている。このようなベクトル空間モデルでは、空間内における任意の２つの文書特徴ベクトル間の距離、内積、余弦等を算出することでベクトル間の類似度を定義できるので、統計的手法を用いて文書の内容による自動分類をおこなうことが可能となり、種々の文書自動分類方法が提供されている（例えば、特開平7-114572号公報記載の発明など）。
これらの方法の多くは、生成する部分文書集合の質の向上を目指したものである（例えば、特開平11-45247号公報記載の発明）。生成された部分文書集合を単位としてさまざまな作業を効率的に行おうというわけであるから、確かに生成する部分文書集合の質は重要な課題である。しかし、それと同時に、分類対象の文書集合に内在している様々な話題を分類された部分文書集合がいかに多く抽出することができるかということも同様に重要な課題である。しかしながら、この課題を直接的に扱っている方法は見当たらない。
【０００３】
【発明が解決しようとする課題】
前記のように、従来技術においては、部分文書集合への分類に際して、文書集合に含まれる話題の一部分しか抽出できないため、文書集合に対する包括的な分析をすることができないという問題がある。
本発明の課題は、このような従来技術の問題を解決し、特定の基準に基づき文書特徴ベクトルの特徴次元を動的に操作し、文書自動分類を繰り返し行うことにより、分類時に用いられる特徴ベクトル間の類似度が動的に異なる、つまり分類基準が異なる部分文書集合を多数、自動抽出することができるようにして、文書集合に対する包括的な分析を行うことができる文書分類装置などを提供することにある。
【０００４】
前記の課題を解決するために、請求項１に記載の発明は、文書の内容に従って文書集合を自動的に分類する文書分類装置において、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数する文書解析手段と、前記文書解析手段で得られた単語と該単語の出現回数とに基づき、前記各文書と各文書に出現する単語とがそれぞれ行列成分に対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求める特徴ベクトル生成手段と、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正する特徴ベクトル修正手段と、該特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を分類結果記憶手段に記憶させる文書分類手段と、を備え、前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すことを特徴とする。
また、請求項２に記載の発明は、請求項１記載の文書分類装置において、前記特徴ベクトル生成手段により求められた前記文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段を備え、前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている特徴ベクトルを修正することを特徴とする。
また、請求項３に記載の発明は、請求項１又は２記載の文書分類装置において、前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする。
また、請求項４に記載の発明は、請求項３記載の文書分類装置において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする。
【０００５】
また、請求項５に記載の発明は、文書解析手段と特徴ベクトル生成手段と特徴ベクトル修正手段と文書分類手段と分類結果記憶手段とを有し、文書の内容に従って文書集合を自動的に分類する文書分類装置が実行する文書分類方法において、前記文書解析手段による、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数するステップと、前記特徴ベクトル生成手段による、前記文書解析手段で得られた単語と、該単語の出現回数と、に基づき、行成分が各前記文書と対応し、列成分が各前記単語と対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求めるステップと、前記特徴ベクトル修正手段による、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正するステップと、前記文書分類手段による、前記特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を前記分類結果記憶手段に記憶させるステップと、前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すステップと、から構成されることを特徴とする。
また、請求項６に記載の発明は、請求項５記載の文書分類方法において、特徴ベクトル記憶手段が、前記特徴ベクトル生成手段により最初に求められた前記文書特徴ベクトルを記憶しておくステップを有し、前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている最初に求められた文書特徴ベクトルを修正することを特徴とする。
また、請求項７に記載の発明は、請求項５又は６記載の文書分類方法において、前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする。
また、請求項８に記載の発明は、請求項７記載の文書分類方法において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする。
また、請求項９に記載の発明は、請求項５乃至８の何れか一項記載の文書分類方法を実行するためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体を特徴とする。
【０００６】
前記のような手段にしたので、請求項１および請求項６記載の発明では、複数の文書から成る文書集合のそれぞれの文書データ中の単語が解析され、その解析結果に基づいて文書特徴ベクトルが求められ、文書特徴ベクトル間の類似度に基づいて文書集合が複数の部分文書集合に分類され、その後、条件によってくり返しが選択されると、所定の基準に基づき前記文書特徴ベクトルの特徴次元が修正され、修正された文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合が複数の部分文書集合に分類され、さらに、前記条件によってくり返しが選択されると、文書特徴ベクトルを修正する動作、および部分文書集合に分類し結果を記憶する動作がくり返される。
請求項２および請求項７記載の発明では、請求項１または請求項６記載の発明において、生成される文書特徴ベクトルの特徴次元が所定の基準に従って順序付けされ、操作する特徴次元が順序付けされた順序に従って決定される。
請求項３および請求項８記載の発明では、請求項６または請求項７記載の発明において、最初に求められた文書特徴ベクトルが記憶しておかれ、文書特徴ベクトルをくり返し修正する際、記憶されている最初に求められた特徴ベクトルが修正される。
請求項４および請求項９記載の発明では、請求項１乃至請求項３または請求項６乃至請求項８記載の発明において、記憶された分類結果から統計情報が算出され、算出された統計情報を用いて操作する特徴次元が決定される。
請求項５および請求項10記載の発明では、請求項４または請求項９記載の発明において、記憶された分類結果からそれぞれの部分文書集合における特徴次元の分散値が算出され、算出された分散値を用いて操作する特徴次元が決定される。請求項11記載の発明では、請求項６乃至請求項10記載の文書分類方法に従ってプログラミングしたプログラムが例えば着脱可能な記憶媒体に記憶される。
【０００７】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図１は本発明の第１の実施形態を示す文書分類装置の構成ブロック図である。図示したように、この実施形態の文書分類装置は、複数の文書から成る文書集合のそれぞれの文書データを入力する文書入力部１、前記文書入力部１により入力されたそれぞれの文書データ中の単語を解析する文書解析手段である文書解析部２、前記文書解析部２による解析結果に基づいて文書特徴ベクトルを求める特徴ベクトル生成手段である特徴ベクトル生成部３、所定の基準に基づき前記文書特徴ベクトルの特徴次元を操作して前記文書特徴ベクトルを修正する特徴ベクトル修正手段である特徴ベクトル修正部４、修正された文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類する文書分類手段である文書分類部５、前記文書分類部５により分類された分類結果を記憶しておく分類結果記憶手段である分類結果記憶部６、所定のくり返し条件に従って文書特徴ベクトル修正から後の動作をくり返させるくり返し判定部７などを備えている。なお、前記文書解析部２、特徴ベクトル生成部３、特徴ベクトル修正部４、文書分類部５、くり返し判定部７は、プログラムやデータを記憶しておく共有のメモリ（例えばＲＡＭ）およびそのプログラムに従って動作する共有または専有のＣＰＵを有する。以下、前記各部についてさらに説明する。
まず、文書入力部１であるが、キーボード、ＯＣＲ装置、着脱可能な記憶媒体、ネットワークインタフェース部などを備え、それらを用いて文書データ群を入力し、文書記憶部（図示していない）に格納する。
また、文書解析部２は、入力された文書データのそれぞれに対して自然言語解析を行い、単語やその品詞などを抽出する。さらに、文書データ内での単語の出現順序、および文書の作成者や作成日など文書のメタ情報（属性情報）などを含めた文書解析を行うこともできる。単語を抽出した後は、文書群中に出現した単語に対して一意な単語識別符号（ID）を付与し、文書毎に単語出現回数を計数する。
【０００８】
特徴ベクトル生成部３では、文書解析部２で生成した単語、単語ID、単語出現回数、品詞情報などの文書解析データを基に、行成分が文書ID、列成分が単語IDであり、行列要素が前記各文書IDの文書の含む前記各単語IDの単語の出現回数となるような文書-単語行列データを生成する。そして、この文書-単語行列の各行ベクトルを文書特徴ベクトルとする。文書-単語行列データと文書特徴ベクトルの例を図２に示す。なお、この文書特徴ベクトルに対して正規化処理を行うこともできる。また、単語が有する多義性・同義性の問題に対処するために、生成した文書-単語行列に対して因子分析、数量化III類、および特異値分解などの多次元尺度手法を適用することにより文書特徴ベクトルを生成することもできる。
例えば、特異値分解を用いて文書-単語行列から文書特徴ベクトルを生成する方法では、大きさd×t（dは文書数，tは単語数）の文書-単語行列（文書特徴ベクトル）Ｘを式（１）のように複数の行列に分解する。なお、式（１）において、svd ( )は行列へ特異値分解を適用する演算子である。また、特異値とは、特異値分解により生成される値であり、例えば、多数の文書に共通して出現する単語を多数含む文書が、特異値から成る行列Lの特異値の高い次元で高い値になる。
式（１） X = svd(X) = ALU^T ［Tは行列の転置を示す］
式（１）において、A,L,Uはいずれも行列であり、行列Ａは大きさd×k（kはtより小さい）の行列となる。つまり、大きさd×kの行列Aにおける各行ベクトルが文書特徴ベクトルとなる。ここで、kは１≦k≦rの整数で、rはdとtの小さい方より小さく、行列Xのランクを示す。また、行列Lは特異値からなる大きさk×kの対角行列であり、行列Uはt×kの行列で、任意の単語をk次元の潜在構造空間へ写像したものと考えることができる。
なお、文書特徴ベクトルを効率的に管理するために、特徴ベクトル生成部３は、文書-単語行列データに付随する付加的な情報、たとえば、文書-単語行列データの列成分である単語IDとその単語との対応関係を記述した単語-単語ID対応マップデータや、各単語について単語IDとその単語の有する品詞情報との対応関係を記述した単語ID-品詞対応マップデータなども同時に生成する。
【０００９】
また、特徴ベクトル修正部４では、前記文書特徴ベクトルの特徴次元（ベクトルの次元であり、それぞれの次元は近似的に文書集合において振る舞いの似た複数の単語から構成されるものと考えることができる）を所定の基準に基づき逐次的に操作することにより文書特徴ベクトルを修正する。なお、特徴次元の操作とてしては、次元の重み付け、削除、および線形変換などを行うことができる。
例えば、文書特徴ベクトルから特定の次元を削除する場合では、文書特徴ベクトルをd×kの大きさの行列Aとし、削除する特徴次元に対応する列を大きさk×kの単位行列から削除した結果生成されるk×k'の大きさの修正行列をPk'とすると、修正された文書特徴ベクトルA'は式（２）のように求めることができる（この式は、前記特異値分解の場合に限定していない一般的な表現をしている）。
式（２） A' = A Pk'
また、修正行列として大きさk×kの単位行列から削除する特徴次元に対応する対角要素を０にした結果生成される行列を用いても特徴次元の削除を行えるが、この場合は修正された文書特徴ベクトルの次元数は修正前と同じになる。なお、くり返し実行の際には、式（２）に示す修正が逐次的に実行される。特徴次元を削除する順序は、特徴次元の１番目から整列順であってもよいし、１から特徴次元数までの乱数を発生させることで決めてもよい。このようにして、逐次削除した特徴次元の表現していた特徴を排除した特徴空間での文書分類が可能となり、最も中心的な話題（特徴）の陰に隠れてしまっている他の話題が分類のための視点になってくるのである。
特に、前記の特異値分解を用いて文書特徴ベクトルを生成した場合には、文書特徴ベクトルの各次元は対応する特異値の大きさで順位付けされるので、特異値の大きな特徴次元から徐々に削除していくことにより、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となる。つまり、各特徴次元のそれぞれは、近似的にいくつかの振る舞いの似た単語で構成されるものと考えることができるため、文書データ内に内在するそれぞれの話題と解釈することができ、各特徴次元に対応する特異値の大きさは、文書データ内での話題の主要性をあらわすものと考えられ、特異値が大きい程、対応する特徴次元は文書データ内での主要な話題を示すものと解釈することができるので、くり返し実行の際に、特異値の大きな特徴次元から徐々に削除していくことにより、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となるのである。
なお、特徴ベクトル修正部４はくり返し実行の初回にはバイパスされる。
また、文書分類部５は、生成した文書特徴ベクトルに統計的手法を適用することで文書分類を行う。文書特徴ベクトル値が近い文書は似た文書であるので、文書特徴ベクトル値の近い文書同志を集めて複数の部分文書集合を生成するのである。適用する統計的手法としては判別分析の手法やクラスタ分析の手法などの分類手法を適用することができるが、ここではベクトルデータが適用できる分類手法であれば、その手法は問わない。
【００１０】
図３に、第１の実施形態の動作フローを示す。以下、図３などに従って、この実施形態の動作を説明する。
まず、文書入力部１により、キーボード、ＯＣＲ装置、着脱可能な記憶媒体、またはネットワークインタフェース部などを介して分類対象の文書データ群（文書集合）を入力し、それらを文書記憶部（図示していない）に格納する（ステップＳ１）。
次に、文書解析部２が、入力されたそれぞれの文書データに対して自然言語解析を行い、単語やその品詞などを抽出する（ステップＳ２）。そして、文書データ群中に出現した単語に対して一意な単語識別符号（ID）を付与し、文書毎に単語出現回数を計数する（ステップＳ２）。
続いて、特徴ベクトル生成部３が、文書解析部２で生成した単語、単語ID、単語出現回数、品詞情報などの文書解析データを基に、行成分が文書ID、列成分が単語IDであり、行列要素が前記各文書IDの文書の含む前記各単語IDの単語の出現回数となるような文書-単語行列データを生成する（ステップＳ３）。そして、この文書-単語行列の各行ベクトルを文書特徴ベクトルとする（図２参照）。
さらに、文書分類部５が、生成した文書特徴ベクトルに統計的手法を適用することで文書分類を行う（ステップＳ５）。文書特徴ベクトル値が近い文書は似た文書であるので、文書特徴ベクトル値の近い文書同志を集めて複数の部分文書集合を生成するのである。
この後は、文書分類部５が、生成した文書分類結果を分類結果記憶部６に記憶させ（ステップＳ６）、くり返し判定部７が、文書特徴ベクトルを修正させて文書分類をくり返すかどうかを所定のくり返し条件を用いて判定する（ステップＳ７）。なお、前記判定を行うための所定のくり返し条件としては、予め設定されたくり返し回数を用いることができるし、文書特徴ベクトルの次元数などを参考にして決定することもできる。また、分類結果を見て、利用者がくり返すか否かを指示することも可能である。そして、くり返すと判定されたならば（ステップＳ７でYes）、前記のようにして文書特徴ベクトルを修正する（ステップＳ４）。例えば、文書特徴ベクトルを構成する一つの特徴次元を所定の基準で選択し、その特徴次元を削除するのである。
続いて、文書分類部５が修正された特徴ベクトルを用いて再び文書分類を行い（ステップＳ５）、分類結果を分類結果記憶部６に記憶させる（ステップＳ６）。
こうして、前記のように、例えば特異値分解を用いて文書特徴ベクトルを生成した場合、文書特徴ベクトルの各次元は対応する特異値の大きさで順位付けされ、特異値の大きな特徴次元から逐次削除され、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となる。
【００１１】
図４は本発明の第２の実施形態を示す文書分類装置の構成ブロック図である。第１の実施形態（図１参照）と同一のものに関しては同じ番号を付してある。図示したように、この実施形態では、第１の実施形態の構成に加えて、特徴ベクトル生成部３により求められた文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段である特徴ベクトル記憶部８を備えている。なお、この特徴ベクトル記憶部８には、文書特徴ベクトルを効率的に管理するために特徴ベクトル生成部３が生成した、文書-単語行列データに付随する付加的な情報、たとえば、文書-単語行列データの列成分である単語IDとその単語との対応関係を記述した単語-単語ID対応マップデータや、各単語について単語IDとその単語が有する品詞情報との対応関係を記述した単語ID-品詞対応マップデータなども記憶される。
このような特徴ベクトル記憶部８を追加したことにより、この実施形態では、特徴ベクトル修正部４は、文書特徴ベクトル修正の都度、この特徴ベクトル記憶部８に記憶されている文書特徴ベクトルを操作（修正）される文書特徴ベクトルとすることが可能になる。そして、これより、文書特徴ベクトルに施す操作（例えば一つの次元の削除）の効果（結果）を継承しない文書特徴ベクトルを用いて文書分類を行うことが可能になる。
例えば、文書特徴ベクトルが特異値分解により生成されており、n回目の繰り返し時に第n次元の特徴次元を削除する場合、そのときの修正行列をPn、特徴ベクトル記憶部８に記憶されている文書特徴ベクトルをA0とし、修正された文書特徴ベクトルをAnとすると、
式（３） An = A0Pn
となる。なお、第１の実施形態の場合には、
式（４） An = A0Pn Pn-1・・・P0
となる。つまり、第２の実施形態では、削除する特徴次元の表現する話題のみを除いた特徴空間で文書分類を行うことが可能となるのである。
【００１２】
図５は本発明の第３の実施形態を示す文書分類装置の構成ブロック図である。図５において、第１の実施形態（図１参照）および第２の実施形態（図４参照）と同一のものに関しては同じ番号を付してある。図示したように、第３の実施形態では、第２の実施形態の構成に加えて、記憶されている分類結果から各部分文書集合に所属する文書特徴ベクトルを抽出する部分文書集合抽出部９、抽出された各部分文書集合における各文書特徴ベクトル間での各特徴次元の分散値を算出する部分文書集合分散算出部10、算出された各特徴次元の分散値など統計情報を用いて操作する特徴次元を決定する操作対象特徴次元決定部11を備える。
このような構成で、この実施形態では、分類結果記憶部６に記憶された分類結果から統計情報として例えばそれぞれの部分文書集合における特徴次元の分散値を算出し、算出された特徴次元の分散値を用いて操作する特徴次元を決定する。なお、このような決定方法の根拠は、部分文書集合における特徴次元の分散の大きさがその特徴次元の部分文書集合を群化させる寄与率を示すものと考えることができることにある。つまり、分散の小さな特徴次元は部分文書集合を密にしていると考えられるため、群化の寄与率は高いものと考えることができる。したがって、各部分文書集合について、分散の小さな特徴次元はその部分文書集合の表現する話題と強く関連しているものと考えられるため、例えば、この特徴次元を削除した特徴ベクトル空間で文書分類を行うことにより、前記の部分文書集合が表現する話題以外の話題を表現する部分文書集合を抽出できるものと考えられるのである。以下、この実施形態において追加した前記各部について、さらに説明する。
まず、部分文書集合抽出部９であるが、これは、分類結果記憶部６に記憶されている分類結果から、生成された部分文書集合すべてについてそれぞれに所属する文書特徴ベクトルを抽出する。なお、対象とする部分文書集合は直前に生成された部分文書集合だけでもよいし、生成されている全部分文書集合でもよい。
【００１３】
また、部分文書集合分散算出部10は、部分文書集合抽出部９が抽出した全部分文書集合について、それぞれに所属する各文書特徴ベクトル間での各特徴次元の分散値を算出する。この際、各部分文書集合について、各特徴次元の分散値の大きさの順位を算出すると共に、各特徴次元の分散値について、各部分文書集合の順位も合わせて算出する。
また、操作対象特徴次元決定部11は、部分文書集合分散算出部11が算出した各部分文書集合における各特徴次元の分散値、各部分文書集合おける各特徴次元の分散値の大きさの順位、および各特徴次元の分散値についての各部分文書集合の順位の情報を基にして特徴ベクトル修正部４の操作する特徴次元を決定する。例えば、全部分文書集合における特徴次元の分散値が一定値以下のものを操作対象の特徴次元として選択したり、全部分文書集合における特徴次元の分散値の大きさの順位が常に一定順位以下（分散が小さい）ものを操作対象の特徴次元として選択したりするのである。
なお、直前に生成された部分文書集合だけを抽出した場合には、その部分文書集合における各特徴次元の分散値、およびその部分文書集合おける各特徴次元の分散値の大きさの順位を基にして特徴ベクトル修正部４の操作する特徴次元を決定する。
こうして、この実施形態では、選択された特徴次元を削除した特徴ベクトル空間で文書分類を行い、前記の部分文書集合が表現する話題以外の話題を表現する部分文書集合を抽出することができる。
以上、図１、図４、および図５に示した構成の文書分類装置の場合について説明したが、各実施形態で説明したような本発明の文書分類方法に従ってプログラミングしたプログラムを、例えば、着脱可能な記憶媒体に記憶させ、その記憶媒体をこれまで本発明によった方法の文書分類を行えなかったパーソナルコンピュータなど情報処理装置に装填することにより、その情報処理装置において前記文書分類を行うこともできる。
【００１４】
【発明の効果】
以上説明したように、本発明によれば、請求項１および請求項５記載の発明では、分類対象の文書集合中に内在している異なる話題の部分文書集合を多数、自動抽出することができ、したがって、文書集合に対する包括的な分析を行うことができる。さらに、特徴次元の操作を効率的に行うことができる。
また、請求項２および請求項６記載の発明では、逐次行われる文書特徴ベクトルの特徴次元の操作の効果がその直後に行われる文書分類のみに有効になる。つまり、逐次行われる特徴次元の操作の効果が継承されない部分文書集合を生成することができ、したがって、請求項１又は５記載の発明とは異なる話題も抽出できる。
【００１５】
また、請求項３および請求項７記載の発明では、請求項１または請求項５記載の発明とは異なった方法で異なる話題の部分文書集合を多数、自動抽出することができ、したがって、請求項１または請求項５記載の発明の効果をさらに向上させることができる。
また、請求項４および請求項８記載の発明では、請求項３または請求項７記載の発明の効果を容易に実現することができる。
また、請求項９記載の発明では、情報処理装置において請求項５乃至８の何れか一項記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態を示す文書分類装置の構成ブロック図である。
【図２】本発明の第１の実施形態を示す文書分類方法の説明図である。
【図３】本発明の第１の実施形態を示す文書分類方法の動作フロー図である。
【図４】本発明の第２の実施形態を示す文書分類装置の構成ブロック図である。
【図５】本発明の第３の実施形態を示す文書分類装置の構成ブロック図である。
【符号の説明】
１文書入力部
２文書解析部
３特徴ベクトル生成部
４特徴ベクトル修正部
５文書分類部
６分類結果記憶部
７くり返し判定部
８特徴ベクトル記憶部
９部分文書集合抽出部
１０部分文書集合分散算出部
１１操作対象特徴次元決定部

Claims

文書の内容に従って文書集合を自動的に分類する文書分類装置において、
複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数する文書解析手段と、
前記文書解析手段で得られた単語と単語の出現回数とに基づき、前記各文書と各文書に出現する単語とがそれぞれ行列成分に対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求める特徴ベクトル生成手段と、
前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正する特徴ベクトル修正手段と、
該特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を分類結果記憶手段に記憶させる文書分類手段と、
を備え、
前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すことを特徴とする文書分類装置。
請求項１記載の文書分類装置において、
前記特徴ベクトル生成手段により求められた前記文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段を備え、
前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている特徴ベクトルを修正することを特徴とする文書分類装置。
請求項１又は２記載の文書分類装置において、
前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする文書分類装置。
請求項３記載の文書分類装置において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする文書分類装置。
文書解析手段と特徴ベクトル生成手段と特徴ベクトル修正手段と文書分類手段と分類結果記憶手段とを有し、文書の内容に従って文書集合を自動的に分類する文書分類装置が実行する文書分類方法において、
前記文書解析手段による、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数するステップと、
前記特徴ベクトル生成手段による、前記文書解析手段で得られた単語と、該単語の出現回数と、に基づき、行成分が各前記文書と対応し、列成分が各前記単語と対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求めるステップと、
前記特徴ベクトル修正手段による、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正するステップと、
前記文書分類手段による、前記特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を前記分類結果記憶手段に記憶させるステップと、
前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すステップと、
から構成されることを特徴とする文書分類方法。
請求項５記載の文書分類方法において、
特徴ベクトル記憶手段が、前記特徴ベクトル生成手段により最初に求められた前記文書特徴ベクトルを記憶しておくステップを有し、
前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている最初に求められた文書特徴ベクトルを修正することを特徴とする文書分類方法。
請求項５又は６記載の文書分類方法において、
前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする文書分類方法。
請求項７記載の文書分類方法において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする文書分類方法。
請求項５乃至８の何れか一項記載の文書分類方法を実行するためのプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。