JP4143234B2 - 文書分類装置、文書分類方法及び記憶媒体 - Google Patents
文書分類装置、文書分類方法及び記憶媒体 Download PDFInfo
- Publication number
- JP4143234B2 JP4143234B2 JP28201499A JP28201499A JP4143234B2 JP 4143234 B2 JP4143234 B2 JP 4143234B2 JP 28201499 A JP28201499 A JP 28201499A JP 28201499 A JP28201499 A JP 28201499A JP 4143234 B2 JP4143234 B2 JP 4143234B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature vector
- classification
- feature
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 29
- 239000013598 vector Substances 0.000 claims description 173
- 239000011159 matrix material Substances 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 20
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書群を文書の内容に従って複数の文書部分集合に自動分類する文書群分類装置などに係わり、特に、分類基準の異なる部分文書集合を多数抽出することができる文書分類装置などに関する。
【0002】
【従来の技術】
近年、インターネットなどの普及により大量の文書情報へのアクセスが可能になったことなどに伴い、収集した大量の文書情報を意味のあるグループに(例えば話題毎に)分類することにより、所望の文書情報へのアクセスを効率的に行えるようにしたり、大量の文書集合の分析作業を効率的に行えるようにする必要性が高まっている。
しかし、大量の文書情報を利用者が手動で分類するのでは、人的/時間的コストが膨大なものになる。そのため、近年では、文書集合を文書の内容により自動分類できる装置が提供されるに至っている。
そのような自動分類においては、例えば、日本語形態素解析などの自然言語処理を用いて文書からそれらを構成する複数の単語を抽出することにより、文書を複数の単語の出現頻度のベクトル(文書特徴ベクトル)として空間表現する。この技術は文書のベクトル空間モデルと呼ばれ、広く用いられている。このようなベクトル空間モデルでは、空間内における任意の2つの文書特徴ベクトル間の距離、内積、余弦等を算出することでベクトル間の類似度を定義できるので、統計的手法を用いて文書の内容による自動分類をおこなうことが可能となり、種々の文書自動分類方法が提供されている(例えば、特開平7-114572号公報記載の発明など)。
これらの方法の多くは、生成する部分文書集合の質の向上を目指したものである(例えば、特開平11-45247号公報記載の発明)。生成された部分文書集合を単位としてさまざまな作業を効率的に行おうというわけであるから、確かに生成する部分文書集合の質は重要な課題である。しかし、それと同時に、分類対象の文書集合に内在している様々な話題を分類された部分文書集合がいかに多く抽出することができるかということも同様に重要な課題である。しかしながら、この課題を直接的に扱っている方法は見当たらない。
【0003】
【発明が解決しようとする課題】
前記のように、従来技術においては、部分文書集合への分類に際して、文書集合に含まれる話題の一部分しか抽出できないため、文書集合に対する包括的な分析をすることができないという問題がある。
本発明の課題は、このような従来技術の問題を解決し、特定の基準に基づき文書特徴ベクトルの特徴次元を動的に操作し、文書自動分類を繰り返し行うことにより、分類時に用いられる特徴ベクトル間の類似度が動的に異なる、つまり分類基準が異なる部分文書集合を多数、自動抽出することができるようにして、文書集合に対する包括的な分析を行うことができる文書分類装置などを提供することにある。
【0004】
前記の課題を解決するために、請求項1に記載の発明は、文書の内容に従って文書集合を自動的に分類する文書分類装置において、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数する文書解析手段と、前記文書解析手段で得られた単語と該単語の出現回数とに基づき、前記各文書と各文書に出現する単語とがそれぞれ行列成分に対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求める特徴ベクトル生成手段と、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正する特徴ベクトル修正手段と、該特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を分類結果記憶手段に記憶させる文書分類手段と、を備え、前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すことを特徴とする。
また、請求項2に記載の発明は、請求項1記載の文書分類装置において、前記特徴ベクトル生成手段により求められた前記文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段を備え、前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている特徴ベクトルを修正することを特徴とする。
また、請求項3に記載の発明は、請求項1又は2記載の文書分類装置において、前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする。
また、請求項4に記載の発明は、請求項3記載の文書分類装置において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする。
【0005】
また、請求項5に記載の発明は、文書解析手段と特徴ベクトル生成手段と特徴ベクトル修正手段と文書分類手段と分類結果記憶手段とを有し、文書の内容に従って文書集合を自動的に分類する文書分類装置が実行する文書分類方法において、前記文書解析手段による、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数するステップと、前記特徴ベクトル生成手段による、前記文書解析手段で得られた単語と、該単語の出現回数と、に基づき、行成分が各前記文書と対応し、列成分が各前記単語と対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求めるステップと、前記特徴ベクトル修正手段による、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正するステップと、前記文書分類手段による、前記特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を前記分類結果記憶手段に記憶させるステップと、前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すステップと、から構成されることを特徴とする。
また、請求項6に記載の発明は、請求項5記載の文書分類方法において、特徴ベクトル記憶手段が、前記特徴ベクトル生成手段により最初に求められた前記文書特徴ベクトルを記憶しておくステップを有し、前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている最初に求められた文書特徴ベクトルを修正することを特徴とする。
また、請求項7に記載の発明は、請求項5又は6記載の文書分類方法において、前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする。
また、請求項8に記載の発明は、請求項7記載の文書分類方法において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする。
また、請求項9に記載の発明は、請求項5乃至8の何れか一項記載の文書分類方法を実行するためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体を特徴とする。
【0006】
前記のような手段にしたので、請求項1および請求項6記載の発明では、複数の文書から成る文書集合のそれぞれの文書データ中の単語が解析され、その解析結果に基づいて文書特徴ベクトルが求められ、文書特徴ベクトル間の類似度に基づいて文書集合が複数の部分文書集合に分類され、その後、条件によってくり返しが選択されると、所定の基準に基づき前記文書特徴ベクトルの特徴次元が修正され、修正された文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合が複数の部分文書集合に分類され、さらに、前記条件によってくり返しが選択されると、文書特徴ベクトルを修正する動作、および部分文書集合に分類し結果を記憶する動作がくり返される。
請求項2および請求項7記載の発明では、請求項1または請求項6記載の発明において、生成される文書特徴ベクトルの特徴次元が所定の基準に従って順序付けされ、操作する特徴次元が順序付けされた順序に従って決定される。
請求項3および請求項8記載の発明では、請求項6または請求項7記載の発明において、最初に求められた文書特徴ベクトルが記憶しておかれ、文書特徴ベクトルをくり返し修正する際、記憶されている最初に求められた特徴ベクトルが修正される。
請求項4および請求項9記載の発明では、請求項1乃至請求項3または請求項6乃至請求項8記載の発明において、記憶された分類結果から統計情報が算出され、算出された統計情報を用いて操作する特徴次元が決定される。
請求項5および請求項10記載の発明では、請求項4または請求項9記載の発明において、記憶された分類結果からそれぞれの部分文書集合における特徴次元の分散値が算出され、算出された分散値を用いて操作する特徴次元が決定される。請求項11記載の発明では、請求項6乃至請求項10記載の文書分類方法に従ってプログラミングしたプログラムが例えば着脱可能な記憶媒体に記憶される。
【0007】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図1は本発明の第1の実施形態を示す文書分類装置の構成ブロック図である。図示したように、この実施形態の文書分類装置は、複数の文書から成る文書集合のそれぞれの文書データを入力する文書入力部1、前記文書入力部1により入力されたそれぞれの文書データ中の単語を解析する文書解析手段である文書解析部2、前記文書解析部2による解析結果に基づいて文書特徴ベクトルを求める特徴ベクトル生成手段である特徴ベクトル生成部3、所定の基準に基づき前記文書特徴ベクトルの特徴次元を操作して前記文書特徴ベクトルを修正する特徴ベクトル修正手段である特徴ベクトル修正部4、修正された文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類する文書分類手段である文書分類部5、前記文書分類部5により分類された分類結果を記憶しておく分類結果記憶手段である分類結果記憶部6、所定のくり返し条件に従って文書特徴ベクトル修正から後の動作をくり返させるくり返し判定部7などを備えている。なお、前記文書解析部2、特徴ベクトル生成部3、特徴ベクトル修正部4、文書分類部5、くり返し判定部7は、プログラムやデータを記憶しておく共有のメモリ(例えばRAM)およびそのプログラムに従って動作する共有または専有のCPUを有する。以下、前記各部についてさらに説明する。
まず、文書入力部1であるが、キーボード、OCR装置、着脱可能な記憶媒体、ネットワークインタフェース部などを備え、それらを用いて文書データ群を入力し、文書記憶部(図示していない)に格納する。
また、文書解析部2は、入力された文書データのそれぞれに対して自然言語解析を行い、単語やその品詞などを抽出する。さらに、文書データ内での単語の出現順序、および文書の作成者や作成日など文書のメタ情報(属性情報)などを含めた文書解析を行うこともできる。単語を抽出した後は、文書群中に出現した単語に対して一意な単語識別符号(ID)を付与し、文書毎に単語出現回数を計数する。
【0008】
特徴ベクトル生成部3では、文書解析部2で生成した単語、単語ID、単語出現回数、品詞情報などの文書解析データを基に、行成分が文書ID、列成分が単語IDであり、行列要素が前記各文書IDの文書の含む前記各単語IDの単語の出現回数となるような文書-単語行列データを生成する。そして、この文書-単語行列の各行ベクトルを文書特徴ベクトルとする。文書-単語行列データと文書特徴ベクトルの例を図2に示す。なお、この文書特徴ベクトルに対して正規化処理を行うこともできる。また、単語が有する多義性・同義性の問題に対処するために、生成した文書-単語行列に対して因子分析、数量化III類、および特異値分解などの多次元尺度手法を適用することにより文書特徴ベクトルを生成することもできる。
例えば、特異値分解を用いて文書-単語行列から文書特徴ベクトルを生成する方法では、大きさd×t(dは文書数,tは単語数)の文書-単語行列(文書特徴ベクトル)Xを式(1)のように複数の行列に分解する。なお、式(1)において、svd ( )は行列へ特異値分解を適用する演算子である。また、特異値とは、特異値分解により生成される値であり、例えば、多数の文書に共通して出現する単語を多数含む文書が、特異値から成る行列Lの特異値の高い次元で高い値になる。
式(1) X = svd(X) = ALUT [Tは行列の転置を示す]
式(1)において、A,L,Uはいずれも行列であり、行列Aは大きさd×k(kはtより小さい)の行列となる。つまり、大きさd×kの行列Aにおける各行ベクトルが文書特徴ベクトルとなる。ここで、kは1≦k≦rの整数で、rはdとtの小さい方より小さく、行列Xのランクを示す。また、行列Lは特異値からなる大きさk×kの対角行列であり、行列Uはt×kの行列で、任意の単語をk次元の潜在構造空間へ写像したものと考えることができる。
なお、文書特徴ベクトルを効率的に管理するために、特徴ベクトル生成部3は、文書-単語行列データに付随する付加的な情報、たとえば、文書-単語行列データの列成分である単語IDとその単語との対応関係を記述した単語-単語ID対応マップデータや、各単語について単語IDとその単語の有する品詞情報との対応関係を記述した単語ID-品詞対応マップデータなども同時に生成する。
【0009】
また、特徴ベクトル修正部4では、前記文書特徴ベクトルの特徴次元(ベクトルの次元であり、それぞれの次元は近似的に文書集合において振る舞いの似た複数の単語から構成されるものと考えることができる)を所定の基準に基づき逐次的に操作することにより文書特徴ベクトルを修正する。なお、特徴次元の操作とてしては、次元の重み付け、削除、および線形変換などを行うことができる。
例えば、文書特徴ベクトルから特定の次元を削除する場合では、文書特徴ベクトルをd×kの大きさの行列Aとし、削除する特徴次元に対応する列を大きさk×kの単位行列から削除した結果生成されるk×k'の大きさの修正行列をPk'とすると、修正された文書特徴ベクトルA'は式(2)のように求めることができる(この式は、前記特異値分解の場合に限定していない一般的な表現をしている)。
式(2) A' = A Pk'
また、修正行列として大きさk×kの単位行列から削除する特徴次元に対応する対角要素を0にした結果生成される行列を用いても特徴次元の削除を行えるが、この場合は修正された文書特徴ベクトルの次元数は修正前と同じになる。なお、くり返し実行の際には、式(2)に示す修正が逐次的に実行される。特徴次元を削除する順序は、特徴次元の1番目から整列順であってもよいし、1から特徴次元数までの乱数を発生させることで決めてもよい。このようにして、逐次削除した特徴次元の表現していた特徴を排除した特徴空間での文書分類が可能となり、最も中心的な話題(特徴)の陰に隠れてしまっている他の話題が分類のための視点になってくるのである。
特に、前記の特異値分解を用いて文書特徴ベクトルを生成した場合には、文書特徴ベクトルの各次元は対応する特異値の大きさで順位付けされるので、特異値の大きな特徴次元から徐々に削除していくことにより、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となる。つまり、各特徴次元のそれぞれは、近似的にいくつかの振る舞いの似た単語で構成されるものと考えることができるため、文書データ内に内在するそれぞれの話題と解釈することができ、各特徴次元に対応する特異値の大きさは、文書データ内での話題の主要性をあらわすものと考えられ、特異値が大きい程、対応する特徴次元は文書データ内での主要な話題を示すものと解釈することができるので、くり返し実行の際に、特異値の大きな特徴次元から徐々に削除していくことにより、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となるのである。
なお、特徴ベクトル修正部4はくり返し実行の初回にはバイパスされる。
また、文書分類部5は、生成した文書特徴ベクトルに統計的手法を適用することで文書分類を行う。文書特徴ベクトル値が近い文書は似た文書であるので、文書特徴ベクトル値の近い文書同志を集めて複数の部分文書集合を生成するのである。適用する統計的手法としては判別分析の手法やクラスタ分析の手法などの分類手法を適用することができるが、ここではベクトルデータが適用できる分類手法であれば、その手法は問わない。
【0010】
図3に、第1の実施形態の動作フローを示す。以下、図3などに従って、この実施形態の動作を説明する。
まず、文書入力部1により、キーボード、OCR装置、着脱可能な記憶媒体、またはネットワークインタフェース部などを介して分類対象の文書データ群(文書集合)を入力し、それらを文書記憶部(図示していない)に格納する(ステップS1)。
次に、文書解析部2が、入力されたそれぞれの文書データに対して自然言語解析を行い、単語やその品詞などを抽出する(ステップS2)。そして、文書データ群中に出現した単語に対して一意な単語識別符号(ID)を付与し、文書毎に単語出現回数を計数する(ステップS2)。
続いて、特徴ベクトル生成部3が、文書解析部2で生成した単語、単語ID、単語出現回数、品詞情報などの文書解析データを基に、行成分が文書ID、列成分が単語IDであり、行列要素が前記各文書IDの文書の含む前記各単語IDの単語の出現回数となるような文書-単語行列データを生成する(ステップS3)。そして、この文書-単語行列の各行ベクトルを文書特徴ベクトルとする(図2参照)。
さらに、文書分類部5が、生成した文書特徴ベクトルに統計的手法を適用することで文書分類を行う(ステップS5)。文書特徴ベクトル値が近い文書は似た文書であるので、文書特徴ベクトル値の近い文書同志を集めて複数の部分文書集合を生成するのである。
この後は、文書分類部5が、生成した文書分類結果を分類結果記憶部6に記憶させ(ステップS6)、くり返し判定部7が、文書特徴ベクトルを修正させて文書分類をくり返すかどうかを所定のくり返し条件を用いて判定する(ステップS7)。なお、前記判定を行うための所定のくり返し条件としては、予め設定されたくり返し回数を用いることができるし、文書特徴ベクトルの次元数などを参考にして決定することもできる。また、分類結果を見て、利用者がくり返すか否かを指示することも可能である。そして、くり返すと判定されたならば(ステップS7でYes)、前記のようにして文書特徴ベクトルを修正する(ステップS4)。例えば、文書特徴ベクトルを構成する一つの特徴次元を所定の基準で選択し、その特徴次元を削除するのである。
続いて、文書分類部5が修正された特徴ベクトルを用いて再び文書分類を行い(ステップS5)、分類結果を分類結果記憶部6に記憶させる(ステップS6)。
こうして、前記のように、例えば特異値分解を用いて文書特徴ベクトルを生成した場合、文書特徴ベクトルの各次元は対応する特異値の大きさで順位付けされ、特異値の大きな特徴次元から逐次削除され、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となる。
【0011】
図4は本発明の第2の実施形態を示す文書分類装置の構成ブロック図である。第1の実施形態(図1参照)と同一のものに関しては同じ番号を付してある。図示したように、この実施形態では、第1の実施形態の構成に加えて、特徴ベクトル生成部3により求められた文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段である特徴ベクトル記憶部8を備えている。なお、この特徴ベクトル記憶部8には、文書特徴ベクトルを効率的に管理するために特徴ベクトル生成部3が生成した、文書-単語行列データに付随する付加的な情報、たとえば、文書-単語行列データの列成分である単語IDとその単語との対応関係を記述した単語-単語ID対応マップデータや、各単語について単語IDとその単語が有する品詞情報との対応関係を記述した単語ID-品詞対応マップデータなども記憶される。
このような特徴ベクトル記憶部8を追加したことにより、この実施形態では、特徴ベクトル修正部4は、文書特徴ベクトル修正の都度、この特徴ベクトル記憶部8に記憶されている文書特徴ベクトルを操作(修正)される文書特徴ベクトルとすることが可能になる。そして、これより、文書特徴ベクトルに施す操作(例えば一つの次元の削除)の効果(結果)を継承しない文書特徴ベクトルを用いて文書分類を行うことが可能になる。
例えば、文書特徴ベクトルが特異値分解により生成されており、n回目の繰り返し時に第n次元の特徴次元を削除する場合、そのときの修正行列をPn、特徴ベクトル記憶部8に記憶されている文書特徴ベクトルをA0とし、修正された文書特徴ベクトルをAnとすると、
式(3) An = A0Pn
となる。なお、第1の実施形態の場合には、
式(4) An = A0Pn Pn-1・・・P0
となる。つまり、第2の実施形態では、削除する特徴次元の表現する話題のみを除いた特徴空間で文書分類を行うことが可能となるのである。
【0012】
図5は本発明の第3の実施形態を示す文書分類装置の構成ブロック図である。図5において、第1の実施形態(図1参照)および第2の実施形態(図4参照)と同一のものに関しては同じ番号を付してある。図示したように、第3の実施形態では、第2の実施形態の構成に加えて、記憶されている分類結果から各部分文書集合に所属する文書特徴ベクトルを抽出する部分文書集合抽出部9、抽出された各部分文書集合における各文書特徴ベクトル間での各特徴次元の分散値を算出する部分文書集合分散算出部10、算出された各特徴次元の分散値など統計情報を用いて操作する特徴次元を決定する操作対象特徴次元決定部11を備える。
このような構成で、この実施形態では、分類結果記憶部6に記憶された分類結果から統計情報として例えばそれぞれの部分文書集合における特徴次元の分散値を算出し、算出された特徴次元の分散値を用いて操作する特徴次元を決定する。なお、このような決定方法の根拠は、部分文書集合における特徴次元の分散の大きさがその特徴次元の部分文書集合を群化させる寄与率を示すものと考えることができることにある。つまり、分散の小さな特徴次元は部分文書集合を密にしていると考えられるため、群化の寄与率は高いものと考えることができる。したがって、各部分文書集合について、分散の小さな特徴次元はその部分文書集合の表現する話題と強く関連しているものと考えられるため、例えば、この特徴次元を削除した特徴ベクトル空間で文書分類を行うことにより、前記の部分文書集合が表現する話題以外の話題を表現する部分文書集合を抽出できるものと考えられるのである。以下、この実施形態において追加した前記各部について、さらに説明する。
まず、部分文書集合抽出部9であるが、これは、分類結果記憶部6に記憶されている分類結果から、生成された部分文書集合すべてについてそれぞれに所属する文書特徴ベクトルを抽出する。なお、対象とする部分文書集合は直前に生成された部分文書集合だけでもよいし、生成されている全部分文書集合でもよい。
【0013】
また、部分文書集合分散算出部10は、部分文書集合抽出部9が抽出した全部分文書集合について、それぞれに所属する各文書特徴ベクトル間での各特徴次元の分散値を算出する。この際、各部分文書集合について、各特徴次元の分散値の大きさの順位を算出すると共に、各特徴次元の分散値について、各部分文書集合の順位も合わせて算出する。
また、操作対象特徴次元決定部11は、部分文書集合分散算出部11が算出した各部分文書集合における各特徴次元の分散値、各部分文書集合おける各特徴次元の分散値の大きさの順位、および各特徴次元の分散値についての各部分文書集合の順位の情報を基にして特徴ベクトル修正部4の操作する特徴次元を決定する。例えば、全部分文書集合における特徴次元の分散値が一定値以下のものを操作対象の特徴次元として選択したり、全部分文書集合における特徴次元の分散値の大きさの順位が常に一定順位以下(分散が小さい)ものを操作対象の特徴次元として選択したりするのである。
なお、直前に生成された部分文書集合だけを抽出した場合には、その部分文書集合における各特徴次元の分散値、およびその部分文書集合おける各特徴次元の分散値の大きさの順位を基にして特徴ベクトル修正部4の操作する特徴次元を決定する。
こうして、この実施形態では、選択された特徴次元を削除した特徴ベクトル空間で文書分類を行い、前記の部分文書集合が表現する話題以外の話題を表現する部分文書集合を抽出することができる。
以上、図1、図4、および図5に示した構成の文書分類装置の場合について説明したが、各実施形態で説明したような本発明の文書分類方法に従ってプログラミングしたプログラムを、例えば、着脱可能な記憶媒体に記憶させ、その記憶媒体をこれまで本発明によった方法の文書分類を行えなかったパーソナルコンピュータなど情報処理装置に装填することにより、その情報処理装置において前記文書分類を行うこともできる。
【0014】
【発明の効果】
以上説明したように、本発明によれば、請求項1および請求項5記載の発明では、分類対象の文書集合中に内在している異なる話題の部分文書集合を多数、自動抽出することができ、したがって、文書集合に対する包括的な分析を行うことができる。さらに、特徴次元の操作を効率的に行うことができる。
また、請求項2および請求項6記載の発明では、逐次行われる文書特徴ベクトルの特徴次元の操作の効果がその直後に行われる文書分類のみに有効になる。つまり、逐次行われる特徴次元の操作の効果が継承されない部分文書集合を生成することができ、したがって、請求項1又は5記載の発明とは異なる話題も抽出できる。
【0015】
また、請求項3および請求項7記載の発明では、請求項1または請求項5記載の発明とは異なった方法で異なる話題の部分文書集合を多数、自動抽出することができ、したがって、請求項1または請求項5記載の発明の効果をさらに向上させることができる。
また、請求項4および請求項8記載の発明では、請求項3または請求項7記載の発明の効果を容易に実現することができる。
また、請求項9記載の発明では、情報処理装置において請求項5乃至8の何れか一項記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態を示す文書分類装置の構成ブロック図である。
【図2】本発明の第1の実施形態を示す文書分類方法の説明図である。
【図3】本発明の第1の実施形態を示す文書分類方法の動作フロー図である。
【図4】本発明の第2の実施形態を示す文書分類装置の構成ブロック図である。
【図5】本発明の第3の実施形態を示す文書分類装置の構成ブロック図である。
【符号の説明】
1 文書入力部
2 文書解析部
3 特徴ベクトル生成部
4 特徴ベクトル修正部
5 文書分類部
6 分類結果記憶部
7 くり返し判定部
8 特徴ベクトル記憶部
9 部分文書集合抽出部
10 部分文書集合分散算出部
11操作対象特徴次元決定部
Claims (9)
- 文書の内容に従って文書集合を自動的に分類する文書分類装置において、
複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数する文書解析手段と、
前記文書解析手段で得られた単語と単語の出現回数とに基づき、前記各文書と各文書に出現する単語とがそれぞれ行列成分に対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求める特徴ベクトル生成手段と、
前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正する特徴ベクトル修正手段と、
該特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を分類結果記憶手段に記憶させる文書分類手段と、
を備え、
前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すことを特徴とする文書分類装置。 - 請求項1記載の文書分類装置において、
前記特徴ベクトル生成手段により求められた前記文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段を備え、
前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている特徴ベクトルを修正することを特徴とする文書分類装置。 - 請求項1又は2記載の文書分類装置において、
前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする文書分類装置。 - 請求項3記載の文書分類装置において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする文書分類装置。
- 文書解析手段と特徴ベクトル生成手段と特徴ベクトル修正手段と文書分類手段と分類結果記憶手段とを有し、文書の内容に従って文書集合を自動的に分類する文書分類装置が実行する文書分類方法において、
前記文書解析手段による、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数するステップと、
前記特徴ベクトル生成手段による、前記文書解析手段で得られた単語と、該単語の出現回数と、に基づき、行成分が各前記文書と対応し、列成分が各前記単語と対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求めるステップと、
前記特徴ベクトル修正手段による、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正するステップと、
前記文書分類手段による、前記特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を前記分類結果記憶手段に記憶させるステップと、
前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すステップと、
から構成されることを特徴とする文書分類方法。 - 請求項5記載の文書分類方法において、
特徴ベクトル記憶手段が、前記特徴ベクトル生成手段により最初に求められた前記文書特徴ベクトルを記憶しておくステップを有し、
前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている最初に求められた文書特徴ベクトルを修正することを特徴とする文書分類方法。 - 請求項5又は6記載の文書分類方法において、
前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする文書分類方法。 - 請求項7記載の文書分類方法において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする文書分類方法。
- 請求項5乃至8の何れか一項記載の文書分類方法を実行するためのプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28201499A JP4143234B2 (ja) | 1999-10-01 | 1999-10-01 | 文書分類装置、文書分類方法及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28201499A JP4143234B2 (ja) | 1999-10-01 | 1999-10-01 | 文書分類装置、文書分類方法及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001101227A JP2001101227A (ja) | 2001-04-13 |
JP4143234B2 true JP4143234B2 (ja) | 2008-09-03 |
Family
ID=17647041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28201499A Expired - Fee Related JP4143234B2 (ja) | 1999-10-01 | 1999-10-01 | 文書分類装置、文書分類方法及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4143234B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606819B2 (en) | 2001-10-15 | 2009-10-20 | Maya-Systems Inc. | Multi-dimensional locating system and method |
US20080058106A1 (en) | 2002-10-07 | 2008-03-06 | Maya-Systems Inc. | Multi-dimensional locating game system and method |
JP4359075B2 (ja) * | 2003-05-16 | 2009-11-04 | 株式会社リコー | 概念抽出システム、概念抽出方法、概念抽出プログラム及び記憶媒体 |
US8069404B2 (en) | 2007-08-22 | 2011-11-29 | Maya-Systems Inc. | Method of managing expected documents and system providing same |
US8601392B2 (en) | 2007-08-22 | 2013-12-03 | 9224-5489 Quebec Inc. | Timeline for presenting information |
CA2657835C (en) | 2008-03-07 | 2017-09-19 | Mathieu Audet | Documents discrimination system and method thereof |
US8607155B2 (en) | 2008-09-12 | 2013-12-10 | 9224-5489 Quebec Inc. | Method of managing groups of arrays of documents |
US9058093B2 (en) | 2011-02-01 | 2015-06-16 | 9224-5489 Quebec Inc. | Active element |
CA2790799C (en) | 2011-09-25 | 2023-03-21 | Mathieu Audet | Method and apparatus of navigating information element axes |
US9519693B2 (en) | 2012-06-11 | 2016-12-13 | 9224-5489 Quebec Inc. | Method and apparatus for displaying data element axes |
US9646080B2 (en) | 2012-06-12 | 2017-05-09 | 9224-5489 Quebec Inc. | Multi-functions axis-based interface |
US10671266B2 (en) | 2017-06-05 | 2020-06-02 | 9224-5489 Quebec Inc. | Method and apparatus of aligning information element axes |
-
1999
- 1999-10-01 JP JP28201499A patent/JP4143234B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001101227A (ja) | 2001-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6173275B1 (en) | Representation and retrieval of images using context vectors derived from image information elements | |
EP1304627B1 (en) | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects | |
US6760714B1 (en) | Representation and retrieval of images using content vectors derived from image information elements | |
US6671683B2 (en) | Apparatus for retrieving similar documents and apparatus for extracting relevant keywords | |
JP3726263B2 (ja) | 文書分類方法及び装置 | |
DE60315506T2 (de) | Identifizierung von kritischen merkmalen in einem geordneten skala-raum | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
JP5594145B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP4143234B2 (ja) | 文書分類装置、文書分類方法及び記憶媒体 | |
CN101138001A (zh) | 学习处理方法和学习处理装置以及程序 | |
CN111143400A (zh) | 一种全栈式检索方法、系统、引擎及电子设备 | |
CN111626346A (zh) | 数据分类方法、设备、存储介质及装置 | |
CN118332008A (zh) | 答案筛选方法、装置、计算机设备和存储介质 | |
CN114021573A (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN117648635A (zh) | 敏感信息分类分级方法及系统、电子设备 | |
JP4359075B2 (ja) | 概念抽出システム、概念抽出方法、概念抽出プログラム及び記憶媒体 | |
JP3996470B2 (ja) | 視覚的情報分類方法、視覚的情報分類装置、視覚的情報分類プログラムおよびそのプログラムを記録した記録媒体 | |
CN118377899A (zh) | 文本数据的去重方法、装置、存储介质及程序产品 | |
JP5463873B2 (ja) | マルチメディア分類システム及びマルチメディア検索システム | |
Baranauskas et al. | Experimental feature selection using the wrapper approach | |
JP4125951B2 (ja) | テキスト自動分類方法及び装置並びにプログラム及び記録媒体 | |
JP5657338B2 (ja) | 入力情報分析装置 | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050111 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071218 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080603 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080616 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130620 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |