[go: up one dir, main page]

JP4630911B2 - Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the methods - Google Patents

Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the methods Download PDF

Info

Publication number
JP4630911B2
JP4630911B2 JP2008093105A JP2008093105A JP4630911B2 JP 4630911 B2 JP4630911 B2 JP 4630911B2 JP 2008093105 A JP2008093105 A JP 2008093105A JP 2008093105 A JP2008093105 A JP 2008093105A JP 4630911 B2 JP4630911 B2 JP 4630911B2
Authority
JP
Japan
Prior art keywords
document
classification
feature
cluster
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008093105A
Other languages
Japanese (ja)
Other versions
JP2008234670A (en
Inventor
敦夫 嶋田
達生 宮地
栄治 剣持
真湖人 山崎
一寿 武谷
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008093105A priority Critical patent/JP4630911B2/en
Publication of JP2008234670A publication Critical patent/JP2008234670A/en
Application granted granted Critical
Publication of JP4630911B2 publication Critical patent/JP4630911B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、入力された複数の文書データを所定の形式で表示または印刷するために出力する文書処理装置、文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。また、この発明は、入力された複数の文書をその文書の内容に基づいて分類をおこなう、特に文書分類の際に算出される分類カテゴリ(体系)を精錬化する文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。   The present invention relates to a document processing apparatus that outputs a plurality of input document data for display or printing in a predetermined format, a document processing method, and a computer-readable recording medium that records a program that causes a computer to execute the method. . Further, the present invention classifies a plurality of input documents based on the contents of the documents, and particularly refines a classification category (system) calculated at the time of document classification, a document classification method, and a document classification method The present invention relates to a computer-readable recording medium on which a program for causing a computer to execute the method is recorded.

近年、さまざまな文書分類装置や文書検索装置が開発されている。また、インターネット等のネットワーク技術の普及により国内外の大量の電子化文書へのアクセスが可能になり、それに比例して業務上電子的に蓄積される情報の量も飛躍的に拡大した。その中で収集した大量の文書情報を意味あるカテゴリ(体系)に分類する等の知的作業の必要性が高まってきている。   In recent years, various document classification devices and document search devices have been developed. In addition, the spread of network technology such as the Internet has made it possible to access a large amount of electronic documents in Japan and overseas, and the amount of information stored electronically on business has increased dramatically in proportion to this. There is an increasing need for intelligent work such as classifying a large amount of collected document information into meaningful categories (systems).

これらの大量の文書情報を意味的に分類するという作業の目的は、以下のようなものである。まず第1に、検索容易性の向上が考えられる。これは、膨大な文書群を分類名称(内容名)を手がかりに検索できるので検索が比較的容易になるというものである。   The purpose of the semantic classification of these large amounts of document information is as follows. First, improvement in searchability can be considered. This is because a huge group of documents can be searched by using a classification name (content name) as a clue, so that the search becomes relatively easy.

第2に、情報群全体の把握が考えられる。これは、文書群全体がどのような内容(個々の分類)で構成されているかを把握する。しかし、大量の文書情報を操作者が手動で分類する場合、正確な分類をすることはできるが、分類に係る人的・時間的コストが膨大なものになるため、近年の文書の蓄積量の膨大さから、文書情報の自動分類装置が提案されるようになってきた。   Second, it is possible to grasp the entire information group. This grasps what kind of contents (individual classification) the entire document group is composed of. However, when an operator manually classifies a large amount of document information, it can be accurately classified, but the human and time costs associated with classification become enormous, so the amount of documents accumulated in recent years Due to the enormous volume, document information automatic classification devices have been proposed.

文書自動分類装置の従来技術としては、たとえば、特開平7−36897号公報に記載されているように、文書を、単語を特徴とする文書ベクトルとみなし、クラスタリング手法を用いてこれらの文書ベクトルを群分けし、群分けした文書ベクトルに基づいて文書の自動分類をおこなうものがある。   As a prior art of an automatic document classification device, for example, as described in Japanese Patent Laid-Open No. 7-36897, a document is regarded as a document vector characterized by a word, and these document vectors are converted using a clustering method. Some groups perform automatic classification of documents based on grouped document vectors.

また、「Projections for Efficient Document Clustering(著者名:Hinrich Schutze and Craing Silverstein, 学会名:ACM, 論文名:Proceedings of SIGIR, ページ:74−81, 発行年:1997)」においては、潜在的意味空間において文書分類を実施しているものがある。そのほかの方法としては、確率論的アプローチを用いる方法等が考えられる。   In the “Projects for Effective Document Clustering” (author name: Hinrich Schutze and Craving Silverstein, conference name: ACM, paper name: Proceedings of SIGIR, page: 74-81, publication year: 1997) Some document classifications are implemented. As other methods, a method using a probabilistic approach can be considered.

また近年、インターネットなどの普及により、大量の文書群へのアクセスが可能になり、その結果、その文書群をさまざまな利用者の意図に基づいて、かつ、効率的に利用できるようにする必要性が高まっている。そのため、大量の文書群を意味のあるカテゴリに分類し、文書群の構造を把握するという知的作業がおこなわれ始めている。しかし、このような分類作業を人手によりおこなう場合、その人的および時間的なコストが膨大なものになるし、また、分類のための知識を分類者のみが有することになるため、分類担当者が代わると分類基準も変わってしまうことになる。   In recent years, with the spread of the Internet and the like, it has become possible to access a large number of document groups, and as a result, there is a need to be able to use the document groups efficiently and based on the intentions of various users. Is growing. For this reason, intelligent work has started to be performed, in which a large number of document groups are classified into meaningful categories and the structure of the document groups is grasped. However, when such classification work is performed manually, the human and time costs are enormous, and only the classifier has knowledge for classification. As a result, the classification criteria will change.

そのため、文書群を人間が分類するような分類基準で自動的に分類しうる文書分類装置が望まれており、文書分類装置としては、たとえば、特開平7−114572号公報に記載されているように、文書から自動的に単語の特徴ベクトルを抽出し、その特徴ベクトルをもとに文書分類することで、意味的な異なりを用いた自動分類を可能にするものがある。   Therefore, there is a demand for a document classification device that can automatically classify a document group according to a classification standard for human classification, and the document classification device is described in, for example, Japanese Patent Laid-Open No. 7-114572. In addition, there is a technique that enables automatic classification using semantic differences by automatically extracting feature vectors of words from a document and classifying the documents based on the feature vectors.

しかしながら、上記従来技術の文書分類装置は、本質的には単語で構成される多次元空間に布置した文書を統計的な分類をする方法であるため、分類結果は単語のいわゆる振る舞いという観点から統計的に求められたものにすぎず,分類の結果、算出される各クラスタ(分類された個々の文書の部分集合)が操作者(利用者)に理解不能な場合がある。   However, since the above-described prior art document classification device is a method for statistically classifying a document placed in a multidimensional space composed of words, the classification result is statistical from the viewpoint of the so-called behavior of words. In other words, each cluster (a subset of each classified document) calculated as a result of classification may not be understood by the operator (user).

また、どのような分類結果が最適かは、分類対象の文書集合の特徴や、利用者の作業の目的に依存するため、最適な分類結果について定義することが困難であるという問題点があった。特に、上記情報群全体の把握に関し、多様な操作者の意図により要求される分類も異なるため、一度の分類作業で、操作者の所望する結果を得ることが困難であるという問題点があった。   In addition, it is difficult to define the optimum classification result because the classification result is optimal depending on the characteristics of the document set to be classified and the purpose of the user's work. . In particular, with respect to grasping the entire information group, there is a problem in that it is difficult to obtain the result desired by the operator with a single classification operation because the classification required by various operators' intentions is different. .

このように、文書分類の結果は、多くのいわゆるノイズを含んだものであると解釈することができ、その一部についてのみが操作者にとって有益な場合が多いという問題点があった。   As described above, the document classification result can be interpreted as including many so-called noises, and there is a problem that only a part of the result is often beneficial to the operator.

また、これらの従来技術においては、文書の構成単位を考慮していないため、文書が一つまたは複数の段落記号やタイトルなどにより区切られた構造を持つ場合には、一つの文書の中に複数の話題や意味が含まれてしまい、その結果、利用者がその分類カテゴリを理解し難くなったり、また、ある特定の話題や特定の意味に限定されたカテゴリになったり、利用者の意図するカテゴリとは異なるカテゴリに分類されてしまうという問題か生じている。   In addition, since these conventional techniques do not consider the unit of the document, if a document has a structure separated by one or more paragraph marks or titles, a plurality of documents are included in one document. As a result, it becomes difficult for the user to understand the classification category, or the category is limited to a specific topic or a specific meaning. There is a problem of being classified into a category different from the category.

なお、特開平6−176064号公報に示された文脈依存自動分類装置には、文書の段落情報を考慮した文書自動分類をおこなうことにより分類精度を高めようとするものが開示されているか、本質的に上記の問題を解決するものではない。   Note that the context-dependent automatic classification apparatus disclosed in Japanese Patent Laid-Open No. 6-176064 discloses an apparatus that attempts to increase classification accuracy by performing automatic document classification in consideration of document paragraph information. However, it does not solve the above problem.

また、上記従来技術の文書分類装置や文書検索装置等の文書処理装置は、単に文書を分類する、あるいは文書を検索する機能を有するのみで、その結果を用いてさらなる分析をおこない、文書群に内在する隠れた情報の解析をおこなうことについては何ら考慮がされておらず、文書群に内在する隠れた情報の解析は別の解析装置を用いておこなわなければならないという問題点があった。   In addition, document processing apparatuses such as the above-described prior art document classification apparatus and document search apparatus simply have a function of classifying a document or searching for a document. No consideration has been given to the analysis of the underlying hidden information, and there has been a problem that the analysis of the hidden information inherent in the document group must be performed using another analysis device.

また、情報分析をおこなう操作者が分類作業や検索作業をおこなうのは、これらの作業において、結果は目的なのではなく、単に情報分析作業の途中経過にすぎないからである。通常は、その後、さらに結果を把握しやすくするために、元の文書に含まれる情報を最大限に活用し、結果の並べ替えをおこなったり、集計・統計処理を施したり、結果をもとに表の形式にまとめたり、さらにはグラフ化したりというようなさまざまな処理を繰り返しおこない、意味ある情報分析結果を導き出す必要がある。   Also, the reason why the operator who performs information analysis performs the classification work and the search work is that the result is not the purpose in these work, but merely the progress of the information analysis work. Usually, in order to make the results easier to understand, the information contained in the original document is utilized to the maximum, and the results are rearranged, aggregated / statistically processed, etc. It is necessary to repeatedly perform various processes such as tabulating and graphing to derive meaningful information analysis results.

また、数値データを対象とする情報の分析作業において、表計算ソフトウエアが用いられる場合があるが、表計算ソフトウエアは、元来、数値データの取扱いを意図して開発されたものであり、文字データ、特に文書の意味に係わるような分析作業においては十分な効果を発揮することはできなかった。   In addition, spreadsheet software may be used in the analysis of information for numeric data, but spreadsheet software was originally developed with the intention of handling numeric data, In the analysis work related to the character data, especially the meaning of the document, it was not possible to exert a sufficient effect.

この発明は、上述した従来例による問題点を解消するため、文書の意味に係わるような分析作業において、単に分類作業や検索作業などを固定された機能としておこない、その結果を出力するのではなく、情報分析作業全般にわたる支援をおこなうことができる文書処理装置、文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを第1の目的とする。   In order to solve the above-described problems caused by the conventional example, the present invention does not simply perform classification work or search work as a fixed function in the analysis work related to the meaning of the document, and output the result. It is a first object of the present invention to provide a document processing apparatus, a document processing method, and a computer-readable recording medium on which a program for causing a computer to execute the method is provided that can provide support for the entire information analysis work.

またこの発明は、上述した従来例による問題点を解消するため、任意の文書集合にどのような内容が含まれるかを漸次的に収集することができる文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを第2の目的とする。   Further, the present invention provides a document classification apparatus, a document classification method, and a method thereof capable of gradually collecting what kind of contents are included in an arbitrary document set in order to solve the problems caused by the above-described conventional example. A second object is to provide a computer-readable recording medium recording a program to be executed by a computer.

またこの発明は、上述した従来例による問題点を解決するため、一つの文書の中に複数の話題や意味が含まれている場合に、ある特定の話題や意味に限定されたカテゴリに分類されたり、利用者の意図するカテゴリとは異なるカテゴリに分類されることがないことにより、利用者かその分類カテゴリをよく理解できる文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを第3の目的とする。   In addition, in order to solve the problems of the conventional example described above, when a plurality of topics and meanings are included in one document, the present invention is classified into a category limited to a specific topic or meaning. Document classification device, document classification method and program for causing a computer to execute the method can be recorded so that the user or the classification category can be well understood by being not classified into a category different from the category intended by the user. A third object is to provide a computer-readable recording medium.

上述した課題を解決し、目的を達成するため、請求項1に記載の発明にかかる文書分類装置は、文書の内容に基づいて文書の分類をおこなう文書分類装置において、文書データを入力する入力手段と、前記入力手段により入力された文書データを解析して言語解析情報を得る言語解析手段と、前記言語解析手段により得られた言語解析情報に基づいて、単語を特徴次元とし、前記特徴次元を行とする文書表現空間上で、前記文書データを表現する列ベクトル情報である文書特徴ベクトルを生成するベクトル生成手段と、前記ベクトル生成手段により生成された文書特徴ベクトル間の類似度に基づいて文書を
分類し、文書の部分集合を生成する分類手段と、前記分類手段により生成された文書の部分集合の特徴であるクラスタ特徴を算出するクラスタ特徴算出手段と、前記分類手段により生成された文書の部分集合の中から所望の部分集合を選択するクラスタ選択指示手段と、前記ベクトル生成手段により生成された文書特徴ベクトルを記憶する文書特徴ベクトル記憶手段と、前記文書特徴ベクトル記憶手段により記憶された文書特徴ベクトルを、前記クラスタ選択指示手段により選択された部分集合に属する文書の文書特徴ベクトルを除去したのこりとなるように修正するベクトル修正手段と、前記文書特徴ベクトル記憶手段に記憶された文書特徴ベクトル間の類似度を判断する際に用いる前記文書表現空間から、前記クラスタ選択指示手段により選択された部分集合から算出する該部分集合の重心を特徴次元の行ベクトルで表現した特徴量と、前記クラスタ選択指示手段により選択された部分集合に含まれる文書に対応する文書特徴ベクトルに基づく特徴次元の行ベクトルと、の類似度の高い前記文書表現空間の特徴次元を判別し、前記判別した特徴次元に対応する行ベクトルを前記文書表現空間の特徴次元から削除することによって修正する文書表現空間修正手段と、を備え、前記分類手段は、前記文書表現空間修正手段により修正された文書表現空間を用いて、前記ベクトル修正手段により修正された文書特徴ベクトル間の類似度に基づいて文書を分類することを特徴とする。
In order to solve the above-described problems and achieve the object, the document classification apparatus according to the first aspect of the present invention is an input means for inputting document data in a document classification apparatus that classifies documents based on the contents of the document. And language analysis means for analyzing the document data input by the input means to obtain language analysis information, based on the language analysis information obtained by the language analysis means , a word as a feature dimension, and the feature dimension as Document generation based on similarity between a vector generation unit that generates a document feature vector, which is column vector information representing the document data, and a document feature vector generated by the vector generation unit in a document expression space as a row Classifying means for generating a document subset and a cluster feature for calculating a cluster feature that is a feature of the document subset generated by the classification means. A star feature calculation means, a cluster selection instruction means for selecting a desired subset from the document subsets generated by the classification means, and a document feature vector for storing the document feature vectors generated by the vector generation means Storage means and vector correction means for correcting the document feature vector stored by the document feature vector storage means so that the document feature vector of the document belonging to the subset selected by the cluster selection instruction means is removed. And the centroid of the subset calculated from the subset selected by the cluster selection instruction means from the document expression space used when judging the similarity between the document feature vectors stored in the document feature vector storage means a feature quantity that represents a row vector of feature dimensions and selection by the cluster selection instructing means A row vector of feature dimensions based on document feature vector corresponding to the document included in the subset that is, of the feature dimensions of a high degree of similarity the document representation space determined, a row vector corresponding to the characteristic dimension and the determination Document expression space correction means for correcting by deleting from the feature dimension of the document expression space, and the classification means uses the document expression space corrected by the document expression space correction means, and the vector correction means. The document is classified based on the similarity between the document feature vectors corrected by the above.

この請求項1の発明によれば、既知になったクラスタの影響を排除し、かつ、前回の分類実行の結果、操作者に選択されたクラスタの形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができる。
According to the first aspect of the present invention, it is possible to eliminate the influence of a known cluster, and to eliminate the cluster formation feature selected by the operator as a result of the previous classification execution at the next classification execution. And a new cluster can be generated in the excluded state.

また、請求項2に記載の発明に係る文書分類装置は、請求項1の発明において、前記文書分類装置はさらに、前記クラスタ特徴算出手段により算出されたクラスタ特徴を表示する表示手段を備え、前記分類手段により生成された文書の部分集合に所属する文書のすべてあるいは一部が選択された場合に選択されたことを示す選択情報を付与する選択情報付与手段を有し、前記表示手段は、前記クラスタ特徴を表示するとともに、前記選択情報付与手段により付与された選択情報を表示することを特徴とする。
The document classification device according to a second aspect of the present invention is the document classification device according to the first aspect, further comprising display means for displaying the cluster feature calculated by the cluster feature calculation means, Selection information giving means for giving selection information indicating selection when all or some of the documents belonging to the subset of documents generated by the classification means are selected, the display means, The cluster feature is displayed, and the selection information given by the selection information giving means is displayed.

この請求項2の発明によれば、多重に利用される文書の識別性および一度も選択されない文書の識別性を向上させることができる。
According to the second aspect of the present invention, it is possible to improve the identifiability of documents used in multiple and the identities of documents that have never been selected.

また、請求項に記載の発明にかかる文書分類方法は、 文書の内容に基づいて文書の分類をおこなう文書分類方法において、文書分類装置が、文書データを入力する入力工程と、前記入力工程により入力された文書データを解析して言語解析情報を得る言語解析工程と、前記言語解析手段により得られた言語解析情報に基づいて、単語を特徴次元とし、前記特徴次元を行とする文書表現空間上で、前記文書データを表現する列ベクトル情報である文書特徴ベクトルを生成するベクトル生成工程と、前記ベクトル生成工程により生成された文書特徴ベクトル間の類似度に基づいて文書を分類し、文書の部分集合を生成する分類工程と、前記分類工程により生成された文書の部分集合の特徴であるクラスタ特徴を算出するクラスタ特徴算出工程と、前記分類工程により生成された文書の部分集合の中から所望の部分集合を選択するクラスタ選択指示工程と、前記ベクトル生成工程により生成された文書特徴ベクトルを記憶する文書特徴ベクトル記憶工程と、前記文書特徴ベクトル記憶工程により記憶された文書特徴ベクトルを、前記クラスタ選択指示工程により選択された部分集合に属する文書の文書特徴ベクトルを除去したのこりとなるように修正するベクトル修正工程と、前記文書特徴ベクトル記憶工程で記憶された文書特徴ベクトル間の類似度を判断する際に用いる前記文書表現空間から、前記クラスタ選択指示工程により選択された部分集合から算出する該部分集合の重心を特徴次元の行ベクトルで表現した特徴量と、前記クラスタ選択指示工程により選択された部分集合に含まれる文書に対応する文書特徴ベクトルに基づく特徴次元の行ベクトルと、の類似度の高い前記文書表現空間の特徴次元を判別し、前記判別した特徴次元に対応する行ベクトルを前記文書表現空間の特徴次元から削除することによって修正する文書表現空間修正工程と、を含み、前記分類工程は、前記文書表現空間修正工程により修正された文書表現空間を用いて、前記ベクトル修正工程により修正された文書特徴ベクトル間の類似度に基づいて文書を分類することを特徴とする。
According to a third aspect of the present invention, there is provided the document classification method according to the third aspect of the present invention, in which the document classification method performs document classification based on the content of the document. A language analysis step for analyzing input document data to obtain language analysis information, and a document expression space having words as feature dimensions and rows as the feature dimensions based on the language analysis information obtained by the language analysis means In the above, a vector generation step of generating a document feature vector which is column vector information representing the document data, and a document is classified based on the similarity between the document feature vectors generated by the vector generation step, A classification step for generating a subset, and a cluster feature calculation step for calculating a cluster feature that is a feature of the subset of the document generated by the classification step; A cluster selection instruction step for selecting a desired subset from a subset of documents generated by the classification step, a document feature vector storage step for storing a document feature vector generated by the vector generation step, A vector correction step of correcting the document feature vector stored in the document feature vector storage step so that the document feature vector of the document belonging to the subset selected by the cluster selection instruction step is removed; and the document feature The centroid of the subset calculated from the subset selected by the cluster selection instruction step from the document expression space used when judging the similarity between the document feature vectors stored in the vector storage step is the row of the feature dimension. a feature amount representing a vector, containing the subset selected by the cluster selection instruction step Determine the row vector of feature dimensions based on document feature vectors corresponding to documents, of feature dimensions of a high degree of similarity the document representation space, a row vector corresponding to the characteristic dimension and the determination wherein the document representation space A document expression space correction step for correcting by deleting from a dimension, and the classification step uses the document expression space corrected by the document expression space correction step, and the document feature corrected by the vector correction step. Documents are classified based on the similarity between vectors.

この請求項の発明によれば、前回の分類実行の結果、操作者に選択されたクラスタ の形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができる。
According to the third aspect of the present invention, the formation characteristics of the cluster selected by the operator as a result of the previous classification execution can be excluded at the next classification execution, and a new cluster can be generated in the excluded state. Can do.

また、請求項に記載の発明に係る文書分類方法は、請求項の発明において、前記文書分類方法はさらに、前記クラスタ特徴算出工程により算出されたクラスタ特徴を表示する表示工程を備え、前記分類工程により生成された文書の部分集合に所属する文書のすべてあるいは一部が選択された場合に選択されたことを示す選択情報を付与する選択情報付与工程を有し、前記表示工程は、前記クラスタ特徴を表示するとともに、前記選択情報付与工程により付与された選択情報を表示することを特徴とする。
The document classification method according to a fourth aspect of the present invention is the document classification method according to the third aspect of the invention, further comprising a display step of displaying the cluster feature calculated by the cluster feature calculation step, A selection information giving step for giving selection information indicating that the document is selected when all or a part of the documents belonging to the subset of documents generated by the classification step is selected; The cluster feature is displayed, and the selection information given by the selection information giving step is displayed.

この請求項の発明によれば、既知になったクラスタの影響を排除し、かつ、前回の分類実行の結果、操作者に選択されたクラスタの形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができる。
According to the fourth aspect of the present invention, it is possible to eliminate the influence of a known cluster, and to eliminate the formation characteristics of the cluster selected by the operator as a result of the previous classification execution at the next classification execution. And a new cluster can be generated in the excluded state.

また、請求項36の発明に係る文書分類方法は、請求項31〜35の発明において、前記分類体系生成工程が、前記選択指示工程により選択されたクラスタ特徴のほか、前記文書の部分集合の中から選択された文書の部分集合に所属する文書群の全部あるいは一部および/または操作者が作成した情報に基づいて分類体系の構成要素を生成することを特徴とする。   A document classification method according to a thirty-sixth aspect of the invention is the document classification method according to the thirty-first to thirty-fifth aspects of the invention, wherein the classification system generation step includes a cluster feature selected by the selection instruction step, and a subset of the document A component of a classification system is generated based on all or part of a document group belonging to a subset of documents selected from the above and / or information created by an operator.

この請求項36の発明によれば、クラスタの内容把握を容易にし、かつ、操作者独自の分類体系を簡易に生成できるので、分類体系の利用価値を向上させることができる。   According to the thirty-sixth aspect of the present invention, the contents of the cluster can be easily grasped, and the operator's own classification system can be easily generated, so that the utility value of the classification system can be improved.

また、請求項37の発明に係る文書分類方法は、文書の内容にしたがって文書群を分類する文書分類方法において、文書データ群を入力し、入力された文書データ群の各文書に対して所定の基準に基づき文書の分割をおこない、一つの文書データから一つまたは複数の分割文書データを生成し、前記文書データと前記分割文書データとの対応を示す文書−分割文書対応マップを生成し、前記分割文書データを分類し、分割文書分類結果情報を生成し、前記文書−分割文書対応マップと前記分割文書分類結果情報とを用いて前記文書データの分類結果情報を生成することを特徴とする。   A document classification method according to a thirty-seventh aspect of the present invention is a document classification method for classifying a document group according to the contents of the document. The document is divided based on a reference, one or a plurality of divided document data is generated from one document data, a document-divided document correspondence map indicating a correspondence between the document data and the divided document data is generated, The divided document data is classified, divided document classification result information is generated, and the document data classification result information is generated using the document-divided document correspondence map and the divided document classification result information.

この請求項37の発明によれば、一つの文書の中に複数の話題や意味が含まれている場合に、ある特定の話題や意味に限定されたカテゴリに分類されたり、利用者の意図するカテゴリとは異なるカテゴリに分類されたりすることがなく、したがって、利用者がその分類カテゴリをよく理解できる。また、分割前文書(所属文書)中の分割文書の位置なども示されるので、利用者は文書群中の読みたい部分を効率的に読むことができる。   According to the present invention of claim 37, when a plurality of topics and meanings are included in one document, it is classified into a category limited to a specific topic or meaning or intended by the user. It is not classified into a category different from the category, so that the user can understand the classification category well. Further, since the position of the divided document in the pre-division document (affiliation document) is also shown, the user can efficiently read the portion to be read in the document group.

また、請求項38の発明に係る記憶媒体は、請求項24〜37に記載された方法をコンピュータに実行させるプログラムを記録したことで、そのプログラムを機械読み取り可能となり、これによって、請求項24〜37の動作をコンピュータによって実現することが可能である。   The recording medium according to the invention of claim 38 records the program for causing a computer to execute the method described in claims 24 to 37, so that the program can be read by a machine. The operation of 37 can be realized by a computer.

以上説明したように、請求項1の発明によれば、入力された文書データを記憶する文書記憶手段と、前記文書記憶手段により記憶された文書データの全部または一部を選択する選択手段と、前記選択手段により選択された文書データの全部または一部から文字列の特徴に関するデータを抽出する特徴抽出手段と、前記特徴抽出手段により抽出された文字列の特徴に関するデータに基づいて前記文書データの全部または一部を加工処理する加工処理手段と、前記加工処理手段により加工処理された文書データの全部または一部を出力する出力手段とを備えるため、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理装置が得られるという効果を奏する。   As described above, according to the invention of claim 1, the document storage means for storing the input document data, the selection means for selecting all or part of the document data stored by the document storage means, Feature extraction means for extracting data relating to character string features from all or part of the document data selected by the selection means; and data on the document data based on data relating to character string features extracted by the feature extraction means. In the analysis work related to the meaning of the document, since the processing means for processing all or part of the data and the output means for outputting all or part of the document data processed by the processing means, The effect of obtaining a document processing apparatus that can support not only the results but also the overall information analysis work Unlikely to.

また、請求項2の発明によれば、前記出力手段が、前記加工処理手段により加工処理された文書データの全部または一部の内容に基づいて複数の項目値を設定する項目値設定手段と、前記項目値設定手段により設定された項目値ごとに前記文書データの全部または一部を集計する集計手段と、を備え、前記文書データの全部または一部を、項目値を少なくとも一つの軸とする表形式に展開して出力するため、簡易な操作で加工処理の結果をクロス表として表すことができ、情報の内容の把握を容易におこなうことができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理装置が得られるという効果を奏する。   According to the invention of claim 2, the output means sets item value setting means for setting a plurality of item values based on all or part of the contents of the document data processed by the processing means; A totaling unit that totalizes all or part of the document data for each item value set by the item value setting unit, and the whole or a part of the document data has at least one axis as the item value Since it is expanded and output in a table format, the processing results can be expressed as a cross table with a simple operation, and the contents of information can be easily grasped, so analysis work related to the meaning of the document In this case, it is possible to obtain a document processing apparatus capable of providing support for the entire information analysis work rather than simply outputting the result.

また、請求項3の発明によれば、前記出力手段が、さらに、前記加工処理手段により加工処理された文書データの全部または一部を、前記加工処理手段により加工処理される前の文書データの全部または一部とともに出力するため、加工処理すべき対象データとその他のデータが同時に表示され、それを確認することにより、加工処理の対象範囲の決定を正確かつ容易におこなうことができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理装置が得られるという効果を奏する。   According to a third aspect of the present invention, the output unit further includes a part of the document data before being processed by the processing unit, all or part of the document data processed by the processing unit. Since all or part of the data is output, the target data to be processed and other data are displayed at the same time. By checking this, the target range for processing can be determined accurately and easily. In the analysis work related to the meaning of the above, it is possible to obtain a document processing apparatus capable of providing support for the entire information analysis work rather than simply outputting the result.

また、請求項4の発明によれば、前記文書記憶手段が、さらに、前記加工処理手段により加工処理された文書データの全部または一部を記憶するため、以後、他のデータと同様に扱うことができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理装置が得られるという効果を奏する。   According to the invention of claim 4, since the document storage means further stores all or part of the document data processed by the processing means, it is handled in the same manner as other data thereafter. Therefore, in the analysis work related to the meaning of the document, it is possible to obtain a document processing apparatus capable of providing support for the entire information analysis work, not simply outputting the result.

また、請求項5の発明によれば、前記選択手段が、さらに、前記出力手段により出力された文書データの全部または一部を選択するため、出力手段により出力された文書データの全部または一部をさらなる分析の対象とすることができ、多彩で高度な情報分析作業ができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理装置が得られるという効果を奏する。   According to the invention of claim 5, the selecting means further selects all or part of the document data output by the output means, so that all or part of the document data output by the output means is selected. Can be subject to further analysis, and a variety of advanced information analysis work can be performed. Therefore, in the analysis work related to the meaning of the document, not only the results are output, but the support for the entire information analysis work It is possible to obtain a document processing apparatus capable of performing the above.

また、請求項6の発明によれば、前記文書記憶手段が、さらに、前記加工処理の内容に関するデータを記憶するため、加工処理の内容に関するデータの紛失を防止し、当該データの管理が容易になるだけでなく、加工処理に用いた設定とそれによる処理結果を関連づけて把握することができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理装置が得られるという効果を奏する。   According to a sixth aspect of the present invention, the document storage means further stores data relating to the contents of the processing, thereby preventing loss of data relating to the contents of the processing and facilitating management of the data. In addition, since it is possible to grasp the settings used for processing and the processing results by associating them, in the analysis work related to the meaning of the document, not only outputting the results but also analyzing the information There is an effect that a document processing apparatus capable of providing support for the entire work can be obtained.

また、請求項7の発明によれば、入力手段が、文書データを入力し、言語解析手段が、前記入力手段により入力された文書データを解析して言語解析情報を得、ベクトル生成手段が、前記言語解析手段により得られた言語解析情報に基づいて前記文書データに対する文書特徴ベクトルを生成し、分類手段が、前記ベクトル生成手段により生成された文書特徴ベクトル間の類似度に基づいて文書を分類し、文書の部分集合を生成し、クラスタ特徴算出手段が、前記分類手段により生成された文書の部分集合の特徴であるクラスタ特徴を算出し、分類体系記憶手段が、前記クラスタ特徴算出手段により算出されたクラスタ特徴を分類体系の構成要素として記憶するため、クラスタを得ることができるとともに、クラスタ重心間の類似度等を用いて、クラスタの内容に基づくクラスタの構造化・体系化をおこなうことができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類装置が得られるという効果を奏する。   According to the invention of claim 7, the input means inputs the document data, the language analysis means analyzes the document data input by the input means to obtain language analysis information, and the vector generation means includes: A document feature vector for the document data is generated based on language analysis information obtained by the language analysis unit, and a classification unit classifies the document based on a similarity between the document feature vectors generated by the vector generation unit. Then, a subset of the document is generated, the cluster feature calculation means calculates a cluster feature that is a feature of the document subset generated by the classification means, and a classification system storage means calculates by the cluster feature calculation means The cluster feature is stored as a component of the classification system, so the cluster can be obtained and the similarity between the cluster centroids can be used. Cluster structuring and systematization can be performed based on the contents of the cluster, thereby obtaining a document classification device that can gradually collect what contents are included in an arbitrary document set. There is an effect.

また、請求項8の発明によれば、入力手段が、文書データを入力し、言語解析手段が、前記入力手段により入力された文書データを解析して言語解析情報を得、ベクトル生成手段が、前記言語解析手段により得られた言語解析情報に基づいて前記文書データに対する文書特徴ベクトルを生成し、分類手段が、前記ベクトル生成手段により生成された文書特徴ベクトル間の類似度に基づいて文書を分類し、文書の部分集合を生成し、クラスタ特徴算出手段が、前記分類手段により生成された文書の部分集合の特徴であるクラスタ特徴を算出し、表示手段が、前記クラスタ特徴算出手段により算出されたクラスタ特徴を表示し、クラスタ選択指示手段が、前記分類手段により生成された文書の部分集合の中から所望の部分集合を選択し、分類体系記憶手段が、前記クラスタ選択指示手段により選択された文書の部分集合を分類体系の構成要素として記憶するため、選択されたクラスタのみを用いて、より操作者の意図したものに近いクラスタの構造化・体系化をおこなうことができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類装置が得られるという効果を奏する。   According to the invention of claim 8, the input means inputs the document data, the language analysis means analyzes the document data input by the input means to obtain language analysis information, and the vector generation means includes: A document feature vector for the document data is generated based on language analysis information obtained by the language analysis unit, and a classification unit classifies the document based on a similarity between the document feature vectors generated by the vector generation unit. Then, a subset of the document is generated, the cluster feature calculation means calculates a cluster feature that is a feature of the document subset generated by the classification means, and the display means is calculated by the cluster feature calculation means. The cluster feature is displayed, and the cluster selection instruction means selects a desired subset from the document subset generated by the classification means, and the classification system Since the memory means stores the subset of documents selected by the cluster selection instruction means as a component of the classification system, the cluster structure closer to the operator's intention is made using only the selected cluster. Systematization can be performed, thereby producing an effect of obtaining a document classification device that can gradually collect what content is included in an arbitrary document set.

また、請求項9の発明によれば、請求項8の発明において、文書特徴ベクトル記憶手段が、前記ベクトル生成手段により生成された文書特徴ベクトルを記憶し、ベクトル修正手段が、前記文書特徴ベクトル記憶手段により記憶された文書特徴ベクトルを、前記クラスタ選択指示手段により選択された部分集合に属する文書の文書特徴ベクトルを除去したのこりとなるように修正し、前記分類手段が、前記ベクトル修正手段により修正された文書特徴ベクトルに基づいて文書を分類するため、既知になったクラスタの影響を排除した新たなクラスタを生成することができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類装置が得られるという効果を奏する。   According to the invention of claim 9, in the invention of claim 8, the document feature vector storage means stores the document feature vector generated by the vector generation means, and the vector correction means stores the document feature vector storage. The document feature vector stored by the means is corrected so as to be the result of removing the document feature vector of the document belonging to the subset selected by the cluster selection instruction means, and the classification means is corrected by the vector correction means. Since the document is classified based on the document feature vector, it is possible to generate a new cluster that eliminates the influence of the known cluster, and what content is included in an arbitrary document set It is possible to obtain a document classification device that can gradually collect.

また、請求項10の発明によれば、請求項8の発明において、文書特徴ベクトル記憶手段が、前記ベクトル生成手段により生成された文書特徴ベクトルを記憶し、文書表現空間修正手段が、前記文書特徴ベクトル記憶手段により記憶された文書特徴ベクトル間の類似度を判断する際の文書表現空間を前記クラスタ選択指示手段により選択された部分集合から算出する特徴量に基づいて修正し、前記分類手段が、前記文書表現空間修正手段により修正された文書表現空間を用いて、前記ベクトル生成手段により生成された文書特徴ベクトル間の類似度に基づいて文書を分類するため、前回の分類実行の結果、操作者に選択されたクラスタの形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類装置が得られるという効果を奏する。   According to the invention of claim 10, in the invention of claim 8, the document feature vector storage means stores the document feature vector generated by the vector generation means, and the document expression space correction means has the document feature. Correcting the document expression space when judging the similarity between the document feature vectors stored by the vector storage means based on the feature amount calculated from the subset selected by the cluster selection instruction means, and the classification means, In order to classify the document based on the similarity between the document feature vectors generated by the vector generation unit using the document expression space corrected by the document expression space correction unit, the result of the previous classification execution, the operator The formation characteristics of the selected cluster can be excluded at the next classification execution, and a new cluster can be generated in the excluded state. Thereby, an effect that what the progressively document classification apparatus capable of collecting content includes any document set is obtained.

また、請求項11の発明によれば、請求項9の発明において、文書特徴ベクトル記憶手段が、前記ベクトル生成手段により生成された文書特徴ベクトルを記憶し、文書表現空間修正手段が、前記文書特徴ベクトル記憶手段により記憶された文書特徴ベクトル間の類似度を判断する際の文書表現空間を前記クラスタ選択指示手段により選択されたクラスタ特徴に基づいて修正し、前記分類手段が、前記文書表現空間修正手段により修正された文書表現空間を用いて、前記ベクトル修正手段により修正された文書特徴ベクトル間の類似度に基づいて文書を分類するため、既知になったクラスタの影響を排除し、かつ、前回の分類実行の結果、操作者に選択されたクラスタの形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類装置が得られるという効果を奏する。   According to the invention of claim 11, in the invention of claim 9, the document feature vector storage unit stores the document feature vector generated by the vector generation unit, and the document expression space correction unit stores the document feature. A document expression space used when judging the similarity between document feature vectors stored by the vector storage means is corrected based on the cluster feature selected by the cluster selection instruction means, and the classification means corrects the document expression space. In order to classify the document based on the similarity between the document feature vectors corrected by the vector correction means using the document expression space corrected by the means, the influence of the known cluster is eliminated, and the previous time As a result of the classification execution, the cluster formation feature selected by the operator can be excluded at the next classification execution, It can generate clusters, thereby, an effect that what the progressively document classification apparatus capable of collecting content includes any document set is obtained.

また、請求項12の発明によれば、請求項8または10の発明において、選択情報付与手段が、前記分類手段により生成された文書の部分集合に所属する文書のすべてあるいは一部が選択された場合に選択されたことを示す選択情報を付与し、前記表示手段が、前記クラスタ特徴を表示するとともに、選択情報付与手段により付与された選択情報を表示するため、多重に利用される文書の識別性および一度も選択されない文書の識別性を向上させることができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類装置が得られるという効果を奏する。   According to the twelfth aspect of the invention, in the invention of the eighth or tenth aspect, the selection information adding means selects all or a part of the documents belonging to the subset of the documents generated by the classification means. Identification information indicating that the document has been selected is displayed, and the display unit displays the cluster feature and also displays the selection information provided by the selection information addition unit, so that identification of a document to be used multiple times is performed. And a document classification device capable of gradually collecting what kind of contents are included in an arbitrary document set. There is an effect.

また、請求項13の発明によれば、請求項8〜12の発明において、前記分類体系記憶手段が、前記選択指示手段により選択された文書の部分集合に属する全部あるいは一部の文書のほか、クラスタ特徴および/または操作者が作成した任意の情報を分類体系の構成要素として記憶するため、クラスタの内容把握を容易にし、かつ、操作者独自の分類体系を簡易に生成できるので、分類体系の利用価値を向上させることができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類装置が得られるという効果を奏する。   According to a thirteenth aspect of the present invention, in the eighth to twelfth aspects, the classification system storage means includes all or a part of documents belonging to a subset of documents selected by the selection instruction means, Since cluster features and / or arbitrary information created by the operator is stored as a component of the classification system, it is easy to understand the contents of the cluster, and the operator's own classification system can be easily generated. It is possible to improve the utility value, and it is possible to obtain a document classification device that can gradually collect what content is included in an arbitrary document set.

また、請求項14の発明によれば、文書の内容にしたがって文書群を分類する文書分類装置において、文書データ群を入力する文書入力手段と、入力された文書データ群の各文書に対して所定の基準に基づき文書の分割をおこない、一つの文書データから一つまたは複数の分割文書データを生成する文書分割手段と、前記文書データと前記分割文書データとの対応を示す文書−分割文書対応マップを生成する文書−分割文書対応マップ生成手段と、前記分割文書データを分類する分割文書分類手段と、前記分割文書分類手段による分類結果に基づいて分割文書分類結果情報を生成する分割文書分類結果生成手段と、前記文書−分割文書対応マップと前記分割文書分類結果情報とを用いて前記文書データの分類結果情報を生成する文書分類結果生成手段と、を備えるため、一つの文書の中に複数の話題や意味が含まれている場合に、ある特定の話題や意味に限定されたカテゴリに分類されたり、利用者の意図するカテゴリとは異なるカテゴリに分類されたりすることがなく、したがって、利用者がその分類カテゴリをよく理解が可能で、また、分割前文書(所属文書)中の分割文書の位置なども示されるので、利用者は文書群中の読みたい部分を効率的に読むことが可能な文書分類装置が得られるという効果を奏する。   According to the fourteenth aspect of the present invention, in a document classification apparatus for classifying a document group according to the contents of the document, a document input unit for inputting the document data group, and a predetermined value for each document in the input document data group A document-divided document correspondence map indicating the correspondence between the document data and the divided document data, and a document dividing unit that divides the document based on the criteria of the document and generates one or a plurality of divided document data from one document data Generating a document-divided document correspondence map, a divided document classification unit for classifying the divided document data, and a divided document classification result generation for generating divided document classification result information based on a classification result by the divided document classification unit Classification result information for generating classification result information of the document data using the means, the document-divided document correspondence map, and the divided document classification result information If there are multiple topics or meanings in one document, it is classified into a category limited to a specific topic or meaning, or a category intended by the user. Are not classified into different categories. Therefore, the user can understand the classification category well, and the position of the divided document in the pre-division document (affiliated document) is also shown. Has an effect that a document classification device capable of efficiently reading a portion to be read in a document group can be obtained.

また、請求項15の発明によれば、請求項14の発明において、前記文書データを保存する文書保存手段と、前記分割文書データを保存する分割文書保存手段と、前記文書−分割文書対応マップ生成手段により生成された文書−分割文書対応マップを保存する文書−分割文書対応マップ保存手段と、を備えるため、分割文書データおよび文書−分割文書対応マップを再生成することなしに、同一の文書データに対して、分類数、分類手法、または分類時の諸設定などパラメータの異なる分類結果を効率的に求めることが可能で、また、文書データを分類し、分類結果を生成するために必要なデータが保存されることにより、利用者が分類作業に対して時間的な自由度を持つことが可能で、過去に行った文書分類の再分析を任意の時間間におこなうことも可能な文書分類装置が得られるという効果を奏する。   According to a fifteenth aspect of the present invention, in the fourteenth aspect of the present invention, the document storage unit that stores the document data, the divided document storage unit that stores the divided document data, and the document-divided document correspondence map generation Document-divided document correspondence map storage means for storing the document-divided document correspondence map generated by the means, and the same document data without regenerating the divided document data and the document-divided document correspondence map In addition, it is possible to efficiently obtain classification results with different parameters such as the number of classifications, classification method, and various settings at the time of classification, and data necessary for classifying document data and generating classification results Is saved, so that the user can have time freedom for the classification work and reanalyze the document classification performed in the past at any time. Ukoto can also document classification apparatus an effect that is obtained.

また、請求項16の発明によれば、請求項15の発明において、前記分割文書分類結果生成手段により生成された分割文書分類結果情報を保存する分割文書分類結果保存手段を備えるため、請求項15の発明の効果に加え、一度分類を実行すれば、その分類結果をテキスト表現や表表現やグラフ表現などさまざまな形式で表現することが可能で、また、分割文書分類結果情報が保存されることにより、分類の実行作業および分類結果の分析作業において、利用者が時間的な自由度を持つことが可能で、過去に行った文書分類結果の再分析をさまざまな表現形式で任意の時間におこなうことも可能な文書分類装置が得られるという効果を奏する。   According to a sixteenth aspect of the present invention, in the fifteenth aspect of the invention, since the divided document classification result storing means for storing the divided document classification result information generated by the divided document classification result generating means is provided, In addition to the effects of the invention, once classification is performed, the classification result can be expressed in various formats such as text expression, table expression, graph expression, etc., and divided document classification result information is saved This allows users to have time flexibility in performing classification and analyzing classification results, and reanalyzing document classification results performed in the past in various representation formats at any time. The document classification device that can also be obtained is obtained.

また、請求項17の発明によれば、請求項14〜16の発明において、前記文書分割手段により生成される複数の分割文書データには分割前の文書データそのものを含むため、利用者は、分割されている文書データを分類することで得られる詳細な文書データの分類構造だけでなく、分割前の文書データ自体を分類した結果として得られる概略的でマクロな分類構造の融合した分類構造を得ることが可能な文書分類装置が得られるという効果を奏する。   According to the invention of claim 17, in the inventions of claims 14 to 16, since the plurality of divided document data generated by the document dividing means includes the document data itself before the division, the user can In addition to the detailed document data classification structure obtained by classifying the document data that has been classified, the classification structure that combines the rough macro classification structure obtained as a result of classification of the original document data itself is obtained. Thus, there is an effect that a document classification device that can be used is obtained.

また、請求項18の発明によれば、請求項14〜17の発明において、前記文書分割手段が、文書データの構造情報を基に文書データを分割する構成にしたため、異なった話題の分割等を適切におこなうことができ、したがって、文書データの詳細な分類構造がわかる文書分類を適切におこなうことが可能な文書分類装置が得られるという効果を奏する。   According to the invention of claim 18, in the inventions of claims 14 to 17, the document dividing unit is configured to divide the document data based on the structure information of the document data. Therefore, it is possible to obtain a document classification apparatus that can appropriately perform document classification and that can appropriately perform document classification in which the detailed classification structure of document data is known.

また、請求項19の発明によれば、請求項14〜17の発明において、前記文書データに含まれる要素を抽出する文書要素抽出手段と、前記文書要素抽出手段により抽出された要素に付随する要素付随情報を抽出する要素付随情報抽出手段と、を備え、前記文書分割手段が、前記文書要素抽出手段により抽出された要素、または前記要素と前記要素付随情報抽出手段により抽出された要素付随情報とを用いて前記文書データを分割する構成にしたため、文書データの詳細な分類構造がわかる文書分類を適切におこなうことが可能な文書分類装置が得られるという効果を奏する。   According to a nineteenth aspect of the invention, in the fourteenth to seventeenth aspects of the invention, the document element extracting means for extracting elements included in the document data, and the elements accompanying the elements extracted by the document element extracting means Element accompanying information extracting means for extracting accompanying information, and the document dividing means is an element extracted by the document element extracting means, or the element accompanying information extracted by the element and the element accompanying information extracting means, Since the document data is divided by using the document data, it is possible to obtain a document classification device capable of appropriately performing document classification that can understand the detailed classification structure of the document data.

また、請求項20の発明によれば、請求項14〜17の発明において、前記文書分割手段が、指示された指定範囲にしたがって文書データの分割をおこなう構成にしたため、利用者の意図に合い、かつ文書データの詳細な分類構造がわかる文書分類をおこなうことが可能な文書分類装置が得られるという効果を奏する。   According to a twentieth aspect of the invention, in the inventions of the fourteenth to seventeenth aspects, the document dividing means divides the document data in accordance with the designated designated range. In addition, there is an effect that a document classification apparatus capable of performing document classification that can understand the detailed classification structure of document data is obtained.

また、請求項21の発明によれば、請求項14〜17において、前記文書分割手段が、文書データ中の文字数、文数、または文字数と文数の両方を基に文書データを分割する構成にしたため、話題の異なった内容などが異なった文書として分類される可能性が高くなり、したがって、この発明でも文書データの詳細な分類構造がわかる文書分類をおこなうことが可能な文書分類装置が得られるという効果を奏する。   According to a twenty-first aspect of the invention, in any of the fourteenth to seventeenth aspects, the document dividing unit divides the document data based on the number of characters in the document data, the number of sentences, or both the number of characters and the number of sentences. Therefore, there is a high possibility that contents with different topics will be classified as different documents. Therefore, even in the present invention, a document classification device capable of performing document classification that can understand the detailed classification structure of document data is obtained. There is an effect.

また、請求項22の発明によれば、請求項14〜21の発明において、前記文書分類結果生成手段が、文書データを示す情報および前記文書データに付随する代表的情報を、分類結果情報として抽出して提示する構成にしたため、利用者は文書データの詳細な分類構造の概要や全体的な構造を容易に把握することが可能な文書分類装置が得られるという効果を奏する。   According to a twenty-second aspect of the present invention, in the fourteenth to twenty-first aspects, the document classification result generating means extracts information indicating document data and representative information associated with the document data as classification result information. Therefore, the user can obtain a document classification apparatus that can easily grasp the outline of the detailed classification structure of the document data and the overall structure.

また、請求項23の発明によれば、請求項22の発明において、前記文書分類結果生成手段が、分割文書データを示す情報および前記分割文書データに付随する代表的情報を、分類結果情報として、抽出して提示する構成にしたため、利用者は文書データの詳細な分類構造の概要や全体的な構造とともにどの分割文書が起因して当該カテゴリに分類されたかというようなことも容易にわかる文書分類装置が得られるという効果を奏する。   According to a twenty-third aspect of the invention, in the twenty-second aspect of the invention, the document classification result generating means uses information indicating divided document data and representative information accompanying the divided document data as classification result information. Since it is configured to be extracted and presented, the user can easily understand the details of the classification structure of the document data and the overall structure as well as which divided documents are attributed to the category. There exists an effect that an apparatus is obtained.

また、請求項24の発明によれば、入力された文書データを記憶する文書記憶工程と、前記文書記憶工程により記憶された文書データの全部または一部を選択する選択工程と、前記選択工程により選択された文書データの全部または一部から文字列の特徴に関するデータを抽出する特徴抽出工程と、前記特徴抽出工程により抽出された文字列の特徴に関するデータに基づいて前記文書データの全部または一部を加工処理する加工処理工程と、前記加工処理工程により加工処理された文書データの全部または一部を出力する出力工程と、を含むので、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理方法が得られるという効果を奏する。   According to a twenty-fourth aspect of the present invention, the document storing step for storing the input document data, the selecting step for selecting all or part of the document data stored by the document storing step, and the selecting step A feature extraction step for extracting data relating to character string features from all or part of selected document data, and all or part of the document data based on data relating to character string features extracted by the feature extraction step And an output step for outputting all or part of the document data processed by the processing step. In the analysis work related to the meaning of the document, the result is simply the result. The document processing method capable of providing support for the entire information analysis work can be obtained.

また、請求項25の発明によれば、前記出力工程が、前記加工処理工程により加工処理された文書データの全部または一部の内容に基づいて複数の項目値を設定する項目値設定工程と、前記項目値設定工程により設定された項目値ごとに前記文書データの全部または一部を集計する集計工程と、を含み、前記文書データの全部または一部を、項目値を少なくとも一つの軸とする表形式に展開して出力するので、簡易な操作で加工処理の結果をクロス表として表すことができ、情報の内容の把握を容易におこなうことができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理方法が得られるという効果を奏する。   According to the invention of claim 25, the output step sets an item value setting step for setting a plurality of item values based on the whole or part of the contents of the document data processed by the processing step; A totaling step of totaling all or part of the document data for each item value set by the item value setting step, and using all or part of the document data as item values as at least one axis Since the data is expanded and output in a table format, the processing results can be expressed as a cross table with a simple operation and the contents of the information can be easily grasped. In this case, it is possible to obtain a document processing method capable of providing support for the entire information analysis work rather than simply outputting the result.

また、請求項26の発明によれば、前記出力工程が、さらに、前記加工処理工程により加工処理された文書データの全部または一部を、前記加工処理工程により加工処理される前の文書データの全部または一部とともに出力するので、加工処理すべき対象データとその他のデータが同時に表示され、それを確認することにより、加工処理の対象範囲の決定を正確かつ容易におこなうことができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理方法が得られるという効果を奏する。   According to a twenty-sixth aspect of the present invention, the output step further includes the processing of the document data before being processed by the processing step, all or part of the document data processed by the processing step. Since all or part of the data is output, the target data to be processed and other data are displayed at the same time. By checking this, the target range for processing can be determined accurately and easily. In the analysis work related to the meaning of the above, it is possible to obtain a document processing method capable of providing support for the entire information analysis work, not simply outputting the result.

また、請求項27の発明によれば、前記文書記憶工程が、さらに、前記加工処理工程により加工処理された文書データの全部または一部を記憶するので、以後、他のデータと同様に扱うことができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理方法が得られるという効果を奏する。   According to a twenty-seventh aspect of the present invention, the document storing step further stores all or part of the document data processed by the processing step, so that it is handled in the same manner as other data thereafter. Therefore, in the analysis work related to the meaning of the document, it is possible to obtain a document processing method capable of providing support for the entire information analysis work, not simply outputting the result.

また、請求項28の発明によれば、前記選択工程が、さらに、前記出力工程により出力された文書データの全部または一部を選択するので、出力工程により出力された文書データの全部または一部をさらなる分析の対象とすることができ、多彩で高度な情報分析作業ができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理方法が得られるという効果を奏する。   According to the invention of claim 28, since the selecting step further selects all or part of the document data output by the output step, all or part of the document data output by the output step. Can be subject to further analysis, and a variety of advanced information analysis work can be performed. Therefore, in the analysis work related to the meaning of the document, not only the results are output, but the support for the entire information analysis work It is possible to obtain a document processing method capable of performing.

また、請求項29の発明によれば、前記文書記憶工程が、さらに、前記加工処理の内容に関するデータを記憶するので、加工処理の内容に関するデータの紛失を防止し、当該データの管理が容易になるだけでなく、加工処理に用いた設定とそれによる処理結果を関連づけて把握することができることから、文書の意味に係わるような分析作業において、単にその結果のみを出力するのではなく、情報分析作業全般にわたる支援をおこなうことが可能な文書処理方法が得られるという効果を奏する。   According to the invention of claim 29, since the document storing step further stores data relating to the contents of the processing, the loss of data relating to the contents of the processing is prevented and management of the data is facilitated. In addition, since it is possible to grasp the settings used for processing and the processing results by associating them, in the analysis work related to the meaning of the document, not only outputting the results but also analyzing the information There is an effect that a document processing method capable of providing support for the entire work can be obtained.

また、請求項30の発明によれば、入力工程が、文書データを入力し、言語解析工程が、前記入力工程により入力された文書データを解析して言語解析情報を得、ベクトル生成工程が、前記言語解析工程により得られた言語解析情報に基づいて前記文書データに対する文書特徴ベクトルを生成し、分類工程が、前記ベクトル生成工程により生成された文書特徴ベクトル間の類似度に基づいて文書を分類し、文書の部分集合を生成し、クラスタ特徴算出工程が、前記分類工程により生成された文書の部分集合の特徴であるクラスタ特徴を算出し、分類体系生成工程が、前記クラスタ特徴算出工程により算出されたクラスタ特徴に基づいて分類体系の構成要素を生成するので、クラスタを得ることができるとともに、クラスタ重心間の類似度等を用いて、クラスタの内容に基づくクラスタの構造化・体系化をおこなうことができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類方法が得られるという効果を奏する。   According to the invention of claim 30, the input step inputs document data, the language analysis step analyzes the document data input by the input step to obtain language analysis information, and the vector generation step includes: A document feature vector for the document data is generated based on the language analysis information obtained by the language analysis step, and the classification step classifies the document based on the similarity between the document feature vectors generated by the vector generation step. Then, a subset of the document is generated, the cluster feature calculation step calculates a cluster feature that is a feature of the document subset generated by the classification step, and the classification system generation step is calculated by the cluster feature calculation step. Since the components of the classification system are generated based on the cluster feature, the cluster can be obtained and the similarity between the cluster centroids can be obtained. And a document classification method that can gradually collect what content is included in an arbitrary document set. The effect is obtained.

また、請求項31の発明によれば、入力工程が、文書データを入力し、言語解析工程が、前記入力工程により入力された文書データを解析して言語解析情報を得、ベクトル生成工程が、前記言語解析工程により得られた言語解析情報に基づいて前記文書データに対する文書特徴ベクトルを生成し、分類工程が、前記ベクトル生成工程により生成された文書特徴ベクトル間の類似度に基づいて文書を分類し、文書の部分集合を生成し、クラスタ特徴算出工程が、前記分類工程により生成された文書の部分集合の特徴であるクラスタ特徴を算出し、表示工程が、前記クラスタ特徴算出工程により算出されたクラスタ特徴を表示し、クラスタ選択指示工程が、前記分類工程により生成された文書の部分集合の中から所望の部分集合を選択し、分類体系生成工程が、前記クラスタ選択指示工程により選択されたクラスタ特徴に基づいて分類体系の構成要素を生成するので、選択されたクラスタのみを用いて、より操作者の意図したものに近いクラスタの構造化・体系化をおこなうことができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類方法が得られるという効果を奏する。   According to the invention of claim 31, the input step inputs document data, the language analysis step analyzes the document data input by the input step to obtain language analysis information, and the vector generation step includes: A document feature vector for the document data is generated based on the language analysis information obtained by the language analysis step, and the classification step classifies the document based on the similarity between the document feature vectors generated by the vector generation step. A subset of documents is generated, a cluster feature calculation step calculates a cluster feature that is a feature of the document subset generated by the classification step, and a display step is calculated by the cluster feature calculation step. The cluster feature is displayed, and the cluster selection instruction step selects a desired subset from the document subset generated by the classification step, and classifier Since the generation process generates the components of the classification system based on the cluster feature selected by the cluster selection instruction process, the cluster structuring closer to the operator's intention is made using only the selected cluster. Systematization can be performed, thereby producing an effect of obtaining a document classification method capable of gradually collecting what content is included in an arbitrary document set.

また、請求項32の発明によれば、請求項31の発明において、ベクトル修正工程が、前記クラスタ選択指示手段により選択された部分集合に属する文書の文書特徴ベクトルを除去したのこりとなるように修正し、前記分類工程が、前記ベクトル修正工程により修正された文書特徴ベクトルに基づいて文書を分類するので、既知になったクラスタの影響を排除した新たなクラスタを生成することができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類方法が得られるという効果を奏する。   According to a thirty-second aspect of the invention, in the thirty-first aspect of the invention, the vector correction step is corrected so that the document feature vector of the document belonging to the subset selected by the cluster selection instruction means is removed. Then, since the classification step classifies the document based on the document feature vector corrected by the vector correction step, it is possible to generate a new cluster excluding the influence of the known cluster, There is an effect that a document classification method capable of gradually collecting what content is included in an arbitrary document set can be obtained.

また、請求項33の発明によれば、請求項31の発明において、文書表現空間修正工程が、前記ベクトル生成工程により生成された文書特徴ベクトル間の類似度を判断する際の文書表現空間を前記クラスタ選択指示工程により選択された部分集合から算出する特徴量に基づいて修正し、前記分類工程が、前記文書表現空間修正工程により修正された文書表現空間を用いて、前記ベクトル生成手段工程により生成された文書特徴ベクトル間の類似度に基づいて文書を分類するので、前回の分類実行の結果、操作者に選択されたクラスタの形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類方法が得られるという効果を奏する。   According to a thirty-third aspect of the invention, in the thirty-first aspect of the invention, the document expression space correcting step determines the document expression space when judging the similarity between the document feature vectors generated by the vector generating step. Correction is made based on the feature amount calculated from the subset selected by the cluster selection instruction step, and the classification step is generated by the vector generation means step using the document expression space corrected by the document expression space correction step. Since the documents are classified based on the similarity between the document feature vectors, the cluster formation features selected by the operator as a result of the previous classification execution can be excluded at the next classification execution, and are excluded. A new cluster can be created with this, which allows you to gradually collect what content is included in any document set An effect that kind methods are obtained.

また、請求項34の発明によれば、請求項32の発明において、文書表現空間修正工程が、前記ベクトル生成工程により生成された文書特徴ベクトル間の類似度を判断する際の文書表現空間を前記クラスタ選択指示工程により選択された部分集合から算出する特徴量に基づいて修正し、前記分類工程が、前記文書表現空間修正工程により修正された文書表現空間を用いて、前記ベクトル修正工程により修正された文書特徴ベクトル間の類似度に基づいて文書を分類するので、既知になったクラスタの影響を排除し、かつ、前回の分類実行の結果、操作者に選択されたクラスタの形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類方法が得られるという効果を奏する。   According to a thirty-fourth aspect of the present invention, in the thirty-second aspect of the present invention, the document expression space modification step determines the similarity between the document feature vectors generated by the vector generation step. Correction based on the feature amount calculated from the subset selected by the cluster selection instruction step, and the classification step is corrected by the vector correction step using the document expression space corrected by the document expression space correction step. Since the documents are classified based on the similarity between the document feature vectors, the influence of the known clusters is eliminated, and the cluster formation features selected by the operator as a result of the previous classification execution are It can be excluded at the time of classification execution, and a new cluster can be generated in the excluded state, so that what content is included in an arbitrary document set Progressively document classification method capable of collecting or an effect that can be obtained.

また、請求項35の発明によれば、請求項31または33の発明において、選択情報付与工程が、前記分類工程により生成された文書の部分集合に所属する文書のすべてあるいは一部が選択された場合に選択されたことを示す選択情報を付与し、前記表示工程が、前記クラスタ特徴を表示するとともに、選択情報付与工程により付与された選択情報を表示するので、多重に利用される文書の識別性および一度も選択されない文書の識別性を向上させることができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類方法が得られるという効果を奏する。   According to the invention of claim 35, in the invention of claim 31 or 33, all or part of the documents belonging to the subset of documents generated by the classification step is selected in the selection information adding step. Identification information indicating that the document has been selected is displayed, and the display step displays the cluster feature and also displays the selection information provided by the selection information addition step, so that multiple documents can be identified. And a document classification method that can gradually collect what content is included in an arbitrary document set. There is an effect.

また、請求項36の発明によれば、請求項31〜35の発明において、前記分類体系生成工程が、前記選択指示工程により選択されたクラスタ特徴のほか、前記文書の部分集合の中から選択された文書の部分集合に所属する文書群の全部あるいは一部および/または操作者が作成した情報に基づいて分類体系の構成要素を生成するので、クラスタの内容把握を容易にし、かつ、操作者独自の分類体系を簡易に生成できることので、分類体系の利用価値を向上させることができ、これにより、任意の文書集合にどのような内容が含まれるかを漸次的に収集することが可能な文書分類方法が得られるという効果を奏する。   According to a thirty-sixth aspect of the invention, in the thirty-first to thirty-fifth aspects, the classification system generation step is selected from a subset of the document in addition to the cluster feature selected by the selection instruction step. Since the components of the classification system are generated based on all or part of a group of documents belonging to a subset of selected documents and / or information created by the operator, the contents of the cluster can be easily grasped and the operator's own Document classification system that can improve the utility value of classification system, and can gradually collect what kind of contents are included in an arbitrary document set. There is an effect that a method is obtained.

また、請求項37の発明によれば、一つの文書の中に複数の話題や意味が含まれている場合に、ある特定の話題や意味に限定されたカテゴリに分類されたり、利用者の意図するカテゴリとは異なるカテゴリに分類されたりすることがなく、したがって、利用者がその分類カテゴリをよく理解できる。また、分割前文書(所属文書)中の分割文書の位置なども示されるので、利用者は文書群中の読みたい部分を効率的に読むことが可能な文書分類方法が得られるという効果を奏する。   Further, according to the invention of claim 37, when a plurality of topics and meanings are included in one document, it is classified into a category limited to a specific topic or meaning, or the user's intention Therefore, the user can understand the classification category well. Further, since the position of the divided document in the pre-division document (affiliation document) is also shown, there is an effect that the user can obtain a document classification method that can efficiently read the portion to be read in the document group. .

また、請求項38の発明によれば、請求項24〜37のいずれか一つに記載された方法をコンピュータに実行させるプログラムを記録したことで、そのプログラムを機械読み取り可能となり、これによって、請求項24〜37の動作をコンピュータによって実現することが可能な記録媒体が得られるという効果を奏する。   According to a thirty-eighth aspect of the invention, by recording a program that causes a computer to execute the method according to any one of the twenty-fourth to thirty-seventh aspects, the program can be read by a machine. The recording medium capable of realizing the operations of Items 24 to 37 by a computer is obtained.

以下に添付図面を参照して、この発明に係る文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の好適な実施の形態を詳細に説明する。   Exemplary embodiments of a document processing device, a document classification device, a document processing method, a document classification method, and a computer-readable recording medium storing a program for causing a computer to execute the methods according to the present invention are described below with reference to the accompanying drawings. The embodiment will be described in detail.

〔実施の形態1〕
まず、この発明の実施の形態1による文書処理装置を構成する情報処理システム全体のハードウエア構成を説明する。図1は、実施の形態1による文書処理装置を構成する情報処理システム全体のハードウエア構成を示す説明図である。
[Embodiment 1]
First, the hardware configuration of the entire information processing system constituting the document processing apparatus according to Embodiment 1 of the present invention will be described. FIG. 1 is an explanatory diagram showing the hardware configuration of the entire information processing system constituting the document processing apparatus according to the first embodiment.

図1において、実施の形態1による文書処理装置を構成する情報処理システムは、サーバー/クライアント方式で構成されている。すなわち、サーバー101と複数のクライアント102がネットワーク103によって接続されている。クライアント102は、分類データ等の加工データの生成、サーバー101への指示、分類結果等の加工処理結果の表示などをおこなう。一方、クライアント102からの指示にしたがって、サーバー101は文書(テキスト)分類等の加工処理を膨大な数値演算によりおこない、その処理の結果をクライアント102へ送る。   In FIG. 1, the information processing system constituting the document processing apparatus according to the first embodiment is configured by a server / client system. That is, the server 101 and a plurality of clients 102 are connected by the network 103. The client 102 generates processing data such as classification data, instructs the server 101, displays processing results such as classification results, and the like. On the other hand, in accordance with an instruction from the client 102, the server 101 performs processing such as document (text) classification by enormous numerical operations, and sends the processing result to the client 102.

分類処理の場合、より具体的には、サーバー101においては、テキスト分類処理(前処理、クラスタリング処理)がおこなわれ、クライアント102においては、分類データ生成、処理実行指示、テキスト分類結果表示等がおこなわれる。サーバー101における処理は、上述のように、「前処理」と「分類処理」の二つに分かれており、その処理はデータによっては非常に負荷が大きくなる。したがって、サーバー101は「前処理」と「分類処理」がそれぞれ一つずつしか処理をおこなわないようにマネージャプロセスが処理受付リストを作成して管理する。   In the case of classification processing, more specifically, the server 101 performs text classification processing (pre-processing and clustering processing), and the client 102 performs classification data generation, processing execution instruction, text classification result display, and the like. It is. As described above, the processing in the server 101 is divided into “pre-processing” and “classification processing”, and the processing becomes very heavy depending on data. Accordingly, in the server 101, the manager process creates and manages a process acceptance list so that only one “pre-process” and “classification process” are performed.

また、サーバー101とクライアント102との間のデータのやりとりはファイル共有という方法を用いる。すなわち、分類処理等の加工処理に用いるファイルをサーバー101上の共有フォルダに作成することにより両者はデータのやりとりをおこなう。したがって、クライアント102からはサーバー101の共有フォルダをネットワーク共有して利用することが可能である。   Further, data exchange between the server 101 and the client 102 uses a method called file sharing. That is, by exchanging data by creating a file used for processing such as classification processing in a shared folder on the server 101. Therefore, the client 102 can use the shared folder of the server 101 by sharing the network.

つぎに、サーバー101およびクライアント102のハードウエア構成について説明する。図2は、実施の形態1による文書処理装置を構成する情報処理システムにおけるサーバー101のハードウエア構成を示す説明図である。サーバー101は、たとえばワークステーション(WS)等が用いられる。   Next, the hardware configuration of the server 101 and the client 102 will be described. FIG. 2 is an explanatory diagram showing the hardware configuration of the server 101 in the information processing system constituting the document processing apparatus according to the first embodiment. As the server 101, for example, a workstation (WS) is used.

図2において、201はサーバー101全体を制御するCPUを、202はブートプログラム等を記憶したROMを、203はCPU201のワークエリアとして使用されるRAM203を、204は通信回線205を介してネットワーク103に接続され、そのネットワーク103と内部のインターフェイスを司るインターフェイス(I/F)を、206はデータを記憶するディスク装置を示している。200は上記各部を結合させるためのバスを示している。   In FIG. 2, 201 is a CPU that controls the entire server 101, 202 is a ROM that stores a boot program and the like, 203 is a RAM 203 that is used as a work area for the CPU 201, and 204 is a network 103 via a communication line 205. Reference numeral 206 denotes an interface (I / F) connected to the network 103 and serving as an internal interface, and a disk device 206 stores data. Reference numeral 200 denotes a bus for connecting the above-described units.

そのほか、文書情報、画像情報、機能情報等を表示するディスプレイ208や、データを入力するためのキーボード209およびマウス210等が同様に接続されていてもよい。さらに、ディスク装置206には、クライアント102との間のデータのやりとりをするための共有フォルダ207が設けられている。   In addition, a display 208 that displays document information, image information, function information, and the like, a keyboard 209 and a mouse 210 for inputting data, and the like may be similarly connected. Further, the disk device 206 is provided with a shared folder 207 for exchanging data with the client 102.

また、図3は、実施の形態1による文書処理装置を構成する情報処理システムにおけるクライアント102のハードウエア構成を示す説明図である。クライアント102は、たとえばパーソナルコンピュータ(PC)等が用いられる。   FIG. 3 is an explanatory diagram showing a hardware configuration of the client 102 in the information processing system constituting the document processing apparatus according to the first embodiment. As the client 102, for example, a personal computer (PC) or the like is used.

図3において、301はシステム全体を制御するCPUを、302はブートプログラム等を記憶したROMを、303はCPU301のワークエリアとして使用されるRAMを、304はCPU301の制御にしたがってHD(ハードディスク)305に対するデータのリード/ライトを制御するHDD(ハードディスクドライブ)を、305はHDD304の制御で書き込まれたデータを記憶するHDを、306はCPU301の制御にしたがってFD(フロッピーディスク)307に対するデータのリード/ライトを制御するFDD(フロッピーディスクドライブ)を、307はFDD306の制御で書き込まれたデータを記憶する着脱自在のFDを、308はドキュメント、画像、機能情報等を表示するディスプレイをそれぞれ示している。   In FIG. 3, 301 is a CPU that controls the entire system, 302 is a ROM that stores a boot program, 303 is a RAM that is used as a work area of the CPU 301, and 304 is an HD (hard disk) 305 according to the control of the CPU 301. HDD (Hard Disk Drive) for controlling the reading / writing of data with respect to the HDD, 305 for storing the data written under the control of the HDD 304, and 306 for reading / writing the data with respect to the FD (floppy disk) 307 according to the control of the CPU 301. FDD (floppy disk drive) for controlling writing, 307 for a removable FD for storing data written under the control of the FDD 306, and 308 for a display for displaying documents, images, function information, etc. That.

また、309は通信回線310を介してネットワーク103に接続され、そのネットワーク103と内部のインターフェイスを司るインターフェイス(I/F)を、311は文字、数値、各種指示等の入力のためのキーを備えたキーボードを、312はカーソルの移動や範囲選択、あるいは表示画面に表示されたアイコンやボタンの押下やウインドウの移動やサイズの変更等をおこなうマウスを、313はOCR(Optical Character Reader)機能を備えた画像を光学的に読み取るスキャナを、314は分類結果を含むデータの内容等を印刷するプリンタを、315は上記各部を結合するためのバスをそれぞれ示している。また、HD305にはワープロソフト等のアプリケーションソフト316が記憶されている。   Further, reference numeral 309 is connected to the network 103 via the communication line 310, and an interface (I / F) that controls an internal interface with the network 103, and 311 has keys for inputting characters, numerical values, various instructions, and the like. 312 has a mouse for moving the cursor, selecting a range, pressing an icon or button displayed on the display screen, moving a window, changing the size, etc., and 313 has an OCR (Optical Character Reader) function. 314 indicates a scanner for optically reading the image, 314 indicates a printer for printing the contents of data including the classification result, and 315 indicates a bus for connecting the above-described units. The HD 305 stores application software 316 such as word processing software.

つぎに、実施の形態1による文書処理装置の機能的構成について説明する。図4は、実施の形態1による文書処理装置の構成を機能的に示すブロック図である。図4において、文書処理装置は、入力部401と、文書記憶部402と、選択部403と、特徴抽出部404と、加工処理部405と、出力部406を含む構成である。   Next, a functional configuration of the document processing apparatus according to the first embodiment will be described. FIG. 4 is a block diagram functionally showing the configuration of the document processing apparatus according to the first embodiment. In FIG. 4, the document processing apparatus includes an input unit 401, a document storage unit 402, a selection unit 403, a feature extraction unit 404, a processing processing unit 405, and an output unit 406.

入力部401、文書記憶部402、選択部403、特徴抽出部404、加工処理部405、出力部406は、ROM202または302、RAM203または303、あるいはディスク装置306またはハードディスク316等の記録媒体に記録されたプログラムに記載された命令にしたがってCPU201または301等が命令処理を実行することにより、各部の機能を実現する。   The input unit 401, the document storage unit 402, the selection unit 403, the feature extraction unit 404, the processing unit 405, and the output unit 406 are recorded on a recording medium such as the ROM 202 or 302, the RAM 203 or 303, the disk device 306, or the hard disk 316. The function of each unit is realized by the CPU 201 or 301 executing command processing according to the commands described in the program.

入力部401は、文書データを入力するものであり、たとえば、キーボード209または311、スキャナ313、OCR機能を備えたスキャナ313、またはネットワーク103を経由して文書や文書群を得ることができるI/F204または309等である。また、入力部401は、上記以外に、文書データを取得することができるものであれば、それらのすべてを含む。たとえば、文書データがデータベース化されている場合に、そのデータベースが記録された媒体を実施の形態1の文書処理装置に組み入れた場合も文書データの入力とする。   The input unit 401 inputs document data. For example, the I / O that can obtain a document or a document group via the keyboard 209 or 311, the scanner 313, the scanner 313 having an OCR function, or the network 103. F204 or 309. In addition to the above, the input unit 401 includes all of them as long as it can acquire document data. For example, when document data is stored in a database, the document data is also input when the medium on which the database is recorded is incorporated into the document processing apparatus according to the first embodiment.

ここで、文書とは、自然言語で記述された一つ以上の文の集まりであり、文字、文字列、数値等から構成されており、それらの意味のあるまとまりを一つの文書とする。また、複数の文書の集まりを、文書群とする。   Here, a document is a collection of one or more sentences written in a natural language, and is composed of characters, character strings, numerical values, and the like, and a meaningful group is defined as one document. A group of documents is a document group.

文書は一つあるいは複数の項目から構成されている。項目は、項目名と、項目値から構成されている。項目名は項目の内容を示すラベルであり、文書に含まれていても含まれていなくてもよい。項目値は項目の実際の内容である。図5は、実施の形態1による文書処理装置の項目名と項目値の関係を示す説明図である。たとえば、一つの特許公報は一つの文書であり、特許公報を項目名と項目値によって表現すると、図5のようになる。   A document consists of one or more items. An item is composed of an item name and an item value. The item name is a label indicating the content of the item, and may or may not be included in the document. The item value is the actual content of the item. FIG. 5 is an explanatory diagram showing the relationship between item names and item values of the document processing apparatus according to the first embodiment. For example, one patent gazette is one document, and when the patent gazette is expressed by item names and item values, it is as shown in FIG.

入力部401によって取得された文書あるいは文書群は、それぞれの文書に一意な文書IDが付与され、文書記憶部402により記憶される。図6は、実施の形態1による文書処理装置の文書記憶部402に記憶された文書のデータ構造を示す説明図である。各項目名あるいは項目値は、文書記憶部402のセル、すなわち一つの記憶単位に収納される。   A document or document group acquired by the input unit 401 is assigned a unique document ID to each document and stored in the document storage unit 402. FIG. 6 is an explanatory diagram showing the data structure of a document stored in the document storage unit 402 of the document processing apparatus according to the first embodiment. Each item name or item value is stored in a cell of the document storage unit 402, that is, one storage unit.

図6においては、一つのセルは3つの記憶領域から構成されており、第1番目の記憶領域601にはつぎのセルの文書記憶部402上の位置(番地)が記憶されている。第2番目の記憶領域602には、セルの属性値が記憶されている。   In FIG. 6, one cell includes three storage areas, and the first storage area 601 stores the position (address) of the next cell on the document storage unit 402. The second storage area 602 stores cell attribute values.

セルの属性値としては、たとえば、「0」が「空」、「1」が「数値」、「2」が文字列・・・というように設定することができる。第3番目の記憶領域603には、セルの実際の内容、すなわち、項目名あるいは項目値等が格納される領域の先頭位置が記憶されている。   For example, “0” is “empty”, “1” is “numerical value”, “2” is a character string, etc. as cell attribute values. The third storage area 603 stores the actual contents of the cell, that is, the start position of the area in which the item name or item value is stored.

セルの順序の並び替えや、セルの追加・削除は、第1番目の記憶領域601に記憶されたつぎのセルの位置を変更することにより、容易に実現することができる。また、セルの実際の内容は、セルの構造とは異なる別の領域に記憶されているので、たとえば、項目を変更した結果、あらかじめ確保された領域では収まり切れなくなった場合には、セルの構造自体には影響なく、別途大きな領域を確保してそこに項目値を記憶し、第3番目に記憶された記憶領域603の先頭位置を変更するだけでよい。   Rearranging the order of cells and adding / deleting cells can be easily realized by changing the position of the next cell stored in the first storage area 601. In addition, since the actual contents of the cell are stored in a different area different from the cell structure, for example, if the result of changing an item does not fit in the reserved area, the cell structure There is no influence on itself, and it is only necessary to secure a separate large area, store the item value therein, and change the top position of the storage area 603 stored third.

図7は、実施の形態1による文書処理装置の文書記憶部402に記憶された文書の別のデータ構造を示す説明図である。図7において、一つのセルは二つの記憶領域を使用している。第1番目の記憶領域701には、セル属性値が記憶されている。第2番目の記憶領域702には、セルの実際の内容、すなわち項目名あるいは項目値などが格納される領域の先頭位置が記憶されている。   FIG. 7 is an explanatory diagram showing another data structure of a document stored in the document storage unit 402 of the document processing apparatus according to the first embodiment. In FIG. 7, one cell uses two storage areas. In the first storage area 701, cell attribute values are stored. The second storage area 702 stores the actual contents of the cell, that is, the start position of the area in which the item name or item value is stored.

つぎのセルは、文書記憶部402上でとなり合うつぎの記憶領域に記憶されている。このデータ構造では、セルの順序の並び替え、セルの追加・削除が発生した場合には、記憶内容の移動操作が必要となる。   The next cell is stored in the next storage area on the document storage unit 402. In this data structure, when the rearrangement of the cell order and the addition / deletion of the cell occur, it is necessary to move the stored contents.

文書記憶部402は、通常高速に情報を扱える半導体メモリで構成されるが、磁気ディスクあるいは光ディスク等で構成される補助記憶装置を含んでいてもよい。   The document storage unit 402 is normally composed of a semiconductor memory capable of handling information at high speed, but may include an auxiliary storage device composed of a magnetic disk or an optical disk.

文書記憶部402に記憶された文書あるいは文書群は、出力部406により表示される。実施の形態1においては、出力部406は、CRTディスプレイ、液晶ディスプレイ等から構成される。出力部406は、文書記憶部402に記憶された文書あるいは文書群の内容をセルと順次たどって読み出し、表の形式で表示または印刷する。   The document or document group stored in the document storage unit 402 is displayed by the output unit 406. In the first embodiment, the output unit 406 includes a CRT display, a liquid crystal display, or the like. The output unit 406 reads the contents of the document or document group stored in the document storage unit 402 by sequentially tracing the cells, and displays or prints the data in a table format.

また、出力部406は、表の形式で表示または印刷されたデータに基づいてグラフを描画するグラフ描画部407を含んでいてもよい。グラフ描画部407は、文書記憶部402に記憶された文書あるいは文書群の項目値に対して利用者が設定した領域の内容を読み出し、利用者の指示により棒グラフ、円グラフ、折れ線グラフ等のグラフを描画し、表示または印刷する。   The output unit 406 may include a graph drawing unit 407 that draws a graph based on data displayed or printed in a table format. The graph drawing unit 407 reads the contents of the area set by the user with respect to the item value of the document or document group stored in the document storage unit 402, and graphs such as a bar graph, a pie graph, and a line graph according to the user's instruction Draw and display or print.

出力部406は、入力部401による操作に関する表示、たとえば、操作メニューやマウスポインタ、カーソルの表示等もおこなう。また、処理結果を印刷するためのプリンタ等の印刷装置を含んでいてもよい。   The output unit 406 also performs display related to operations by the input unit 401, such as an operation menu, a mouse pointer, and a cursor. Further, a printing apparatus such as a printer for printing the processing result may be included.

選択部403は、入力部401による操作者の指示により、出力部406の表示上で選択された領域のデータを文書記憶部402から読み出し、特徴抽出部404へ送る。選択部403の選択方法について、図8〜図10を用いて説明する。   The selection unit 403 reads the data of the area selected on the display of the output unit 406 from the document storage unit 402 in accordance with an operator instruction from the input unit 401, and sends the data to the feature extraction unit 404. The selection method of the selection part 403 is demonstrated using FIGS. 8-10.

図8〜図10は、実施の形態1による文書処理装置の出力部406による画面表示の例、具体的には、自動車の故障状況の内容が表示された画面表示の例を示す説明図である。図8において、画面表示には、文書ID番号を示す「番号」欄801、故障情報を受け付けた日付を示す「受付日」欄802、故障情報を受け付けた営業所を示す「営業所」欄803、故障情報の対象となった自動車の車種を示す「車種」欄804、故障情報対象となった自動車の年式を示す「年式」欄805、故障状況の内容を示す「内容」欄806が表示される。   FIG. 8 to FIG. 10 are explanatory diagrams showing examples of screen display by the output unit 406 of the document processing apparatus according to the first embodiment, specifically, examples of screen display on which the content of the failure state of the car is displayed. . In FIG. 8, the screen display includes a “number” column 801 indicating a document ID number, a “reception date” column 802 indicating a date when failure information is received, and a “sales office” column 803 indicating a sales office receiving the failure information. A “vehicle type” column 804 indicating the type of the vehicle that is the target of the failure information, a “year” column 805 indicating the year of the vehicle that is the target of the failure information, and a “content” column 806 indicating the content of the failure status Is displayed.

図9において、選択領域901は、矩形で囲まれ、表示色が変更されている部分であり、図10においても同様に、選択領域1001は、矩形で囲まれ、表示色が変更されている部分である。   In FIG. 9, a selection area 901 is a part surrounded by a rectangle and the display color is changed. Similarly, in FIG. 10, the selection area 1001 is surrounded by a rectangle and a part whose display color is changed. It is.

選択部403が選択する領域としては、図9に示すように、画面上の列の一部であってもよいし、また、図10に示すように項目名を選択した場合はその項目名に属する項目値全部が選択されるようにしてもよい。なお、実施の形態1では、文字列の属性を持つ領域のみ選択可能とする。   The area selected by the selection unit 403 may be a part of a column on the screen as shown in FIG. 9, or when an item name is selected as shown in FIG. All the item values to which it belongs may be selected. In the first embodiment, only an area having a character string attribute can be selected.

つぎに、特徴抽出部404によりおこなわれる抽出処理の内容について説明する。選択部403により選択された項目値は、特徴抽出部404によりその項目値の特徴が抽出される。図11は、実施の形態1による文書処理装置の特徴抽出部404によりおこなわれる抽出処理の内容の一覧を示す説明図である。   Next, the contents of extraction processing performed by the feature extraction unit 404 will be described. For the item value selected by the selection unit 403, the feature extraction unit 404 extracts the feature of the item value. FIG. 11 is an explanatory diagram showing a list of contents of extraction processing performed by the feature extraction unit 404 of the document processing apparatus according to the first embodiment.

図11において、抽出処理には、対象とする文字列に含まれる単語、その単語の単語数、単語の文字数、単語のそれぞれの出現回数...等がある。これらの抽出処理は、規則音声合成装置や自動翻訳装置等の一般的に用いられている形態素解析技術あるいは構文解析技術等の自然言語処理技術を用いて実現する。   In FIG. 11, the extraction process includes a word included in the target character string, the number of words in the word, the number of characters in the word, and the number of appearances of each word. . . Etc. These extraction processes are realized by using a natural language processing technique such as a morphological analysis technique or a syntax analysis technique that is generally used, such as a regular speech synthesizer or an automatic translation apparatus.

つぎに、加工処理部405によりおこなわれる加工処理の内容について説明する。特徴抽出部404により抽出処理された特徴量に対して、加工処理部405により加工処理が施される。図12は、実施の形態1による文書処理装置の加工処理部405によりおこなわれる加工処理の内容の一覧を示す説明図である。   Next, the contents of the processing performed by the processing unit 405 will be described. The processing unit 405 performs processing on the feature amount extracted by the feature extraction unit 404. FIG. 12 is an explanatory diagram showing a list of contents of the processing performed by the processing unit 405 of the document processing apparatus according to the first embodiment.

加工処理には、同一の特徴量ごと分類する「分類処理」、所定の特徴量を検索する「検索処理」、特徴量の内容ごとに並べ替えをおこなう「並べ替え処理」、特徴量の代表値を抽出する「代表値抽出処理」、特徴量のうちの最大値を抽出する「最大値抽出処理」、特徴量のうち最小値を抽出する「最小値抽出処理」、特徴量を算術する「算術処理」等がある。   The processing includes “classification process” for classifying the same feature quantity, “search process” for searching for a predetermined feature quantity, “sorting process” for sorting by feature content, and representative values of feature quantities "Representative value extraction process" to extract the maximum value of the feature quantity, "Maximum value extraction process" to extract the maximum value of the feature quantity, "Minimum value extraction process" to extract the minimum value of the feature quantity, "Arithmetic" Processing ".

特徴抽出部404によりおこなわれる特徴量の抽出処理の内容と、加工処理部405によりおこなわれる抽出された特徴量の加工処理の内容の組み合わせは、おのおの操作者が選択できるようにすることができる。また、効果の高い組み合わせをあらかじめ設定して、その設定された組み合わせを操作者に提供するようにしてもよい。   The combination of the content of the feature amount extraction process performed by the feature extraction unit 404 and the content of the feature amount extraction process performed by the processing unit 405 can be selected by each operator. Alternatively, a combination that is highly effective may be set in advance, and the set combination may be provided to the operator.

加工処理部405により加工処理された処理結果は、加工処理部405内の加工処理結果保持部408に保持される。加工処理結果保持部408に保持された加工処理結果は、出力部406により出力される。出力部406は、加工処理結果保持部408から内容を読み出し、画像表示や印刷出力をおこなう。   The processing result processed by the processing unit 405 is held in a processing result holding unit 408 in the processing unit 405. The processing result held in the processing result holding unit 408 is output by the output unit 406. The output unit 406 reads the contents from the processing result holding unit 408 and performs image display and print output.

ここで、特徴抽出部404により抽出される特徴(量)として、項目値に含まれる単語それぞれの出現回数を選択し、加工処理部405によりおこなわれる加工処理として、分類処理を選択した場合について説明する。   Here, the case where the number of appearances of each word included in the item value is selected as the feature (amount) extracted by the feature extraction unit 404 and the classification process is selected as the processing performed by the processing unit 405 will be described. To do.

一般的に、二つの文書があり、それら二つの文書を構成する単語の出現頻度が等しい場合、それら二つの文書の意味は似通っていると考えることができる。すなわち、ある文書での単語の出現回数は、その文書の意味に関係の深い特徴量であると考えることができる。したがって、単語の出現回数を特徴量として、複数の文書を分類した場合、それぞれの分類カテゴリには意味の近い文書が所属すると考えることができる。   Generally, when there are two documents and the appearance frequencies of the words constituting the two documents are equal, it can be considered that the meanings of the two documents are similar. In other words, the number of occurrences of a word in a document can be considered as a feature quantity closely related to the meaning of the document. Therefore, when a plurality of documents are classified using the number of occurrences of the word as a feature amount, it can be considered that documents having similar meanings belong to each classification category.

選択部403により選択された一つあるいは複数の項目値は、特徴抽出部404に含まれる解析部409よって項目値ごとに形態素解析等の自然言語解析をおこない、単語に分割される。また、それぞれの単語には、その単語の品詞情報も付与される。出現した単語のうち、名詞であるものに対して一意な単語IDを付与し、一つの項目値および選択部403により選択されたすべての項目値に対する単語IDごとの出現回数を計数する。   One or a plurality of item values selected by the selection unit 403 are subjected to natural language analysis such as morphological analysis for each item value by an analysis unit 409 included in the feature extraction unit 404, and divided into words. Each word is also given part-of-speech information of the word. Among the appearing words, a unique word ID is assigned to a noun, and the number of appearances for each word ID for one item value and all the item values selected by the selection unit 403 is counted.

特徴抽出部404に含まれる特徴ベクトル生成部410は、計数された出現回数に基づいて個々の項目値の特徴(量)を示す項目値特徴ベクトルを生成する。たとえば、選択部403により選択された項目値が、
「騒音が大きい」
「塗装が変色する」
「オーバーヒートが起こる」
「塗装がはげる」
「バッテリーが上がる」
「排気が黒い」
であった場合、各項目の特徴ベクトルは、図13に示すようになる。また、図14には、単語とその単語IDごとの出現回数を示す。
The feature vector generation unit 410 included in the feature extraction unit 404 generates an item value feature vector indicating the feature (amount) of each item value based on the counted number of appearances. For example, the item value selected by the selection unit 403 is
“Noisy”
"Paint changes color"
"Overheating occurs"
"Painting comes off"
"Battery goes up"
"The exhaust is black"
In this case, the feature vector of each item is as shown in FIG. FIG. 14 shows a word and the number of appearances for each word ID.

すなわち、
「騒音が大きい」 :{1 ,1 ,1 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 }
「塗装が変色する」 :{0 ,1 ,0 ,1 ,1 ,1 ,0 ,0 ,0 ,0 ,0 ,0 ,0 }
「オーバーヒートが起こる」:{0 ,1 ,0 ,0 ,0 ,0 ,1 ,1 ,0 ,0 ,0 ,0 ,0 }
「塗装がはげる」 :{0 ,1 ,0 ,1 ,0 ,0 ,0 ,0 ,1 ,0 ,0 ,0 ,0 }
「バッテリーが上がる」 :{0 ,1 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,0 ,0 }
「排気が黒い」 :{0 ,1 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 }
という特徴ベクトルが得られる。
That is,
“Noisy”: {1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0}
"Paint changes color": {0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0}
"Overheating occurs": {0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0}
"The paint peels off": {0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0}
“Battery goes up”: {0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0}
“The exhaust is black”: {0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1}
Is obtained.

この項目値の特徴ベクトルは、特徴抽出部404からの出力として加工処理部405へ送られる。加工処理部405においては、項目値の特徴ベクトルを用いて、分類処理をおこなう。分類処理は、まず、おのおののベクトル間の距離を計算することにより求める。距離の尺度には、たとえば内積を用いることができる。   The feature vector of this item value is sent to the processing unit 405 as an output from the feature extraction unit 404. In the processing unit 405, classification processing is performed using the feature vector of the item value. The classification process is first obtained by calculating the distance between the vectors. For example, an inner product can be used as a measure of the distance.

距離を計算した後、距離の近いものをまとめる処理をおこなう。この処理には、たとえばベクトルの集合をその距離に応じてK個のベクトルの集合に分類するK−means法を用いることができる。それぞれのベクトルの分類が完了したら、ベクトルに対応する項目値に対してどの分類に属するかの番号、すなわち、クラスタ番号と、項目値に対応する文書IDを付与し、加工処理部405の出力とし、出力部406により出力表示をおこなう。   After calculating the distance, the process of collecting the objects that are close to each other is performed. For this process, for example, a K-means method for classifying a set of vectors into a set of K vectors according to the distance can be used. When the classification of each vector is completed, the number of which classification belongs to the item value corresponding to the vector, that is, the cluster number and the document ID corresponding to the item value are given, and the output of the processing unit 405 The output unit 406 performs output display.

図15は、クラスタ番号1501を表示した画面の表示例を示す。クラスタ番号が同一番号である文書、たとえば、番号「1」および「6」の文書のクラスタ番号が「5」であり、両者が同一の分類に属することを示している。   FIG. 15 shows a display example of a screen displaying the cluster number 1501. The documents having the same cluster number, for example, the documents having the numbers “1” and “6” have the cluster number “5”, indicating that both belong to the same classification.

つぎに、請求項2の発明においてクロス表を出力する場合について説明する。入力部401により、分析対等とする文書群を読み込んだ後、操作者は分類処理をおこなう対象となる項目名、クロス表の横軸あるいは縦軸となる項目名、いくつに分類をおこなうかの分類数を指示する。   Next, a case where a cross table is output in the invention of claim 2 will be described. After reading a group of documents to be analyzed by the input unit 401, the operator classifies the item name to be subjected to classification processing, the item name on the horizontal or vertical axis of the cross table, and the number of classifications to be performed. Specify the number.

図16はクロス表作成のための指示画面である。図16において、指示画面1600は、処理対象項目名入力欄1601と、軸となる項目名入力欄1602と、縦軸指定ボタン1603と、横軸指定ボタン1604と、分類数入力欄1605とから構成される。   FIG. 16 is an instruction screen for creating a cross table. In FIG. 16, the instruction screen 1600 includes a processing target item name input field 1601, an item name input field 1602 serving as an axis, a vertical axis designation button 1603, a horizontal axis designation button 1604, and a classification number input field 1605. Is done.

処理対象項目名入力欄1601には、処理対象となる項目名を入力する。キーボード209等から入力するあるいは処理対象となる項目候補を表示させその中からマウス210等により選択することにより項目名を入力することができる。また、軸となる項目名入力欄1602には、軸となる項目名を入力する。入力の方法は、処理対象項目名入力欄1601への入力の方法と同様である。   In the processing target item name input field 1601, an item name to be processed is input. An item name can be input by inputting from the keyboard 209 or the like, or by displaying an item candidate to be processed and selecting it from the mouse 210 or the like. In addition, an item name to be an axis is input in an item name input field 1602 to be an axis. The input method is the same as the input method to the processing target item name input field 1601.

縦軸指定ボタン1603および横軸指定ボタン1604は、軸となる項目を縦軸に表示させるか横軸に表示させるかを指定するためのボタンである。また、分類数入力欄1605には、いくつに分類するかその分類数を入力する。入力の方法としては、キーボード209等から数字を入力するあるいは分類数候補を表示させその中からマウス210等により選択することにより分類数を入力するようにしてもよい。   The vertical axis designation button 1603 and the horizontal axis designation button 1604 are buttons for designating whether to display items on the vertical axis on the vertical axis or on the horizontal axis. In the number-of-classification input field 1605, the number of classifications is input. As an input method, the number of classifications may be input by inputting numbers from the keyboard 209 or the like, or by displaying candidates for the number of classifications and selecting them from the mouse 210 or the like.

図16においては、処理対象項目名入力欄1601には「内容」が、軸となる項目名入力欄1602には「車種」が、また、横軸指定ボタン1604がチェックされ、分類数入力欄1605には「50」が入力され、これにより、文書群の中の「内容」に基づいて、「50(個)」に分類され、クロス表の横軸に「車種」を表示するという指示がなされていることがわかる。   In FIG. 16, “content” is checked in the processing target item name input field 1601, “car type” is checked in the item name input field 1602 serving as the axis, and the horizontal axis designation button 1604 is checked, and the classification number input field 1605 is checked. “50” is input to the field, and based on the “content” in the document group, it is classified as “50 (pieces)”, and an instruction to display “vehicle type” on the horizontal axis of the cross table is given. You can see that

クロス表作成の指示がおこなわれることにより、分類処理が実行され、その結果がクロス表で表示される。図17および図18は、分類処理の結果が表示されたクロス表を示す図である。図17において、クロス表1700は、縦軸に分類を示す「クラスタ1」、「クラスタ2」...が表示され、横軸に車種を示す「ABC1600」、「ABC1800」...が表示される。   By instructing creation of a cross table, classification processing is executed, and the result is displayed in a cross table. 17 and 18 are diagrams showing a cross table on which the result of the classification process is displayed. In FIG. 17, the cross table 1700 includes “cluster 1”, “cluster 2”. . . "ABC1600", "ABC1800", etc. indicating the vehicle type on the horizontal axis. . . Is displayed.

表の縦軸、すなわち各行は、分類処理により生成されたクラスタに対応する。各行の第1欄には、分類処理終了時には既定値としてクラスタ番号を示す文字列が入っている。表の横軸、すなわち各欄には、文書群の項目「車種」に含まれる文字列が重複することなく表示される。行「クラスタ1」の各セルには、クラスタ1に分類された文書のうち、項目「車種」の値がその欄の車種と一致するものの数が表示される。   The vertical axis of the table, that is, each row corresponds to a cluster generated by the classification process. The first column of each line contains a character string indicating the cluster number as a default value at the end of the classification process. On the horizontal axis of the table, that is, in each column, the character strings included in the item “car type” of the document group are displayed without duplication. In each cell of the row “cluster 1”, the number of documents classified as cluster 1 whose item “car type” matches the car type in the column is displayed.

ここで、数を表示する代わりに、セルの色の濃淡や、セルを塗りつぶす面積により数の大きさを表現するようにしてもよい。また、表の最右欄および最下欄には、該当する行、欄の合計が表示される。   Here, instead of displaying the number, the size of the number may be expressed by the shade of the cell color or the area where the cell is filled. In the rightmost column and the lowermost column of the table, the totals of the corresponding rows and columns are displayed.

図18において、クロス表1700のあるセルにマウスポインタ1800を移動させ、マウス210のマウスボタンを押下する、あるいはキーボード209のカーソルキー操作によりカーソルを移動させ、特定キーを押下すると、そのセルの近傍に内容表示画面1801が表示されることにより、該当する文書の項目「内容」が表示される。   In FIG. 18, when the mouse pointer 1800 is moved to a certain cell in the cross table 1700 and the mouse button of the mouse 210 is pressed or the cursor is moved by the cursor key operation of the keyboard 209 and the specific key is pressed, the vicinity of the cell is displayed. By displaying the content display screen 1801, the item “content” of the corresponding document is displayed.

内容表示画面1801には、セル内のデータ数、表示項目、セル情報、および、各データにおける表示項目の内容が表示される。マウスポインタ1800により指定されたセルにおいては、データ数:「4」、表示項目:「内容」、セル情報:「ABC2000−クラスタ1」、表示項目の内容として「内容」の4つの内容である「排気が黒い、排気が黒い、...」が表示される。これにより、マウスポインタを所望のセルに移動させてマウスボタンを押下するという簡易な操作により、セルの内容を認識することができる。   The content display screen 1801 displays the number of data in a cell, display items, cell information, and the contents of display items in each data. In the cell designated by the mouse pointer 1800, the number of data is “4”, the display item is “content”, the cell information is “ABC2000-cluster 1”, and the content of the display item is “content”. “The exhaust is black, the exhaust is black,” is displayed. Thus, the contents of the cell can be recognized by a simple operation of moving the mouse pointer to a desired cell and pressing the mouse button.

また、内容表示画面1801に表示される項目は、設定操作により変更することが可能であり、すべての項目を表示させることもでき、また、項目を選択して表示させることもできる。   The items displayed on the content display screen 1801 can be changed by a setting operation, and all items can be displayed, or items can be selected and displayed.

各行の第1欄には、分類処理終了時には既定値としてクラスタ番号を示す文字列が入っているが、操作者により、この欄の書き換えをすることができる。たとえば、上記の操作によってセルの内容を確認した後、「クラスタ1」を「排気の問題」と書き換えることができる。これにより、情報内容の把握がより容易になる。   The first column of each line contains a character string indicating the cluster number as a default value at the end of the classification process, but this column can be rewritten by the operator. For example, after confirming the contents of the cell by the above operation, “cluster 1” can be rewritten as “exhaust problem”. This makes it easier to understand the information content.

また、分類終了時に既定値としてクラスタ番号を示す文字列を入れるのではなく、そのクラスタの特徴を示す文字列を抽出し、セルに入れることも可能である。たとえば、クラスタ1に含まれる文書の項目「内容」から、もっとも頻度が高く出現する文や単語を抽出することにより実現する。   Further, instead of entering a character string indicating a cluster number as a default value at the end of classification, it is possible to extract a character string indicating the characteristics of the cluster and put it in a cell. For example, it is realized by extracting a sentence or word that appears most frequently from the item “content” of documents included in the cluster 1.

図18においては、クラスタ1には「排気が黒い」あるいは「排気」等の単語が入れられる。このように、操作者は簡易な操作により文書全体の分布状態を把握するだけでなく、必要に応じて個々の文書の内容をも詳細に知ることができる。   In FIG. 18, words such as “exhaust is black” or “exhaust” are entered in cluster 1. In this way, the operator can not only grasp the distribution state of the entire document by a simple operation, but can also know the contents of individual documents in detail as necessary.

つぎに、クロス表を作成するための出力部406の詳細な構成の内容について説明する。図19は、実施の形態1による文書処理装置の出力部406の詳細な構成を示すブロック図である。出力部406は、グラフ描画部407のほかに、項目値選定部1901、集計部1902とから構成され、集計部はさらに実際に表示する内容に対応した記憶領域を持つ表保持部1903を備えている。   Next, the details of the configuration of the output unit 406 for creating a cross table will be described. FIG. 19 is a block diagram illustrating a detailed configuration of the output unit 406 of the document processing apparatus according to the first embodiment. In addition to the graph drawing unit 407, the output unit 406 includes an item value selection unit 1901 and a totaling unit 1902. The totaling unit further includes a table holding unit 1903 having a storage area corresponding to the content to be actually displayed. Yes.

項目値選定部1901は、操作者がクロス表の一つの軸として指定した項目名(軸項目名)に対して、文書記憶部402に記憶された文書データから、項目値を順次読み出し、重複のない項目値の集合を作成する。また、集計部1902は、表保持部1903の項目値に対応する領域に数値を加算することにより文書の集計をおこなう。   The item value selection unit 1901 sequentially reads item values from the document data stored in the document storage unit 402 for the item name (axis item name) designated as one axis of the cross table by the operator, Create a set of missing field values. The totaling unit 1902 adds the numerical values to the area corresponding to the item value of the table holding unit 1903 and totals the documents.

つぎに、クロス表の出力手順について説明する。図20は、実施の形態1による文書処理装置のクロス表の出力手順を示すフローチャートである。図20のフローチャートにおいて、まず、集計に先立ち、表保持部1903の内容を初期化する(ステップS2001)。   Next, the procedure for outputting the cross table will be described. FIG. 20 is a flowchart showing a cross table output procedure of the document processing apparatus according to the first embodiment. In the flowchart of FIG. 20, first, the contents of the table holding unit 1903 are initialized prior to aggregation (step S2001).

つぎに、項目値設定部1901により作成された項目値を、表の項目値ラベルに相当する部分に当てはめ(ステップS2002)、クラスタ番号を表す文字列を、クラスタ番号に相当する部分に当てはめる(ステップS2003)。   Next, the item value created by the item value setting unit 1901 is applied to the portion corresponding to the item value label in the table (step S2002), and the character string representing the cluster number is applied to the portion corresponding to the cluster number (step S2002). S2003).

つぎに、加工処理結果保持部408に保持された項目値に対応する文書IDについて、文書記憶部402に記憶された対応する文書を参照し、その軸項目名に対応する項目値を決定する(ステップS2004)。その後、表保持部1903の対応する領域の内容に1を加算する(ステップS2005)。   Next, for the document ID corresponding to the item value held in the processing result holding unit 408, the corresponding document stored in the document storage unit 402 is referred to, and the item value corresponding to the axis item name is determined ( Step S2004). Thereafter, 1 is added to the contents of the corresponding area of the table holding unit 1903 (step S2005).

すべての項目値について上記処理をおこなったか否かを判断し(ステップS2006)、すべての項目値について上記処理がおこなわれていない場合(ステップS2006否定)は、ステップS2004へ移行し、ステップS2004〜S2006の処理を繰り返しおこなう。   It is determined whether or not the above processing has been performed for all item values (step S2006). If the above processing has not been performed for all item values (No in step S2006), the process proceeds to step S2004, and steps S2004 to S2006. Repeat the process.

ステップS2006において、すべての項目値について上記処理がおこなわれた場合(ステップS2006肯定)は、最右列に表示するための行の合計を計算し(ステップS2007)、併せて、最下行に表示するための欄の合計を計算する(ステップS2008)。   In step S2006, when the above-described processing has been performed for all item values (Yes in step S2006), the total number of rows to be displayed in the rightmost column is calculated (step S2007) and displayed together in the bottom row. The sum of the fields for the calculation is calculated (step S2008).

その後、表保持部1903に構成された表を、順次読み出して出力し(ステップS2009)、すべての処理を終了する。   Thereafter, the tables configured in the table holding unit 1903 are sequentially read and output (step S2009), and all the processes are terminated.

なお、加工処理部405から出力されたデータを、文書記憶部402に送り、文書記憶部402に他のデータとともに記憶するように構成してもよい。文書記憶部402に記憶された加工処理部405から出力されたデータは、出力部406によって表の新たな列として表示することができる。また、表の既存の列を消去し、消去した列へ上書きするようにしてもよい。   Note that the data output from the processing unit 405 may be sent to the document storage unit 402 and stored together with other data in the document storage unit 402. Data output from the processing unit 405 stored in the document storage unit 402 can be displayed as a new column in the table by the output unit 406. Alternatively, an existing column of the table may be deleted and overwritten on the deleted column.

この構成では、処理の結果である加工処理部405から出力されたデータは、文書記憶部402において、今回の加工処理の対象とならなかった他のデータと対等に取り扱うことができ、その後の分析作業等で、もともとの入力データに存在していたか、分析作業の途中で加工処理によって生成されたのかを区別することなく、加工処理の対象として選択することが可能である。   In this configuration, the data output from the processing unit 405, which is the result of the processing, can be handled in the document storage unit 402 on an equal basis with other data that is not the target of the current processing, and the subsequent analysis It is possible to select the target of the processing without distinguishing whether it was present in the original input data or generated by the processing during the analysis operation.

したがって、データの性質や、おこないたい情報分析作業の内容に応じて柔軟に加工処理対象と加工処理内容を選択することができるので、多彩で高度な情報分析作業が可能となる。   Therefore, the processing target and the processing content can be selected flexibly according to the nature of the data and the content of the information analysis operation to be performed, so that a variety of advanced information analysis operations can be performed.

また、加工処理部405への入力データとして、特徴抽出部404から出力されたデータだけではなく、選択部403により選択されたデータも含めることができる。これにより、文字列の特徴抽出を必要としないデータや、加工処理結果の数値に対してもさらなる加工処理を施すことができるので、より多彩で高度な情報分析が可能となる。   Further, as input data to the processing unit 405, not only data output from the feature extraction unit 404 but also data selected by the selection unit 403 can be included. As a result, it is possible to perform further processing on data that does not require character string feature extraction and on the numerical value of the processing result, thereby enabling more diverse and advanced information analysis.

図21〜図24は、実施の形態1による文書処理装置の出力部406による画面表示の別の例を示す説明図である。図21において、「番号」、「受付日」、「営業所」、「車種」、「年式」、「内容」の他に、分類処理により得られた結果である「クラスタ番号」2101が表示されている。   FIGS. 21 to 24 are explanatory diagrams showing another example of screen display by the output unit 406 of the document processing apparatus according to the first embodiment. In FIG. 21, in addition to “number”, “reception date”, “sales office”, “vehicle type”, “year”, “content”, “cluster number” 2101 which is a result obtained by the classification process is displayed. Has been.

さらに、図21においては、選択部403により「クラスタ番号」2101が選択されており、「クラスタ番号」2101に関するデータが反転表示されている。選択された「クラスタ番号」2101をキーとして、加工処理部405により並べ替え処理をおこなうよう指示をする。   Further, in FIG. 21, the “cluster number” 2101 is selected by the selection unit 403, and the data related to the “cluster number” 2101 is highlighted. Using the selected “cluster number” 2101 as a key, the processing unit 405 instructs the rearrangement process to be performed.

並べ替え処理の指示により、並べ替え処理がおこなわれた結果を表示しているのが図22である。図22においては、「クラスタ番号」が「1」のものが集まって表示されるように並べ替えられ、それに続き、「クラスタ番号」が「2」のものが集まって表示されるように並び替えられる。   FIG. 22 shows the result of the rearrangement process in accordance with the rearrangement process instruction. In FIG. 22, rearrangement is made so that the “cluster number” of “1” is collected and displayed, and subsequently, rearrangement is made so that the “cluster number” of “2” is gathered and displayed. It is done.

具体的には、「クラスタ番号」が「1」である「番号」が「2」、「11」、「15」、「23」、「35」、「54」、「63」、「73」、「82」の順で並べ替えられ、それに続き「クラスタ番号」が「2」である「番号」が「14」、「18」、「22」、「27」、「37」、...が表示されていることがわかる。   Specifically, the “cluster number” is “1” and the “number” is “2”, “11”, “15”, “23”, “35”, “54”, “63”, “73”. , “82”, “cluster number” is “2”, and “number” is “14”, “18”, “22”, “27”, “37”,. . . It can be seen that is displayed.

つぎに、項目「車種」の欄で、「クラスタ番号」が「1」に属するものを選択する。図23においては、項目「車種」の欄で、「クラスタ番号」が「1」に属するものが選択され、その選択領域2301が反転表示されていることを示している。このように、すでに「クラスタ番号」により並べ替えがおこなわれており、同一クラスタに属するものが集まって表示されているので、画面上の連続した領域として容易に選択することができる。   Next, in the column of the item “vehicle type”, the one whose “cluster number” belongs to “1” is selected. FIG. 23 shows that the item “vehicle type” in which the “cluster number” belongs to “1” is selected, and the selection area 2301 is highlighted. As described above, the “cluster numbers” have already been rearranged, and the objects belonging to the same cluster are displayed together, so that they can be easily selected as continuous areas on the screen.

つぎに、選択領域2301について車種別の発生頻度の棒グラフを表示させたのが、図24である。図24において、棒グラフ表示領域2401には、選択領域2301によって選択された「クラスタ番号」が「1」である9つの文書が選択され、その9つの文書を車種別に棒グラフ化したものが表示される。   Next, FIG. 24 shows a bar graph of the occurrence frequency of the vehicle type in the selection area 2301. In FIG. 24, nine documents with “cluster number” “1” selected in the selection area 2301 are selected in the bar graph display area 2401, and the nine documents are displayed as a bar graph according to vehicle type. .

このように、加工処理の対象を柔軟かつ容易に選択でき、選択された対象について多様な加工処理をおこなうことができ、また、その加工処理結果も次回の加工処理の対象とすることができるので、高度な情報分析作業が可能となる。   In this way, the processing target can be selected flexibly and easily, various processing can be performed on the selected target, and the processing result can be the target of the next processing. Advanced information analysis work becomes possible.

このように、分類等の文字列の特徴量を抽出して、その特徴量を用いておこなう加工処理を実施した後に多種の加工処理をおこなう例を示したが、事前に多種の処理をおこなうことができるようにしてもよい。   In this way, examples of performing various types of processing after extracting feature values of character strings such as classification and performing processing using the feature amounts have been shown, but performing various types of processing in advance You may be able to.

たとえば、「車種」の項目を選択し、これをキーとして並べ替えをおこなった後、集まったある車種、たとえば、「ABC1600」に対して分類処理をおこなうこともできる。また、入力部401により入力された文書が誤字等の誤りを含んでいる場合、分類等の文字列の特徴量を抽出して、その特徴量を用いて加工処理をおこなう前に、たとえば、文字列の検索・置換処理をおこなって、誤字を一括して修正し、より好適な結果が得られるようにデータを整えることもできる。   For example, after selecting the item “vehicle type” and rearranging it using this as a key, classification processing may be performed on a certain vehicle type collected, for example, “ABC1600”. In addition, when a document input by the input unit 401 includes an error such as a typographical character, before extracting a feature amount of a character string such as a classification and performing processing using the feature amount, for example, a character By performing column search / replacement processing, typographical errors can be corrected in a lump, and data can be arranged so that more favorable results can be obtained.

図25は、実施の形態1による文書処理装置の文書記憶部402の詳細な構成を示すブロック図である。図25において、文書記憶部402は、設定値記憶部2501および設定値送受信部2502を含んでいる。設定値記憶部2501には、文書を分類する際の分類数等の分類情報記憶部2503をはじめとするさまざな設定値、すなわち文書処理装置の動作に必要な設定値に関する情報を記憶する記憶部を備えている。これにより設定値に関する情報は、文書情報とともに記憶することができる。   FIG. 25 is a block diagram showing a detailed configuration of the document storage unit 402 of the document processing apparatus according to the first embodiment. 25, the document storage unit 402 includes a setting value storage unit 2501 and a setting value transmission / reception unit 2502. The setting value storage unit 2501 stores various setting values such as the classification information storage unit 2503 such as the number of classifications for classifying documents, that is, information on setting values necessary for the operation of the document processing apparatus. It has. Thereby, the information regarding the set value can be stored together with the document information.

また、設定値送受信部2502は、設定値記憶部2501によって記憶された設定値に関する情報を他の情報処理装置へ送信する。また、設定値送受信部2502は、他の情報処理装置からの設定値に関する情報を受信する。設定値送受信部2502により受信された設定値に関する情報は、設定値記憶部2501によって記憶される。   Also, the setting value transmission / reception unit 2502 transmits information on the setting value stored by the setting value storage unit 2501 to another information processing apparatus. In addition, the setting value transmission / reception unit 2502 receives information on setting values from other information processing apparatuses. Information on the setting value received by the setting value transmission / reception unit 2502 is stored in the setting value storage unit 2501.

記憶された設定値に関する情報は、後に文書を再度読み込んだときに同時に読み込まれ設定値記憶部2501に記憶される。この設定値に関する情報は操作者が所定の操作をすることにより参照することができたり、以後の処理の際に、再利用することができる。これにより、設定値に関する情報を文書とともに保存・管理することが可能となるので、設定値に関する情報の紛失を防ぎ、好適な設定値を後に再利用することができる。   Information regarding the stored setting value is read at the same time when the document is read again later and stored in the setting value storage unit 2501. Information on the set value can be referred to by an operator performing a predetermined operation, or can be reused in subsequent processing. As a result, it becomes possible to store and manage information related to the setting values together with the document, so that loss of information related to the setting values can be prevented and suitable setting values can be reused later.

図26〜図28は、実施の形態1による文書処理装置の出力部406による画面表示の別の例を示す説明図である。図26において、まず、操作者が分類をおこなうべき対象である「内容」を表示画面上で選択する。それにより選択領域2601が反転表示される。つぎに、メニュー・バー2603から、分類処理ボタン2603を選択すると、分類処理に必要な分類数、すなわち、対象をいくつに分類するかについての問い合わせ画面2604が表示される。   26 to 28 are explanatory diagrams illustrating another example of screen display by the output unit 406 of the document processing apparatus according to the first embodiment. In FIG. 26, first, the “content” that is an object to be classified by the operator is selected on the display screen. As a result, the selection area 2601 is highlighted. Next, when a classification processing button 2603 is selected from the menu bar 2603, an inquiry screen 2604 about the number of classifications necessary for the classification processing, that is, how many the objects are classified is displayed.

操作者が問い合わせ画面2604において分類数を入力すると、この分類数に関する情報が文書記憶部402に記憶される。図26においては、分類数として「50」が入力されたことを示している。   When the operator inputs the number of classifications on the inquiry screen 2604, information regarding the number of classifications is stored in the document storage unit 402. In FIG. 26, “50” is input as the number of classifications.

その後、操作者が情報分析作業を完了して、メニュー・バー2603のファイルボタン2605の選択によりポップアップする図示を省略する保存ボタンを押下すると、文書記憶部402により、操作者が指示したファイル名が付与され、文書の情報、分類結果とともに記憶される。   Thereafter, when the operator completes the information analysis work and presses a save button (not shown) that pops up when the file button 2605 of the menu bar 2603 is selected, the file name designated by the operator is displayed by the document storage unit 402. Assigned and stored together with document information and classification results.

図27において、分類結果を表示する欄2701にマウスポインタ2702を移動させ、マウスボタンを押下すると、その分類をおこなうことに用いた分類に関する情報および分類設定値に関する情報を表示する分類情報表示画面2703が表示される。これにより、用いた設定値の関連づけが容易に把握することができる。   In FIG. 27, when a mouse pointer 2702 is moved to a column 2701 for displaying a classification result and a mouse button is pressed, a classification information display screen 2703 that displays information related to classification and information related to classification setting values used for performing the classification. Is displayed. Thereby, the association of the used setting values can be easily grasped.

分類情報表示画面2703には、たとえば、分類に関する情報として分類がおこなわれた日時に関する情報を示す「分類日時」、分類の対象となった文書数に関する情報を示す「分類対象数」等が表示され、また、分類設定値に関する情報として、いくつに分類したかを示す「分類数」、どの品詞に基づいて分類をしたかを示す「分類品詞」等が表示される。   The classification information display screen 2703 displays, for example, “classification date” indicating information regarding the date and time when classification is performed as information regarding classification, “number of classification targets” indicating information regarding the number of documents targeted for classification, and the like. Further, as the information regarding the classification setting value, “classification number” indicating how many are classified, “classification part of speech” indicating the classification based on which part of speech, and the like are displayed.

分類処理を実行するたびに新規な表が作成される。図28は、分類結果1を得た後、再度分類処理がおこなわれ、分類結果2が表示された状態を示している。分類結果1を再度表示させたい場合は、画面左下部のラベル上の選択領域2801へマウスポインタを移動させ、マウスボタンを押下する。これにより、分類結果1が再度表示される。その後、分類結果2を再度表示させる場合も同様の操作によりおこなうことができる。   A new table is created each time the classification process is executed. FIG. 28 shows a state where the classification result 1 is displayed after the classification result 1 is obtained and the classification result 2 is displayed. In order to display the classification result 1 again, the mouse pointer is moved to the selection area 2801 on the label at the lower left of the screen, and the mouse button is pressed. Thereby, the classification result 1 is displayed again. Thereafter, when the classification result 2 is displayed again, the same operation can be performed.

また、図28において、各分類処理の実行に用いた設定値に関する情報が対応する表の所定の表示領域2802に表示される。この表示領域2802は、分類結果の表示を隠さないように表示させることができ、また、その表示位置を移動することもできる。これにより、分類結果と、それに用いた設定値の関連づけが容易に把握できる。   Also, in FIG. 28, information regarding the set value used for executing each classification process is displayed in a predetermined display area 2802 of the corresponding table. The display area 2802 can be displayed so as not to hide the display of the classification result, and the display position can be moved. Thereby, the association between the classification result and the setting value used for it can be easily grasped.

つぎに、実施の形態1における文書処理装置の文書処理の一連の手順について説明する。図29は、実施の形態1による文書処理装置の文書処理の一連の手順を示すフローチャートである。   Next, a series of document processing procedures of the document processing apparatus according to the first embodiment will be described. FIG. 29 is a flowchart showing a series of document processing procedures of the document processing apparatus according to the first embodiment.

図29のフローチャートにおいて、まず、文書データが文書処理装置に入力されたか否かを判断する(ステップS2901)。ここで、文書データが入力されるのを待って、文書データが入力された場合(ステップS2901肯定)は、入力された文書データを記憶する(ステップS2902)。なお、ステップS2901およびS2902の各ステップは、文書の入力があるごとに他のステップとは独自におこなわれるようにしてもよい。   In the flowchart of FIG. 29, first, it is determined whether or not document data is input to the document processing apparatus (step S2901). When the document data is input after waiting for the input of the document data (Yes at step S2901), the input document data is stored (step S2902). Note that each of steps S2901 and S2902 may be performed independently of other steps each time a document is input.

つぎに、記憶された文書データの全部または一部が選択されたか否かを判断する(ステップS2903)。ここで、文書データの全部または一部が選択されるのを待って、選択された場合(ステップS2903肯定)は、選択された文書データの全部または一部の文字列の特徴に関するデータの抽出をおこなう(ステップS2904)。   Next, it is determined whether all or a part of the stored document data has been selected (step S2903). If all or part of the document data is selected and selected (Yes in step S2903), data relating to the character string characteristics of all or part of the selected document data is extracted. Perform (step S2904).

その後、ステップS2904において、抽出された文字列の特徴に関するデータに基づいて、分類処理等、所定の加工処理をおこなう(ステップS2905)。続いて、ステップS2905において加工処理がおこなわれたデータを、表形式に展開する等の出力処理をおこなう(ステップS2906)。   After that, in step S2904, predetermined processing such as classification processing is performed based on the data relating to the extracted character string characteristics (step S2905). Subsequently, an output process such as expanding the data processed in step S2905 into a table format is performed (step S2906).

さらに、ステップS2905において加工処理されてデータを元の文書データに関連づけして記憶する(ステップS2907)。また、加工処理の設定値等の加工処理の内容に関するデータも併せて記憶する(ステップS2908)。   Further, the data processed in step S2905 is stored in association with the original document data (step S2907). In addition, data related to the content of the machining process such as a set value of the machining process is also stored (step S2908).

その後、ステップS2905において加工処理されたデータの全部または一部が選択されたか否かを判断し(ステップS2908)、選択されなかった場合(ステップS2909否定)は、ステップS2904へ移行し、以後、ステップS2904〜S2909の処理を繰り返しおこなう。一方、ステップS2909において、加工処理されたデータの全部または一部が選択された場合(ステップS2909肯定)は、すべての処理を終了する。   Thereafter, it is determined whether or not all or part of the data processed in step S2905 has been selected (step S2908). If not selected (NO in step S2909), the process proceeds to step S2904, and thereafter, step The processing from S2904 to S2909 is repeated. On the other hand, if all or part of the processed data is selected in step S2909 (Yes in step S2909), all the processes are terminated.

なお、実施の形態1で説明した文書処理方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーション等のコンピュータで実行することにより実現される。このプログラムは、ハードディスク、フロッピーディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、上記記録媒体を介して、または伝送媒体として、インターネット等のネットワークを介して配布することができる。   The document processing method described in the first embodiment is realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. This program is recorded on a computer-readable recording medium such as a hard disk, floppy disk, CD-ROM, MO, and DVD, and is executed by being read from the recording medium by the computer. The program can be distributed through the recording medium or as a transmission medium via a network such as the Internet.

つぎに、実施の形態2〜6に係る情報分類装置について説明する。なお、以下説明する実施の形態2〜6においては、上記のように多くのノイズを含んだものであるとの解釈に基づいて、一回の文書集合からの話題(内容)抽出と位置づけ、文書分類のためのパラメータ(対象文書集合やクラスタ数、類似度測度、ストップワード等)を変化させながら複数化の分類を実行させ、その結果を保持・統合する手段を設けることで、任意の文書集合にどのような内容が含まれるかを漸次的に収集するものである。   Next, information classification apparatuses according to Embodiments 2 to 6 will be described. In Embodiments 2 to 6 to be described below, based on the interpretation that it contains a lot of noise as described above, it is positioned as topic (content) extraction from a single document set, and the document Arbitrary document sets can be created by providing a means to execute classification classification while changing the parameters for classification (target document set, number of clusters, similarity measure, stop word, etc.), and to retain and integrate the results. The contents of what are included in the are collected gradually.

〔実施の形態2〕
この発明の実施の形態2に係る文書分類装置を構成する情報処理システムは、図1に示したように実施の形態1の情報処理システムと同様であるので、その説明は省略する。また、サーバー101およびクライアント102のハードウエア構成についても、図2・図3に示したように実施の形態1と同様であるので、その説明は省略する。
[Embodiment 2]
The information processing system constituting the document classification apparatus according to the second embodiment of the present invention is the same as the information processing system according to the first embodiment as shown in FIG. The hardware configurations of the server 101 and the client 102 are the same as those in the first embodiment as shown in FIGS.

つぎに、実施の形態2による文書分類装置の機能的構成について説明する。図30は、実施の形態2による文書分類装置の構成を機能的に示すブロック図である。   Next, a functional configuration of the document classification apparatus according to the second embodiment will be described. FIG. 30 is a block diagram functionally showing the configuration of the document classification apparatus according to the second embodiment.

図30のブロック図において、文書分類装置は、入力部3001と、言語解析部3002と、ベクトル生成部3003と、分類部3004と、分類パラメータ指示部3005と、分類結果記憶部3006と、クラスタ特徴表示部3007と、クラスタ特徴算出部3008と、分類体系記憶部3009と、クラスタ選択指示部3010と、分類体系閲覧操作部3011と、を含む構成である。   In the block diagram of FIG. 30, the document classification apparatus includes an input unit 3001, a language analysis unit 3002, a vector generation unit 3003, a classification unit 3004, a classification parameter instruction unit 3005, a classification result storage unit 3006, and a cluster feature. The display unit 3007 includes a cluster feature calculation unit 3008, a classification system storage unit 3009, a cluster selection instruction unit 3010, and a classification system browsing operation unit 3011.

入力部3001、言語解析部3002、ベクトル生成部3003、分類部3004、分類パラメータ指示部3005、分類結果記憶部3006、クラスタ特徴表示部3007、クラスタ特徴算出部3008、分類体系記憶部3009、クラスタ選択指示部3010、分類体系閲覧操作部3011は、ROM202または302、RAM203または303、あるいはディスク装置306またはハードディスク316等の記録媒体に記録されたプログラムに記載された命令にしたがってCPU201または301等が命令処理を実行することにより、各部の機能を実現する。   Input unit 3001, language analysis unit 3002, vector generation unit 3003, classification unit 3004, classification parameter instruction unit 3005, classification result storage unit 3006, cluster feature display unit 3007, cluster feature calculation unit 3008, classification system storage unit 3009, cluster selection The instruction unit 3010 and the classification system browsing operation unit 3011 are processed by the CPU 201 or 301 according to instructions described in a program recorded in a recording medium such as the ROM 202 or 302, the RAM 203 or 303, or the disk device 306 or the hard disk 316. By executing the above, the function of each part is realized.

ここで、入力部3001は、文書データを入力するものであり、たとえば、キーボード209または311、スキャナ313、OCR機能を備えたスキャナ313、またはネットワーク103を経由して文書や文書群を得ることができるI/F204または309等である。   Here, the input unit 3001 inputs document data. For example, a document or a document group can be obtained via the keyboard 209 or 311, the scanner 313, the scanner 313 having the OCR function, or the network 103. I / F 204 or 309 that can be used.

また、入力部3001は、上記以外に、文書データを取得することができるものであれば、それらのすべてを含む。たとえば、文書データがデータベース化されている場合に、そのデータベースが記録された媒体を本実施の形態の文書分類装置に組み入れた場合も文書データの入力とする。   In addition to the above, the input unit 3001 includes all of them as long as it can acquire document data. For example, when the document data is stored in a database, the document data is also input when the medium in which the database is recorded is incorporated in the document classification apparatus according to the present embodiment.

また、言語解析部3002は、入力部3001により入力された文書データを解析して言語解析情報を得るものであり、ベクトル生成部3003は、言語解析部3002により得られた言語解析情報に基づいて前記文書データに対する文書特徴ベクトルを生成するものである。   The language analysis unit 3002 analyzes the document data input by the input unit 3001 and obtains language analysis information. The vector generation unit 3003 is based on the language analysis information obtained by the language analysis unit 3002. A document feature vector for the document data is generated.

また、分類部3004は、ベクトル生成部3003により生成された文書特徴ベクトル間の類似度に基づいて文書を分類し、文書の部分集合を生成するものであり、分類パラメータ指示部3005は、分類パラメータを指示するものであり、たとえば、キーボード209または311、マウス210または312、またはネットワーク103を経由して指示情報を得ることができるI/F204または309等である。   The classification unit 3004 classifies the document based on the similarity between the document feature vectors generated by the vector generation unit 3003, and generates a subset of the document. The classification parameter instruction unit 3005 includes a classification parameter For example, the keyboard 209 or 311, the mouse 210 or 312, or the I / F 204 or 309 that can obtain the instruction information via the network 103.

また、分類結果記憶部3006は、分類部3004により分類された結果、すなわち、分類された文書の部分集合に関する情報を記憶するものである。また、クラスタ特徴表示部3007は、クラスタ特徴算出部3008により算出されたクラスタ特徴を表示する。   The classification result storage unit 3006 stores the result of classification by the classification unit 3004, that is, information related to a subset of classified documents. The cluster feature display unit 3007 displays the cluster feature calculated by the cluster feature calculation unit 3008.

クラスタ特徴算出部3008は、分類部3004により生成された文書の部分集合の特徴であるクラスタ特徴を算出するものである。また、分類体系記憶部3009は、クラスタ特徴算出部3008により算出されたクラスタ特徴を分類体系の構成要素として記憶するものである。また、分類体系記憶部3009は、クラスタ選択指示部3010により選択された文書の部分集合を分類体系の構成要素として記憶するものである。すなわち、クラスタ選択指示部3010により選択されたクラスタに所属する全ての文書もしくは所属する文書の一部を分類体系の構成要素として記憶するものである。   The cluster feature calculation unit 3008 calculates a cluster feature that is a feature of a subset of documents generated by the classification unit 3004. The classification system storage unit 3009 stores the cluster features calculated by the cluster feature calculation unit 3008 as components of the classification system. The classification system storage unit 3009 stores a subset of documents selected by the cluster selection instruction unit 3010 as a component of the classification system. That is, all the documents belonging to the cluster selected by the cluster selection instruction unit 3010 or a part of the belonging documents are stored as components of the classification system.

クラスタ選択指示部3010は、クラスタ表示部3007により表示された複数のクラスタ特徴の中から所望のクラスタを選択するものである。また、クラスタ選択指示部3010は、前記分類部3004により生成された文書の部分集合の中から所望の部分集合を選択するものである。また、分類体系閲覧操作部3011は、分類体系記憶部3009に記憶されたデータを閲覧したい場合に、その閲覧の操作をおこなうものである。   The cluster selection instruction unit 3010 is for selecting a desired cluster from the plurality of cluster features displayed by the cluster display unit 3007. The cluster selection instruction unit 3010 selects a desired subset from the document subsets generated by the classification unit 3004. In addition, the classification system browsing operation unit 3011 performs a browsing operation when it is desired to browse data stored in the classification system storage unit 3009.

つぎに、文書集合に含まれる話題(内容)を抽出することが重要となる好適な例を、アンケート調査等により得られた自由記述回答の分析場面を想定し、その具体例を用いて説明する。   Next, a suitable example in which it is important to extract topics (contents) contained in a document set will be explained using a specific example, assuming an analysis situation of free description answers obtained by questionnaire surveys, etc. .

近年、たとえば、インターネット等を介して短期間に数千〜数万件の自由記述回答を回収することが可能であり、このような機能を用いて大量のテキスト情報の収集をおこなうことができる。   In recent years, for example, thousands to tens of thousands of free description answers can be collected in a short time via the Internet or the like, and a large amount of text information can be collected using such a function.

アンケート調査により得られた大量のテキスト情報の収集の例として、「オフィスのネットワーク化による無駄を挙げてください」という質問に対して文書で答えた一つの回答記述を文書とすると、文書集合(クラスタ)は1件ごとの回答の集合ということになる。   As an example of collecting a large amount of text information obtained from a questionnaire survey, if a document is a single answer description that is answered in response to the question “Please waste by networking the office”, a document set (cluster ) Is a set of responses for each case.

ここで、操作者(アンケートの分析者)は、そのニーズの一つとして、意見集合(文書集合)にどのような種類の意見(話題)が含まれており、意見の概略を把握したい場合がある。このようなニーズを満たすべく、話題の抽出を類似する意見のまとまり(分類)により実現し、アンケート結果にどのような種類の意見が含まれているかを抽出する。   Here, as one of the needs, the operator (questionnaire analyst) may know what kind of opinions (topics) are included in the opinion set (document set) and want to grasp the outline of the opinion. is there. In order to satisfy such needs, topic extraction is realized by a group (classification) of similar opinions, and what kind of opinions are included in the questionnaire result is extracted.

文書分類は、典型的には大きく分けてつぎの3段階のステップから構成される。第1ステップでは、入力部3001により入力された各文書(意見)について、言語解析部3002が、各文書に含まれる単語(あるいは、特定の連続する文字列)を抽出する。この際、たとえば、形態素形跡等の言語解析アルゴリズムが用いられる。   The document classification is typically roughly divided into the following three steps. In the first step, for each document (opinion) input by the input unit 3001, the language analysis unit 3002 extracts a word (or a specific continuous character string) included in each document. At this time, for example, a language analysis algorithm such as a morpheme trace is used.

第2ステップでは、抽出された単語を列とし、各文書を行とし、要素を単語の出現頻度とした「単語」×「文書」の行列が生成される。なお、一般的な形態素解析機能と構文解析機能を有する言語解析ツールを用いると単語抽出のほかに、単語の品詞情報、複合語(フレーズ)、構文情報等の同時に取得することができ、こうした情報を上記単語×文書の行列を生成する際、考慮することができる。   In the second step, a matrix of “word” × “document” is generated in which the extracted word is a column, each document is a row, and the element is an appearance frequency of the word. If you use a language analysis tool that has a general morphological analysis function and a syntax analysis function, in addition to word extraction, you can simultaneously acquire word part-of-speech information, compound words (phrases), syntax information, etc. Can be taken into account when generating the word × document matrix.

ベクトル生成部3003は、この「単語」×「文書」の行列に基づいて単語で構成される多次元空間内に各文書をベクトル表現する。これには、以下の方法があり、本実施の形態においては、すべての方法を実装している。   The vector generation unit 3003 represents each document as a vector in a multidimensional space composed of words based on the matrix of “word” × “document”. This includes the following methods, and all methods are implemented in the present embodiment.

(1)行列の列成分をそのまま利用する方法、
(2)各文書の長さ(文字の数やページ数等)や分類対象全体の文書集合内での各単語の出現頻度を考慮して値の重み付けをする方法、
(3)上記行列から文書間の内積行列を算出し、これに特異値分解(たとえば、因子分析や主成分分析、数量化理論第3類等を利用しておこなわれる)を適用して潜在的意味空間を構成する方法、
等である。
(1) A method of using matrix column components as they are,
(2) A method of weighting values in consideration of the length of each document (number of characters, number of pages, etc.) and the frequency of occurrence of each word in the document set of the entire classification target,
(3) Calculate an inner product matrix between documents from the above matrix and apply singular value decomposition (for example, using factor analysis, principal component analysis, quantification theory type 3 etc.) to this potential A method of constructing a semantic space,
Etc.

また、「Representating Documents Using an Explicit Model of Their Similarities(著者名:Brian T. Bartell, Garrison W. Cottrell, and Richard K. Belew, 論文名:Journal of the American Society for Information Science, 学会名:the American Society for Information Science,ページ:254−271,Vol.46 No.4, 発行年:1995)」においては、上記潜在的意味空間への変換手法を一般化し、文書間の内積行列に、文書が有するほかの文書への参照情報から生成される共参照情報などを付加した行列を用いて、これらの類似性を反映する空間へ文書や単語を射影するための表現空間変換関数を導出しているものもあり、この方法も利用することができる。   In addition, "Representating Documents Using an Explicit Model of Their Similarities (Author: Brian T. Bartell, Garrison W. Cottrell, and Richard K. Belew, paper name: Journal of the American Society for Information Science, Society name: the American Society "For Information Science, Page: 254-271, Vol. 46 No. 4, Publication year: 1995)", the conversion method to the above latent semantic space is generalized. Generated from reference information to other documents Some models derive expression space conversion functions for projecting documents and words to a space that reflects these similarities using a matrix with added co-reference information. it can.

第3ステップでは、分類部3004が、文書特徴ベクトルの類似度を用いて文書を分類する。具体的には分類対象データに対してカイ自乗法の手法、判別分析の方法、クラスタリングの方法等を適用することにより分類が実行される。   In the third step, the classification unit 3004 classifies the document using the similarity of the document feature vectors. Specifically, classification is performed by applying a chi-square method, a discriminant analysis method, a clustering method, or the like to the classification target data.

また、類似度としては、内積や余弦、ユークリッド距離、マハラノビスの距離等が考えられ、本実施の形態においては、いずれの方法を用いてもよい。   The similarity may be an inner product, cosine, Euclidean distance, Mahalanobis distance, or the like, and any method may be used in the present embodiment.

また、クラスタリングのアルゴリズムに関してもさまざまなものが公知になっている。クラスタリングは、大別して階層型クラスタリングと非階層型クラスタリングが考えられるが、本実施の形態においては、いずれの方法を用いてもよい。   Various clustering algorithms are also known. Clustering can be broadly divided into hierarchical clustering and non-hierarchical clustering, but any method may be used in the present embodiment.

また、分類パラメータ指示部3005は、分類部3004が文書特徴ベクトルを分類するための分類パラメータを指示する。分類部3004は、分類パラメータ指示部3005により指示された分類パラメータにしたがって内部に保持される文書特徴ベクトルを分類する。   The classification parameter instruction unit 3005 instructs a classification parameter for the classification unit 3004 to classify the document feature vector. The classification unit 3004 classifies the document feature vector held therein according to the classification parameter instructed by the classification parameter instruction unit 3005.

このようにして、第1ステップ〜第3ステップの各処理を実行することにより第1回目の文書分類が終了すると、分類結果は分類結果記憶部3006により保持される。   In this manner, when the first document classification is completed by executing the processes of the first step to the third step, the classification result is held in the classification result storage unit 3006.

引き続き、クラスタ特徴算出部3008が、分類結果がどのようなクラスタを得ることができたのかを示す特徴、すなわちクラス特徴を算出する。典型的には各クラスタに所属する文書、あるいはその文書の一部を算出するが、その際、クラスタの重心との類似度に基づいて文書をソーティングして出力する。   Subsequently, the cluster feature calculation unit 3008 calculates a feature indicating what kind of cluster the classification result has been obtained, that is, a class feature. Typically, a document belonging to each cluster or a part of the document is calculated. At this time, the documents are sorted and output based on the similarity to the center of gravity of the cluster.

そのほか、クラスタ内で最頻の単語、クラスタに所属する文書数、クラスタ内での文書のばらつきの程度を表すクラスタ内の標準偏差のような数値をクラスタの特徴を表現するものとして算出する。   In addition, numerical values such as the most frequent word in the cluster, the number of documents belonging to the cluster, and the standard deviation in the cluster representing the degree of variation of the documents in the cluster are calculated as the characteristics of the cluster.

これらのクラスタの特徴情報は、操作者に対して出力(表示)されたクラスタがどのようなもの(どのような特徴を有するもの)かを把握させるために算出されるものであり、操作者に対してクラスタの特徴を示すものであれば、上記の内容(特徴)以外のものであってもよい。   The feature information of these clusters is calculated so that the operator can understand what kind of cluster the output (displayed) cluster has (what kind of features it has). On the other hand, as long as it shows the characteristics of the cluster, it may be other than the above contents (features).

また、クラスタ特徴算出部3008は、上記のようにクラスタの特徴を示すもの以外に、クラスタ間の関係を示す情報も算出する。階層型クラスタリングの場合は、その上位あるいは下位のクラスタを、非階層型クラスタリングの場合は、クラスタ重心間の類似度に基づく近接のクラスタを算出する。   The cluster feature calculation unit 3008 also calculates information indicating the relationship between the clusters in addition to the cluster features as described above. In the case of hierarchical clustering, upper or lower clusters are calculated, and in the case of non-hierarchical clustering, adjacent clusters based on the similarity between cluster centroids are calculated.

つぎに、クラスタ特徴表示部3007によるクラスタ特徴の表示およびクラスタ選択の内容について説明する。図31は、実施の形態2による文書分類装置のクラスタ特徴表示部3007の表示の一例を示す説明図である。   Next, the cluster feature display and cluster selection contents by the cluster feature display unit 3007 will be described. FIG. 31 is an explanatory diagram illustrating an example of display on the cluster feature display unit 3007 of the document classification device according to the second embodiment.

図31において、クラスタ単位で操作者ができるようになっており、各クラスタは「クラスタID」欄3101、「メンバー数」欄3102、「頻度の高い単語」欄3103、「文書内容」欄3104、「重心との類似度」欄3105等の項目から構成される。   In FIG. 31, the operator can perform operations in units of clusters. Each cluster includes a “cluster ID” column 3101, a “number of members” column 3102, a “frequency word” column 3103, a “document content” column 3104, It consists of items such as “similarity with the center of gravity” column 3105.

「クラスタID」欄3101には、クラスタのIDを示す番号が通し番号で付与され、表示される。「メンバー数」欄3102はクラスタに所属する文書あるいは文書の一部の数が算出され、表示される。その中で頻度の高い単語が抽出され「頻度の高い単語」欄3103に表示される。「文書内容」欄3104には文書の内容が表示され、「重心との類似度」欄3105には、数値化された重心との類似度が表示される。これにより、操作者の理解容易性が向上する。   In the “cluster ID” column 3101, a number indicating a cluster ID is assigned as a serial number and displayed. In the “number of members” column 3102, the number of documents belonging to the cluster or a part of the documents is calculated and displayed. Among them, frequently used words are extracted and displayed in the “Frequently Used Words” column 3103. The “document content” column 3104 displays the content of the document, and the “similarity with the center of gravity” column 3105 displays the degree of similarity with the digitized center of gravity. Thereby, an operator's understanding ease improves.

操作者は、表示された情報(特徴量)に基づいてクラスタについてその特徴を把握することができる。ここで、内容(特徴)が理解可能なクラスタが一つでもあれば、操作者はクラスタ選択指示部3010によりクラスタを選択することができる。   The operator can grasp the feature of the cluster based on the displayed information (feature amount). Here, if there is even one cluster whose contents (features) can be understood, the operator can select a cluster by the cluster selection instruction unit 3010.

より具体的には、マウス210または312等によって、表示されているクラスタの所定の位置、たとえば、「クラスタID」欄3101へカーソル3110を移動させ、その位置でクリックすることにより、当該クラスタIDのクラスタ全体を選択することができる。なお、選択したクラスタに所属する文書は必ずすべてが選択されるわけではなく、その一部の文書が選択されるようにしてもよい。   More specifically, by moving the cursor 3110 to a predetermined position of the displayed cluster, for example, the “cluster ID” column 3101 with the mouse 210 or 312 or the like and clicking at that position, the cluster ID of the cluster ID is displayed. The entire cluster can be selected. Note that not all of the documents belonging to the selected cluster are necessarily selected, and some of the documents may be selected.

図31においては、「クラスタID」欄3101がクリックされ、これにより、クラスタ全体が反転表示しており、当該クラスタ(クラスタID「1」)が選択されたことを示している。   In FIG. 31, the “cluster ID” column 3101 is clicked, whereby the entire cluster is highlighted, indicating that the cluster (cluster ID “1”) has been selected.

また、操作者は、内容が理解可能であるクラスタが存在しない場合は、分類パラメータ指示部3005により分類パラメータの再設定をおこない、再度分類実行をおこなうことができる。   Further, when there is no cluster whose contents can be understood, the operator can reset the classification parameter by the classification parameter instruction unit 3005 and perform classification again.

クラスタ選択指示部3010により選択されたクラスタIDに関するデータは分類体系記憶部3009へ送信される。分類体系記憶部3009は、このクラスタIDに関するデータに基づいてクラスタ特徴算出部3008からクラスタに関する上記特徴量を検索し記憶する。   Data relating to the cluster ID selected by the cluster selection instruction unit 3010 is transmitted to the classification system storage unit 3009. The classification system storage unit 3009 searches the cluster feature calculation unit 3008 for the feature quantity related to the cluster based on the data related to the cluster ID and stores it.

また、分類体系記憶部3009は、同様に、分類結果記憶部3006から分類結果を検索し記憶する。さらに、分類体系記憶部3009は、操作者により入力されたクラスタに関するコメント(たとえば、「ネットワークの維持費が高い」等)の情報を併せて記憶することもできる。このように、操作者が作成した情報を分類体系の構成要素として記憶することにより、分類体系の利用価値がより向上する。   Similarly, the classification system storage unit 3009 retrieves the classification result from the classification result storage unit 3006 and stores it. Furthermore, the classification system storage unit 3009 can also store information on comments (for example, “the network maintenance cost is high”) regarding the cluster input by the operator. In this way, by storing information created by the operator as a component of the classification system, the utility value of the classification system is further improved.

なお、分類体系記憶部3009により記憶されたデータは、別途閲覧操作用のインターフェイスを設けることにより、選択・保持するクラスタの内容の閲覧や、クラスタ間の意味的な関連を手動であるいは、保持されているクラスタ重心間の類似度等を用いて自動で、構造化・体系化することができる。   Note that the data stored in the classification system storage unit 3009 can be manually or manually held to view the contents of clusters to be selected / held and the semantic relationship between clusters by providing a separate browsing operation interface. It can be structured and systematized automatically using the similarity between the cluster centroids.

つぎに、実施の形態2の文書分類装置の一連の処理の手順について説明する。図32は、実施の形態2による文書分類装置の一連の処理の手順を示すフローチャートである。図32のフローチャートにおいて、まず、分類の対象となる文書が入力される(ステップS3201)。   Next, a series of processing procedures of the document classification device according to the second embodiment will be described. FIG. 32 is a flowchart illustrating a series of processing steps of the document classification device according to the second embodiment. In the flowchart of FIG. 32, first, a document to be classified is input (step S3201).

つぎに、入力された文書の言語が解析され(ステップS3202)、解析された結果、すなわち、抽出された単語に基づいて、文書特徴ベクトルが生成される(ステップS3203)。   Next, the language of the input document is analyzed (step S3202), and a document feature vector is generated based on the analyzed result, that is, the extracted word (step S3203).

その後、分類パラメータの指示があるのを待って、分類パラメータの指示があった場合(ステップS3204肯定)は、指示があった分類パラメータにしたがって文書を分類し(ステップS3205)、その結果、すなわち、クラスタに関する情報を記憶する(ステップS3206)。   Then, after waiting for a classification parameter instruction, if there is a classification parameter instruction (Yes in step S3204), the document is classified according to the classification parameter instructed (step S3205). Information about the cluster is stored (step S3206).

つぎに、分類されたクラスタの特徴を算出し(ステップS3207)、算出された結果を表示する(ステップS3208)。表示されたクラスタの中から、クラスタが選択されたか否かを判断し(ステップS3209)、選択されなかった場合(ステップS3209否定)は、ステップS3204へ移行し、再度分類パラメータの指示があるのを待つ(ステップS3204)。   Next, the feature of the classified cluster is calculated (step S3207), and the calculated result is displayed (step S3208). It is determined whether or not a cluster has been selected from the displayed clusters (step S3209). If not selected (No in step S3209), the process proceeds to step S3204, and there is an instruction for a classification parameter again. Wait (step S3204).

一方、ステップS3209において、クラスタが選択された場合(ステップS3209肯定)は、選択されたクラスタに関して分類体系を生成し、記憶する(ステップS3210)。この際、操作者により入力されたクラスタに関する情報を併せて記憶することもできる。これにより、一連の処理を終了する。   On the other hand, if a cluster is selected in step S3209 (Yes in step S3209), a classification system is generated and stored for the selected cluster (step S3210). At this time, information about the cluster input by the operator can also be stored. As a result, the series of processes is completed.

以上説明したように、実施の形態2による文書分類装置によれば、分類対象である文書群での文書間の類似性に基づいて、各文書をそれら文書間の意味的な関連性を反映しうる表現空間へ変換するための表現空間変換関数を算出し、その表現空間で文書分類をおこなうことにより、操作者の意図を反映しうる文書分類を実現することができる。   As described above, according to the document classification device according to the second embodiment, each document is reflected on the semantic relationship between the documents based on the similarity between documents in the document group to be classified. By calculating an expression space conversion function for conversion into a possible expression space and performing document classification in the expression space, document classification that can reflect the operator's intention can be realized.

したがって、分類部3004によりクラスタを得ることができるとともに、クラスタ特徴算出部3008・分類体系記憶部3009により、クラスタ重心間の類似度等を用いて、クラスタの内容に基づくクラスタの構造化・体系化をおこなうことができる。   Therefore, the cluster can be obtained by the classification unit 3004, and the cluster feature calculation unit 3008 and the classification system storage unit 3009 can use the similarity between the cluster centroids to structure and organize the cluster based on the cluster contents. Can be done.

また、クラスタ選択指示部3010により選択されたクラスタのみを用いて、より操作者の意図したものに近いクラスタの構造化・体系化をおこなうことができる。   Further, using only the clusters selected by the cluster selection instructing unit 3010, it is possible to structure and organize the clusters closer to what the operator intended.

〔実施の形態3〕
さて、上述した実施の形態2に加えて、以下に説明する実施の形態3のように、さらにベクトル記憶部と、ベクトル修正部とを含む構成とするようにしてもよい。
[Embodiment 3]
Now, in addition to the above-described second embodiment, a configuration that further includes a vector storage unit and a vector correction unit as in a third embodiment described below may be adopted.

実施の形態3による文書分類装置を構成する情報処理システムは、図1に示したように実施の形態1と同様であるので、その説明は省略する。また、サーバー101およびクライアント102のハードウエア構成についても、図2・図3に示したように実施の形態1と同様であるので、その説明は省略する。   The information processing system constituting the document classification apparatus according to the third embodiment is the same as that of the first embodiment as shown in FIG. The hardware configurations of the server 101 and the client 102 are the same as those in the first embodiment as shown in FIGS.

つぎに、実施の形態3による文書分類装置の機能的構成について説明する。図33は、この発明の実施の形態3による文書分類装置の構成を機能的に示すブロック図である。図33において、実施の形態2の図30と同一のものに関しては同じ符号を付して、その説明を省略する。   Next, a functional configuration of the document classification apparatus according to the third embodiment will be described. FIG. 33 is a block diagram functionally showing the structure of the document classification device according to the third embodiment of the present invention. 33, the same components as those in FIG. 30 of the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.

図33のブロック図において、文書分類装置は、入力部3001、言語解析部3002、ベクトル生成部3003、分類部3004、分類パラメータ指示部3005、分類結果記憶部3006、クラスタ特徴表示部3007、クラスタ特徴算出部3008、分類体系記憶部3009、クラスタ選択指示部3010、分類体系閲覧操作部3011のほか、ベクトル記憶部3301と、ベクトル修正部3302とを含む構成である。   In the block diagram of FIG. 33, the document classification apparatus includes an input unit 3001, a language analysis unit 3002, a vector generation unit 3003, a classification unit 3004, a classification parameter instruction unit 3005, a classification result storage unit 3006, a cluster feature display unit 3007, a cluster feature. In addition to the calculation unit 3008, the classification system storage unit 3009, the cluster selection instruction unit 3010, the classification system browsing operation unit 3011, a vector storage unit 3301 and a vector correction unit 3302 are included.

ベクトル記憶部3301は、ベクトル生成部3003により生成された文書特徴ベクトルを記憶するものである。また、ベクトル修正部3302は、文書特徴ベクトル記憶部3301により記憶された文書特徴ベクトルを、クラスタ選択指示部3010により選択された部分集合に属する文書の文書特徴ベクトルを除去したのこりとなるように修正するものである。   The vector storage unit 3301 stores the document feature vector generated by the vector generation unit 3003. Further, the vector correction unit 3302 corrects the document feature vector stored in the document feature vector storage unit 3301 so that the document feature vector of the document belonging to the subset selected by the cluster selection instruction unit 3010 is removed. To do.

また、分類部3004は、ベクトル修正部3302により修正された文書特徴ベクトルに基づいて文書を分類する。   The classifying unit 3004 classifies the document based on the document feature vector corrected by the vector correcting unit 3302.

なお、ベクトル記憶部3301、ベクトル修正部3302は、ROM202または302、RAM203または303、あるいはディスク装置306またはハードディスク316等の記録媒体に記録されたプログラムに記載された命令にしたがってCPU201または301等が命令処理を実行することにより、各部の機能を実現する。   The vector storage unit 3301 and the vector correction unit 3302 are instructed by the CPU 201 or 301 according to instructions described in a program recorded on a recording medium such as the ROM 202 or 302, the RAM 203 or 303, or the disk device 306 or the hard disk 316. By executing the processing, the function of each unit is realized.

ベクトル生成部3003において生成された文書特徴ベクトル(列ベクトル)・単語(単語特徴)ベクトル(行ベクトル)はベクトル記憶部3301によって記憶される。これは、次回以降の分類実行の際に利用する文書特徴ベクトルを確保するためである。   The document feature vector (column vector) / word (word feature) vector (row vector) generated by the vector generation unit 3003 is stored in the vector storage unit 3301. This is for securing a document feature vector to be used in the subsequent classification execution.

ベクトル修正部3302は、クラスタ選択指示部3010により選択されたクラスタに所属する文書のすべてあるいはその一部の文書を除き、次回以降もこれらの文書が除かれるよう削除する。削除された文書特徴ベクトルはベクトル記憶部3301により記憶される。   The vector correction unit 3302 deletes all or some of the documents belonging to the cluster selected by the cluster selection instruction unit 3010 so that these documents will be removed from the next time. The deleted document feature vector is stored in the vector storage unit 3301.

この結果、ベクトル記憶部3301に記憶されているベクトルデータのうち、選択されたクラスタに所属する文書(もしくは操作者に指定されたその一部)列ベクトルを除いたものが、次回以降の分類が実行される際に利用されるデータとなる。   As a result, the vector data stored in the vector storage unit 3301 excluding the document belonging to the selected cluster (or a part thereof designated by the operator) column vector is classified as the next and subsequent classes. Data used when executed.

つぎに、実施の形態3の文書分類装置の一連の処理の手順について説明する。図34は、実施の形態3よる文書分類装置の一連の処理の手順を示すフローチャートである。図2のフローチャートにおいて、まず、分類の対象となる文書が入力される(ステップS3401)。   Next, a series of processing procedures of the document classification device according to the third embodiment will be described. FIG. 34 is a flowchart showing a series of processing procedures of the document classification device according to the third embodiment. In the flowchart of FIG. 2, first, a document to be classified is input (step S3401).

つぎに、入力された文書の言語が解析され(ステップS3402)、解析された結果、すなわち、抽出された単語に基づいて、文書特徴ベクトルが生成され(ステップS3403)、生成された文書特徴ベクトルが記憶される(ステップS3404)。   Next, the language of the input document is analyzed (step S3402), a document feature vector is generated based on the analyzed result, that is, the extracted word (step S3403), and the generated document feature vector is Stored (step S3404).

その後、分類パラメータの指示があるのを待って、分類パラメータの指示があった場合(ステップS3405肯定)は、指示があった分類パラメータにしたがって文書を分類し(ステップS3406)、その結果、すなわち、クラスタに関する情報を記憶する(ステップS3407)。   After that, when there is an instruction for the classification parameter, and when there is an instruction for the classification parameter (Yes at Step S3405), the document is classified according to the specified classification parameter (Step S3406), and as a result, that is, Information about the cluster is stored (step S3407).

つぎに、分類されたクラスタの特徴を算出し(ステップS3408)、算出された結果を表示する(ステップS3409)。表示されたクラスタの中から、クラスタが選択されたか否かを判断し(ステップS3410)、選択されなかった場合(ステップS3410否定)は、ステップS3405へ移行し、再度分類パラメータの指示があるのを待つ(ステップS3405)。   Next, the feature of the classified cluster is calculated (step S3408), and the calculated result is displayed (step S3409). It is determined whether or not a cluster has been selected from the displayed clusters (step S3410). If not selected (No in step S3410), the process proceeds to step S3405, and there is an instruction for a classification parameter again. Wait (step S3405).

一方、ステップS3410において、クラスタが選択された場合(ステップS3410肯定)は、選択されたクラスタに関して分類体系を生成し、記憶する(ステップ3411)。この際、操作者により入力されたクラスタに関する情報を併せて記憶することもできる。その後、繰り返し処理をおこなう旨の指示があったか否かを判断する(ステップS3412)。   On the other hand, if a cluster is selected in step S3410 (Yes in step S3410), a classification system is generated and stored for the selected cluster (step 3411). At this time, information about the cluster input by the operator can also be stored. Thereafter, it is determined whether or not there is an instruction to perform repeated processing (step S3412).

ステップS3412において、繰り返して処理をおこなう旨の指示があった場合(ステップS3412肯定)は、選択されたクラスタに所属する文書のすべてあるいはその一部の文書を除くように文書特徴ベクトルを修正する(ステップS3413)。その後、ステップS3405へ移行し、以後、ステップS3405〜S3413の各処理を繰り返しおこなう。   If there is an instruction to repeat processing in step S3412 (Yes in step S3412), the document feature vector is corrected so as to exclude all or some of the documents belonging to the selected cluster ( Step S3413). Thereafter, the process proceeds to step S3405, and thereafter, the processes of steps S3405 to S3413 are repeated.

一方、ステップS3412において、繰り返して処理をおこなう旨の指示がない場合(ステップS3412否定)は、これにより、一連の処理をすべて終了する。   On the other hand, if there is no instruction to repeat the processing in step S3412 (No in step S3412), the entire series of processing is thereby terminated.

以上説明したように、実施の形態3による文書分類装置によれば、ベクトル修正部3301により、既知になったクラスタの影響を排除した新たなクラスタを生成することができる。   As described above, according to the document classification apparatus according to the third embodiment, the vector correction unit 3301 can generate a new cluster that excludes the influence of a known cluster.

〔実施の形態4〕
さて、上述した実施の形態3においては、ベクトル記憶部およびベクトル修正部とを含む構成であったが、以下に説明する実施の形態4のように、ベクトル修正部に代わりに、文書表現空間修正部を含む構成とするようにしてもよい。
[Embodiment 4]
In the third embodiment described above, the configuration includes the vector storage unit and the vector correction unit. However, as in the fourth embodiment described below, the document expression space correction is performed instead of the vector correction unit. You may make it be the structure containing a part.

実施の形態4による文書分類装置を構成する情報処理システムは、図1に示したように実施の形態1と同様であるので、その説明は省略する。また、サーバー101およびクライアント102のハードウエア構成についても、図2・図3に示したように実施の形態1と同様であるので、その説明は省略する。   The information processing system constituting the document classification device according to the fourth embodiment is the same as that of the first embodiment as shown in FIG. The hardware configurations of the server 101 and the client 102 are the same as those in the first embodiment as shown in FIGS.

つぎに、実施の形態4による文書分類装置の機能的構成について説明する。図35は、この発明の実施の形態4による文書分類装置の構成を機能的に示すブロック図である。図35において、実施の形態2の図30と同一のものに関しては同じ符号を付して、その説明を省略する。   Next, a functional configuration of the document classification device according to the fourth embodiment will be described. FIG. 35 is a block diagram functionally showing the structure of the document classification device according to Embodiment 4 of the present invention. 35, the same components as those in FIG. 30 of the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.

図35のブロック図において、文書分類装置は、入力部3001、言語解析部3002、ベクトル生成部3003、分類部3004、分類パラメータ指示部3005、分類結果記憶部3006、クラスタ特徴表示部3007、クラスタ特徴算出部3008、分類体系記憶部3009、クラスタ選択指示部3010、分類体系閲覧操作部3011のほか、ベクトル記憶部3501と、文書表現空間修正部3502とを含む構成である。   35, the document classification apparatus includes an input unit 3001, a language analysis unit 3002, a vector generation unit 3003, a classification unit 3004, a classification parameter instruction unit 3005, a classification result storage unit 3006, a cluster feature display unit 3007, a cluster feature. In addition to the calculation unit 3008, the classification system storage unit 3009, the cluster selection instruction unit 3010, the classification system browsing operation unit 3011, the vector storage unit 3501 and the document expression space correction unit 3502 are included.

ベクトル記憶部3501は、ベクトル生成部3003により生成された文書特徴ベクトルを記憶するものである。また、文書表現空間修正部3502は、文書特徴ベクトル記憶部3501により記憶された文書特徴ベクトル間の類似度を判断する際の文書表現空間を前記クラスタ選択指示部3010により選択された部分集合から算出する特徴量に基づいて修正するものである。   The vector storage unit 3501 stores the document feature vector generated by the vector generation unit 3003. Further, the document expression space correction unit 3502 calculates a document expression space for determining the similarity between the document feature vectors stored in the document feature vector storage unit 3501 from the subset selected by the cluster selection instruction unit 3010. It corrects based on the feature-value to do.

また、分類部3004は、文書表現空間修正部3502により修正された文書表現空間を用いて、ベクトル生成部3003により生成された文書特徴ベクトル間の類似度に基づいて文書を分類する。   Further, the classification unit 3004 classifies the document based on the similarity between the document feature vectors generated by the vector generation unit 3003 using the document expression space corrected by the document expression space correction unit 3502.

なお、ベクトル記憶部3501、文書表現空間修正部3502は、ROM202または302、RAM203または303、あるいはディスク装置306またはハードディスク316等の記録媒体に記録されたプログラムに記載された命令にしたがってCPU201または301等が命令処理を実行することにより、各部の機能を実現する。   It should be noted that the vector storage unit 3501 and the document expression space correction unit 3502 include the CPU 201 or 301 according to instructions written in a program recorded on a recording medium such as the ROM 202 or 302, the RAM 203 or 303, or the disk device 306 or the hard disk 316. Implements the function of each unit by executing instruction processing.

つぎに、文書表現空間修正部3502の内容について説明する。実施の形態3におけるベクトル修正部3302にあっては、既知になったクラスタの影響を排除するために文書特徴ベクトルを除去するが、文書特徴ベクトルを表現する多次元空間自体の変更はおこなわれない。   Next, the contents of the document expression space correction unit 3502 will be described. In the vector correction unit 3302 in the third embodiment, the document feature vector is removed to eliminate the influence of the known cluster, but the multidimensional space itself representing the document feature vector is not changed. .

したがって、前回の分類実行の結果、操作者により選択されたクラスタの形成特徴を次回の分類実行の際に排除したい場合は、文書ベクトルを表現する空間自体の変更が必要となる。   Therefore, if it is desired to exclude the cluster formation feature selected by the operator as a result of the previous classification execution in the next classification execution, it is necessary to change the space representing the document vector.

そこで、文書表現空間修正部3502を備え、文書表現空間の修正をおこなうものである。ここで、文書表現空間の特徴次元を変更する例として、操作者により選択されたクラスタの重心と類似度の高い特徴次元の削除をおこなうことについて説明する。   Therefore, a document expression space correction unit 3502 is provided to correct the document expression space. Here, as an example of changing the feature dimension of the document expression space, a description will be given of deleting a feature dimension having a high similarity to the center of gravity of the cluster selected by the operator.

操作者により選択されたクラスタの重心はベクトルとして表現することができるので、このクラスタ重心ベクトルとベクトル記憶部3501に記憶されている文書表現空間の各特徴次元との類似度を算出することにより、類似度の高い特徴次元を判別する。   Since the centroid of the cluster selected by the operator can be expressed as a vector, by calculating the similarity between this cluster centroid vector and each feature dimension of the document expression space stored in the vector storage unit 3501, Discriminate feature dimensions with high similarity.

なお、類似の測度としては、余弦、内積、ユークリッド距離、マハラノビス距離等を用いる。また、判別に関してはある類似度以上を削除対象として採用するようなしきい値処理による判別や、類似度の高い順にある一定数を削除対象として採用する定数処理による判別を用いる。また、判別分析等も用いることができる。   Note that cosine, inner product, Euclidean distance, Mahalanobis distance, etc. are used as similar measures. Further, regarding the discrimination, discrimination by threshold processing that adopts a certain degree of similarity or higher as a deletion target, or discrimination by constant processing that adopts a certain number in descending order of similarity as deletion targets is used. Also, discriminant analysis or the like can be used.

文書表現空間修正部3502は、上述のような削除対象の特徴次元を算出して、特徴次元の削除をおこなう。特徴次元の削除は、ベクトル記憶部3501に記憶されている「特徴次元(単語)」×「文書」の行列から判別された特徴次元について行ベクトルを削除することによりおこなう。文書表現空間修正部3502により修正された文書ベクトルは、次回以降の分類のために、ベクトル記憶部3501に記憶される。   The document expression space correction unit 3502 calculates the feature dimension to be deleted as described above, and deletes the feature dimension. The feature dimension is deleted by deleting the row vector for the feature dimension determined from the “feature dimension (word)” × “document” matrix stored in the vector storage unit 3501. The document vector corrected by the document expression space correcting unit 3502 is stored in the vector storage unit 3501 for classification after the next time.

つぎに、実施の形態4の文書分類装置の一連の処理の手順について説明する。図36は、実施の形態4よる文書分類装置の一連の処理の手順を示すフローチャートである。図36のフローチャートにおいて、まず、分類の対象となる文書が入力される(ステップS3601)。   Next, a series of processing procedures of the document classification device according to the fourth embodiment will be described. FIG. 36 is a flowchart showing a series of processing procedures of the document classification device according to the fourth embodiment. In the flowchart of FIG. 36, first, a document to be classified is input (step S3601).

つぎに、入力された文書の言語が解析され(ステップS3602)、解析された結果、すなわち、抽出された単語に基づいて、文書特徴ベクトルが生成され(ステップS3603)、生成された文書特徴ベクトルが記憶される(ステップS3604)。   Next, the language of the input document is analyzed (step S3602), a document feature vector is generated based on the analyzed result, that is, the extracted word (step S3603), and the generated document feature vector is Stored (step S3604).

その後、分類パラメータの指示があるのを待って、分類パラメータの指示があった場合(ステップS3605肯定)は、指示があった分類パラメータにしたがって文書を分類し(ステップS3606)、その結果、すなわち、クラスタに関する情報を記憶する(ステップS3607)。   After that, when there is an instruction for the classification parameter, and when there is an instruction for the classification parameter (Yes in step S3605), the document is classified according to the classification parameter instructed (step S3606). Information about the cluster is stored (step S3607).

つぎに、分類されたクラスタの特徴を算出し(ステップS3608)、算出された結果を表示する(ステップS3609)。表示されたクラスタの中から、クラスタが選択されたか否かを判断し(ステップS3610)、選択されなかった場合(ステップS3610否定)は、ステップS3605へ移行し、再度分類パラメータの指示があるのを待つ(ステップS3605)。   Next, the feature of the classified cluster is calculated (step S3608), and the calculated result is displayed (step S3609). It is determined whether or not a cluster has been selected from the displayed clusters (step S3610). If not selected (No in step S3610), the process proceeds to step S3605, and there is a classification parameter instruction again. Wait (step S3605).

一方、ステップS3610において、クラスタが選択された場合(ステップS3610肯定)は、選択されたクラスタに関して分類体系を生成し、記憶する(ステップ3611)。この際、操作者により入力されたクラスタに関する情報を併せて記憶することもできる。その後、繰り返し処理をおこなう旨の指示があったか否かを判断する(ステップS3612)。   On the other hand, if a cluster is selected in step S3610 (Yes in step S3610), a classification system is generated and stored for the selected cluster (step 3611). At this time, information about the cluster input by the operator can also be stored. Thereafter, it is determined whether or not there is an instruction to perform repeated processing (step S3612).

ステップS3612において、繰り返して処理をおこなう旨の指示があった場合(ステップS3612肯定)は、「特徴次元(単語)」×「文書」の行列から判別された特徴次元について行ベクトルを削除することにより文書表現空間を修正する(ステップS3613)。その後、ステップS3605へ移行し、以後、ステップS3605〜S3613の各処理を繰り返しおこなう。   In step S3612, when there is an instruction to repeat the processing (Yes in step S3612), the row vector is deleted for the feature dimension determined from the matrix of “feature dimension (word)” × “document”. The document expression space is corrected (step S3613). Thereafter, the process proceeds to step S3605, and thereafter, the processes of steps S3605 to S3613 are repeated.

一方、ステップS3612において、繰り返して処理をおこなう旨の指示がなかった場合(ステップS3612否定)は、これにより、一連の処理を終了する。   On the other hand, if there is no instruction to repeat the processing in step S3612 (No in step S3612), the series of processing is thereby ended.

以上説明したように、実施の形態4による文書分類装置によれば、前回の分類実行の結果、文書表現空間修正部3502により操作者に選択されたクラスタの形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができる。   As described above, according to the document classification apparatus according to the fourth embodiment, the cluster formation feature selected by the operator by the document expression space correction unit 3502 as a result of the previous classification execution is excluded at the next classification execution. And a new cluster can be generated in the excluded state.

〔実施の形態5〕
さて、上述した実施の形態3または実施の形態4においては、ベクトル修正部または文書表現空間修正部のいずれか一方のみを含む構成であったが、以下に説明する実施の形態5のように、ベクトル修正部および文書表現空間修正部の両方を含む構成とするようにしてもよい。
[Embodiment 5]
In the third embodiment or the fourth embodiment described above, only one of the vector correction unit and the document expression space correction unit is included. However, as in the fifth embodiment described below, A configuration including both the vector correction unit and the document expression space correction unit may be adopted.

実施の形態5による文書分類装置を構成する情報処理システムは、図1に示したように実施の形態1と同様であるので、その説明は省略する。また、サーバー101およびクライアント102のハードウエア構成についても、図2・図3に示したように実施の形態1と同様であるので、その説明は省略する。   The information processing system constituting the document classification apparatus according to the fifth embodiment is the same as that of the first embodiment as shown in FIG. The hardware configurations of the server 101 and the client 102 are the same as those in the first embodiment as shown in FIGS.

つぎに、実施の形態5による文書分類装置の機能的構成について説明する。図37は、この発明の実施の形態5による文書分類装置の構成を機能的に示すブロック図である。図37において、実施の形態2の図30と同一のものに関しては同じ符号を付して、その説明を省略する。   Next, a functional configuration of the document classification device according to the fifth embodiment will be described. FIG. 37 is a block diagram functionally showing the structure of the document classification device according to the fifth embodiment of the present invention. In FIG. 37, the same components as those in FIG. 30 of the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.

図37のブロック図において、文書分類装置は、入力部3001、言語解析部3002、ベクトル生成部3003、分類部3004、分類パラメータ指示部3005、分類結果記憶部3006、クラスタ特徴表示部3007、クラスタ特徴算出部3008、分類体系記憶部3009、クラスタ選択指示部3010、分類体系閲覧操作部3011のほか、ベクトル記憶部3701と、ベクトル修正部3702と、文書表現空間修正部3703とを含む構成である。   In the block diagram of FIG. 37, the document classification apparatus includes an input unit 3001, a language analysis unit 3002, a vector generation unit 3003, a classification unit 3004, a classification parameter instruction unit 3005, a classification result storage unit 3006, a cluster feature display unit 3007, a cluster feature. In addition to a calculation unit 3008, a classification system storage unit 3009, a cluster selection instruction unit 3010, a classification system browsing operation unit 3011, a vector storage unit 3701, a vector correction unit 3702, and a document expression space correction unit 3703 are included.

ベクトル記憶部3701は、ベクトル生成部3003により生成された文書特徴ベクトルを記憶するものである。また、ベクトル修正部3702は、文書特徴ベクトル記憶部3701により記憶された文書特徴ベクトルを分類部3004により生成された文書の部分集合の文書特徴ベクトルを除去したのこりの文書特徴ベクトルとなるように修正するものである。   The vector storage unit 3701 stores the document feature vector generated by the vector generation unit 3003. Further, the vector correction unit 3702 corrects the document feature vector stored in the document feature vector storage unit 3701 so as to be a document feature vector obtained by removing the document feature vector of the subset of documents generated by the classification unit 3004. To do.

また、文書表現空間修正部3703は、ベクトル記憶部3701により記憶された文書特徴ベクトル間の類似度を判断する際の文書表現空間を前記クラスタ選択指示部3010により選択されたクラスタ特徴に基づいて修正するものである。   Further, the document expression space correction unit 3703 corrects the document expression space when judging the similarity between the document feature vectors stored in the vector storage unit 3701 based on the cluster feature selected by the cluster selection instruction unit 3010. To do.

また、分類部3004は、文書表現空間修正部3703により修正された文書表現空間を用いて、ベクトル修正部3702により修正された文書特徴ベクトル間の類似度に基づいて文書を分類する。   The classification unit 3004 classifies the document based on the similarity between the document feature vectors corrected by the vector correction unit 3702 using the document expression space corrected by the document expression space correction unit 3703.

なお、ベクトル記憶部3701、ベクトル修正部3702、文書表現空間修正部3703は、ROM202または302、RAM203または303、あるいはディスク装置306またはハードディスク316等の記録媒体に記録されたプログラムに記載された命令にしたがってCPU201または301等が命令処理を実行することにより、各部の機能を実現する。   The vector storage unit 3701, the vector correction unit 3702, and the document expression space correction unit 3703 are in accordance with instructions written in a program recorded on a recording medium such as the ROM 202 or 302, the RAM 203 or 303, or the disk device 306 or the hard disk 316. Therefore, the function of each unit is realized by the CPU 201 or 301 executing instruction processing.

つぎに、ベクトル修正部3702および文書表現空間修正部3703の内容について説明する。実施の形態4においては、選択されたクラスタに所属する文書は次回以降の分類実行の際にも使用される。   Next, the contents of the vector correction unit 3702 and the document expression space correction unit 3703 will be described. In the fourth embodiment, the document belonging to the selected cluster is also used in the subsequent classification execution.

実施の形態5では、ベクトル修正部3702および文書表現空間修正部3703の両方を具備することにより、選択されたクラスタに所属する文書を次回の分類実行の際に除去し、次回の分類実行の際には分類対象文書としないようにする。   In the fifth embodiment, by providing both the vector correction unit 3702 and the document expression space correction unit 3703, the document belonging to the selected cluster is removed at the next classification execution, and at the next classification execution Are not classified documents.

実施の形態4においては、話題抽出の側面を強調し、ある文書が複数の話題として分類される可能性を前提としており、たとえば、ネットワーク化に関する調査における「エンドユーザーがソフトウエアのインストール方法について聞いてくるのでシステム管理者としての仕事ができない」という回答について言えば、この意見は「ソフトウエアの操作方法理解に関する困難性」という話題として分類され得るし、「システム管理者の仕事の多忙さ」という話題で分類される可能性もある。   In the fourth embodiment, the topic extraction aspect is emphasized, and it is assumed that a certain document is classified as a plurality of topics. For example, in an investigation related to networking, an “end user asks about software installation method”. Speaking of the answer, “Can't work as a system administrator because it comes”, this opinion can be categorized as the topic of “difficulty in understanding how to operate the software”, and “busy work of system administrators” There is a possibility to be classified by the topic.

実施の形態4においては、いずれにしても、「ソフトウエアの操作方法理解に関する困難性」というクラスタと「システム管理者の仕事の多忙さ」というクラスタの両方とも抽出したいというニーズに応えている。   In any case, the fourth embodiment meets the need to extract both the cluster “difficulty in understanding how to operate software” and the cluster “busy work of system administrators”.

これとは反対に、操作者は、一度抽出した話題は既知であるので、次回の分類の際はなるべく異なる分類結果が欲しいとするケースも考えられる。実施の形態5では、このような要求に応えるため、ベクトル修正部3702により、n回目の分類で選択されたクラスタに所属する文書のすべてまたはその一部を次回以降の分類を実行する際、分類対象から除去するものである。   On the other hand, since the topic extracted once is already known, there may be a case where the operator wants a different classification result as much as possible in the next classification. In the fifth embodiment, in order to respond to such a request, when the vector correction unit 3702 executes the classification of all or a part of the documents belonging to the cluster selected in the n-th classification after the next classification, It is to be removed from the object.

クラスタ選択指示部3010により選択指示を受けたクラスタの所属文書はベクトル記憶部3701において列ベクトルの形式で記憶されているため、ベクトル修正部3702では劣ベクトルを除去することで、次回以降の分類実行用の分類対象文書集合を生成する。   Since the belonging document of the cluster for which the selection instruction is received by the cluster selection instruction unit 3010 is stored in the vector storage unit 3701 in the form of a column vector, the vector correction unit 3702 removes the inferior vector and executes the classification after the next time. A classification target document set is generated.

さらに、実施の形態4と同様に、選択されたクラスタにより文書表現空間修正部3703は、ベクトル記憶部3701に記憶されている行列から特徴次元を削除する。   Further, as in the fourth embodiment, the document expression space correction unit 3703 deletes the feature dimension from the matrix stored in the vector storage unit 3701 by the selected cluster.

つぎに、実施の形態5の文書分類装置の一連の処理の手順について説明する。図38は、実施の形態5よる文書分類装置の一連の処理の手順を示すフローチャートである。図38のフローチャートにおいて、まず、分類の対象となる文書が入力される(ステップS3801)。   Next, a series of processing procedures of the document classification device according to the fifth embodiment will be described. FIG. 38 is a flowchart showing a series of processing steps of the document classification device according to the fifth embodiment. In the flowchart of FIG. 38, first, a document to be classified is input (step S3801).

つぎに、入力された文書の言語が解析され(ステップS3802)、解析された結果、すなわち、抽出された単語に基づいて、文書特徴ベクトルが生成され(ステップS3803)、生成された文書特徴ベクトルが記憶される(ステップS3804)。   Next, the language of the input document is analyzed (step S3802), a document feature vector is generated based on the analyzed result, that is, the extracted word (step S3803), and the generated document feature vector is Stored (step S3804).

その後、分類パラメータの指示があるのを待って、分類パラメータの指示があった場合(ステップS3805肯定)は、指示があった分類パラメータにしたがって文書を分類し(ステップS3806)、その結果、すなわち、クラスタに関する情報を記憶する(ステップS3807)。   Then, after waiting for a classification parameter instruction, if there is a classification parameter instruction (Yes in step S3805), the document is classified according to the classification parameter instructed (step S3806). Information about the cluster is stored (step S3807).

つぎに、分類されたクラスタの特徴を算出し(ステップS3808)、算出された結果を表示する(ステップS3809)。表示されたクラスタの中から、クラスタが選択されたか否かを判断し(ステップS3810)、選択されなかった場合(ステップS3810否定)は、ステップS3805へ移行し、再度分類パラメータの指示があるのを待つ(ステップS3805)。   Next, the feature of the classified cluster is calculated (step S3808), and the calculated result is displayed (step S3809). It is determined whether or not a cluster has been selected from the displayed clusters (step S3810). If not selected (No in step S3810), the process proceeds to step S3805, and the classification parameter is instructed again. Wait (step S3805).

一方、ステップS3810において、クラスタが選択された場合(ステップS3810肯定)は、選択されたクラスタに関して分類体系を生成し、記憶する(ステップ3811)。この際、操作者により入力されたクラスタに関する情報を併せて記憶することもできる。その後、繰り返し処理をおこなう旨の指示があったか否かを判断する(ステップS3812)。   On the other hand, if a cluster is selected in step S3810 (Yes in step S3810), a classification system is generated and stored for the selected cluster (step 3811). At this time, information about the cluster input by the operator can also be stored. Thereafter, it is determined whether or not there is an instruction to perform repeated processing (step S3812).

ステップS3812において、繰り返して処理をおこなう旨の指示があった場合(ステップS3812肯定)は、選択されたクラスタに所属する文書のすべてあるいはその一部の文書を除くように文書特徴ベクトルを修正する(ステップS3813)。   If it is determined in step S3812 that processing is to be repeated (Yes in step S3812), the document feature vector is corrected so as to exclude all or some of the documents belonging to the selected cluster (step S3812). Step S3813).

ステップS3813に引き続き、「特徴次元(単語)」×「文書」の行列から判別された特徴次元について行ベクトルを削除することにより文書表現空間を修正する(ステップS3814)。その後、ステップS3805へ移行し、以後、ステップS3805〜S3814を繰り返しおこなう。   Subsequent to step S3813, the document expression space is corrected by deleting the row vector for the feature dimension determined from the “feature dimension (word)” × “document” matrix (step S3814). Thereafter, the process proceeds to step S3805, and thereafter, steps S3805 to S3814 are repeated.

一方、ステップS3812において、繰り返して処理をおこなう旨に指示がない場合(ステップS3812否定)は、これにより、一連の処理をすべて終了する。   On the other hand, if there is no instruction to repeat the processing in step S3812 (No in step S3812), the entire series of processing is thereby terminated.

以上説明したように、実施の形態5よる文書分類装置によれば、ベクトル修正部3702が、既知になったクラスタの影響を排除し、かつ、文書表現空間修正部3703が、前回の分類実行の結果、操作者に選択されたクラスタの形成特徴を次回の分類実行時に排除することができ、排除した状態で新たなクラスタを生成することができる。   As described above, according to the document classification apparatus according to the fifth embodiment, the vector correction unit 3702 eliminates the influence of the known cluster, and the document expression space correction unit 3703 performs the previous classification execution. As a result, the formation characteristics of the cluster selected by the operator can be excluded at the next classification execution, and a new cluster can be generated in the excluded state.

〔実施の形態6〕
さて、上述した実施の形態2または実施の形態4においては、繰り返し分類処理をおこなった場合に、ある文書が何度選択されたかその情報については考慮していなかったが以下に説明する実施の形態6のように、選択情報付与部を含む構成とし、選択情報をクラスタ特徴とともに表示するようにしてもよい。
[Embodiment 6]
In the second embodiment or the fourth embodiment described above, when repeated classification processing is performed, information on how many times a certain document has been selected is not considered, but the embodiment described below is used. As shown in FIG. 6, the selection information adding unit may be included, and the selection information may be displayed together with the cluster feature.

実施の形態6による文書分類装置を構成する情報処理システムは、図1に示したように実施の形態1と同様であるので、その説明は省略する。また、サーバー101およびクライアント102のハードウエア構成についても、図2・図3に示したように実施の形態1と同様であるので、その説明は省略する。   The information processing system constituting the document classification apparatus according to the sixth embodiment is the same as that of the first embodiment as shown in FIG. The hardware configurations of the server 101 and the client 102 are the same as those in the first embodiment as shown in FIGS.

つぎに、実施の形態6による文書分類装置の機能的構成について説明する。図39は、この発明の実施の形態6による文書分類装置の構成を機能的に示すブロック図である。図39において、実施の形態4の図35と同一のものに関しては同じ符号を付して、その説明を省略する。   Next, a functional configuration of the document classification device according to the sixth embodiment will be described. FIG. 39 is a block diagram functionally showing the structure of the document classification device according to the sixth embodiment of the present invention. In FIG. 39, the same components as those in FIG. 35 of the fourth embodiment are denoted by the same reference numerals, and the description thereof is omitted.

図39のブロック図において、文書分類装置は、入力部3001、言語解析部3002、ベクトル生成部3003、分類部3004、分類パラメータ指示部3005、分類結果記憶部3006、クラスタ特徴表示部3007、クラスタ特徴算出部3008、分類体系記憶部3009、クラスタ選択指示部3010、分類体系閲覧操作部3011、ベクトル記憶部3501、文書表現空間修正部3502のほか、選択情報付与部3901を含む構成である。   In the block diagram of FIG. 39, the document classification apparatus includes an input unit 3001, a language analysis unit 3002, a vector generation unit 3003, a classification unit 3004, a classification parameter instruction unit 3005, a classification result storage unit 3006, a cluster feature display unit 3007, and a cluster feature. In addition to the calculation unit 3008, the classification system storage unit 3009, the cluster selection instruction unit 3010, the classification system browsing operation unit 3011, the vector storage unit 3501, the document expression space correction unit 3502, a selection information addition unit 3901 is included.

選択情報付与部3901は、分類部3004により生成された文書の部分集合に所属する文書のすべてあるいは一部が選択された場合に選択されたことを示す選択情報を付与する。また、クラスタ特徴表示部3007は、クラスタ特徴を表示するとともに、選択情報付与部3901により付与された選択情報を表示する。   The selection information giving unit 3901 gives selection information indicating that the document is selected when all or some of the documents belonging to the document subset generated by the classification unit 3004 are selected. Further, the cluster feature display unit 3007 displays the cluster feature and the selection information given by the selection information giving unit 3901.

なお、選択情報付与部3901は、ROM202または302、RAM203または303、あるいはディスク装置306またはハードディスク316等の記録媒体に記録されたプログラムに記載された命令にしたがってCPU201または301等が命令処理を実行することにより、機能を実現する。   It should be noted that the selection information adding unit 3901 is configured such that the CPU 201 or 301 executes instruction processing in accordance with an instruction described in a program recorded on a recording medium such as the ROM 202 or 302, the RAM 203 or 303, or the disk device 306 or the hard disk 316. To realize the function.

つぎに、選択情報付与部3901の詳細な内容について説明する。アンケートの調査の例において、独自性の高いユニークな意見は貴重であることが経験的に知られている。これは、調査を企画する担当者が予想できなかった意見である場合が多いからである。   Next, detailed contents of the selection information adding unit 3901 will be described. In the survey example, it is empirically known that unique opinions with high uniqueness are valuable. This is because it is often the opinion that the person in charge of planning the survey could not have anticipated.

そこで、操作者に選択されたクラスタに所属する文書を、次回以降の分類実行の際に使用する場合において、クラスタ特徴表示部3007で個々の文書を表示する際に、各文書が何回選択されたかを示すことで、多重に利用される文書の識別性を向上させ、かつ一度も選択されない文書の識別性も向上させることができる。   Therefore, when the documents belonging to the cluster selected by the operator are used for the subsequent classification execution, when each document is displayed on the cluster feature display unit 3007, how many times each document is selected. By indicating whether or not the document is used, it is possible to improve the distinguishability of a document that is used multiple times, and to improve the distinguishability of a document that has never been selected.

図40は、実施の形態6による文書分類装置の分類結果記憶部3006において設けられたテーブル4000を示す説明図である。図40において、文書IDごとにテーブル化されており、テーブル4000は、各文書がどのサイクルに分類実行の際に操作者に選択されたかを記録する。すなわち、選択された場合は選択情報として「1」を記録し、選択されなかった場合は選択情報として「0」を記録する。   FIG. 40 is an explanatory diagram showing a table 4000 provided in the classification result storage unit 3006 of the document classification device according to the sixth embodiment. In FIG. 40, a table is formed for each document ID, and the table 4000 records in which cycle each document is selected by the operator during classification. That is, “1” is recorded as selection information when selected, and “0” is recorded as selection information when not selected.

たとえば、4回分類が実行された際、文書IDの「1」、第1回目および第2回目の分類実行時に操作者に選択されたことを示し、第3回目、第4回目の分類実行時には選択されなかったことを示している。一方、文書IDの「2」は、未だ一度も選択されておらず、操作者にとって未知の意見という可能性を示唆している。   For example, when the classification is executed four times, the document ID “1” indicates that the operator has selected at the first and second classification execution, and at the third and fourth classification execution. Indicates that it was not selected. On the other hand, the document ID “2” has never been selected, suggesting the possibility of an unknown opinion for the operator.

こうした情報に基づいて、クラスタ特徴表示部3007が文書を操作者に表示する際、たとえば、選択された回数に応じて表示を変化させるようにするとよい。変化させる視覚的特性としては、たとえば文字や背景の色の濃度や彩度等が考えられる。   Based on such information, when the cluster feature display unit 3007 displays the document to the operator, for example, the display may be changed according to the selected number of times. As the visual characteristics to be changed, for example, the density and saturation of characters and background colors can be considered.

また、直接的に数字やグラフ等で選択された回数を表現することもできる。いずれにしてもよ選択される文書と一度も選択されていない文書とを視覚的に識別できる表示形式であれば、上記のものに限らない。   It is also possible to express the number of times selected directly by a number, a graph or the like. In any case, the display format is not limited to the above as long as the display format can visually identify a selected document and a document that has never been selected.

また、上記選択情報を分類体系閲覧操作部3011の閲覧操作により閲覧できるようにしてもよい。   Further, the selection information may be browsed by a browsing operation of the classification system browsing operation unit 3011.

つぎに、選択情報付与部3901の処理の内容について説明する。図41は、実施の形態6による文書分類装置の選択情報付与部3901の処理の手順を示すフローチャートである。図41のフローチャートにおいて、まず、分類処理がおこなわれ(ステップS4101)、それに引き続き、最初の文書が抽出される(ステップS4102)。   Next, the contents of processing of the selection information adding unit 3901 will be described. FIG. 41 is a flowchart illustrating a processing procedure of the selection information adding unit 3901 of the document classification device according to the sixth embodiment. In the flowchart of FIG. 41, first, classification processing is performed (step S4101), and subsequently, the first document is extracted (step S4102).

抽出された文書が、ステップS4101における分類処理の際に選択されたか否かを判断する(ステップS4103)。ここで、選択された場合(ステップS4103肯定)は、選択情報としてデータ「1」を記録する(ステップS4104)。一方、選択されなかった場合(ステップS4103否定)は、選択情報としてデータ「0」を記録する(ステップS4105)。   It is determined whether or not the extracted document has been selected in the classification process in step S4101 (step S4103). If it is selected (Yes at step S4103), data “1” is recorded as selection information (step S4104). On the other hand, if not selected (No in step S4103), data “0” is recorded as selection information (step S4105).

つぎに、すべての文書について処理が終了したか否かを判断する(ステップS4106)。ここで、すべての文書について処理が終了していない場合(ステップS4106否定)は、つぎに文書を抽出し(ステップS4107)、ステップS4103へ移行し、以後、ステップS4103〜S4107を繰り返しおこなう。   Next, it is determined whether or not processing has been completed for all documents (step S4106). If the processing has not been completed for all the documents (No at Step S4106), then the document is extracted (Step S4107), the process proceeds to Step S4103, and Steps S4103 to S4107 are repeated thereafter.

一方、ステップS4106において、すべての文書について処理が終了した場合(ステップS4106肯定)は、ステップS4101へ移行し、再度分類処理がおこなわれる(ステップS4101)。このようにして、分類処理がおこなわれる回数だけ、ステップS4101〜S4107の各処理が繰り返しおこなわれる。   On the other hand, in step S4106, when the processing is completed for all the documents (Yes in step S4106), the process proceeds to step S4101 and the classification process is performed again (step S4101). In this way, the processes in steps S4101 to S4107 are repeated as many times as the classification process is performed.

以上説明したように、実施の形態6によれば、選択情報付与部3901が選択情報を付与し、その選択情報をクラスタ特徴表示部3007が表示するので、多重に利用される文書の識別性および一度も選択されない文書の識別性を向上させることができる。   As described above, according to the sixth embodiment, the selection information giving unit 3901 gives the selection information, and the cluster feature display unit 3007 displays the selection information. It is possible to improve the distinguishability of a document that has never been selected.

なお、実施の形態2〜5で説明した文書分類方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーション等のコンピュータで実行することにより実現される。このプログラムは、ハードディスク、フロッピーディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、上記記録媒体を介して、または伝送媒体として、インターネット等のネットワークを介して配布することができる。   The document classification methods described in the second to fifth embodiments are realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. This program is recorded on a computer-readable recording medium such as a hard disk, floppy disk, CD-ROM, MO, and DVD, and is executed by being read from the recording medium by the computer. The program can be distributed through the recording medium or as a transmission medium via a network such as the Internet.

つぎに、実施の形態7〜16に係る情報分類装置について説明する。本発明の実施の形態では、自然言語で記述された一つ以上の文の集まりであり、かつその一つ以上の文の集まりが分類される対象である場合、それを文書と言う。具体的な例をあげれば、IPC分類等により分類される公開特許公報や、政治・経済・文化・科学技術等の特定分野に分類される新聞記事も文書であるし、それらから請求項や特定の一文を取り出したものであっても、請求項という分類に含まれる文であるか、用途等により分類可能な特定の一文であれば文書とみなす。以下、図面によりこの発明の実施の形態7〜16を詳細に説明する。   Next, information classification apparatuses according to Embodiments 7 to 16 will be described. In the embodiment of the present invention, when a collection of one or more sentences written in a natural language and the collection of one or more sentences is an object to be classified, it is referred to as a document. For example, published patent gazettes classified by IPC classification, etc., and newspaper articles classified into specific fields such as politics, economy, culture, science and technology, etc. are also documents, and claims and identification from them Even if one sentence is taken out, it is regarded as a document if it is a sentence included in a claim classification or a specific one sentence that can be classified according to usage. Embodiments 7 to 16 of the present invention will be described below in detail with reference to the drawings.

〔実施の形態7〕
図42はこの発明の実施の形態7を示す文書分類装置の構成ブロック図である。図42に示したように、実施の形態7の文書分類装置は、文書データ群を入力する文書入力部(文書入力手段)5001、それぞれの文書データを所定の基準に基づいて一つまたは複数の分割文書データに分割する文書分割部(文書分割手段)5002、上記文書データと分割文書データとを対応付けるマップを生成する文書−分割文書対応マップ生成部(文書−分割文書対応マップ生成手段)5003を備えている。
[Embodiment 7]
FIG. 42 is a block diagram showing the configuration of a document classification apparatus according to Embodiment 7 of the present invention. As shown in FIG. 42, the document classification apparatus according to the seventh embodiment includes a document input unit (document input unit) 5001 for inputting a document data group, and sets each document data based on a predetermined criterion. A document dividing unit (document dividing unit) 5002 that divides the document data into divided document data, and a document-divided document correspondence map generation unit (document-divided document correspondence map generation unit) 5003 that generates a map that associates the document data with the divided document data. I have.

また、上記文書分類装置は、分割文書データつまり分割された文書を分類する分割文書分類部(分割文書分類手段)5004、分割文書分類結果情報を生成する分割文書分類結果生成部(分割文書分類結果生成手段)5005、上記文書−分割文書対応マップと上記分割文書分類結果情報とを用いて上記文書データの分類結果情報を生成する文書分類結果生成部(文書分類結果生成手段)5006などを備えている。   The document classification apparatus includes a divided document classification unit (divided document classification unit) 5004 that classifies divided document data, that is, divided documents, and a divided document classification result generation unit (divided document classification result) that generates divided document classification result information. Generating means) 5005, a document classification result generating unit (document classification result generating means) 5006 for generating classification result information of the document data using the document-divided document correspondence map and the divided document classification result information. Yes.

なお、上記文書分割部5002、文書−分割文書対応マップ生成部5003、分割文書分類部5004、分割文書分類結果生成部5005、文書分類結果生成部5006は共有または独自のプログラム記憶用メモリおよびプログラムにしたがって動作するCPUを有している。   The document dividing unit 5002, the document-divided document correspondence map generation unit 5003, the divided document classification unit 5004, the divided document classification result generation unit 5005, and the document classification result generation unit 5006 are stored in a shared or original program storage memory and program. Therefore, it has an operating CPU.

以下、図42などにしたがって、実施の形態7の文書分類装置、文書分類方法を詳細に説明する。まず、文書入力部5001により、文書群が入力される。上記文書入力部5001はキーボード、OCR装置、着脱型記録媒体、またはネットワーク通信手段を備え、それらのいずれか一つを介して文書データ群を入力するのである。   Hereinafter, the document classification apparatus and the document classification method according to the seventh embodiment will be described in detail with reference to FIG. First, a document group is input by the document input unit 5001. The document input unit 5001 includes a keyboard, an OCR device, a removable recording medium, or network communication means, and inputs a document data group via any one of them.

そして、文書分割部5002が上記文書データ群を取得し、それぞれの文書データを所定の基準に基づいて分割し、一つの文書データから一つまたは複数の分割文書データを生成する。なお、文書データを分割する方法としては、文書の構造情報や文書を構成する要素情報を用いたり、利用者が指定する方法などを用いるが、ここでは、その方法は問わないこととする。   Then, the document dividing unit 5002 acquires the document data group, divides each document data based on a predetermined standard, and generates one or a plurality of divided document data from one document data. As a method for dividing the document data, the structure information of the document and the element information constituting the document are used, or the method specified by the user is used. However, the method is not limited here.

図43に、この文書分類装置/文書分類方法でおこなわれる、文書データから複数の分割文書データを生成する一例を示す。この例に示した文書1には複数のニューストピックが記述されており、1日分のトピックが文書単位となっている。図示したように、この文書ではそれぞれのニューストピックが二つの改行コードにより分離されているので、この規則を用いて一つの文書である文書1を分割し、一つが一つのトピックにより形成される分割文書1−1〜1−7の7つの分割文書データを生成する。なお、分割前の文書1も分割文書データとして含めることもできるが、ここでは含めないことにする。   FIG. 43 shows an example of generating a plurality of divided document data from document data performed by this document classification apparatus / document classification method. In the document 1 shown in this example, a plurality of news topics are described, and one day's topic is a document unit. As shown in the figure, since each news topic is separated by two line feed codes in this document, the document 1 which is one document is divided using this rule, and one is formed by one topic. Seven divided document data of documents 1-1 to 1-7 are generated. The document 1 before division can also be included as divided document data, but it is not included here.

文書が分割されると、文書−分割文書対応マップ生成部5003が分割前の文書データとその文書データから生成された分割文書データとを対応付けるマップを生成する。たとえば、個々の文書データを一意に示す識別子と個々の分割文書データを一意に示す識別子とから構成されるマップ、あるいは文書データごとに分割文書データを一意に示す識別子からなるマップを生成するのである。なお、文書データと分割文書データを対応付ける方法についてはここでは問わないこととする。   When the document is divided, the document-divided document correspondence map generation unit 5003 generates a map that associates the document data before division with the divided document data generated from the document data. For example, a map composed of an identifier uniquely indicating each document data and an identifier uniquely identifying each divided document data, or a map composed of an identifier uniquely identifying each divided document data is generated for each document data. . The method for associating the document data with the divided document data is not questioned here.

図44に、文書−分割文書対応マップを生成する一例を示す。図44において、文書1〜文書3は文書データを示し、分割文書1〜分割文書12は分割文書データを示している。図示のように、それぞれの文書データおよび分割文書データにそれぞれを一意に識別することかできる識別番号(識別子)を付与し、上記文書データの識別番号と分割文書データの識別番号とを図44の左下に示したテーブル形式で対応づけている。なお、任意の複数の分割文書データが文書分類にて用いられる基準において同一とみなすことができる場合は、それらの識別番号を同一にしてもよい。   FIG. 44 shows an example of generating a document-divided document correspondence map. In FIG. 44, documents 1 to 3 indicate document data, and divided documents 1 to 12 indicate divided document data. As shown in FIG. 44, each document data and divided document data is assigned an identification number (identifier) that can be uniquely identified, and the identification number of the document data and the identification number of the divided document data are shown in FIG. Corresponds in the table format shown in the lower left. In the case where arbitrary divided document data can be regarded as the same in the criteria used in document classification, their identification numbers may be the same.

続いて、分割文書分類部5004が上記分割文書を対象に文書分類をおこなう。個々の分割文書に対して、たとえば、言語処理を施し、文書中に含まれているそれぞれの単語の出現頻度を計数し、それに基づいてそれぞれの文書の特徴を計量的に表す特徴ベクトルを求め、それらの特徴ベクトルに対してカイ自乗法、判別分析手法、またはクラスタ分析手法などを適用することにより文書分類をおこなう。   Subsequently, the divided document classification unit 5004 performs document classification for the divided documents. For example, language processing is performed on each divided document, the frequency of occurrence of each word included in the document is counted, and a feature vector that quantitatively represents the feature of each document is obtained based on the frequency. Document classification is performed by applying a chi-square method, a discriminant analysis method, or a cluster analysis method to these feature vectors.

つぎに、図45に示すように、分割文書分類結果生成部5005が上記の分割文書分類の結果に基づいた分割文書分類結果情報を生成する。   Next, as shown in FIG. 45, the divided document classification result generation unit 5005 generates divided document classification result information based on the divided document classification result.

ここで、分割文書分類結果情報とは、たとえば、各分割文書データの所属カテゴリに関する情報(たとえば、図45に示した「分割文書データを3つのカテゴリに分類した結果」という表中の「分類カテゴリ」および「所属カテゴリの代表値との距離」の項の情報)、生成された所属カテゴリ個々に関する情報(たとえば、図45に示した「分類カテゴリに関する情報」という表中の「代表値」および「所属データ数(分割文書数)」の項の情報)、生成された所属カテゴリ間の情報(たとえば図45に示した「分類カテゴリ間の距離」という表の中の情報)などである。なお、利用者は上記のような種々の情報を分類結果分析の際の基礎データとして利用することができる。   Here, the divided document classification result information is, for example, information related to the category to which each divided document data belongs (for example, “classification category” in the table “result of classifying divided document data into three categories” shown in FIG. 45). ”And“ Distance to representative value of affiliation category ”), information about individual affiliation categories generated (for example,“ representative value ”and“ information in the table of “category category information” shown in FIG. 45) Information in the section “number of belonging data (number of divided documents)”, information between generated belonging categories (for example, information in the table “distance between classification categories” shown in FIG. 45), and the like. The user can use various kinds of information as described above as basic data for classification result analysis.

図45は、12個の分割文書データをそれらの有する計量的特徴ベクトルを用いて3つのカテゴリに分類した場合の分類結果の生成例である。分割文書データの有する計量的な3次元ベクトル(ベクトルの成分数は分類対象文書群に生起するすべての単語の種類数になるが、ここでは、いくつかの単語が縮退した3次元ベクトルに線形変換している)に対してたとえばクラスタ分析手法の一つであるWard法などを適用することで3つのカテゴリに分類することができる。   FIG. 45 is an example of generation of classification results when twelve divided document data are classified into three categories using their metric feature vectors. Metric three-dimensional vector of divided document data (The number of vector components is the number of all types of words that occur in the group of documents to be classified, but here, linear conversion into a three-dimensional vector in which some words are degenerated. For example, the Ward method, which is one of the cluster analysis methods, can be applied to the three categories.

つまり、各分割文書データは図示したように3つのカテゴリのうちのいずれか一つに属する。なお、所属カテゴリの代表値とは、所属分割文書データの特徴ベクトルの平均値(所属分割文書データの重心)である。   That is, each divided document data belongs to one of three categories as shown in the figure. The representative value of the affiliation category is the average value of the feature vectors of the affiliation divided document data (the center of gravity of the affiliation divided document data).

また、所属カテゴリの代表値との距離(類似度に対応する)は、たとえば、図45の分割文書3については、分割文書データ特徴ベクトルの項における分割文書3の値と、分割文書3の分類カテゴリであるカテゴリ2の代表値(所属分割文書データの重心)の項の値により、以下の数式から求めることができる。   The distance (corresponding to the similarity) with the representative value of the belonging category is, for example, for the divided document 3 in FIG. 45, the value of the divided document 3 in the section of the divided document data feature vector and the classification of the divided document 3 From the value of the term of the representative value of category 2, which is the category (the center of gravity of the assigned divided document data), it can be obtained from the following mathematical formula.

((3.00−2.66)2+(2.00−2.00)2÷(4.00−3.66)21/2=0.48
上記の所属カテゴリの代表値との距離が小さいほど、そのカテゴリに属する平均的分割文書との類似度が高いということになる。
((3.00-2.66) 2 + (2.00-2.00) 2 ÷ (4.00-3.66) 2 ) 1/2 = 0.48
The smaller the distance from the representative value of the above-mentioned affiliation category, the higher the similarity with the average divided document belonging to that category.

なお、分割文書分類結果情報としては、図45に示した以外にも、カテゴリ内分散やカテゴリ間分散、各カテゴリにおける類似度のレンジなどさまざまな統計量を生成することかできる。   As the divided document classification result information, various statistics such as intra-category variance, inter-category variance, and the similarity range in each category can be generated in addition to those shown in FIG.

続いて、文書分類結果生成部5006が上記文書−分割文書対応マップと上記分割文書分類結果情報とを用いて、たとえば図46に示すような、上記文書データの分類結果情報を生成する。図46の例では、図示したように、各分類カテゴリごとに、所属する分割文書データ、その類似度(所属カテゴリの代表値との距離)、分割文書データの属する分割前文書データ(所属文書)、文書占有率(分割文書データの当該カテゴリに所属する割合)、分割文書データの所属文書における相対位置(順序)、所属カテゴリ内での当該分割文書データの類似度の順位などを生成している。   Subsequently, the document classification result generation unit 5006 generates the document data classification result information as shown in FIG. 46, for example, using the document-divided document correspondence map and the divided document classification result information. In the example of FIG. 46, as shown, the divided document data to which each classification category belongs, its similarity (distance from the representative value of the belonging category), pre-division document data to which the divided document data belongs (affiliated document) , Document occupancy rate (ratio of divided document data belonging to the category), relative position (order) of the divided document data in the belonging document, ranking of similarity of the divided document data within the belonging category, etc. .

なお、上記において、所属文書は文書−分割文書対応マップから、それ以外の分類結果情報は分割文書分類結果情報から得ている。文書分類結果生成部5006は図46に示した情報以外にも、各カテゴリ内での分散、分割文書データの所属カテゴリ内での偏差値などさまざまな統計量、文書データや分割文書データの内容などを分類結果情報として利用することもできる。   In the above, the belonging document is obtained from the document-divided document correspondence map, and the other classification result information is obtained from the divided document classification result information. In addition to the information shown in FIG. 46, the document classification result generation unit 5006 has various statistics such as distribution within each category, deviation values within the category to which the divided document data belongs, contents of the document data and divided document data, and the like. Can also be used as classification result information.

また、上記においては、すべての結果を分割文書データを単位とした表形式で表現しているが、分類カテゴリや文書データを単位として表現することもできる。また、分類結果情報をテキスト表現にするだけでなく、グラフィカルな表現にして、利用者が理解しやすいようにすることも可能である。   In the above description, all results are expressed in a table format with divided document data as a unit. However, classification results and document data can also be expressed in units. Moreover, the classification result information can be made not only textual representation but also graphical representation so that the user can easily understand.

こうして、本実施の形態によれば、一つの文書が分割され、分割文書が分類され、分割前文書と上記分割文書との対応が利用者に示され、上記分割文書の分類結果が利用者に示されるので、一つの文書の中に複数の話題や意味が含まれている場合に、ある特定の話題や意味に限定されたカテゴリに分類されたり、利用者の意図するカテゴリとは異なるカテゴリに分類されたりすることがなく、したがって、利用者がその分類カテゴリをよく理解できる。また、分割前文書(所属文書)中の分割文書の位置なども示されるので、利用者は文書群中の読みたい部分を効率的に読むことができる。   Thus, according to the present embodiment, one document is divided, the divided documents are classified, the correspondence between the pre-division document and the divided document is shown to the user, and the classification result of the divided document is displayed to the user. Therefore, if multiple topics or meanings are included in a single document, they are classified into categories that are limited to specific topics or meanings, or categories that differ from the categories intended by the user. Therefore, the user can understand the classification category well. Further, since the position of the divided document in the pre-division document (affiliation document) is also shown, the user can efficiently read the portion to be read in the document group.

〔実施の形態8〕
図47は本発明の実施の形態8に係る文書分類装置の構成ブロック図である。図示したように、実施の形態8の文書分類装置は、図42に示した実施の形態7の構成に加え、文書データを保存する文書保存部(文書保存手段)5007、分割文書データを保存する分割文書保存部(分割文書保存手段)5008、文書−分割文書対応マップ生成部5003により生成された文書−分割文書対応マップを保存する文書−分割文書対応マップ保存部(文書−分割文書対応マップ保存手段)5009を備えている。なお、上記各保存部はたとえば共有のハードディスクや半導体メモリなどにより構成される。
[Embodiment 8]
FIG. 47 is a block diagram showing the configuration of the document classification apparatus according to Embodiment 8 of the present invention. As shown in the figure, the document classification apparatus according to the eighth embodiment adds a document storage unit (document storage unit) 5007 for storing document data and stores divided document data in addition to the configuration of the seventh embodiment shown in FIG. A document-divided document correspondence map storage unit (document-divided document correspondence map storage unit) that stores the document-divided document correspondence map generated by the divided document storage unit (divided document storage unit) 5008 and the document-divided document correspondence map generation unit 5003 Means) 5009 is provided. Each storage unit is constituted by a shared hard disk or a semiconductor memory, for example.

上記した構成により、本実施の形態の文書保存部5007は、文書データの内容や、文書の作成者、作成日、最終修正日などの文書データに付随する情報を適切な形式で保存する。また、文書データが文書内容とともにその要素からなる計量的な特徴ベクトルを持つ場合にはこれらも保存する。文書入力部5001にて、個々の文書データにそれらを一意に表す識別子が付与される場合にはこの識別子も適切な形式で保存することができる。   With the above-described configuration, the document storage unit 5007 according to the present embodiment stores the information associated with the document data such as the contents of the document data and the document creator, creation date, and last modification date in an appropriate format. Further, when the document data has a metric feature vector composed of the elements together with the document contents, these are also stored. When the document input unit 5001 assigns an identifier that uniquely represents each piece of document data, this identifier can also be stored in an appropriate format.

また、分割文書保存部5008は、文書分割部5002により生成される分割文書データの内容を適切な形式で保存するとともに、計量的な特徴ベクトルを持つ場合にはこれらも保存する。個々の上記分割文書データにそれらを一意に表す識別子が付与される場合にはこの識別子も適切な形式で保存することができる。   Further, the divided document storage unit 5008 stores the contents of the divided document data generated by the document dividing unit 5002 in an appropriate format, and also stores these in the case of having a metric feature vector. When an identifier that uniquely represents each of the divided document data is given, this identifier can also be stored in an appropriate format.

また、文書−分割文書対応マップ保存部5009は、文書−分割文書対応マップ生成部5003により生成される文書−分割文書対応マップを適切な形式で保存する。   Further, the document-divided document correspondence map storage unit 5009 stores the document-divided document correspondence map generated by the document-divided document correspondence map generation unit 5003 in an appropriate format.

このように、実施の形態8によれば、文書データ、分割文書データ、および文書−分割文書対応マップが保存されるので、分割文書データおよび文書−分割文書対応マップを再生成することなしに、同一の文書データに対して、分類数、分類手法、または分類時の諸設定などパラメータの異なる分類結果を効率的に求めることができる。また、文書データを分類し、分類結果を生成するために必要なデータが保存されることにより、利用者は、分類作業に対して時間的な自由度を持つことができ、過去に行った文書分類の再分析を任意の時間におこなうこともできる。   As described above, according to the eighth embodiment, the document data, the divided document data, and the document-divided document correspondence map are stored, so that the divided document data and the document-divided document correspondence map are not regenerated. For the same document data, classification results with different parameters such as the number of classifications, classification method, and various settings at the time of classification can be efficiently obtained. In addition, since the data necessary for classifying document data and generating the classification result is saved, the user can have a degree of freedom in time for the classification work, and the past document Reanalysis of the classification can also be performed at any time.

〔実施の形態9〕
図48は本発明の実施の形態9を示す文書分類装置の構成ブロック図である。図48に示したように、本実施の形態の文書分類装置は、図47に示した実施の形態8の構成に加え、分割文書分類結果生成部5005により生成された分割文書分類結果情報を保有する分割文書分類結果保存部(分割文書分類結果保存手段)5010を備えている。なお、上記分割文書分類結果保存部5010は、たとえば、共有のハードディスクや半導体メモリなどにより構成される。
[Embodiment 9]
FIG. 48 is a block diagram showing the configuration of the document classification apparatus according to the ninth embodiment of the present invention. As shown in FIG. 48, the document classification apparatus according to the present embodiment has the divided document classification result information generated by the divided document classification result generation unit 5005 in addition to the configuration of the eighth embodiment shown in FIG. A divided document classification result storage unit (divided document classification result storage means) 5010 is provided. The divided document classification result storage unit 5010 is constituted by, for example, a shared hard disk or semiconductor memory.

このように、第3の実施の形態によれば、文書データ、分割文書データ、文書−分割文書対応マップ、および、分割文書分類結果情報が保存されるので、実施の形態8の効果に加え、一度分類を実行すれば、その分類結果をテキスト表現や表表現やグラフ表現などさまざまな形式で表現することかできる。また、分割文書分類結果情報が保存されることにより、分類の実行作業および分類結果の分析作業において、利用者は、時間的な自由度を持つことができ、過去に行った文書分類結果の再分析をさまざまな表現形式で任意の時間におこなうこともできる。   As described above, according to the third embodiment, the document data, the divided document data, the document-divided document correspondence map, and the divided document classification result information are stored. In addition to the effects of the eighth embodiment, Once classification is performed, the classification result can be expressed in various forms such as text expression, table expression, and graph expression. In addition, by storing the divided document classification result information, the user can have a degree of time freedom in the classification execution work and the classification result analysis work, and the past document classification result can be reproduced. Analysis can also be done at any time in various representation formats.

〔実施の形態10〕
この発明の実施の形態10では、前記各実施の形態の文書分類装置、文書分類方法において、図49に示すように、文書分割部5002により生成される複数の分割文書データ中に分割前の文書データである文書1を含む。これにより、本実施の形態では、利用者は、分割されている文書データを分類することで得られる詳細な文書データの分類構造だけでなく、分割前の文書データ自体を分類した結果として得られるマクロな分類構造の融合した分類構造を得ることができる。
[Embodiment 10]
In Embodiment 10 of the present invention, in the document classification apparatus and document classification method of each of the above embodiments, as shown in FIG. 49, the document before division in a plurality of pieces of divided document data generated by the document division unit 5002 Document 1 that is data is included. Thereby, in this embodiment, the user can obtain not only the detailed document data classification structure obtained by classifying the divided document data but also the result of classifying the document data itself before the division. A classification structure in which macro classification structures are merged can be obtained.

〔実施の形態11〕
この発明の実施の形態11では、前記各実施の形態の文書分類装置、文書分類方法において、文書分割部5002は、文書データの構造情報を基に文書データを分割する。図50に、分類対象文書データかHTML形式で記述された文書の例を示す。分割をおこなう前に、図50に示したようなHTML形式の文書データから構造情報を抽出し、それらの構造を用いて文書の適切な分割規則を設定することにより文書データから分割文書データを生成する。
[Embodiment 11]
In Embodiment 11 of the present invention, in the document classification apparatus and document classification method of each of the above embodiments, the document dividing unit 5002 divides document data based on the structure information of the document data. FIG. 50 shows an example of classification target document data or a document described in HTML format. Before dividing, the structure information is extracted from the document data in the HTML format as shown in FIG. 50, and the divided document data is generated from the document data by setting an appropriate dividing rule of the document using those structures. To do.

つまり、この例では、文書データ中のタグ<Ll>に着目し、「タグ<Ll>を持つテキストを一つの分割文書データとする」という文言を分割文書データを生成する規則とする。この規則を文書データに適用することにより図50に示したような7つの分割文書か生成される。   That is, in this example, focusing on the tag <Ll> in the document data, the phrase “text having the tag <Ll> as one piece of divided document data” is a rule for generating the divided document data. By applying this rule to the document data, seven divided documents as shown in FIG. 50 are generated.

上記のように、文書が、HTML、XML、SGMLなど特定の構造化文書の形式を有していない場合でも、文字の大きさ、文字の装飾、文字の色、およびフォントなどに関する情報から分割規則を生成し、分割文書を生成することもできる。また、文書データがイメージであってOCR装置などにより入力される場合には、元のイメージのレイアウト情報などを利用することにより分割規則を生成し、分割文書を生成することもできる。   As described above, even if the document does not have a specific structured document format such as HTML, XML, SGML, etc., a division rule is obtained from information on character size, character decoration, character color, font, etc. To generate a divided document. Further, when the document data is an image and is input by an OCR device or the like, it is possible to generate a division rule by using layout information of the original image and generate a divided document.

なお、文書データのすべてをいずれかの分割文書データにする必要はない。たとえば、図50に示した例では、文字列「ニューストピック(98/09/25)」は分割文書には採用しない。   Note that it is not necessary for all of the document data to be any divided document data. For example, in the example shown in FIG. 50, the character string “news topic (98/09/25)” is not adopted for the divided document.

このように、実施の形態11では、文書データから構造情報を抽出し、文書
割をおこなう前に構造情報を用いて文書の適切な分割規則を設定することにより、異なった話題の分割などを適切におこなうことができ、したがって、文書データの詳細な分類構造がわかる文書分類を適切におこなうことができる。
As described above, according to the eleventh embodiment, by extracting structure information from document data and setting an appropriate document division rule using the structure information before dividing the document, it is possible to appropriately divide different topics. Therefore, it is possible to appropriately perform document classification in which the detailed classification structure of document data is known.

〔実施の形態12〕
この発明の実施の形態12では、前記実施の形態7〜10の文書分類装置、文書分類方法において、図51に示すように、文書データに含まれる単語など要素を抽出する文書要素解析部(文書要素抽出手段)5011、上記文書要素解析部5011により抽出された要素に付随する品詞など要素付随情報を抽出する要素付随情報抽出部(要素付随情報抽出手段)5012を備え(図51は図48に示した実施の形態9に文書要素抽出部5011、要素付随情報抽出5012を加えた例で示している)、文書分割部5002が、上記文書要素解析部5011により抽出された要素、または上記要素と上記要素付随情報抽出部5012により抽出された要素付随情報とを用いて上記文書データを分割する。
[Embodiment 12]
In Embodiment 12 of the present invention, as shown in FIG. 51, in the document classification apparatus and document classification method of Embodiments 7 to 10, a document element analysis unit (document (Element extracting means) 5011 and an element accompanying information extracting section (element accompanying information extracting means) 5012 for extracting element accompanying information such as parts of speech attached to elements extracted by the document element analyzing section 5011 (FIG. 51 is shown in FIG. 48). The document element extraction unit 5011 and the element associated information extraction 5012 are added to the illustrated embodiment 9), the document division unit 5002 is the element extracted by the document element analysis unit 5011, or The document data is divided using the element incidental information extracted by the element incidental information extraction unit 5012.

図52に示すように、文書分割をおこなう前に、自然言語処理手段である文書要素解析部5011が文書データから単語などそれらの要素を抽出し、要素付随情報抽出部5012が品詞など要素付随情報を抽出して文書の適切な分割規則を設定するのである。なお、上記文書要素解析部5011および要素付随情報抽出部5012は新たに設けるのではなく、分割文書分類部5004内の同様の手段を用いることが可能である。   As shown in FIG. 52, before performing document division, a document element analysis unit 5011 that is a natural language processing unit extracts those elements such as words from document data, and an element associated information extraction unit 5012 performs element associated information such as parts of speech. Is extracted, and an appropriate division rule for the document is set. Note that the document element analysis unit 5011 and the element associated information extraction unit 5012 are not newly provided, but the same means in the divided document classification unit 5004 can be used.

この実施の形態では、たとえば、図52に示したように、文書データが特定の構造情報を持たない複数のニューストピックの集まりであり、各トピックが、単語「トピック」+「数字」+「改行コード」という文字列の後に記述されている場合で説明すると、上記のような構造が文書要素解析部5011および要素付随情報抽出部5012の抽出結果から認識され、文章の終端を考慮して、「トピック+数字+改行コードという文字列を先頭とし、上記文字列または文書終端記号を終端として囲まれる文字列を一つの分割文書データとする」という分割規則が生成されることになる。   In this embodiment, for example, as shown in FIG. 52, the document data is a collection of a plurality of news topics that do not have specific structural information, and each topic is a word “topic” + “number” + “new line”. In the case where it is described after the character string “code”, the structure as described above is recognized from the extraction results of the document element analysis unit 5011 and the element associated information extraction unit 5012, and “ The division rule “one character string of topic + number + line feed code and the character string enclosed by the character string or the document end symbol as one end” is generated.

さらに詳しく説明すると、抽出された単語とその品詞情報などから、まず、名詞と改行コードのみを抽出し、つぎに、文字列「トピック+数字+改行コード」および文書終端記号を検出し、文書内でのそれらの位置を記憶する。そして、文書データに対して前記分割規則を適用し、図52に示したような分割文書データを生成する。   In more detail, first, only the noun and line feed code are extracted from the extracted word and its part-of-speech information, then the character string “topic + number + line feed code” and the document end symbol are detected, Remember their position at. Then, the division rule is applied to the document data to generate divided document data as shown in FIG.

なお、文書データのすべてをいずれかの分割文書データにする必要はなく、たとえば、図52に示した例では、文字列「ニューストピック(98/09/25)」は分割文書には採用しない。また、上記の例では、文書データから要素およびその付随情報を抽出して分割規則を設定する場合で説明したが、要素のみを抽出してその要素情報から分割規則を設定することも可能である。   Note that it is not necessary to make all of the document data into any of the divided document data. For example, in the example shown in FIG. 52, the character string “News Topic (98/09/25)” is not adopted in the divided document. Further, in the above example, the case where an element and its accompanying information are extracted from the document data and the division rule is set has been described, but it is also possible to extract only the element and set the division rule from the element information. .

こうして、実施の形態12によれば、文書データからそれらの要素情報などを抽出し、抽出した要素情報などを用いて文書の分割規則を設定することにより、実施の形態11と同様に、文書データの詳細な分類構造がわかる文書分類を適切におこなうことができる。   Thus, according to the twelfth embodiment, by extracting the element information and the like from the document data and setting the document division rule using the extracted element information and the like, as in the eleventh embodiment, the document data It is possible to appropriately perform document classification that can understand the detailed classification structure.

〔実施の形態13〕
この発明の実施の形態13では、前記実施の形態7〜10の文書分類装置、文書分類方法において、利用者により指示された指定範囲にしたがって文書分割部5002が文書データを分割する。図53に示すような文書データに対して利用者がそれぞれの分割文書の範囲を指定すると、指定にしたがって文書分割部5002が文書分割をおこなう。
[Embodiment 13]
In the thirteenth embodiment of the present invention, in the document classification device and the document classification method of the seventh to tenth embodiments, the document dividing unit 5002 divides the document data according to the designated range designated by the user. When the user designates the range of each divided document for the document data as shown in FIG. 53, the document dividing unit 5002 performs document division according to the specification.

本実施の形態では、文書分割時、文書分割部5002がまず、画面上に、その初期状態として左右の指示ポイントおよび領域指定ラインからなる領域指定オブジェクトを文書の最上部に表示する。この状態で、利用者は、マウスなどポインティングデバイスを用いて、左右どちらかの指示ポイントをドラッグし、それを上下に移動させることにより、それぞれの分割文書の領域を選択することができる。   In the present embodiment, at the time of document division, the document division unit 5002 first displays an area designation object including left and right instruction points and area designation lines as an initial state on the screen at the top of the document. In this state, the user can select an area of each divided document by dragging one of the left and right instruction points using a pointing device such as a mouse and moving it up and down.

また、この指定時、文書分割部5002は、領域選択処理をおこなっていることを示すため、指示ポインタを黒色から白色に、領域指定ラインを実線から破線に変化させる。選択領域を決定するには、所望の位置で指示ポイントのドラッグを止めればよい。   At the time of designation, the document dividing unit 5002 changes the instruction pointer from black to white and the area designation line from a solid line to a broken line to indicate that the area selection process is being performed. In order to determine the selection area, it is only necessary to stop dragging the indication point at a desired position.

つぎに、利用者は選択した領域を分割文書とするかしないか決定する。分割領域としない場合には、それを明示的に表示するために、文書分割部5002は選択領域を図示のように網掛け表示にさせる。   Next, the user decides whether or not to make the selected area a divided document. If the area is not a divided area, the document dividing section 5002 displays the selected area in a shaded manner as shown in the drawing in order to explicitly display it.

こうして、本実施の形態によれば、利用者は文書データからそれぞれの分割文書データを所望通りに選択することができるので、文書データの詳細な分類構造がわかり、かつ利用者の意図に合った文書分類をおこなうことができる。   Thus, according to the present embodiment, the user can select each divided document data from the document data as desired, so that the detailed classification structure of the document data is known and suits the user's intention. Document classification can be performed.

〔実施の形態14〕
この発明の実施の形態14では、前記実施の形態7〜10の文書分類装置、文書分類方法において、文書データ中の文字数、文数、または文字数と文数の両方を基に文書データを分割する。たとえば、図54に示す文書データをほぼ200文字を単位として分割をおこなう。
[Embodiment 14]
In Embodiment 14 of the present invention, in the document classification device and document classification method of Embodiments 7 to 10, the document data is divided based on the number of characters in the document data, the number of sentences, or both the number of characters and the number of sentences. . For example, the document data shown in FIG. 54 is divided in units of approximately 200 characters.

ここで、ほぼ200文字を単位とするのは、正確な200文字単位としてもその終端が句点である保証がないことから、200文字目の前後のもっとも近い句点をそれぞれの分割文書の終端とするからである。こうして、図54に示したような分割文書が生成される。同様に、所定の文数を単位とした文書分割をおこなうこともできるし、文字数と文数の両方を基にした文書分割をおこなうこともできる。   Here, approximately 200 characters are used as the unit, and even if it is an accurate 200 character unit, there is no guarantee that the end is a punctuation point, so the nearest punctuation point before and after the 200th character is the ending point of each divided document. Because. In this way, a divided document as shown in FIG. 54 is generated. Similarly, document division can be performed in units of a predetermined number of sentences, or document division can be performed based on both the number of characters and the number of sentences.

このように、実施の形態14によれば、文字数、文数、または文字数と文数の両方を基に文書データを分割することにより、話題の異なった内容などが異なった分割文書として分割され、分類される可能性が高くなるので、文書データの詳細な分類構造がわかる文書分類をおこなうことができる。   As described above, according to the fourteenth embodiment, by dividing the document data based on the number of characters, the number of sentences, or both the number of characters and the number of sentences, contents of different topics are divided as different divided documents, Since there is a high possibility of classification, it is possible to perform document classification that shows the detailed classification structure of document data.

〔実施の形態15〕
この発明の実施の形態15では、前記各実施の形態の文書分類装置、文書分類方法において、文書分類結果生成部5006が分類結果情報として、文書データを示す情報および上記文書データに付随する代表的情報のみを提示する。
[Embodiment 15]
In the fifteenth embodiment of the present invention, in the document classification device and document classification method of each of the above embodiments, the document classification result generation unit 5006 uses the classification result information as information indicating the document data and the representative data attached to the document data. Present only information.

たとえば図55に示すように、先頭に分類カテゴリ名を表示し、その横にそのカテゴリを代表するキーワードを表示し、カテゴリ名の下には文書データを示す情報として当該カテゴリに属する分割文書データを含んでいる文書データの、たとえば、文書データ名(文書名)を表示する。また、各文書データ名の左側には文書アイコンを表示させ、この文書アイコンが指示されたとき、文書データの内容を表示させる。   For example, as shown in FIG. 55, a classification category name is displayed at the top, a keyword representing the category is displayed beside the category name, and divided document data belonging to the category is displayed as information indicating document data under the category name. For example, the document data name (document name) of the included document data is displayed. A document icon is displayed on the left side of each document data name, and when the document icon is designated, the contents of the document data are displayed.

また、各文書データ名の配置順は、カテゴリ代表値との類似度が高い分割文書データの文書データ名を先(左側)にする。また、同じ文書データから生成された複数の分割文書データが同一の分類カテゴリに属している場合には、類似度のもっとも高い分割文書データに対応する文書データ名のみを表示する。なお、上記キーワードとは出現頻度の多い単語である。   The document data names are arranged in the order (left side) of the document data names of the divided document data having a high similarity to the category representative value. When a plurality of divided document data generated from the same document data belong to the same classification category, only the document data name corresponding to the divided document data with the highest similarity is displayed. The keyword is a word having a high appearance frequency.

このように、実施の形態15によれば、文書分類結果が文書データを示す情報と文書データに付随する代表的情報のみが表示されるので、利用者は文書データの詳細な分類構造の概要を容易に把握することができる。   As described above, according to the fifteenth embodiment, only the information indicating that the document classification result indicates the document data and the representative information accompanying the document data are displayed. Therefore, the user can obtain an overview of the detailed classification structure of the document data. It can be easily grasped.

〔実施の形態16〕
この発明の実施の形態16では、実施の形態15の文書分類結果提示に加えて、分割文書データを示す情報および上記分割文書データに付随する情報を提示する。
[Embodiment 16]
In the sixteenth embodiment of the present invention, in addition to the document classification result presentation in the fifteenth embodiment, information indicating divided document data and information accompanying the divided document data are presented.

たとえば、図56に示すように、先頭に分類カテゴリ名を表示し、その横にそのカテゴリを代表するキーワードを表示し、カテゴリ名の下には文書データを示す情報として当該カテゴリに属する分割文書データを含んでいる文書データのたとえば文書データ名(文書名)を表示する。   For example, as shown in FIG. 56, a classification category name is displayed at the top, a keyword representing the category is displayed beside it, and divided document data belonging to the category is displayed as information indicating document data under the category name. For example, the document data name (document name) of the document data including “” is displayed.

また、各文書データ名の左側には文書アイコンを表示させ、この文書アイコンが指示されたとき、文書データの内容を表示させる。また、文書データ名の右側には分割文書アイコンを表示させる。なお、分割文書アイコン中には当該文書データにおける分割文書データの位置と当該文書データ中の分割文書数を表示させる。さらに、上記分割文書アイコンを指示することで文書データ中の当該分割文書データを表示させることができる。   A document icon is displayed on the left side of each document data name, and when the document icon is designated, the contents of the document data are displayed. A divided document icon is displayed on the right side of the document data name. In the divided document icon, the position of the divided document data in the document data and the number of divided documents in the document data are displayed. Further, the divided document data in the document data can be displayed by designating the divided document icon.

また、各文書データ名の配置順はカテゴリ代表値との類似度が高い分割文書データの文書データ名を先にする。また、同じ文書データから生成された複数の分割文書データが同一の分類カテゴリに属している場合には類似度の順位がわかるようにその順位を表示させる。   The document data names are arranged in order of the document data names of the divided document data having a high similarity to the category representative value. Further, when a plurality of divided document data generated from the same document data belong to the same classification category, the rank is displayed so that the rank of the similarity is understood.

このように、実施の形態16によれば、文書分類結果が文書データを示す情報と文書データに付随する代表的情報、および分割文書データを示す情報と分割文書データに付随する代表的情報のみが表示されるので、利用者は文書データの詳細な分類構造の概要とともにどの分割文書が起因して当該カテゴリに分類されたかというようなことも容易にわかる。   As described above, according to the sixteenth embodiment, the document classification result includes only the information indicating the document data and the representative information associated with the document data, and the information indicating the divided document data and the representative information associated with the divided document data. Since it is displayed, the user can easily understand which divided document is classified into the category due to the outline of the detailed classification structure of the document data.

以上、本発明の文書処理装置、文書分類装置、文書処理方法および文書分類方法を説明したが、この文書処理方法および文書分類方法を実現するプログラムを着脱可能であるとともにコンピュータ読み取り可能な記録媒体に記録し、上記記録媒体を移した先の情報処理装置内で本発明によった文書処理および文書分類をおこなうこともできる。   The document processing apparatus, document classification apparatus, document processing method, and document classification method of the present invention have been described above. However, the program for realizing the document processing method and the document classification method can be attached to and removed from the computer-readable recording medium. It is also possible to perform document processing and document classification according to the present invention in the information processing apparatus that has recorded and transferred the recording medium.

この発明の実施の形態1による文書処理装置を構成する情報処理システム全体のハードウエア構成を示す説明図である。It is explanatory drawing which shows the hardware constitutions of the whole information processing system which comprises the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置を構成する情報処理システムにおけるサーバーのハードウエア構成を示す説明図である。It is explanatory drawing which shows the hardware constitutions of the server in the information processing system which comprises the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置を構成する情報処理システムにおけるクライアントのハードウエア構成を示す説明図である。It is explanatory drawing which shows the hardware constitutions of the client in the information processing system which comprises the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の構成を機能的に示すブロック図である。1 is a block diagram functionally showing the configuration of a document processing apparatus according to Embodiment 1 of the present invention. FIG. この発明の実施の形態1による文書処理装置の項目名と項目値の関係を示す説明図である。It is explanatory drawing which shows the relationship between the item name and item value of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の文書記憶部に記憶された文書のデータ構造を示す説明図である。It is explanatory drawing which shows the data structure of the document memorize | stored in the document memory | storage part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の文書記憶部に記憶された文書の別のデータ構造を示す説明図である。It is explanatory drawing which shows another data structure of the document memorize | stored in the document memory | storage part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の例を示す説明図である。It is explanatory drawing which shows the example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の特徴抽出部によりおこなわれる抽出処理の内容の一覧を示す説明図である。It is explanatory drawing which shows the list of the content of the extraction process performed by the feature extraction part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の加工処理部によりおこなわれる加工処理の内容の一覧を示す説明図である。It is explanatory drawing which shows the list of the content of the process performed by the process part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の各項目の特徴ベクトルを示す説明図である。It is explanatory drawing which shows the feature vector of each item of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の単語とその単語IDごとの出現回数を示す説明図である。It is explanatory drawing which shows the frequency | count of appearance for every word and its word ID of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部によるクロス表作成のための指示画面を示す説明図である。It is explanatory drawing which shows the instruction | indication screen for the cross table preparation by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による分類処理の結果が表示されたクロス表を示す説明図である。It is explanatory drawing which shows the cross table by which the result of the classification process by the output part of the document processing apparatus by Embodiment 1 of this invention was displayed. この発明の実施の形態1による文書処理装置の出力部による分類処理の結果が表示された別のクロス表を示す説明図である。It is explanatory drawing which shows another cross table by which the result of the classification process by the output part of the document processing apparatus by Embodiment 1 of this invention was displayed. この発明の実施の形態1による文書処理装置の出力部の詳細な構成を示すブロック図である。It is a block diagram which shows the detailed structure of the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置のクロス表の出力手順を示すフローチャートである。It is a flowchart which shows the output procedure of the cross table of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の文書記憶部の詳細な構成を示すブロック図である。It is a block diagram which shows the detailed structure of the document memory | storage part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の出力部による画面表示の別の例を示す説明図である。It is explanatory drawing which shows another example of the screen display by the output part of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態1による文書処理装置の文書処理の一連の手順を示すフローチャートである。It is a flowchart which shows a series of procedures of the document processing of the document processing apparatus by Embodiment 1 of this invention. この発明の実施の形態2による文書分類装置の構成を機能的に示すブロック図である。It is a block diagram which shows functionally the structure of the document classification device by Embodiment 2 of this invention. この発明の実施の形態2による文書分類装置のクラスタ特徴表示部の表示の一例を示す説明図である。It is explanatory drawing which shows an example of the display of the cluster characteristic display part of the document classification device by Embodiment 2 of this invention. この発明の実施の形態2による文書分類装置の一連の処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of a series of processes of the document classification device by Embodiment 2 of this invention. この発明の実施の形態3による文書分類装置の構成を機能的に示すブロック図である。It is a block diagram which shows functionally the structure of the document classification device by Embodiment 3 of this invention. この発明の実施の形態3よる文書分類装置の一連の処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of a series of processes of the document classification device by Embodiment 3 of this invention. この発明の実施の形態4による文書分類装置の構成を機能的に示すブロック図である。It is a block diagram which shows functionally the structure of the document classification device by Embodiment 4 of this invention. この発明の実施の形態4よる文書分類装置の一連の処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of a series of processes of the document classification device by Embodiment 4 of this invention. この発明の実施の形態5による文書分類装置の構成を機能的に示すブロック図である。It is a block diagram which shows functionally the structure of the document classification device by Embodiment 5 of this invention. この発明の実施の形態5よる文書分類装置の一連の処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of a series of processes of the document classification device by Embodiment 5 of this invention. この発明の実施の形態6による文書分類装置の構成を機能的に示すブロック図である。It is a block diagram which shows functionally the structure of the document classification device by Embodiment 6 of this invention. この発明の実施の形態6による文書分類装置の分類結果記憶部において設けられたテーブルを示す説明図である。It is explanatory drawing which shows the table provided in the classification result memory | storage part of the document classification device by Embodiment 6 of this invention. この発明の実施の形態6による文書分類装置の選択情報付与部の処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process of the selection information provision part of the document classification device by Embodiment 6 of this invention. この発明の実施の形態7を示す文書分類装置の構成ブロック図である。It is a block diagram of the configuration of a document classification device showing Embodiment 7 of the present invention. この発明の実施の形態7による文書分類装置および文書分類方法の説明図である。It is explanatory drawing of the document classification device and document classification method by Embodiment 7 of this invention. この発明の実施の形態7による文書分類装置および文書分類方法の他の説明図である。It is another explanatory drawing of the document classification device and document classification method by Embodiment 7 of this invention. この発明の実施の形態7による文書分類装置および文書分類方法の他の説明図である。It is another explanatory drawing of the document classification device and document classification method by Embodiment 7 of this invention. この発明の実施の形態7による文書分類装置および文書分類方法の他の説明図である。It is another explanatory drawing of the document classification device and document classification method by Embodiment 7 of this invention. この発明の実施の形態8による文書分類装置の構成ブロック図である。It is a block diagram of the configuration of a document classification device according to an eighth embodiment of the present invention. この発明の実施の形態9による文書分類装置の構成ブロック図である。It is a block diagram of the configuration of a document classification device according to Embodiment 9 of the present invention. この発明の実施の形態10による文書分類装置および文書分類方法の説明図である。It is explanatory drawing of the document classification device and document classification method by Embodiment 10 of this invention. この発明の実施の形態11による文書分類装置および文書分類方法の説明図である。It is explanatory drawing of the document classification device and document classification method by Embodiment 11 of this invention. この発明の実施の形態12による文書分類装置の構成ブロック図である。It is a block diagram of the configuration of a document classification device according to Embodiment 12 of the present invention. この発明の実施の形態12による文書分類装置および文書分類方法の説明図である。It is explanatory drawing of the document classification device and document classification method by Embodiment 12 of this invention. この発明の実施の形態13による文書分類装置および文書分類方法の説明図である。It is explanatory drawing of the document classification device and document classification method by Embodiment 13 of this invention. この発明の実施の形態14による文書分類装置および文書分類方法の説明図である。It is explanatory drawing of the document classification device and document classification method by Embodiment 14 of this invention. この発明の実施の形態15による文書分類装置および文書分類方法の説明図である。It is explanatory drawing of the document classification device and document classification method by Embodiment 15 of this invention. この発明の実施の形態16による文書分類装置および文書分類方法の説明図である。It is explanatory drawing of the document classification device and document classification method by Embodiment 16 of this invention.

符号の説明Explanation of symbols

101 サーバー
102 クライアント
103 ネットワーク
201 CPU
204 I/F
206 ディスク装置
301 CPU
306 ハードディスク
308 ディスプレイ
309 I/F
311 キーボード
312 マウス
313 スキャナ
400 バス
401 入力部
402 文書記憶部
403 選択部
404 特徴抽出部
405 加工処理部
406 出力部
407 グラフ描画部
408 加工処理結果保持部
409 解析部
410 特徴ベクトル生成部
1600 指示画面
1700 クロス表
1800 マウスポインタ
1801 内容表示画面
1901 項目値選定部
1902 集計部
1903 表保持部
2401 棒グラフ表示領域
2501 設定値記憶部
2502 設定値送受信部
2503 分類情報記憶部
2604 問い合わせ画面
2703 分類情報表示画面
2802 表示領域
3001 入力部
3002 言語解析部
3003 ベクトル生成部
3004 分類部
3005 分類パラメータ指示部
3006 分類結果記憶部
3007 クラスタ特徴表示部
3008 クラスタ特徴算出部
3009 分類体系記憶部
3010 クラスタ選択指示部
3011 分類体系閲覧操作部
3110 カーソル
3301,3501,3701 ベクトル記憶部
3302,3702 ベクトル修正部
3502,3703 文書表現空間修正部
3901 選択情報付与部
4000 テーブル
5001 文書入力部
5002 文書分割部
5003 文書−分割文書対応マップ生成部
5004 分割文書分類部
5005 分割文書分類結果生成部
5006 文書分類結果生成部
5007 文書保存部
5008 分割文書保存部
5009 文書−分割文書対応マップ保存部
5010 分割文書分類結果保存部
5011 文書要素解析部
5012 要素付随情報抽出部
101 server 102 client 103 network 201 CPU
204 I / F
206 Disk device 301 CPU
306 Hard disk 308 Display 309 I / F
311 Keyboard 312 Mouse 313 Scanner 400 Bus 401 Input unit 402 Document storage unit 403 Selection unit 404 Feature extraction unit 405 Processing processing unit 406 Output unit 407 Graph drawing unit 408 Processing processing result holding unit 409 Analysis unit 410 Feature vector generation unit 1600 Instruction screen 1700 Cross table 1800 Mouse pointer 1801 Contents display screen 1901 Item value selection unit 1902 Totaling unit 1903 Table holding unit 2401 Bar graph display area 2501 Setting value storage unit 2502 Setting value transmission / reception unit 2503 Classification information storage unit 2604 Inquiry screen 2703 Classification information display screen 2802 Display area 3001 Input unit 3002 Language analysis unit 3003 Vector generation unit 3004 Classification unit 3005 Classification parameter instruction unit 3006 Classification result storage unit 3007 Class Feature display unit 3008 Cluster feature calculation unit 3009 Classification system storage unit 3010 Cluster selection instruction unit 3011 Classification system browsing operation unit 3110 Cursor 3301, 3501, 3701 Vector storage unit 3302, 3702 Vector correction unit 3502, 3703 Document expression space correction unit 3901 Selection Information adding unit 4000 Table 5001 Document input unit 5002 Document dividing unit 5003 Document-divided document correspondence map generating unit 5004 Division document classification unit 5005 Division document classification result generation unit 5006 Document classification result generation unit 5007 Document storage unit 5008 Division document storage unit 5009 Document-divided document correspondence map storage unit 5010 Division document classification result storage unit 5011 Document element analysis unit 5012 Element associated information extraction unit

Claims (4)

文書の内容に基づいて文書の分類をおこなう文書分類装置において、
文書データを入力する入力手段と、
前記入力手段により入力された文書データを解析して言語解析情報を得る言語解析手段
と、
前記言語解析手段により得られた言語解析情報に基づいて、単語を特徴次元とし、前記特徴次元を行とする文書表現空間上で、前記文書データを表現する列ベクトル情報である文書特徴ベクトルを生成するベクトル生成手段と、
前記ベクトル生成手段により生成された文書特徴ベクトル間の類似度に基づいて文書を
分類し、文書の部分集合を生成する分類手段と、
前記分類手段により生成された文書の部分集合の特徴であるクラスタ特徴を算出するク
ラスタ特徴算出手段と、
前記分類手段により生成された文書の部分集合の中から所望の部分集合を選択するクラ
スタ選択指示手段と、
前記ベクトル生成手段により生成された文書特徴ベクトルを記憶する文書特徴ベクトル
記憶手段と、
前記文書特徴ベクトル記憶手段により記憶された文書特徴ベクトルを、前記クラスタ選
択指示手段により選択された部分集合に属する文書の文書特徴ベクトルを除去したのこり
となるように修正するベクトル修正手段と、
前記文書特徴ベクトル記憶手段に記憶された文書特徴ベクトル間の類似度を判断する際に用いる前記文書表現空間から、
前記クラスタ選択指示手段により選択された部分集合から算出する該部分集合の重心を特徴次元の行ベクトルで表現した特徴量と、前記クラスタ選択指示手段により選択された部分集合に含まれる文書に対応する文書特徴ベクトルに基づく特徴次元の行ベクトルと、
類似度の高い前記文書表現空間の特徴次元を判別し、
前記判別した特徴次元に対応する行ベクトルを前記文書表現空間の特徴次元から削除することによって修正する文書表現空間修正手段と、
を備え、
前記分類手段は、前記文書表現空間修正手段により修正された文書表現空間を用いて、
前記ベクトル修正手段により修正された文書特徴ベクトル間の類似度に基づいて文書を分
類することを特徴とする文書分類装置。
In a document classification device that classifies documents based on document contents,
An input means for inputting document data;
Language analysis means for analyzing the document data input by the input means to obtain language analysis information;
Based on the language analysis information obtained by the language analysis means , a document feature vector, which is column vector information representing the document data, is generated in a document expression space having a word as a feature dimension and the feature dimension as a row. Vector generating means for
Classification means for classifying documents based on the similarity between the document feature vectors generated by the vector generation means, and generating a subset of the documents;
Cluster feature calculation means for calculating a cluster feature that is a feature of a subset of documents generated by the classification means;
Cluster selection instruction means for selecting a desired subset from a subset of documents generated by the classification means;
Document feature vector storage means for storing the document feature vector generated by the vector generation means;
A vector correction unit for correcting the document feature vector stored by the document feature vector storage unit so that the document feature vector of the document belonging to the subset selected by the cluster selection instruction unit is removed;
From the document expression space used when judging the similarity between the document feature vectors stored in the document feature vector storage means ,
Corresponding to the feature amount expressed by the row vector of the feature dimension calculated from the subset selected by the cluster selection instruction means and the document included in the subset selected by the cluster selection instruction means A feature dimension row vector based on the document feature vector;
The feature dimensions of a high degree of similarity the document representation space to determine the,
A document expression space correcting means for correcting the line vector corresponding to the determined feature dimension by deleting it from the feature dimension of the document expression space;
With
The classification means uses the document expression space corrected by the document expression space correction means,
A document classification apparatus for classifying documents based on similarity between document feature vectors modified by the vector modification means.
前記文書分類装置はさらに、
前記クラスタ特徴算出手段により算出されたクラスタ特徴を表示する表示手段
を備え、
前記分類手段により生成された文書の部分集合に所属する文書のすべてあるいは一部が
選択された場合に選択されたことを示す選択情報を付与する選択情報付与手段を有し、
前記表示手段は、前記クラスタ特徴を表示するとともに、前記選択情報付与手段により
付与された選択情報を表示することを特徴とする請求項1に記載の文書分類装置。
The document classification device further includes:
Display means for displaying the cluster feature calculated by the cluster feature calculation means;
Selection information giving means for giving selection information indicating selection when all or some of the documents belonging to the subset of documents generated by the classification means are selected;
The document classification apparatus according to claim 1, wherein the display unit displays the cluster feature and the selection information provided by the selection information addition unit.
文書の内容に基づいて文書の分類をおこなう文書分類方法において、
文書分類装置が、
文書データを入力する入力工程と、
前記入力工程により入力された文書データを解析して言語解析情報を得る言語解析工程
と、
前記言語解析手段により得られた言語解析情報に基づいて、単語を特徴次元とし、前記特徴次元を行とする文書表現空間上で、前記文書データを表現する列ベクトル情報である文書特徴ベクトルを生成するベクトル生成工程と、
前記ベクトル生成工程により生成された文書特徴ベクトル間の類似度に基づいて文書を
分類し、文書の部分集合を生成する分類工程と、
前記分類工程により生成された文書の部分集合の特徴であるクラスタ特徴を算出するク
ラスタ特徴算出工程と、
前記分類工程により生成された文書の部分集合の中から所望の部分集合を選択するクラ
スタ選択指示工程と、
前記ベクトル生成工程により生成された文書特徴ベクトルを記憶する文書特徴ベクトル
記憶工程と、
前記文書特徴ベクトル記憶工程により記憶された文書特徴ベクトルを、前記クラスタ選
択指示工程により選択された部分集合に属する文書の文書特徴ベクトルを除去したのこり
となるように修正するベクトル修正工程と、
前記文書特徴ベクトル記憶工程で記憶された文書特徴ベクトル間の類似度を判断する際に用いる前記文書表現空間から、
前記クラスタ選択指示工程により選択された部分集合から算出する該部分集合の重心を特徴次元の行ベクトルで表現した特徴量と、前記クラスタ選択指示工程により選択された部分集合に含まれる文書に対応する文書特徴ベクトルに基づく特徴次元の行ベクトルと、
類似度の高い前記文書表現空間の特徴次元を判別し、
前記判別した特徴次元に対応する行ベクトルを前記文書表現空間の特徴次元から削除することによって修正する文書表現空間修正工程と、
を含み、
前記分類工程は、前記文書表現空間修正工程により修正された文書表現空間を用いて、
前記ベクトル修正工程により修正された文書特徴ベクトル間の類似度に基づいて文書を分
類することを特徴とする文書分類方法。
In a document classification method for classifying documents based on document contents,
Document classification device
An input process for inputting document data;
A language analysis step of obtaining language analysis information by analyzing the document data input in the input step;
Based on the language analysis information obtained by the language analysis means , a document feature vector, which is column vector information representing the document data, is generated in a document expression space having a word as a feature dimension and the feature dimension as a row. A vector generation step to
A classification step of classifying the document based on the similarity between the document feature vectors generated by the vector generation step, and generating a subset of the document;
A cluster feature calculation step of calculating a cluster feature that is a feature of a subset of documents generated by the classification step;
A cluster selection instruction step of selecting a desired subset from a subset of documents generated by the classification step;
A document feature vector storage step for storing the document feature vector generated by the vector generation step;
A vector correction step of correcting the document feature vector stored by the document feature vector storage step so that the document feature vector of the document belonging to the subset selected by the cluster selection instruction step is removed;
From the document expression space used when judging the similarity between the document feature vectors stored in the document feature vector storage step ,
Corresponding to a feature amount expressed by a row vector of a feature dimension calculated from the subset selected by the cluster selection instruction step and a document included in the subset selected by the cluster selection instruction step A feature dimension row vector based on the document feature vector;
The feature dimensions of a high degree of similarity the document representation space to determine the,
A document expression space correction step of correcting by deleting a row vector corresponding to the determined feature dimension from the feature dimension of the document expression space;
Including
The classification step uses the document expression space corrected by the document expression space correction step,
A document classification method, wherein documents are classified based on a similarity between document feature vectors modified by the vector modification step.
前記文書分類方法はさらに、
前記クラスタ特徴算出工程により算出されたクラスタ特徴を表示する表示工程
を備え、
前記分類工程により生成された文書の部分集合に所属する文書のすべてあるいは一部が
選択された場合に選択されたことを示す選択情報を付与する選択情報付与工程を有し、
前記表示工程は、前記クラスタ特徴を表示するとともに、前記選択情報付与工程により
付与された選択情報を表示することを特徴とする請求項に記載の文書分類方法。
The document classification method further includes:
A display step for displaying the cluster feature calculated by the cluster feature calculation step;
A selection information giving step for giving selection information indicating selection when all or some of the documents belonging to the subset of documents generated by the classification step are selected;
The document classification method according to claim 3 , wherein the display step displays the cluster feature and the selection information provided by the selection information addition step.
JP2008093105A 1998-12-24 2008-03-31 Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the methods Expired - Fee Related JP4630911B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008093105A JP4630911B2 (en) 1998-12-24 2008-03-31 Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the methods

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP37657698 1998-12-24
JP36958998 1998-12-25
JP2291599 1999-01-29
JP2008093105A JP4630911B2 (en) 1998-12-24 2008-03-31 Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the methods

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP11343890A Division JP2000285140A (en) 1998-12-24 1999-12-02 Device and method for processing document, device and method for classifying document, and computer readable recording medium recorded with program for allowing computer to execute these methods

Publications (2)

Publication Number Publication Date
JP2008234670A JP2008234670A (en) 2008-10-02
JP4630911B2 true JP4630911B2 (en) 2011-02-09

Family

ID=39907297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008093105A Expired - Fee Related JP4630911B2 (en) 1998-12-24 2008-03-31 Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the methods

Country Status (1)

Country Link
JP (1) JP4630911B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163190B (en) * 2010-02-20 2013-09-11 三星电子(中国)研发中心 Method and apparatus of making text feature extracting strategy, method and apparatus of text classification
JP2017068359A (en) * 2015-09-28 2017-04-06 株式会社デンソー Interactive device and interaction control method
JP7139728B2 (en) * 2018-06-29 2022-09-21 富士通株式会社 Classification method, device and program
JP7131130B2 (en) * 2018-06-29 2022-09-06 富士通株式会社 Classification method, device and program
CN111552469B (en) * 2020-04-03 2023-05-16 北京字节跳动网络技术有限公司 File processing method and device in application engineering and electronic equipment
JP7329570B2 (en) * 2021-09-03 2023-08-18 株式会社マクロミル Information processing method and information processing device
KR102392644B1 (en) * 2021-10-19 2022-04-29 주식회사 애자일소다 Apparatus and method for classifying documents based on similarity

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3598742B2 (en) * 1996-11-25 2004-12-08 富士ゼロックス株式会社 Document search device and document search method
JPH10260991A (en) * 1997-01-14 1998-09-29 Seiko Epson Corp Information search method and information search device

Also Published As

Publication number Publication date
JP2008234670A (en) 2008-10-02

Similar Documents

Publication Publication Date Title
JP2000285140A (en) Device and method for processing document, device and method for classifying document, and computer readable recording medium recorded with program for allowing computer to execute these methods
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
Trippe Patinformatics: Tasks to tools
JP4335335B2 (en) How to sort document images
US7194471B1 (en) Document classification system and method for classifying a document according to contents of the document
US6092091A (en) Device and method for filtering information, device and method for monitoring updated document information and information storage medium used in same devices
US6078924A (en) Method and apparatus for performing data collection, interpretation and analysis, in an information platform
US6718336B1 (en) Data import system for data analysis system
JP4630911B2 (en) Document classification apparatus, document classification method, and computer-readable recording medium storing a program for causing a computer to execute the methods
JP3577819B2 (en) Information search apparatus and information search method
JP4583003B2 (en) Search processing method and program
US20020062302A1 (en) Methods for document indexing and analysis
JP4382526B2 (en) Sentence classification apparatus and method
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
US20130018805A1 (en) Method and system for linking information regarding intellectual property, items of trade, and technical, legal or interpretive analysis
US20050154690A1 (en) Document knowledge management apparatus and method
JP5160312B2 (en) Document classification device
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
EP1386250A1 (en) Very-large-scale automatic categorizer for web content
JPH11224345A (en) Identification method for part of document image
JPH11242654A (en) Method for transmitting document image to client work station
JP2003044491A (en) Knowledge analytic system. method for setting analytic condition, saving analytic condition and re-analyzing processing in the system
JP4017354B2 (en) Information classification apparatus and information classification program
JP3746233B2 (en) Knowledge analysis system and knowledge analysis method
EP3432161A1 (en) Information processing system and information processing method

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees