JPH02158871A - Document sorting device - Google Patents
Document sorting deviceInfo
- Publication number
- JPH02158871A JPH02158871A JP63312107A JP31210788A JPH02158871A JP H02158871 A JPH02158871 A JP H02158871A JP 63312107 A JP63312107 A JP 63312107A JP 31210788 A JP31210788 A JP 31210788A JP H02158871 A JPH02158871 A JP H02158871A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- documents
- conceptual
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 239000006185 dispersion Substances 0.000 abstract 2
- 238000000034 method Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 8
- 239000000284 extract Substances 0.000 description 3
- 238000000546 chi-square test Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は文書分類装置、とくに、文書に含まれるキーワ
ードに基き文書の概念特徴量を求め、概念特徴量により
文書を分類する文書分類装置に関する。[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a document classification device, and more particularly, to a document classification device that obtains conceptual features of a document based on keywords included in the document and classifies documents based on the conceptual features. .
[従来の技術]
文書をあらかじめ設定した分野へ自動的に分類するため
カイ自乗値を用いてキーワードの偏りを調べ、文書を分
類する方式が知られている。このような分類方式を記載
したものとして、田村他「統計的手法による文書自動分
類」 (情報処理36回全国大会論文集、1987年)
、オよび林知己夫「数量化の方法」(東洋経済新聞社、
1974年)がある。[Prior Art] In order to automatically classify documents into predetermined fields, a method is known in which a chi-square value is used to check the bias of keywords and classify documents. Such a classification method is described in Tamura et al., "Automatic classification of documents using statistical methods" (Proceedings of the 36th National Conference on Information Processing, 1987).
, O and Chikio Hayashi, “Methods of Quantification” (Toyo Keizai Shimbun,
1974).
カイ自乗検定はキーワードの出現頻度の分野による偏り
を示す指標としてカイ自乗値を求め文書を分類するもの
である。カイ自乗値は、各キーワードの出現頻度値と各
分野ごとの総キーワード数か独ケ事象であると仮定した
場合のキーワー・ドの出現頻度値を理論度数とし、実測
値との差を求め正規化したものである。The chi-square test is a method for classifying documents by determining the chi-square value as an index indicating the bias in the appearance frequency of keywords depending on the field. The chi-square value is calculated by using the frequency value of each keyword and the total number of keywords in each field or the frequency value of the keyword, assuming that it is a unique phenomenon, as the theoretical frequency, and calculating the difference between the actual value and the normal value. It has become.
上記の文献■はカイ自乗検定を用いて文書をあらかじめ
設定した分野へ自動的に分類する方式について述べたも
のである。この方式は、キーワードの出現頻度の偏りを
用いるために、あらかじめ大量の標本データを分野別に
分類してカイ自乗値を計算し、分類用データを用意して
おく必要かある。The above-mentioned document (■) describes a method for automatically classifying documents into predetermined categories using a chi-square test. Since this method uses the bias in the appearance frequency of keywords, it is necessary to prepare data for classification by classifying a large amount of sample data in advance by field and calculating chi-square values.
文献■もやはりカイ自乗値を用いる統計的手法の−って
あり、複数の分野間の相関を見るための方式である。Reference (2) is also a statistical method that uses chi-square values, and is a method for looking at correlations between multiple fields.
[発明が解決しようとする課題]
上記の文献■■に記載された方式は、標本データの分類
にはやはり人手による作業が必要となる。したがって、
人手による分類のばらつきや不適切さが介入するという
問題がある。[Problems to be Solved by the Invention] The method described in the above-mentioned document ■■ still requires manual work to classify sample data. therefore,
There is a problem of interference due to variations and inappropriateness of manual classification.
また、後者は分類用の軸を決定するのが難しいという問
題かある。In addition, the latter has the problem that it is difficult to determine the axis for classification.
本発明は上記の問題点を解決するために、文書に含まれ
るキーワードの頻度値から各文書の概念特徴是な求め、
これに応じて文書を分類する文書分類装置を提供するこ
とを目的とする。In order to solve the above problems, the present invention calculates the conceptual characteristics of each document from the frequency values of keywords included in the document.
It is an object of the present invention to provide a document classification device that classifies documents accordingly.
[課題を解決するための手段]
上記目的を達成するために、本発明によれば、文書デー
タベースにおけるキーワードの出現頻度値を用いて計算
される各キーワードの自己情報量を保持するキーワード
情報量記憶手段と、キーワードの自己情報量を用いて各
文書ごとの概念性微量を求める概念特徴抽出手段と、文
書間の概念性微量の差に応じて文書間の距離を求める文
書間距離計算手段とを有する。[Means for Solving the Problems] In order to achieve the above object, the present invention provides a keyword information storage that holds the self-information amount of each keyword calculated using the appearance frequency value of the keyword in the document database. a conceptual feature extraction means for calculating the conceptuality trace amount of each document using the self-information amount of the keyword; and an inter-document distance calculation means for calculating the distance between documents according to the difference in the conceptuality trace amount between documents. have
文書間距離計算手段は、文書間の距離によって文書の分
類を行う。The inter-document distance calculation means classifies documents based on the distance between documents.
[作 用]
本発明によれば、キーワード情報量記憶手段か文書デー
タベース等のキーワード出現頻度により、所定の計算を
行って各キーワードの自己情報量を求め、概念特徴抽出
手段が自己情報量より所定の計算により各文書の概念性
微量を求め、文書間距離計算手段か概念性微量の差に応
じて文書の分類を行なう9以上のようにキーワードの頻
度より各手段の計算処理を通して、自動的に文書か分類
されるので、従来の人手作業が不要となり、ばらつきの
ない、概念量による文書分類が構築できる。[Function] According to the present invention, a predetermined calculation is performed to obtain the self-information amount of each keyword based on the keyword appearance frequency in the keyword information storage means or a document database, and the concept feature extraction means extracts a predetermined amount of self-information from the self-information amount. The conceptuality trace amount of each document is determined by the calculation of Since documents are classified, conventional manual work is no longer required, and document classification based on conceptual quantities without variation can be constructed.
[実施例] 本発明の実施例を図面を用いて具体的に説明する。[Example] Embodiments of the present invention will be specifically described with reference to the drawings.
本発明による文書分類装置の一実施例が図に示されてい
る。An embodiment of a document classification device according to the invention is shown in the figure.
キーワード情報量記憶部lは入力される未登録文6Qよ
りキーワードを抽出し、後述のようにその出現頻度より
キーワードの出現確率を求め、その対数値をキーワード
情報量Iとして記憶する。The keyword information storage unit 1 extracts keywords from the input unregistered sentence 6Q, calculates the probability of appearance of the keyword from its appearance frequency as described later, and stores the logarithm value as the keyword information amount I.
概念特徴抽出部2はキーワード情報量記憶部1よリキー
ワード情報量工を入力し、その総和を文書Qの概念性微
量C(q)として出力する。文書間距離計算部3は概念
特徴抽出部2より各文書の概念性微量C(q)を入力し
て記憶し、2つの文書間の概念距離を求めて、概念距離
の近い文書をクラスタ(分類)して、各種の分類を文書
データベース4に格納する。各機能部は、各部の生成し
たデータを転送するデータバスa−Cによって接続され
ている。The conceptual feature extraction unit 2 inputs the keyword information amount from the keyword information storage unit 1, and outputs the sum as the conceptual trace amount C(q) of the document Q. The inter-document distance calculation unit 3 inputs and stores the conceptual trace amount C(q) of each document from the conceptual feature extraction unit 2, calculates the conceptual distance between two documents, and clusters (classifies) documents with close conceptual distances. ) and store various classifications in the document database 4. Each functional unit is connected by a data bus a-C that transfers data generated by each unit.
一般にシソーラス等のキーワード集に登録されているキ
ーワードは、それらが現われる文書数や全文書における
延べ出現回数等によって各キーワードの出現頻度を定義
できる。いまキーワードKEY iの出現頻度を全キー
ワード数で正規化したP をキーワードKEY iの出
現確率とすると、キーワードに出現確率P を対応させ
るシステムは完■
全事象系となり以下のように表せる。In general, for keywords registered in a keyword collection such as a thesaurus, the appearance frequency of each keyword can be defined by the number of documents in which the keyword appears, the total number of appearances in all documents, and the like. Now, if P, which is the appearance frequency of keyword KEY i normalized by the total number of keywords, is taken as the appearance probability of keyword KEY i, then the system that associates the appearance probability P with keywords is a complete event system and can be expressed as follows.
たたし、 ΣP=1 である。However, ΣP=1.
1;1
ここで、KEYiの自己情報量I (KEYi)は次式
で表せる。1;1 Here, the self-information amount I (KEYi) of KEYi can be expressed by the following equation.
1 (KEYi ) = −log Pi
=・ (1)また自己情報量は加法性を保つ
ため、KEYiとKEYjの持つ合成情報量は、次式で
表わされる。1 (KEYi) = -log Pi
=. (1) Since the amount of self-information maintains additivity, the amount of combined information possessed by KEYi and KEYj is expressed by the following equation.
1 (KEYi、KEYj) = I (KEYi)
+ l (KEYj)= −log Pi −lo
g Pj −(2)キーワード情報量記憶部1は、文
書データベース4への未登録文書Qを概念特徴抽出部2
を介してデータバスaより入力し1文書Qの各キーワー
ドを抽出し、その出現確率にEYiを求め、(1)式に
よりキーワードの自己情報量 1(にEYi)を計算し
て保持する。シソーラスか用意されているときは、シソ
ーラスのキーワード分類項目ごとにキーワードの出現確
率を求め、(1)式により自己情報量な計算できる。1 (KEYi, KEYj) = I (KEYi)
+ l (KEYj) = -log Pi -lo
g Pj - (2) The keyword information storage unit 1 stores the unregistered document Q in the document database 4 from the conceptual feature extraction unit 2.
Each keyword of one document Q is inputted from the data bus a via the data bus a, and EYi is determined as its appearance probability, and the self-information amount 1 (EYi) of the keyword is calculated and held using equation (1). When a thesaurus is prepared, the probability of appearance of a keyword is determined for each keyword classification item in the thesaurus, and the amount of self-information can be calculated using equation (1).
ある文書Qのキーワード集合なqとしその概念特徴量を
(:(q)と表すと、
で与えられる。Let q be a keyword set of a certain document Q, and express its conceptual feature as (:(q)), then it is given by.
また既存の分類項目を持つシソーラスにおいては概念特
徴量をベクトルとして扱うことができる。最も単純な例
として、M個の分類項目を持つシソーラスではM次元の
ベクトルCvを考える。Furthermore, in a thesaurus with existing classification items, conceptual features can be treated as vectors. As the simplest example, consider an M-dimensional vector Cv in a thesaurus having M classification items.
今、R番目の分類項目に属するキーワードの集合をrと
すると、文書Qの概念特徴量ベクトルCV(q)のR要
素CVr(q)は、
ただし、 iε qniε r はキーワードiが文書
Q中に含まれ、かつR番目の分類項目中に含まれている
場合のPiの総和を計算することを意味する。Now, if the set of keywords belonging to the R-th classification item is r, then the R element CVr(q) of the conceptual feature vector CV(q) of document Q is: This means calculating the sum total of Pi when both are included and included in the R-th classification item.
キーワード情報量記憶部lから文書Qの各キーワードの
自己情報量■を入力し、概念特徴抽出部2は、(3)式
または(4)式を用いて、概念特徴量C(q)またはC
Vr(q)を計算し、データバスbより文書間距離計算
部3に出力する。The self-information amount ■ of each keyword of the document Q is inputted from the keyword information amount storage unit l, and the conceptual feature extraction unit 2 extracts the conceptual feature amount C(q) or C using equation (3) or equation (4).
Vr(q) is calculated and output to the inter-document distance calculation unit 3 via data bus b.
(3)式によって求められた概念情報量はある文書のも
つキーワード情報量の和であり、その文書に付加された
自己情報量の大きさを示しているだけである。この場合
の概念情報量は、文書データベースの検索時における当
該文書の分離度の高さ(同定しやすさ)を表す、このよ
うな分離度の高さによって文書を分類することも可能で
ある。The amount of conceptual information obtained by equation (3) is the sum of the amount of keyword information that a certain document has, and only indicates the amount of self-information added to that document. In this case, the amount of conceptual information indicates the degree of separation (ease of identification) of the document at the time of searching the document database, and it is also possible to classify documents based on the degree of separation.
しかし、通常は文書の内容によって既存の分類項目等に
分類する用途が考えられる。そのような場合、 (4)
式の概念特徴値ベクトルを用いる。−般にM個の分類項
目によってデータベースはM次元の概念空間を構成する
と考えられる。従ってこのようなデータベース中の文書
の持つ概念は、M個の特徴パラメータからなるM次元ベ
クトルとして表現できる。また任意の2つの概念特徴量
ベクトルの距離が計算できるため、ある文書のある分類
への帰属度や2つの文書間の概念的距離等が求められる
。However, it is usually possible to classify documents into existing classification categories depending on their contents. In such a case, (4)
Using the conceptual feature value vector of Eq. - In general, a database is considered to constitute an M-dimensional conceptual space with M classification items. Therefore, the concept of a document in such a database can be expressed as an M-dimensional vector consisting of M feature parameters. Furthermore, since the distance between any two conceptual feature vectors can be calculated, the degree of belonging of a certain document to a certain classification, the conceptual distance between two documents, etc. can be determined.
例えば、GV(q)という概念特徴量ベクトルを持つ文
書が、キーワード集合kをもつ分類Kに帰属する度合を
INC(k、Q)とすると、鋪
ING(k、q)= CVk(q)/ Σ CVr(
q) ・・・ (5)J
で与えられる。For example, if INC(k, Q) is the degree to which a document with a conceptual feature vector GV(q) belongs to classification K with keyword set k, then ING(k, q) = CVk(q)/ ΣCVr(
q) ... (5) Given by J.
また、CV(s) 、 CV(t)という概念特徴量ベ
クトルを持つ2つの文書間の概念距離なり(s、t)と
し例えば市街地距離で計算すると、
補
D(s、t)= Σ l CVr(s) −(:Vr
(t) l ・・・(6)r寓1
で与えられる。Furthermore, if we assume that the conceptual distance between two documents with conceptual feature vectors CV(s) and CV(t) is (s, t), and calculate it using the city area distance, for example, D(s, t) = Σ l CVr (s) −(:Vr
(t) l ... (6) r is given by 1.
文書間距離計算部3は概念特徴量C(q)またはGV(
Q)を入力し、(5)式で示した計算を行なうことによ
り、未分類の文書の属すべき分類を決定でき、また(6
)式を用いると、概念距離の近い文書群によっていくつ
かの分類を構成できる0文書間距離計算部3は文書Qの
分類を文書データベース4に入力する。このとき生成さ
れる分類は、既存のいくつかの分類項目の概念を結合し
た合成概念になるため、既存の分類項目に捕われない文
書概念自体に指向した新しい分類体系を自然に構築して
いく。The inter-document distance calculation unit 3 calculates the conceptual feature amount C(q) or GV(
By inputting Q) and performing the calculation shown in equation (5), it is possible to determine the classification to which an unclassified document belongs.
) formula allows several classifications to be formed by groups of documents with close conceptual distances.The inter-document distance calculation unit 3 inputs the classification of the document Q into the document database 4. Since the classification generated at this time is a composite concept that combines the concepts of several existing classification items, a new classification system that is oriented to the document concept itself and is not bound by existing classification items is naturally constructed.
(6)式を用いた同類文書の分類方法について具体的に
説明する。A method for classifying similar documents using equation (6) will be specifically explained.
前述のように既存の分類項目に対して文書分類を行なう
場合には、(5)式を用いて各分類Kに帰属する度合い
INC(k、q)を求めればよい、さらに概念特徴量ベ
クトルを用いると、既存の分類項目を用いて新しい分類
体系を構築することが可能となる。As mentioned above, when performing document classification on existing classification items, it is sufficient to calculate the degree of belonging to each classification K (INC(k, q)) using equation (5). When used, it becomes possible to construct a new classification system using existing classification items.
まず、分類しようとする全ての文書について各文書間の
概念距離りを求める0次に全ての文書の中から任意に1
文書(文書Sとする)を選択し、その文書との概念距離
が所定のしきい値より小さい、すなわちその文書と概念
的に近い文書を抽出する。抽出された文書Tの集合を式
で表現すると1文書S、Tに含まれるキーワード集合を
それぞれt、sとすれば、
(TID (s、t)<θ)
(ただし、D (s、5)=0は(6)より明らかであ
り、文書Sは必ず集合Tに含まれる。)
この作業を全ての文書に対して行なうと文書数に等しい
同類文書の集合が出来上がる。これら同類文書集合をそ
の集合の要素数(文書数)に従って降順に並べ1文書数
の多い順に必要な分類数だけの同類文書集合を選択する
。この選択は分類数で制限しても良いし、文書数で制限
しても良い。First, calculate the conceptual distance between each document for all documents to be classified.
A document (document S) is selected, and documents whose conceptual distance to the document is smaller than a predetermined threshold, that is, documents that are conceptually similar to the document are extracted. Expressing the set of extracted documents T using a formula, if one document S and the keyword sets included in T are t and s, respectively, (TID (s, t) < θ) (where D (s, 5) =0 is clear from (6), and the document S is always included in the set T.) If this operation is performed for all documents, a set of similar documents equal to the number of documents will be created. These similar document sets are arranged in descending order according to the number of elements (number of documents) in the set, and similar document sets with the required number of classifications are selected in descending order of the number of documents. This selection may be limited by the number of classifications or the number of documents.
分類可能な数の最大値は文書数である。この場合各分類
に含まれる文書数はlであるが、このような分類が最適
となる場合もあってしかるべきである。The maximum number that can be classified is the number of documents. In this case, the number of documents included in each classification is l, but there may be cases where such classification is optimal.
[発明の効果]
本発明によれば、キーワード抽出、または既存のキーワ
ード集の分類を用いて概念特徴量を計算できるため、未
登録文書の分類の前に評価用データを作成する必要がな
い。[Effects of the Invention] According to the present invention, conceptual features can be calculated using keyword extraction or classification of existing keyword collections, so there is no need to create evaluation data before classifying unregistered documents.
概念距離の近い文書群によって分類を構成するため、既
存の分類項目に捕われない文書概念自体に指向した新し
い分類体系を自然に構築していくという優れた効果があ
る。Since a classification is constructed from a group of documents with close conceptual distance, it has the excellent effect of naturally constructing a new classification system that is oriented to the document concept itself and is not limited by existing classification items.
図は本発明の文書分類装置の一実施例を示す機能ブロッ
ク図である。
要部分の符号の説明
l・・・キーワード情報量記憶部、
2・・・概念特徴抽出部、
3・・・文書間距離計算部、
4・・・文書データベース。The figure is a functional block diagram showing an embodiment of the document classification device of the present invention. Explanation of symbols of important parts 1: Keyword information storage unit, 2: Conceptual feature extraction unit, 3: Inter-document distance calculation unit, 4: Document database.
Claims (1)
を用いて計算される各キーワードの自己情報量を保持す
るキーワード情報量記憶手段と、前記キーワードの自己
情報量を用いて各文書ごとの概念特徴量を求める概念特
徴抽出手段と、文書間の該概念特徴量の差に応じて文書
間の距離を求める文書間距離計算手段とを有し、 該文書間距離計算手段は、前記文書間の距離によって文
書の分類を行なうことを特徴とする文書分類装置。 2、文書データベースにおいて使用されるシソーラスの
キーワード分類項目ごとにキーワードの出現頻度値を用
いて計算されるキーワードの自己情報量を保持するキー
ワード情報量記憶手段と、各キーワード分類項目ごとの
該キーワード情報量の総和をベクトル化したものを概念
特徴量として求める概念特徴抽出手段と、 文書間の該概念特徴量の差に応じて文書間の距離を求め
る文書間距離計算手段とを有し、 該文書間距離計算は、前記文書間の距離によって文書の
分類を行なうことを特徴とする文書分類装置。[Scope of Claims] 1. Keyword information storage means for storing the self-information amount of each keyword calculated using the appearance frequency value of the keyword in the document database; conceptual feature extraction means for calculating the conceptual feature amount of the document; and inter-document distance calculation means for calculating the distance between documents according to the difference in the conceptual feature amount between the documents; A document classification device characterized by classifying documents based on the distance between them. 2. Keyword information storage means for storing the self-information amount of keywords calculated using the appearance frequency value of keywords for each keyword classification item of the thesaurus used in the document database, and the keyword information for each keyword classification item. a conceptual feature extraction means for obtaining a vectorized sum of quantities as a conceptual feature; and an inter-document distance calculation means for obtaining a distance between documents according to a difference in the conceptual feature between documents; A document classification device characterized in that the distance calculation classifies documents based on the distance between the documents.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63312107A JPH02158871A (en) | 1988-12-12 | 1988-12-12 | Document sorting device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63312107A JPH02158871A (en) | 1988-12-12 | 1988-12-12 | Document sorting device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02158871A true JPH02158871A (en) | 1990-06-19 |
Family
ID=18025323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63312107A Pending JPH02158871A (en) | 1988-12-12 | 1988-12-12 | Document sorting device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02158871A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06511580A (en) * | 1992-04-30 | 1994-12-22 | アプル・コンピュータ・インコーポレーテッド | Methods and apparatus for organizing information in computer systems |
JP2000315207A (en) * | 1999-04-30 | 2000-11-14 | Just Syst Corp | Storage medium in which program to evaluate document data is stored |
US7249046B1 (en) | 1998-10-09 | 2007-07-24 | Fuji Xerox Co., Ltd. | Optimum operator selection support system |
US7836135B2 (en) | 2001-06-14 | 2010-11-16 | Apple Inc. | Method and apparatus for filtering email |
JP2016103156A (en) * | 2014-11-28 | 2016-06-02 | エヌ・ティ・ティ・コムウェア株式会社 | Text feature amount extraction device, text feature amount extraction method, and program |
-
1988
- 1988-12-12 JP JP63312107A patent/JPH02158871A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06511580A (en) * | 1992-04-30 | 1994-12-22 | アプル・コンピュータ・インコーポレーテッド | Methods and apparatus for organizing information in computer systems |
US7991720B2 (en) | 1992-04-30 | 2011-08-02 | Apple Inc. | Method and apparatus for organizing information in a computer system |
US7249046B1 (en) | 1998-10-09 | 2007-07-24 | Fuji Xerox Co., Ltd. | Optimum operator selection support system |
JP2000315207A (en) * | 1999-04-30 | 2000-11-14 | Just Syst Corp | Storage medium in which program to evaluate document data is stored |
US7836135B2 (en) | 2001-06-14 | 2010-11-16 | Apple Inc. | Method and apparatus for filtering email |
US7856479B2 (en) | 2001-06-14 | 2010-12-21 | Apple Inc. | Method and apparatus for filtering email |
JP2016103156A (en) * | 2014-11-28 | 2016-06-02 | エヌ・ティ・ティ・コムウェア株式会社 | Text feature amount extraction device, text feature amount extraction method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Carmichael et al. | Finding natural clusters | |
JP2978044B2 (en) | Document classification device | |
CN107798033B (en) | A classification method of case texts in the field of public security | |
CN109816044A (en) | An Imbalanced Learning Method Based on WGAN-GP and Oversampling | |
WO2002025479A1 (en) | A document categorisation system | |
CN110471948A (en) | A kind of customs declaration commodity classifying intelligently method excavated based on historical data | |
CN107145516A (en) | A kind of Text Clustering Method and system | |
CN113052225A (en) | Alarm convergence method and device based on clustering algorithm and time sequence association rule | |
JPH02158871A (en) | Document sorting device | |
Sosnowski | Framework of compound object comparators | |
Zhang et al. | A hierarchical clustering strategy of processing class imbalance and its application in fraud detection | |
Kishore et al. | Applications of association rule mining algorithms in deep learning | |
Han et al. | An algorithm to building a fuzzy decision tree for data classification problem based on the fuzziness intervals matching | |
Gopalakrishnan et al. | Some applications of clustering in the design of neural networks | |
KR20210142443A (en) | Method and system for providing continuous adaptive learning over time for real time attack detection in cyberspace | |
Kobylinski et al. | Image classification with customized associative classifiers | |
Ting et al. | Research on rough set-neural network and its application in radar signal recognition | |
CN117574243B (en) | Data analysis method, device and system | |
Lezoray et al. | Neural network induction graph for pattern recognition | |
Bartels et al. | Self-optimizing, self-learning system in pictorial pattern recognition | |
Friedman et al. | A new approach for fuzzy clustering of web documents | |
Shao et al. | A link prediction algorithm by unsupervised machine learning | |
Mabayoje et al. | Comparative Analysis of Selected Supervised Classification Algorithms | |
Jiang et al. | Constructing decision tree with continuous attributes for binary classification | |
JPH07282078A (en) | Hierarchical sorting device |