JP2003036261A - Device, program, and method for automatically classifying sentence, and computer readable recording medium recorded with automated sentence classifying program - Google Patents
Device, program, and method for automatically classifying sentence, and computer readable recording medium recorded with automated sentence classifying programInfo
- Publication number
- JP2003036261A JP2003036261A JP2001225609A JP2001225609A JP2003036261A JP 2003036261 A JP2003036261 A JP 2003036261A JP 2001225609 A JP2001225609 A JP 2001225609A JP 2001225609 A JP2001225609 A JP 2001225609A JP 2003036261 A JP2003036261 A JP 2003036261A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- item
- keyword
- sentence
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 159
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 56
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000012790 confirmation Methods 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 229910000831 Steel Inorganic materials 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 239000010959 steel Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】 本発明は文章自動分類プロ
グラム、文章自動分類プログラムを記録したコンピュー
タ読取可能な記録媒体、文章自動分類方法及び文章自動
分類装置に関し、特に、文章に含まれるキーワードを抽
出し、抽出したキーワードの分類項目毎の出現頻度を集
計し、予め分類項目毎に設定された係数を乗じる重み付
けを行うことにより、該当する分類項目を算出して自動
分類を行う技術に関する。更には、文章の付属情報をも
算出し細分類が可能な技術に関する。TECHNICAL FIELD The present invention relates to an automatic sentence classification program, a computer-readable recording medium having the automatic sentence classification program recorded therein, an automatic sentence classification method, and an automatic sentence classification device, and more particularly to extracting keywords included in a sentence. The present invention relates to a technique of totaling the appearance frequencies of the extracted keywords for each classification item and performing weighting by multiplying by a coefficient set for each classification item in advance to calculate the corresponding classification item and perform automatic classification. Furthermore, the present invention relates to a technique capable of calculating sub-information of a sentence and performing detailed classification.
【0002】[0002]
【従来の技術】 従来の文章自動分類プログラム、文章
自動分類プログラムを記録したコンピュータ読取可能な
記録媒体、文章自動分類方法及び文章自動分類装置に関
する技術としては、分類するカテゴリを特徴付ける特徴
パターンを利用して分類するもの(特開2000−22
2431)、文章に付与されたキーワードの頻度を自動
計算すると共にキーワード間の関連付けを行い、頻度が
大きいキーワードに上位ディレクトリを付与し、このキ
ーワードに関連するキーワードを下位ディレクトリとし
て作成しキーワードのツリー構造を得て、夫々の文章を
ディレクトリのツリー構造によって分類する技術(特開
2000−231560)が提案されている。2. Description of the Related Art A conventional text automatic classification program, a computer-readable recording medium having the text automatic classification program recorded therein, a text automatic classification method, and a text automatic classification device use a feature pattern that characterizes a category to be classified. Those classified according to Japanese Patent Laid-Open No. 2000-22
2431), the frequency of keywords added to a sentence is automatically calculated, the keywords are associated with each other, a high-order directory is given to a keyword with a high frequency, and a keyword related to this keyword is created as a low-order directory to create a keyword tree structure. Then, a technique (Japanese Patent Laid-Open No. 2000-231560) for classifying each sentence according to a tree structure of a directory is proposed.
【0003】更に、コーパスを用いて文章の意味属性が
付与され既分類の文章の意味属性との類似度により文書
を分類する技術(特開2000−339310)、分類
する文章及び属性情報を入力し、文章からキーワードを
抽出し、分類グループ毎にキーワードと属性情報の組合
せからなる分類ルールとキーワード又は属性情報の類似
度を算出して最も類似する分類ルールに対応するグルー
プに分類する技術(特開2001−60199)、1以
上の予め登録されたキーワードが記事中に含まれている
かを照合し、キーワードを含む記事を当該キーワード単
位に設けられた所定の格納領域に保存する技術(特開2
001−109772)等がある。Further, a technique for classifying documents according to the degree of similarity to the semantic attributes of already classified sentences to which the semantic attributes of sentences are added using a corpus (Japanese Patent Laid-Open No. 2000-339310), and the sentences to be classified and attribute information are input. , A technique of extracting a keyword from a sentence, calculating a similarity between a classification rule composed of a combination of a keyword and attribute information and a keyword or attribute information for each classification group, and classifying into a group corresponding to the most similar classification rule (Patent application 2001-60199) A technique for checking whether or not one or more pre-registered keywords are included in an article, and saving an article including the keyword in a predetermined storage area provided for each keyword (Japanese Patent Laid-Open No. 2000-242242).
001-109772) and the like.
【0004】しかし、これらの従来例では分類するグル
ープを限定すれば分類不可能の文章が増え、反対にすべ
ての文章を分類しようとした場合には分類グループが極
めて多くなってしまうという欠点や限定されたツリー構
造により分類するので、一の文章が多数の分類グループ
に分類されるという欠点があった。又、分類を繰り返す
うちに対比するパターン、キーワード或いは文章が増加
し、分類処理に時間がかかるという欠点もあった。However, in these conventional examples, if the group to be classified is limited, the number of sentences that cannot be classified increases, and conversely, if all the sentences are tried to be classified, the number of classification groups becomes extremely large. There is a drawback that one sentence is classified into a large number of classification groups because it is classified according to the tree structure. Further, there is a drawback that the pattern, the keyword, or the sentence to be compared increases as the classification is repeated, and the classification process takes time.
【0005】又、キーワードの出現頻度或いは出現の有
無のみをそのまま分類に反映させているため夫々のキー
ワードの分類グループに対する重要性が考慮されなかっ
たり、キーワードを補完する場合には一定のキーワード
が過度に重要視されてしまい、精度の高い分類を行うこ
とができないという欠点があった。Further, since only the appearance frequency or presence / absence of the keyword is directly reflected in the classification, the importance of each keyword to the classification group is not taken into consideration, or a certain keyword is excessive when complementing the keyword. However, there was a drawback that it was not possible to perform highly accurate classification.
【0006】更に、従来の技術では分類のグループから
は分類された文章の主題、関連分野、大まかな内容、関
連する国、地域、企業等を把握することは困難であり、
分類後の文章の活用が円滑に行えないという欠点もあっ
た。又、分類された文書を分類毎に格納された場所から
取り出した場合には、すなわち文書を見ただけではその
文書がどのような分類に属しているかを把握することが
できないという欠点があった。Furthermore, it is difficult for the conventional technique to grasp the subject, related field, rough content, related country, region, company, etc. of the classified text from the classification group.
There was also a drawback that the text after classification could not be used smoothly. Further, when the classified documents are taken out from the storage place for each classification, that is, it is not possible to grasp what kind of classification the document belongs to by just looking at the document. .
【0007】[0007]
【発明が解決しようとする課題】そこで、本発明は文章
を極めて速やかに且つ高精度に自動に分類することが可
能で、更には総ての文章を予め定められた分類グループ
に分類可能で、分類後のグループによって、当該文章の
主題、関連分野、大まかな内容、関連する国、地域、企
業等の把握が容易であり、更には当該分類後の文章を分
類毎に蓄積、送信可能であって、利用者も文章を解読す
ることなく主題等を把握可能な分類後の文章の活用が円
滑に行え、更には簡易な構成のコンピュータ端末を利用
しても上述の効果を得られる文章自動分類装置、文章自
動分類プログラム、文章自動分類プログラムを記録した
コンピュータ読取可能な記録媒体及び文章自動分類方法
を提供することを目的とする。Therefore, according to the present invention, it is possible to automatically classify sentences very quickly and highly accurately, and further, to classify all sentences into predetermined classification groups, The post-classification group makes it easy to understand the subject, related fields, rough contents, related countries, regions, companies, etc. of the text, and the texts after the classification can be stored and transmitted for each classification. Therefore, users can grasp the subject etc. without deciphering the sentences and can use the sentences after classification smoothly. Furthermore, even if a computer terminal with a simple configuration is used, the above-mentioned effect can be obtained. An object is to provide an apparatus, a sentence automatic classification program, a computer-readable recording medium recording the sentence automatic classification program, and a sentence automatic classification method.
【0008】[0008]
【課題を解決するための手段】上記課題を解決するため
の手段として第一に本発明の文章自動分類装置は分類項
目と分類項目に関連付けられたキーワードを記述した分
類項目キーワードテーブルを格納した格納手段と、文章
を入力する入力手段と、文章を解析し、単語を抽出する
テキスト解析手段と、抽出した単語を格納手段に格納さ
れた分類項目キーワードテーブルのキーワード群と比較
照合するキーワード走査手段と、比較照合した結果に重
み付をして文章が該当する分類項目を算出する比較演算
手段を有することを特徴とする文章自動分類装置であ
る。As means for solving the above problems, firstly, the automatic sentence classification device of the present invention stores a classification item keyword table in which classification items and keywords associated with the classification items are described. Means, input means for inputting a sentence, text analyzing means for analyzing a sentence and extracting a word, and keyword scanning means for comparing and collating the extracted word with a keyword group of a classification item keyword table stored in a storing means An automatic sentence classification device characterized by having a comparison calculation means for weighting the result of comparison and collation and calculating a classification item to which the sentence corresponds.
【0009】第二に分類項目と分類項目に関連付けられ
たキーワードを記述した分類項目キーワードテーブルを
格納した格納手段と、文章を入力する入力手段と、文章
を解析し、単語を抽出するテキスト解析手段と、抽出し
た単語を格納手段に格納された分類項目キーワードテー
ブルのキーワード群と比較照合し、抽出した単語と一致
するキーワードの出現頻度を分類項目ごとに集計するキ
ーワード走査手段と、集計結果に重み付をして文章が該
当する分類項目を算出する比較演算手段とを有すること
を特徴とする文章自動分類装置である。Secondly, storage means for storing a classification item keyword table in which classification items and keywords associated with the classification items are stored, input means for inputting a sentence, and text analysis means for analyzing a sentence and extracting words. And a keyword scanning means for comparing and collating the extracted words with a keyword group in a classification item keyword table stored in the storage means, and summing up the frequency of appearance of keywords matching the extracted words for each classification item, and a weighting for the summing result. It is an automatic sentence classification device characterized by having a comparison operation means for adding a category and calculating a classification item to which a sentence corresponds.
【0010】第三に格納手段は分類項目毎に係数を設定
した分類項目係数テーブルを格納し、比較演算手段は一
致したキーワードに対応する分類項目を検索し、分類項
目毎のキーワード出現頻度に分類項目毎に設定された係
数を乗じて重み付をし、該係数で修正した出現頻度で分
類項目をソートし、分類結果を集計して文章が該当する
分類項目を算出することを特徴とする文章自動分類装置
である。Thirdly, the storage means stores a classification item coefficient table in which a coefficient is set for each classification item, and the comparison calculation means searches for a classification item corresponding to the matching keyword and classifies the keyword appearance frequency for each classification item. A sentence characterized by multiplying a coefficient set for each item and weighting, sorting the classification items by the appearance frequency corrected by the coefficient, and aggregating the classification results to calculate a classification item to which the sentence corresponds It is an automatic classification device.
【0011】第四に少なくても大小の二階層からなる分
類項目と小分類項目に関連付けられたキーワードを記述
した分類項目キーワードテーブルと属性情報毎の大分類
項目毎に係数を設定した分類項目係数テーブルを格納し
た格納手段と、属性情報を有する文章を入力する入力手
段と、入力された文章を解析し、属性情報を抽出すると
共に属性情報以外の部分から単語を抽出するテキスト解
析手段と、抽出した単語を格納手段に格納された分類項
目キーワードテーブルのキーワード群と比較照合し、抽
出した単語と一致するキーワードの出現頻度を小分類項
目毎に集計するキーワード走査手段と、キーワードに対
応する小分類項目が属する大分類項目を検索し、小分類
項目毎のキーワード出現頻度に抽出した属性情報毎の大
分類項目毎に設定された係数のうち該小分類項目が属す
る大分類項目の係数を乗じて重み付をし、該係数で修正
した出現頻度で小分類項目をソートし、分類結果を集計
して文章が該当する分類項目を算出する比較演算手段と
を有することを特徴とする文章自動分類装置である。Fourthly, a classification item keyword table that describes classification items consisting of at least two layers, large and small, and keywords associated with the small classification items, and classification item coefficients that set a coefficient for each large classification item for each attribute information. A storage means for storing a table; an input means for inputting a sentence having attribute information; a text analysis means for analyzing the inputted sentence to extract attribute information and a word from a portion other than the attribute information; The keyword scanning means for comparing and collating the selected words with the keyword group of the classification item keyword table stored in the storage means and summing up the appearance frequency of the keywords matching the extracted words for each small classification item, and the small classification corresponding to the keyword Search the major category item to which the item belongs, and set it for each major category item for each extracted attribute information to the keyword appearance frequency for each minor category item The weighting is performed by multiplying the coefficient of the large classification item to which the small classification item belongs, and the small classification items are sorted by the appearance frequency corrected by the coefficient, and the classification results are aggregated to classify the sentence. It is an automatic sentence classification device having a comparison calculation means for calculating an item.
【0012】第五に少なくても大小の二階層からなる分
類項目と小分類項目に関連付けられたキーワードを記述
した分類項目キーワードテーブルと属性情報毎の大分類
項目毎に係数を設定した分類項目係数テーブルと分類項
目との特定の関係付けを指定するキーワードを分類項目
毎に記述した特定分類項目キーワードテーブルを格納し
た格納手段と、属性情報及び見出し情報を有する文章を
入力する入力手段と、入力された文章を解析し、属性情
報を抽出すると共に属性情報以外の部分から単語を抽出
するテキスト解析手段と、抽出した単語を格納手段に格
納された分類項目キーワードテーブルのキーワード群と
比較照合し、抽出した単語と一致するキーワードの出現
頻度を小分類項目毎に集計すると共に、見出し情報から
抽出した単語を格納手段に格納された特定分類項目キー
ワードテーブルのキーワード群と比較照合し、抽出した
単語と一致するキーワードを検索するキーワード走査手
段と、キーワードに対応する小分類項目が属する大分類
項目を検索し、小分類項目毎のキーワード出現頻度に抽
出した属性情報毎の大分類項目毎に設定された係数のう
ち該小分類項目が属する大分類項目の係数を乗じて重み
付をし、該係数で修正した出現頻度で小分類項目をソー
トし、分類結果を集計して文章が該当する分類項目を算
出すると共に、見出し情報から抽出した単語と一致する
キーワードに対応する小分類項目を算出する比較演算手
段とを有することを特徴とする文章自動分類装置であ
る。Fifth, a classification item keyword table that describes classification items consisting of at least two layers, large and small, and keywords associated with the small classification items, and classification item coefficients that set a coefficient for each large classification item for each attribute information. A storage unit that stores a specific classification item keyword table in which a keyword designating a specific relationship between a table and classification items is described for each classification item, and an input unit that inputs a sentence having attribute information and heading information are input. The text analysis means for analyzing the sentence and extracting the attribute information and extracting the word from the part other than the attribute information is compared with the keyword group of the classification item keyword table stored in the storing means, and extracted. The frequency of appearance of keywords that match the specified word is aggregated for each subcategory, and the words extracted from the heading information are classified. Keyword scanning means for comparing and collating with the keyword group of the specific classification item keyword table stored in the means, and for searching the large classification item to which the small classification item corresponding to the keyword belongs, Of the coefficients set for each major classification item for each extracted attribute information, the keyword appearance frequency for each classification item is multiplied by the coefficient of the major classification item to which the minor classification item belongs The small classification items are sorted by frequency, the classification results are aggregated to calculate the classification items to which the sentence corresponds, and the comparison calculation means for calculating the small classification items corresponding to the keywords matching the words extracted from the heading information are provided. An automatic sentence classification device characterized by having.
【0013】上記第一から第五の構成によれば文章を極
めて速やかに且つ高精度に自動に分類することが可能
で、更には総ての文章を予め定められた分類グループに
分類可能で、分類後のグループによって、当該文章の主
題、大まかな内容の把握が容易となる。According to the above first to fifth configurations, sentences can be classified very quickly and accurately with high precision, and further, all sentences can be classified into a predetermined classification group. The group after classification makes it easy to understand the subject matter and the rough content of the sentence.
【0014】第六に格納手段にはコード項目とコード項
目に関連付けられたキーワードを記述した少なくても一
以上のコードテーブルが格納され、キーワード走査手段
は抽出した単語を少なくても一以上のコードテーブルの
キーワード群と比較照合し、抽出した単語と一致するキ
ーワードの出現頻度をコード項目毎に集計し、比較演算
手段は一致したキーワードに対応するコード項目を検索
し、コード項目毎のキーワード出現頻度でコード項目を
ソートし、文章が該当するコード項目を算出することを
特徴とする文章自動分類装置である。Sixth, the storing means stores at least one or more code tables in which code items and keywords associated with the code items are stored, and the keyword scanning means stores at least one or more codes of the extracted words. By comparing and collating with the keyword group in the table, the appearance frequency of the keywords that match the extracted words is totaled for each code item, and the comparison operation means searches for the code item corresponding to the matching keyword, and the keyword appearance frequency for each code item It is an automatic sentence classification device characterized in that code items are sorted by and the code items corresponding to a sentence are calculated.
【0015】第七にコードテーブルは都道府県市町村名
をキーワードとする都道府県市町村コードテーブル、国
名をキーワードとする国名コードテーブル、企業名をキ
ーワードとする企業コードテーブルの内少なくても1つ
以上を含むことを特徴とする文章自動分類装置である。Seventh, the code table is at least one of a prefectural code table with prefectures as keywords, a country code table with country names as a keyword, and a company code table with company names as a keyword. It is an automatic sentence classification device characterized by including.
【0016】上記第六及び第七の構成によれば分類後の
グループによって、関連分野、関連する国、地域、企業
等の把握が容易となる。According to the sixth and seventh configurations, the group after the classification makes it easy to grasp the related fields, related countries, regions, companies and the like.
【0017】第八に上記文書自動分類装置は、更に前記
比較演算手段により算出された分類の結果の項目を出力
する出力手段を有することを特徴とする文書自動分類装
置である。Eighth, the automatic document classifying apparatus further comprises output means for outputting the item of the classification result calculated by the comparison operation means.
【0018】第九に上記文書自動分類装置は、更に算出
された分類の結果の項目を文章に追記する変換結果格納
手段を有することを特徴とする文書自動分類装置であ
る。Ninth, the automatic document classifying apparatus further comprises conversion result storage means for additionally writing the calculated classification result item in a sentence.
【0019】上記構成によれば利用者も文章を解読する
ことなく主題、関連分野、大まかな内容、関連する国、
地域、企業等を把握可能で分類後の文章の活用が円滑に
行える。According to the above structure, the user can read the subject, related fields, rough contents, related countries, etc. without deciphering the text.
Areas, companies, etc. can be grasped and the sentences after classification can be used smoothly.
【0020】第十に上記文書自動分類装置は、更に分類
した文章を分類の結果の項目毎に蓄積する蓄積手段又は
/及び配信する配信手段を有することを特徴とする文章
自動分類装置である。Tenth, the automatic document classification apparatus is an automatic text classification apparatus characterized in that it further comprises a storage means for storing the classified text for each item of the classification result and / or a distribution means for distributing the text.
【0021】上記構成によれば分類後の文章を分類毎に
自動に蓄積、送信可能となり、蓄積、送信を人が行うこ
とがなくなるので蓄積場所、送信先に誤りがなくなる。According to the above configuration, the sentences after classification can be automatically stored and transmitted for each classification, and since the person does not perform the storage and the transmission, there is no error in the storage place and the destination.
【0022】第十一に上記文書自動分類装置は、更に一
定期間の分類の結果を項目毎に集計し、設定されたキー
ワードの出現頻度を統計処理し、対象文章数で正規化し
た分類項目毎の文章分布の統計処理を行う分類結果統計
手段と、該統計結果を出力する出力手段を有することを
特徴とする文章自動分類装置である。Eleventh, the automatic document classifying apparatus further collects the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes by the number of target sentences for each classification item. The automatic sentence classification device characterized by having a classification result statistical means for performing statistical processing of the sentence distribution and an output means for outputting the statistical result.
【0023】第十二に上記文書自動分類装置は、更に格
納手段に格納されたテーブルを出力する出力手段と、テ
ーブルの内容を変更、追加、削除してテーブルを再構成
する入力手段と、再構成されたテーブルを格納する格納
手段を有することを特徴とする文章自動分類装置であ
る。Twelfth, the automatic document classifying apparatus further includes an output means for outputting the table stored in the storage means, an input means for reconstructing the table by changing, adding or deleting the contents of the table, and It is an automatic sentence classification device characterized by having storage means for storing a configured table.
【0024】上記構成によれば分類に使用するテーブル
を適宜に再構成できるので、文章を極めて高精度に自動
に分類することが可能で、分類後のグループによって、
当該文章の主題、関連分野、大まかな内容、関連する
国、地域、企業等の把握が容易となる。According to the above configuration, the table used for classification can be reconfigured appropriately, so that sentences can be automatically classified with extremely high accuracy, and the group after classification can be
It becomes easy to understand the subject, related fields, rough contents, related countries, regions, companies, etc. of the sentence.
【0025】第十三にネットワークを介して接続されて
いる編集端末及びサーバーシステムから構成される文章
自動分類装置であって、編集端末は文章を入力する入力
手段と、入力した文章及び分類処理要求をサーバーシス
テムに送信する出力手段と、サーバーシステムからの分
類処理結果を受信する入力手段とを有し、サーバーシス
テムは分類項目に関連付けられたキーワードを記述した
分類項目キーワードテーブルを格納した格納手段と、編
集端末からの文章及び分類処理要求を受信する入力手段
と、編集端末からの分類処理要求にしたがって該文章を
単語に分解、抽出するテキスト解析手段と、抽出された
単語を格納手段に格納されたキーワード群と比較照合す
るキーワード走査手段と、比較した結果に重み付をして
該当する分類項目を見出す比較演算手段と、分類処理結
果を編集端末に送信する出力手段を有することを特徴と
する文章自動分類装置である。Thirteenth, an automatic sentence classification device composed of an editing terminal and a server system connected via a network, wherein the editing terminal has input means for inputting a sentence, the inputted sentence and a classification processing request. And an input means for receiving the classification processing result from the server system, and the server system stores a classification item keyword table in which keywords associated with the classification items are stored. An input means for receiving a sentence and a classification processing request from the editing terminal, a text analysis means for decomposing and extracting the sentence into words according to the classification processing request from the editing terminal, and the extracted words stored in the storing means. Keyword scanning means for comparing and collating with the selected keyword group, and the corresponding classification items by weighting the comparison results A sentence automatic classification apparatus characterized by comprising: a comparison operation means for finding, an output means for transmitting the classification processing result to the editing terminal.
【0026】上記方法によればネットワークに接続され
た簡易な構成の端末を利用して文章自動分類を行うこと
が可能となり、又、キーワード群の再構成等の保守が一
度ですむ。According to the above method, it is possible to perform automatic sentence classification using a terminal having a simple structure connected to the network, and maintenance such as reconstructing a keyword group is required only once.
【0027】第十四に文章を解析し、単語を抽出するテ
キスト解析処理と、抽出した単語をキーワードを分類項
目に関連付けて記述したキーワード群と比較照合するキ
ーワード走査処理と、比較照合した結果に重み付をして
文章が該当する分類項目を算出する比較演算処理とをコ
ンピュータに実行させることを特徴とする文章自動分類
プログラムである。Fourteenth, a text analysis process of analyzing a sentence and extracting a word, a keyword scanning process of comparing and matching the extracted word with a keyword group described by associating a keyword with a classification item, and a result of the comparison and matching. It is an automatic sentence classification program characterized by causing a computer to execute a comparison calculation process for weighting and calculating a classification item to which a sentence corresponds.
【0028】第十五に文章を解析し、単語を抽出するテ
キスト解析処理と、抽出した単語をキーワードを分類項
目に関連付けて記述したキーワード群と比較照合し、抽
出した単語と一致するキーワードの出現頻度を分類項目
毎に集計するキーワード走査処理と、集計した結果に重
み付をして文章が該当する分類項目を算出して分類する
比較演算処理とをコンピュータに実行させることを特徴
とする文章自動分類プログラムプログラムである。Fifteenth, a text analysis process of analyzing a sentence and extracting a word, and comparing and collating the extracted word with a keyword group described by associating the keyword with a classification item, and appearance of a keyword matching the extracted word Automatic text writing characterized by causing a computer to execute a keyword scanning process for counting the frequency for each classification item and a comparison calculation process for weighting the totaled result to calculate and classify the classification item to which the sentence corresponds It is a classification program.
【0029】第十六に比較演算処理は一致したキーワー
ドに対応する分類項目を検索し、分類項目毎のキーワー
ド出現頻度に分類項目毎に設定された係数を乗じて重み
付をし、該係数で修正した出現頻度で分類項目をソート
し、分類結果を集計して文章が該当する分類項目を算出
する処理であることを特徴とする文章自動分類プログラ
ムである。In the sixteenth comparison processing, the classification items corresponding to the matching keywords are searched, the keyword appearance frequency for each classification item is multiplied by a coefficient set for each classification item, and weighted. An automatic sentence classification program, characterized in that the classification items are sorted according to the corrected appearance frequency, and the classification results are totaled to calculate the classification item to which the sentence corresponds.
【0030】第十七に属性情報を有する文章を自動分類
する処理をコンピュータに実行させるプログラムであっ
て、属性情報を有する文章を解析し、属性情報を抽出す
ると共に、属性情報以外の部分から単語を抽出するテキ
スト解析処理と、抽出した単語を少なくても大小分類項
目の二階層からなり、キーワードを小分類項目に関連付
けて記述したキーワード群と比較照合し、抽出した単語
と一致するキーワードの出現頻度を小分類項目毎に集計
するキーワード走査処理と、一致したキーワードに対応
する小分類項目が属する大分類項目を検索し、小分類項
目毎のキーワード出現頻度に抽出した属性情報毎の大分
類項目毎に設定された係数のうち該小分類項目が属する
大分類項目の係数を乗じて重み付をし、該係数で修正し
た出現頻度で小分類項目をソートし、分類結果を集計し
て文章が該当する分類項目を算出する比較演算処理とを
コンピュータに実行させることを特徴とする文章自動分
類プログラムである。Seventeenth, a program for causing a computer to execute a process of automatically classifying a sentence having attribute information, analyzing a sentence having attribute information, extracting attribute information, and extracting a word from a portion other than the attribute information. It consists of two layers, a text analysis process to extract the extracted words and at least the small and large categories, and the keywords are compared and collated with the keywords described by associating the keywords with the small categories, and the keywords that match the extracted words appear. The keyword scanning process that aggregates the frequency for each small category item, and the large category item to which the small category item corresponding to the matching keyword belongs is searched, and the large category item for each attribute information extracted as the keyword appearance frequency for each small category item Of the coefficients set for each, the weighting is performed by multiplying by the coefficient of the large classification item to which the small classification item belongs, and the appearance frequency corrected by the coefficient To sort the items, a text automatic classification program, characterized in that sentence summarizes the classification results to perform the comparison operation process of calculating a classification item corresponding to the computer.
【0031】第十八に属性情報及び見出し情報を有する
文章を自動分類する処理をコンピュータに実行させるプ
ログラムであって、属性情報及び見出し情報を有する文
章を解析し、属性情報を抽出すると共に、属性情報以外
の部分から単語を抽出するテキスト解析処理と、抽出し
た単語をキーワードを小分類項目に関連付けて記述した
キーワード群と比較照合し、抽出した単語と一致するキ
ーワードの出現頻度を小分類項目毎に集計するキーワー
ド走査処理と、一致したキーワードに対応する小分類項
目が属する大分類項目を検索し、小分類項目毎のキーワ
ード出現頻度に抽出した属性情報毎の大分類項目毎に設
定された係数のうち該小分類項目が属する大分類項目の
係数を乗じて重み付をし、該係数で修正した出現頻度で
小分類項目をソートし、分類結果を集計して文章が該当
する分類項目を算出すると共に見出し情報から抽出した
単語と一致するキーワードの属する分類項目を検索して
文章が該当する分類項目を算出する比較演算処理とをコ
ンピュータに実行させることを特徴とする文章自動分類
プログラムである。Eighteenth, a program for causing a computer to execute a process of automatically classifying sentences having attribute information and heading information, analyzing sentences having attribute information and heading information, extracting attribute information, and Text analysis processing that extracts words from parts other than information, and compares and collates the extracted words with the keyword group that describes the keywords by associating the keywords with the sub-category, and the appearance frequency of the keywords that match the extracted words The keyword scanning process that aggregates to, and the large classification items to which the small classification items corresponding to the matching keywords belong are searched, and the coefficient set for each large classification item for each attribute information extracted for the keyword appearance frequency for each small classification item Among them, the coefficient of the large classification item to which the small classification item belongs is multiplied and weighted, and the small classification item is sorted by the appearance frequency corrected by the coefficient. Then, the classification result is aggregated to calculate the classification item to which the sentence corresponds, and at the same time, the comparison calculation process of calculating the classification item to which the sentence corresponds by searching the classification item to which the keyword matching the word extracted from the heading information belongs It is an automatic sentence classification program characterized by being executed by a computer.
【0032】上記第十四から第十八の手段によれば文章
を極めて速やかに且つ高精度に自動に分類することが可
能で、更には総ての文章を予め定められた分類グループ
に分類可能で、分類後のグループによって、当該文章の
主題、大まかな内容の把握が容易となる。According to the above fourteenth to eighteenth means, it is possible to classify sentences extremely quickly and highly accurately and further, all sentences can be classified into a predetermined classification group. Then, by the group after the classification, it becomes easy to grasp the subject and the rough content of the sentence.
【0033】第十九にキーワード走査処理は抽出した単
語をキーワードをコード項目に関連付けて記述した少な
くても一以上のキーワード群と比較照合し、抽出した単
語と一致するキーワードの出現頻度をコード項目毎に集
計する処理を含み、比較演算処理は一致したキーワード
に対応するコード項目を検索し、コード項目毎のキーワ
ード出現頻度でコード項目をソートし、文章が該当する
コード項目を算出する処理を含むことを特徴とする文章
自動分類プログラムである。Nineteenth, in the keyword scanning process, the extracted words are compared and collated with at least one or more keyword groups in which the keywords are described by associating the keywords with the code items, and the frequency of appearance of the keywords matching the extracted words is determined by the code items. The comparison calculation process includes a process of searching for code items corresponding to the matched keywords, sorting the code items by the keyword appearance frequency of each code item, and calculating a code item to which the sentence corresponds. It is an automatic sentence classification program characterized by the following.
【0034】第二十にキーワードをコード項目に関連付
けて記述したキーワード群は都道府県市町村名をキーワ
ードとする都道府県市町村キーワード群、国名をキーワ
ードとする国名キーワード群、企業名をキーワードとす
る企業キーワード群の内少なくても1つ以上を含むこと
を特徴とする文章自動分類プログラムである。In the twentieth keyword group, which is described by associating keywords with code items, is a prefecture keyword group with prefectures, cities, towns and villages as keywords, country keyword groups with country names as keywords, and company keywords with company names as keywords. It is an automatic sentence classification program characterized by including at least one or more in a group.
【0035】上記第十九及び第二十の手段によれば分類
後のグループによって、関連分野、関連する国、地域、
企業等の把握が容易となる。According to the above nineteenth and twentieth means, the related fields, related countries, regions,
It becomes easy to grasp the companies.
【0036】第二十一に上記文書自動分類プログラム
は、更に前記比較演算処理により算出された分類の結果
の項目を出力する出力処理とを含み、これらの処理をコ
ンピュータに実行させることを特徴とする文章自動分類
プログラムである。In the twenty-first aspect, the automatic document classification program further includes an output process for outputting items of classification results calculated by the comparison calculation process, and causes the computer to execute these processes. It is an automatic sentence classification program.
【0037】第二十二に上記文書自動分類プログラム
は、更に算出された分類の結果の項目を文章に追記する
変換結果格納処理とを含み、これらの処理をコンピュー
タに実行させることを特徴とする文章自動分類プログラ
ムである。In the twenty-second aspect, the automatic document classification program further includes a conversion result storing process for additionally writing the calculated result items of the classification into a sentence, and causes the computer to execute these processes. It is an automatic sentence classification program.
【0038】上記手段によれば利用者も文章を解読する
ことなく主題、関連分野、大まかな内容、関連する国、
地域、企業等を把握可能で分類後の文章の活用が円滑に
行える。According to the above means, the user does not have to decipher the text, but the subject, related fields, rough contents, related countries,
Areas, companies, etc. can be grasped and the sentences after classification can be used smoothly.
【0039】第二十三に上記文書自動分類プログラム
は、更に分類した文章を分類の結果の項目毎に蓄積又は
/及び配信する処理とを含み、これらの処理をコンピュ
ータに実行させることを特徴とする文章自動分類プログ
ラムである。Twenty-third, the automatic document classification program includes a process of accumulating and / or distributing the classified sentences for each item of the classification result, and causes the computer to execute these processes. It is an automatic sentence classification program.
【0040】上記手段によれば分類後の文章を分類毎に
自動に蓄積、送信可能となり、蓄積、送信を人が行うこ
とがなくなるので蓄積場所、送信先に誤りがなくなる。According to the above means, it is possible to automatically store and transmit the classified sentences for each classification, and it becomes unnecessary for a person to perform the accumulation and the transmission, so that there is no error in the accumulation place and the destination.
【0041】第二十四に上記文書自動分類プログラム
は、更に一定期間の分類の結果を項目毎に集計し、設定
されたキーワードの出現頻度を統計処理し、対象文章数
で正規化した分類結果の項目毎の文章分布の統計処理を
行う分類結果統計処理と、該統計結果を出力する処理を
含み、これらの処理をコンピュータに実行させることを
特徴とする文章自動分類プログラムである。Twenty-fourth, the document automatic classification program further collects the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the classification result by the number of target sentences. An automatic sentence classification program characterized by including a classification result statistical process of performing a statistical process of the sentence distribution for each item and a process of outputting the statistical result, and causing a computer to execute these processes.
【0042】第二十五にキーワード群を出力する処理
と、該キーワード群を変更、追加、削除してキーワード
群を再構成する処理と再構成したキーワード群を格納す
る処理を含むことを特徴とする文章自動分類プログラム
である。In the twenty-fifth aspect, a process for outputting a keyword group, a process for reconfiguring the keyword group by changing, adding, or deleting the keyword group and a process for storing the reconfigured keyword group are included. It is an automatic sentence classification program.
【0043】上記手段によれば分類に使用するテーブル
を適宜に再構成できるので、文章を極めて高精度に自動
に分類することが可能で、分類後のグループによって、
当該文章の主題、関連分野、大まかな内容、関連する
国、地域、企業等の把握が容易となる。According to the above means, the table used for classification can be reconstructed as appropriate, so that sentences can be automatically classified with extremely high accuracy, and after the classification,
It becomes easy to understand the subject, related fields, rough contents, related countries, regions, companies, etc. of the sentence.
【0044】第二十六に本発明の文章自動分類プログラ
ムを記録したコンピュータ読取り可能な記録媒体は上記
第十四から第二十五の手段の文章自動分類プログラムを
記録したコンピュータ読取り可能な記録媒体である。A computer-readable recording medium in which the automatic sentence classification program of the present invention is recorded in twenty-sixth is a computer-readable recording medium in which the automatic sentence classification program of the fourteenth to twenty-fifth means is recorded. Is.
【0045】第二十七に文章を入力するステップと、該
文章を解析し、単語を抽出するステップと、抽出した単
語をキーワードを分類項目に関連付けて記述したキーワ
ード群と比較照合するステップと、比較照合した結果に
重み付をして文章が該当する分類項目を見出すステップ
とを有することを特徴とする文章自動分類方法である。In step 27, a step of inputting a sentence, a step of analyzing the sentence and extracting a word, and a step of comparing and collating the extracted word with a keyword group in which a keyword is described in association with a classification item, A method of automatically classifying a sentence, comprising the step of weighting the result of comparison and matching and finding a classification item to which the sentence corresponds.
【0046】第二十八に文章を解析し、単語を抽出する
テキスト解析ステップと、抽出した単語をキーワードを
分類項目に関連付けて記述したキーワード群と比較照合
し抽出した単語と一致するキーワードの出現頻度を分類
項目毎に集計するキーワード走査ステップと、集計した
結果に重み付をして文章が該当する分類項目を見出す比
較演算ステップとを有することを特徴とする文章自動分
類方法である。Twenty-eighth, a text analysis step of analyzing a sentence and extracting a word, and comparing and matching the extracted word with a keyword group described by associating the keyword with a classification item and appearance of a keyword matching the extracted word A method for automatically classifying sentences, comprising: a keyword scanning step of totalizing the frequency for each classification item; and a comparison calculation step of weighting the totaled result to find a classification item to which the sentence corresponds.
【0047】第二十九に比較演算ステップは一致したキ
ーワードに対応する分類項目を検索するステップと、分
類項目毎のキーワード出現頻度に分類項目毎に設定され
た係数を乗じに重み付をするステップと、該係数で修正
した出現頻度で分類項目をソートし、分類結果を集計し
て文章が該当する分類項目を算出するステップを有する
ことを特徴とする文章自動分類方法である。In the twenty-ninth comparison operation step, a step of retrieving a classification item corresponding to the matching keyword and a step of multiplying the keyword appearance frequency of each classification item by a coefficient set for each classification item and weighting And a step of sorting the classification items by the appearance frequency corrected by the coefficient and totaling the classification results to calculate the classification item corresponding to the sentence.
【0048】第三十に属性情報を有する文章を自動分類
する方法であって、属性情報を有する文章を解析し、属
性情報を抽出すると共に、属性情報以外の部分から単語
を抽出するテキスト解析ステップと、抽出した単語を少
なくても大小分類項目の二階層からなり、キーワードを
小分類項目に関連付けて記述したキーワード群と比較照
合し、抽出した単語と一致するキーワードの出現頻度を
小分類項目毎に集計するキーワード走査ステップと、一
致したキーワードに対応する小分類項目が属する大分類
項目を検索し、小分類項目毎のキーワード出現頻度に抽
出した属性情報毎の大分類項目毎に設定された係数のう
ち該小分類項目が属する大分類項目の係数を乗じて重み
付をし、該係数で修正した出現頻度で小分類項目をソー
トし、分類結果を集計して文章が該当する分類項目を算
出する比較演算ステップとを有することを特徴とする文
章自動分類方法である。A thirtieth method of automatically classifying sentences having attribute information, which is a text analyzing step of analyzing sentences having attribute information, extracting attribute information, and extracting words from a portion other than the attribute information. The extracted words consist of at least two layers of large and small classification items, and the keywords are compared and collated with the keyword group described in association with the small classification items, and the appearance frequency of the keywords matching the extracted words is calculated for each small classification item. The keyword scanning step for totaling and the large classification items to which the small classification items corresponding to the matching keywords belong are searched, and the coefficient set for each large classification item for each attribute information extracted for the keyword appearance frequency for each small classification item Among them, the coefficient of the large classification item to which the small classification item belongs is multiplied and weighted, and the small classification items are sorted by the appearance frequency corrected by the coefficient, and the classification result is displayed. A text automatic classification method characterized by having a comparison operation step of calculating a classification items sentences with meter corresponds.
【0049】第三十一に属性情報及び見出し情報を有す
る文章を自動分類する方法であって、属性情報及び見出
し情報を有する文章を解析し、属性情報を抽出すると共
に、属性情報以外の部分から単語を抽出するテキスト解
析ステップと、抽出した単語をキーワードを小分類項目
に関連付けて記述したキーワード群と比較照合し、抽出
した単語と一致するキーワードの出現頻度を小分類項目
毎に集計するキーワード走査ステップと、一致したキー
ワードに対応する小分類項目が属する大分類項目を検索
し、小分類項目毎のキーワード出現頻度に抽出した属性
情報毎の大分類項目毎に設定された係数のうち該小分類
項目が属する大分類項目の係数を乗じて重み付をし、該
係数で修正した出現頻度で小分類項目をソートし、分類
結果を集計して文章が該当する分類項目を算出すると共
に、見出し情報から抽出した単語と一致するキーワード
の属する分類項目を検索して文章が該当する分類項目を
算出する比較演算ステップとを有することを特徴とする
文章自動分類方法である。The thirty-first method is a method for automatically classifying sentences having attribute information and heading information, in which a sentence having attribute information and heading information is analyzed, attribute information is extracted, and a portion other than the attribute information is extracted. A text analysis step that extracts words and a keyword scan that compares and collates the extracted words with a group of keywords that are described by associating the extracted keywords with subcategory items and totals the frequency of appearance of keywords that match the extracted words The step and the large classification item to which the small classification item corresponding to the matched keyword belongs are searched, and the small classification among the coefficients set for each large classification item for each attribute information extracted to the keyword appearance frequency for each small classification item Weighting is performed by multiplying by the coefficient of the large classification item to which the item belongs, the small classification items are sorted by the appearance frequency corrected by the coefficient, and the classification results are totaled and the sentence is summarized. Automatically calculating the corresponding classification item, and searching the classification item to which the keyword matching the word extracted from the heading information belongs, and calculating the classification item to which the sentence corresponds. It is a classification method.
【0050】上記第二十七から第三十一の構成によれば
文章を極めて速やかに且つ高精度に自動に分類すること
が可能で、更には総ての文章を予め定められた分類グル
ープに分類可能で、分類後のグループによって、当該文
章の主題、大まかな内容の把握が容易となる。According to the twenty-seventh to thirty-first configurations, it is possible to classify sentences very quickly and highly accurately and further, all sentences are classified into a predetermined classification group. It is possible to classify, and by the group after classification, it becomes easy to grasp the subject and rough content of the sentence.
【0051】第三十二にキーワード走査ステップは抽出
した単語をキーワードをコード項目に関連付けて記述し
た少なくても一以上のキーワード群と比較照合し、抽出
した単語と一致するキーワードの出現頻度をコード項目
毎に集計するステップを含み、比較演算ステップは一致
したキーワードに対応するコード項目を検索し、コード
項目毎のキーワード出現頻度でコード項目をソートし、
文章が該当するコード項目を算出するステップを含むこ
とを特徴とする文章自動分類方法である。In the thirty-second keyword scanning step, the extracted words are compared and collated with at least one or more keyword groups in which the keywords are described by associating the keywords with code items, and the appearance frequency of the keywords matching the extracted words is coded. Including the step of totaling for each item, the comparison operation step searches for the code item corresponding to the matched keyword, sorts the code items by the keyword appearance frequency for each code item,
A method for automatically classifying sentences, comprising a step of calculating a code item to which the sentence corresponds.
【0052】第三十三にキーワードをコード項目に関連
付けて記述したキーワード群は都道府県市町村名をキー
ワードとする都道府県市町村キーワード群、国名をキー
ワードとする国名キーワード群、企業名をキーワードと
する企業キーワード群の内少なくても1つ以上を含むこ
とを特徴とする文章自動分類方法である。The keyword groups in which the keywords are described in association with the code items in the 33rd group are prefectures, cities, towns and villages keywords group, prefectures, cities, towns and villages keywords, country name keywords group, company name keywords companies. It is an automatic sentence classification method characterized by including at least one or more of a keyword group.
【0053】上記第三十二及び第三十三の方法によれば
分類後のグループによって、関連分野、関連する国、地
域、企業等の把握が容易となる。According to the thirty-second and thirty-third methods, it becomes easy to grasp the related fields, related countries, regions, companies, etc. by the group after classification.
【0054】第三十四に上記文書自動分類方法は、更に
前記比較演算ステップにより算出された分類の結果の項
目を出力する分類結果出力ステップとを有することを特
徴とする文章自動分類方法である。In the thirty-fourth aspect, the automatic document classification method further comprises a classification result output step of outputting the classification result items calculated by the comparison operation step. .
【0055】第三十五に上記文書自動分類方法は、更に
算出された分類の結果の項目を文章に追記する変換結果
格納ステップとを有することを特徴とする文章自動分類
方法である。The thirty-fifth aspect of the present invention is the automatic text classification method, further comprising a conversion result storage step of additionally writing the calculated classification result item in the text.
【0056】上記方法によれば利用者も文章を解読する
ことなく主題、関連分野、大まかな内容、関連する国、
地域、企業等を把握可能で分類後の文章の活用が円滑に
行える。According to the above method, the user does not have to decipher the text, but the subject, related fields, rough contents, related countries,
Areas, companies, etc. can be grasped and the sentences after classification can be used smoothly.
【0057】第三十六に上記文書自動分類方法は、更に
分類した文章を分類の結果の項目毎に蓄積するステップ
又は/及び配信するステップとを有することを特徴とす
る文章自動分類方法である。In the thirty-sixth aspect, the automatic document classification method further comprises a step of accumulating and / or delivering the classified text for each item of the classification result. .
【0058】上記方法によれば分類後の文章を分類毎に
自動に蓄積、送信可能となり、蓄積、送信を人が行うこ
とがなくなるので蓄積場所、送信先に誤りがなくなる。According to the above method, the sentences after the classification can be automatically stored and transmitted for each classification, and since the person does not perform the storage and the transmission, there is no error in the storage place and the transmission destination.
【0059】第三十七に上記文書自動分類方法は、更に
一定期間の分類の結果を項目毎に集計し、設定されたキ
ーワードの出現頻度を統計処理し、対象文章数で正規化
した分類結果の項目毎の文章分布の統計処理を行う分類
結果統計ステップと、該統計結果を出力するステップと
を有することを特徴とする文章自動分類方法である。In the thirty-seventh aspect, in the above-mentioned automatic document classification method, the result of classification for a certain period is further tabulated for each item, the appearance frequency of the set keyword is statistically processed, and the classification result is normalized by the number of target sentences. An automatic sentence classification method characterized by including a classification result statistical step of performing a statistical process of the sentence distribution for each item and a step of outputting the statistical result.
【0060】第三十八にキーワード群を出力するステッ
プと、該キーワード群を変更、追加、削除してキーワー
ド群を再構成するステップと、再構成されたキーワード
郡を格納するステップとを含むことを特徴とする文章自
動分類方法である。In the thirty-eighth aspect, the steps of outputting a keyword group, reconfiguring the keyword group by changing, adding or deleting the keyword group, and storing the reconfigured keyword group are included. It is an automatic text classification method characterized by.
【0061】上記方法によれば分類に使用するテーブル
を適宜に再構成できるので、文章を極めて高精度に自動
に分類することが可能で、分類後のグループによって、
当該文章の主題、関連分野、大まかな内容、関連する
国、地域、企業等の把握が容易となる。According to the above method, the table used for classification can be reconstructed appropriately, so that sentences can be automatically classified with extremely high accuracy, and the group after classification can be
It becomes easy to understand the subject, related fields, rough contents, related countries, regions, companies, etc. of the sentence.
【0062】第三十九に文章を編集端末に入力するステ
ップと、編集端末が該文章をサーバーシステムに送信し
て分類処理を要求するステップと、サーバーシステムが
文章及び分類処理要求を受信するステップと、サーバー
システムが該文章を解析し、単語を抽出するステップ
と、抽出した単語をキーワードを分類項目に関連付けて
記述したキーワード群と比較照合するステップと、比較
照合した結果に重み付けをして該当する項目を見出すス
テップと、分類処理結果を編集者端末に送信するステッ
プと、編集端末が分類処理結果を受信するステップとを
有することを特徴とする文章自動分類方法である。[0062] In the thirty-ninth step, the step of inputting a sentence to the editing terminal, the step of transmitting the sentence to the server system to request the classification processing, and the step of the server system receiving the sentence and the classification processing request And a step in which the server system analyzes the sentence and extracts a word, a step in which the extracted word is compared and matched with a keyword group described by associating a keyword with a classification item, and the result of the comparison and comparison is weighted and applicable. The automatic text classification method is characterized by including a step of finding an item to be processed, a step of transmitting the classification processing result to the editor terminal, and a step of the editing terminal receiving the classification processing result.
【0063】上記方法によればネットワークに接続され
た簡易な構成の端末を利用して文章自動分類を行うこと
が可能となり、又、キーワード群の再構成等の保守が一
度ですむ。According to the above method, it is possible to perform automatic sentence classification by using a terminal having a simple structure connected to the network, and maintenance such as reconstruction of the keyword group is required only once.
【0064】ここで、文章とは電子化された文書であ
り、コンピュータで処理可能なデータ形式であればその
データ形式は問はない。そして、分類する文章は日本語
に限ることなく、英語等の他の言語で記述されていても
よいことはもちろんである。Here, the text is an electronic document, and the data format does not matter as long as it is a data format that can be processed by a computer. The sentences to be classified are not limited to Japanese and may be written in other languages such as English.
【0065】[0065]
【発明の実施の形態】 以下、本発明の文書自動分類装
置の実施の形態について図に従って詳細に説明する。図
1は本発明の文章自動分類装置の一実施形態のブロック
図であり、文章自動分類装置100は入力手段110、
テキスト解析手段120、キーワード走査手段130、
比較演算手段140、出力手段150、変換結果格納手
段160、蓄積手段170、格納手段180、制御手段
190から構成されており、パーソナルコンピュータ等
で構成することができる。BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, an embodiment of an automatic document classification device of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram of an embodiment of the automatic sentence classification apparatus of the present invention. The automatic sentence classification apparatus 100 includes an input unit 110,
Text analysis means 120, keyword scanning means 130,
The comparison calculation unit 140, the output unit 150, the conversion result storage unit 160, the storage unit 170, the storage unit 180, and the control unit 190 are configured and can be configured by a personal computer or the like.
【0066】入力手段110はキーボード、スキャナ
ー、モデム、ポインティングデバイス等で構成され、分
類する文章を入力する手段である。入力は文章をキーボ
ードにより打ち込んだり、スキャナーにより読み込んだ
り、モデムを介してネットワークに接続された他の端末
から受信すること等により行う。又、出力手段150に
よって表示された各種キーワード群を変更、追加、削除
して再構成し、格納手段に格納を指示し、更には分類の
結果の変更、キャンセル等を指示する手段ともなり得
る。The input means 110 is composed of a keyboard, a scanner, a modem, a pointing device, etc., and is means for inputting sentences to be classified. Input is performed by typing a sentence with a keyboard, reading with a scanner, receiving from another terminal connected to the network via a modem, or the like. Further, it can also serve as means for changing, adding, deleting, and reconstructing various keyword groups displayed by the output means 150, instructing the storing means to store, and further instructing to change or cancel the classification result.
【0067】テキスト解析手段120は入力された文章
を解析し、属性情報及び見出し情報を抽出し、属性情報
部分以外の文章から単語を抽出する手段である。文章に
属性情報、見出し情報が含まれていない場合或いは含ま
れていても分類に反映させない場合には、属性情報及び
見出し情報を抽出することなく文章を解析し、単語を抽
出する。文章の解析は単語解析用辞書テーブル181を
格納手段18から読み込み、これを参照して形態素解析
等により行う。The text analysis means 120 is means for analyzing the input sentence, extracting attribute information and heading information, and extracting words from the sentence other than the attribute information part. When the sentence does not include the attribute information and the headline information, or when the sentence does not include the attribute information and the headline information, the sentence is analyzed without extracting the attribute information and the headline information, and the word is extracted. Sentence analysis is performed by reading the word analysis dictionary table 181 from the storage unit 18 and referring to this to perform morphological analysis or the like.
【0068】属性情報は文章中の任意の場所例えば文章
の一行目に挿入された当該文書の極大雑把な分類のため
の情報である。見出し情報は文章中の任意の場所例えば
文章の二行目に挿入された当該文書のタイトルである。The attribute information is information for an extremely rough classification of the document inserted at an arbitrary place in the sentence, for example, the first line of the sentence. The headline information is the title of the document inserted at an arbitrary place in the text, for example, the second line of the text.
【0069】キーワード走査手段130は格納手段18
0に格納された分類項目キーワードテーブル182を読
み込み、テキスト解析手段120で抽出した文章中の単
語と比較照合し、抽出した単語と一致したキーワードの
出現頻度を小分類項目毎に集計する手段である。又、キ
ーワード走査手段130は格納手段180に格納された
キーワードとなる都道府県市町村名とコード項目たるコ
ード番号を関連付けた都道府県市町村コードテーブル1
83、キーワードとなる国名とコード項目たるコード記
号を関連付けた国名コードテーブル184、キーワード
となる企業名とコード項目たるコード番号を関連付けた
企業コードテーブル185等のコードテーブルを読み込
み、テキスト解析手段120で抽出した文章中の単語と
比較照合し、抽出した単語と一致したキーワードの出現
頻度をコード項目毎に集計する手段ともなる。The keyword scanning means 130 is the storage means 18
This is a means for reading the classification item keyword table 182 stored in 0, comparing and collating with the words in the sentence extracted by the text analysis means 120, and totaling the appearance frequency of the keywords matching the extracted words for each small classification item. . Also, the keyword scanning means 130 associates the prefecture / city / town / village name serving as the keyword stored in the storage means 180 with the code number as the code item, and the prefecture / city / town / village code table 1
83, a country name code table 184 that associates a country name that is a keyword with a code symbol that is a code item, and a code table such as a company code table 185 that associates a company name that is a keyword and a code number that is a code item is read, and the text analysis means 120 It also serves as a means for comparing and collating with the words in the extracted sentence and totaling the appearance frequencies of the keywords that match the extracted words for each code item.
【0070】比較演算手段140は一致したキーワード
に対応する小分類項目が属する大分類項目を検索し、小
分類項目毎のキーワード出現頻度に抽出した属性情報毎
の大分類項目毎に設定された係数のうち該小分類項目が
属する大分類項目の係数を乗じて重み付をし、該係数で
修正した出現頻度で小分類項目をソートし、分類の結果
を集計して文章が該当する分類項目或いは更にそのコー
ドを算出する手段である。小分類項目のソートに伴い、
該小分類項目が属する中分類項目及び大分類項目も同時
にソートされることとなる。又、キーワード走査手段1
30で集計されたコード項目毎のキーワードの出現頻度
で国名情報、都道府県市町村等情報、企業情報毎にコー
ド項目をソートし、分類の結果を集計して文章が該当す
る国名情報、都道府県市町村等情報、企業情報等のコー
ド項目を算出することとしてもよい。The comparison calculation means 140 searches the large classification items to which the small classification items corresponding to the matched keywords belong, and the coefficient set for each large classification item for each attribute information extracted as the keyword appearance frequency for each small classification item. Of these, the weighting is performed by multiplying by the coefficient of the large classification item to which the small classification item belongs, the small classification items are sorted by the appearance frequency corrected by the coefficient, the classification results are totaled, and the classification item to which the sentence corresponds or Further, it is means for calculating the code. With the sorting of minor categories,
The middle classification item and the large classification item to which the small classification item belongs are also sorted at the same time. Also, the keyword scanning means 1
The code items are sorted according to the frequency of appearance of the keywords for each code item aggregated in 30, and the code items are sorted by country information, prefecture information, company information, etc., and the classification results are aggregated, and the country information and the prefecture where the sentence corresponds It is also possible to calculate code items such as equal information and company information.
【0071】出力手段150は前記比較演算手段により
算出された分類項目又は/及び付属情報項目を表示或は
印字する為のモニター、プリンター等或は文章をネット
ワークを介して配信するためのモデム等から構成されて
いる。出力手段150は分類項目キーワードテーブル1
82、各種コードテーブル183,184,185及び
係数テーブル186を出力可能である。The output means 150 is from a monitor, a printer or the like for displaying or printing the classification items and / or the auxiliary information items calculated by the comparison operation means, or a modem or the like for delivering the text through the network. It is configured. The output means 150 is the classification item keyword table 1
82, various code tables 183, 184, 185 and coefficient table 186 can be output.
【0072】変換結果格納手段160は分類結果の項目
を分類のコードに変換して或いは変換せずにそのまま文
章に追記する手段である。蓄積手段170は分類した文
章を分類毎に格納手段180に格納、蓄積する手段であ
る。変換結果格納手段160、蓄積手段170は特に設
けないこととしてもよい。格納手段180はハードディ
スク等の磁気記録媒体や光磁気記録媒体などで構成され
る。制御手段190は上記各手段の処理を制御する手段
である。The conversion result storage means 160 is means for converting the classification result item into a classification code or adding it to the text as it is without conversion. The accumulating unit 170 is a unit that stores and accumulates the classified sentences in the storing unit 180 for each classification. The conversion result storage unit 160 and the storage unit 170 may not be provided. The storage unit 180 is composed of a magnetic recording medium such as a hard disk or a magneto-optical recording medium. The control unit 190 is a unit that controls the processing of each of the above units.
【0073】格納手段180は単語解析用辞書テーブル
181とキーワードを分類項目毎に記述したキーワード
群たる分類項目及び分類項目を示すコードと分類項目に
関連付けられたキーワードを記述した分類項目キーワー
ドテーブル182、キーワードをコード項目に関連付け
て記述したキーワード群たる都道府県市町村名とコード
番号を関連付けた都道府県市町村コードテーブル18
3、国名とコード記号を関連付けた国名コードテーブル
184、企業名とコード番号を関連付けた企業コードテ
ーブル185及び分類項目係数テーブル186を格納し
ている。更に、分類項目、国名情報の項目、都道府県市
町村情報の項目、企業情報の項目との特定の関係を指定
するキーワードを各項目毎に記述した特定情報キーワー
ドテーブル(図示せず)、分類項目との特定の関係付け
を指定するキーワードを分類項目毎に記述した特定分類
項目キーワードテーブル(図示せず)を格納することと
してもよい。又、再構成された各種テーブル182,1
83,184,185,186等を格納する。The storage unit 180 stores a word analysis dictionary table 181, a classification item as a keyword group in which keywords are described for each classification item, a classification item keyword table 182 in which codes indicating the classification items and keywords associated with the classification items are described. Prefectural municipality code table 18 in which a keyword group, which is a keyword group in which a keyword is described in association with a code item, is associated with a code number
3. A country name code table 184 that associates a country name with a code symbol, a company code table 185 that associates a company name with a code number, and a classification item coefficient table 186 are stored. Further, a specific information keyword table (not shown) in which keywords for specifying a specific relationship with the classification item, the country information item, the prefecture information, the company information item, and the company information item are described for each item It is also possible to store a specific classification item keyword table (not shown) in which the keywords designating the specific association of are described for each classification item. Also, various reconstructed tables 182, 1
83, 184, 185, 186 and the like are stored.
【0074】尚、格納手段180は文章自動分類装置1
00に内蔵させないで、ネットワークを介して文章自動
分類装置100と接続した格納手段、受信手段等を有す
るサーバー等に記憶させ、該格納手段に格納された各種
テーブル181,182,183,184,185,1
86を使用時に文章自動分類装置100が受信、読み込
むものとし、分類済み文章を蓄積する際に該サーバー等
に送信して記憶させることとしてもよい。又、分類項目
のみ分類する場合には格納手段180には単語解析用辞
書テーブル181と分類項目キーワードテーブル182
及び分類項目係数テーブル186のみ格納し、都道府県
市町村コードテーブル183、国名コードテーブル18
4、企業コードテーブル185は適宜に削除可能であ
る。この場合には分類項目のみ検索等され、都道府県市
町村、国名、企業等の情報は検索、分類されない。又、
文章の解析、単語の抽出方法によっては単語解析用辞書
テーブル181を有しない場合もある。The storage unit 180 is the automatic sentence classification device 1.
00, not stored in 00, but stored in a server or the like having storage means, reception means, etc. connected to the automatic sentence classification device 100 via a network, and various tables 181, 182, 183, 184, 185 stored in the storage means. , 1
86 may be received and read by the automatic sentence classification device 100 when used, and may be transmitted to and stored in the server or the like when accumulating classified sentences. Further, when classifying only the classification items, the storage unit 180 stores the word analysis dictionary table 181 and the classification item keyword table 182.
And the classification item coefficient table 186 only, and the prefecture / city / town / village code table 183 and the country name code table 18 are stored.
4. The company code table 185 can be deleted as appropriate. In this case, only the classification items are searched, and information such as prefectures, towns, villages, country names, companies, etc. is not searched and classified. or,
The word analysis dictionary table 181 may not be provided depending on the sentence analysis and word extraction methods.
【0075】更に文章自動分類装置100は一定期間の
分類の結果を項目毎に集計し、設定されたキーワードの
出現頻度を統計処理し、対象文章数で正規化した分類結
果の項目毎の文章分布の統計処理を行う分類結果統計手
段191を有することとしてもよい。統計の結果は出力
手段150にて出力する。Further, the automatic sentence classification apparatus 100 collects the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the number of target sentences to the sentence distribution of each item of the classified result. It is also possible to have a classification result statistic means 191 for performing the statistical processing of. The result of the statistics is output by the output means 150.
【0076】分類項目キーワードテーブル182は図3
に示すように、先ず大項目があり、大項目は中項目に分
割され、更に中項目も小項目に分割されて、三層構造に
形成されており、キーワードは各小項目毎に関連付けら
れて記述されている。中分類項目は小分類項目の上位概
念であり、大分類項目は中分類項目及び小分類項目の上
位概念である。各項目には対応するコードが付されてい
る。尚、必ずしも三層構造にする必要はなく、適宜に一
層、二層或いは四層以上としてもよい。都道府県市町村
コードテーブル183は図4に示すように都道府県を上
層に、各都道府県毎に市町村を下層に二層構造とし、都
道府県及び市町村夫々にコード番号が関連付けられてい
る。国名コードテーブル184は図5に示すように国名
とコード記号が関連付けられて記述されている。企業コ
ードテーブル185は図6に示すように企業とコード番
号が関連付けられて記述されている。The classification item keyword table 182 is shown in FIG.
As shown in, there is a large item first, the large item is divided into medium items, and the medium item is also divided into small items to form a three-layer structure, and the keywords are associated with each small item. It has been described. The middle classification item is a superordinate concept of the small classification item, and the large classification item is a superordinate concept of the middle classification item and the small classification item. A corresponding code is attached to each item. It is not always necessary to have a three-layer structure, and one layer, two layers, or four layers or more may be appropriately used. As shown in FIG. 4, the prefecture / city / town / village code table 183 has a two-layer structure in which prefectures are in the upper layer and municipalities in each prefecture are in the lower layer, and code numbers are associated with each prefecture and each municipality. As shown in FIG. 5, the country name code table 184 is described by associating a country name with a code symbol. The company code table 185 is described in such a manner that companies and code numbers are associated with each other as shown in FIG.
【0077】分類項目係数テーブル186は属性情報毎
に大項目が設定され、各大項目毎に分類項目係数が関連
付けられている。特定情報キーワードテーブルは国名情
報、都道府県市町村情報、企業情報、との特定の関係を
指定するキーワードを記述したテーブルであって、各項
目毎にキーワードが関連付けられている。特定分類項目
キーワードテーブルは分類項目との特定の関係関係付け
を指定するキーワードを記述したテーブルであって、小
分類項目ごとにキーワードが関連付けられている。In the classification item coefficient table 186, a large item is set for each attribute information, and a classification item coefficient is associated with each large item. The specific information keyword table is a table in which keywords that specify specific relationships with country name information, prefecture information, company information, and company information are described, and the keywords are associated with each item. The specific category item keyword table is a table in which keywords that specify a specific relationship with a category item are described, and a keyword is associated with each minor category item.
【0078】これら各種テーブルは出力手段150であ
るモニター画面に表示させて、入力手段110たるマウ
ス、キーボード等によって変更、追加、削除が可能であ
り、変更、追加、削除され再構成された各種テーブルは
入力手段110の指示により蓄積手段170によって格
納手段180に格納される。These various tables can be displayed on the monitor screen which is the output means 150, and can be changed, added, and deleted by the mouse, keyboard, etc., which are the input means 110, and various tables that have been changed, added, deleted, and reconfigured. Is stored in the storage unit 180 by the storage unit 170 according to an instruction from the input unit 110.
【0079】又、図2は本発明の文章自動分類装置の他
実施形態のブロック図であり、文章自動分類装置200
はパーソナルコンピュータ等で構成される編集端末21
0、ワークステイションやパーソナルコンピュータ等で
構成されるサーバーシステム220及び編集端末210
とサーバーシステム220を接続するネットワーク23
0から構成されている。編集端末210はキーボード、
スキャナー、モデム、ポインティングデバイス等で構成
される文章を入力し更にはサーバーシステム220から
の分類情報を受信する為の入力手段211、モニター、
プリンター、モデム等分類結果を表示、印字等し、更に
はサーバーシステム220に文章及び分類要求を送信す
る出力手段212、これらの手段を制御する制御手段を
少なくても有している。その他変換結果格納手段、蓄積
手段を有することとしてもよい。FIG. 2 is a block diagram of another embodiment of the automatic sentence classification apparatus of the present invention.
Is an editing terminal 21 composed of a personal computer or the like.
0, a server system 220 including an workstation and a personal computer, and an editing terminal 210
Network 23 connecting the server system 220 with the server system 220
It consists of zero. The editing terminal 210 is a keyboard,
An input unit 211 for inputting a sentence composed of a scanner, a modem, a pointing device, etc., and further for receiving classification information from the server system 220, a monitor,
It has at least output means 212 for displaying and printing classification results such as a printer and a modem, and further for transmitting sentences and classification requests to the server system 220, and control means for controlling these means. Other conversion result storage means and storage means may be included.
【0080】サーバーシステム220は上記文章自動分
類装置100と略同様の構成であって、テキスト解析手
段221、キーワード走査手段222、比較演算手段2
23、モデム等から構成される編集端末からの文章等を
受信する入力手段224、分類結果等を編集端末210
に送信する出力手段225及び単語解析用辞書テーブル
241と分類項目キーワードテーブル242、都道府県
市町村コードテーブル243、国名コードテーブル24
4、企業コードテーブル245及び分類項目係数テーブ
ル246を格納した格納手段240、これらの手段を制
御する制御手段226から構成されている。その他変換
結果格納手段227、蓄積手段228、分類結果統計手
段229等を有することとしてもよい。尚、ネットワー
ク230は有線、無線を問うものではない。The server system 220 has a structure similar to that of the automatic sentence classification device 100, and includes a text analysis unit 221, a keyword scanning unit 222, and a comparison calculation unit 2.
23, input means 224 for receiving sentences and the like from an editing terminal composed of a modem and the like, editing terminal 210 for the classification result and the like.
To the output means 225, the word analysis dictionary table 241, the classification item keyword table 242, the prefecture code table 243, and the country code table 24.
4, a company code table 245 and a storage means 240 storing a classification item coefficient table 246, and a control means 226 for controlling these means. Other conversion result storage means 227, storage means 228, classification result statistical means 229, etc. may be provided. The network 230 does not matter whether it is wired or wireless.
【0081】次に本発明文書自動分類プログラムの処理
手順を説明する。図8は本発明文書自動分類プログラム
の処理手順の一実施例を示すフローチャート図である。
先ず、分類を行う文書を解析し、該文章から単語を抽出
するテキスト解析処理を行うS10。次に抽出した単語
をキーワード群と比較照合するキーワード走査処理を行
うS20。そして、比較照合した結果に重み付をして文
章が該当する分類の項目を算出する比較演算処理を行う
S30。次に、分類の項目が見出された後に分類の結果
を出力する処理を行うS40。次に、分類の結果の変更
の要、不要の判断を要求し、変更を要する場合には文書
の変更或は分類の結果の変更を促し、変更を要しない場
合又は分類の結果の変更が行われた場合には次のステッ
プへ進める分類確認処理S50をおこなう。そして、分
類の結果の項目を文章に追記する変換結果格納処理を行
うS60。更に分類した文章を分類された項目毎に蓄積
又は/及び配信する処理を行うS70。Next, the processing procedure of the automatic document classification program of the present invention will be described. FIG. 8 is a flow chart showing an embodiment of the processing procedure of the automatic document classification program of the present invention.
First, a document to be classified is analyzed, and a text analysis process of extracting a word from the sentence is performed S10. Next, a keyword scanning process for comparing and collating the extracted words with the keyword group is performed S20. Then, a comparison calculation process of weighting the comparison result and calculating the item of the classification to which the sentence corresponds is performed S30. Next, a process of outputting the classification result after the classification item is found (S40). Next, it is necessary to judge whether the classification result needs to be changed or not. If it is necessary, change the document or prompt the change of the classification result. If no change is required or the classification result is changed. If so, the classification confirmation processing S50 is performed to proceed to the next step. Then, a conversion result storing process of additionally writing the classification result item in the sentence is performed in S60. Further, the process of accumulating and / or delivering the classified sentences for each classified item is performed S70.
【0082】尚、テキスト解析処理S10、キーワード
走査処理S20、比較演算処理S30以外の分類結果出
力処理S40、分類確認処理S50、変換結果格納処理
S60、蓄積処理又は/及び配信処理S70は必ずしも
必要ではなく、これらの処理は省略可能であり、これら
の処理の内適宜の処理を選択して処理を進めることとし
てもよく、又、適宜に順序を変更して処理を進めること
としてもよい。The classification analysis output process S40 other than the text analysis process S10, the keyword scanning process S20, and the comparison calculation process S30, the classification confirmation process S50, the conversion result storage process S60, the accumulation process and / or the distribution process S70 are not always necessary. However, these processes may be omitted, and an appropriate process may be selected from these processes to proceed, or the process may be proceeded by appropriately changing the order.
【0083】夫々の処理を詳しく説明すると、テキスト
解析処理を行うS10は分類する文章を単語に分解する
ための単語解析用辞書を読み込みS101、文章から属
性情報を抽出しS102、文章から見だし情報を抽出す
ると共に単語解析用辞書を参照して見だし情報部分の単
語を抽出しS103、単語解析用辞書を参照して文章か
ら属性情報及び見だし情報を除いた本文部分の単語を抽
出するS104。尚、属性情報の抽出S102、見だし
情報の単語の抽出S103、本文部分の単語の抽出S1
04は必ずしもこの順番である必要はなく、又、同時に
処理することとしてもよい。又、分類する文章に属性情
報或は見だし情報がない場合或いは分類に反映させない
場合等には適宜に属性情報の抽出S102、見だし情報
の単語の抽出S103の処理を省略する。尚、属性情
報、見だし情報、本文部分はタグ等の制御符号その他の
記号、改行等による区切りの情報により分割されてお
り、それぞれの部分が抽出される。To explain each process in detail, in S10 which performs the text analysis process, a word analysis dictionary for decomposing sentences to be classified into words is read S101, attribute information is extracted from the sentences S102, finding information from the sentences is read. S103, the word in the found information part is extracted by referring to the word analysis dictionary, and the word in the body part from which the attribute information and the found information are removed from the sentence is extracted by referring to the word analysis dictionary in S104. . Note that attribute information extraction S102, finding information word extraction S103, and body text word extraction S1.
04 does not necessarily have to be in this order, and may be processed simultaneously. If the text to be classified does not have attribute information or finding information, or if it is not reflected in the classification, the processing of attribute information extraction S102 and finding information word extraction S103 is appropriately omitted. Note that the attribute information, the finding information, and the body portion are divided by control codes such as tags and other symbols, and delimiter information such as line feeds, and each portion is extracted.
【0084】尚、テキスト解析処理S10における単語
の抽出は上記のように単語解析用辞書を参照して形態素
解析に基づいて文章を解析して単語を抽出する他、他の
様々な抽出方法を用いることが可能であり、その抽出方
法は限定されるものではない。The extraction of words in the text analysis process S10 uses various other extraction methods in addition to analyzing the sentence by extracting a word based on the morphological analysis with reference to the word analysis dictionary as described above. However, the extraction method is not limited.
【0085】キーワード走査処理を行うS20は、キー
ワード群を構成する分類項目キーワードテーブル或は分
類項目キーワードテーブルに加えて都道府県市町村コー
ドテーブル、国名コードテーブル、企業コードテーブル
等の付属の情報の項目テーブルの内少なくても一つを読
み込みS201、分類項目キーワードテーブル或は分類
項目キーワードテーブルに加えて適宜のコードテーブル
をメモリへ展開しS202、抽出した単語を分類項目キ
ーワードテーブル或はコードテーブルのキーワード群と
比較照合しS203、抽出した単語と一致した分類項目
キーワードテーブルのキーワード群のキーワードの出現
頻度を小分類項目毎に集計し、或いは更にコードテーブ
ルのキーワード群のキーワードの出現頻度をコード項目
毎に集計するS204。尚、同一キーワードが複数ある
場合にもその数をカウントする。又、見出し情報に含ま
れるキーワードは、カウントしてもよいがしなくてもよ
い。In step S20 for performing the keyword scanning process, in addition to the classification item keyword table or the classification item keyword table forming the keyword group, an item table of attached information such as a prefecture code, country code table, company code table, etc. Of these, at least one is read S201, a suitable code table is expanded in the memory in addition to the classification item keyword table or the classification item keyword table, and the extracted word is extracted into the classification item keyword table or the keyword group of the code table. S203, and the appearance frequency of the keyword of the keyword group of the classification item keyword table that matches the extracted word is aggregated for each small classification item, or the appearance frequency of the keyword of the keyword group of the code table is further calculated for each code item. S2 to total 4. Even if there are a plurality of the same keywords, the number is counted. The keywords included in the headline information may or may not be counted.
【0086】比較演算処理を行うS30は、抽出した単
語と一致したキーワードに対応する大中小の各分類項
目、或いは加えて国名情報のコード項目、都道府県市町
村情報のコード項目、企業情報のコード項目を検索しS
301、検索された小分類項目毎のキーワード出現頻度
に抽出した属性情報毎の大分類項目毎に設定された係数
のうち該小分類項目が属する大分類項目の係数を乗じて
重み付けをし、或いは更にコードテーブル毎に検索され
たコード項目毎のキーワードを出現頻度で重み付けしS
302、該係数で修正した出現頻度で小分類項目、結果
としてその小分類項目が属する大中分類項目をソート
し、或いは更にコード項目毎の出現頻度でコード項目を
ソートしてS303、分類項目、国名情報のコード項
目、都道府県市町村情報のコード項目、企業情報のコー
ド項目毎に分類の結果を集計して分類項目或いはそのコ
ード項目、国名情報のコード項目、都道府県市町村情報
のコード項目、企業情報のコード項目を算出するS30
6。S30 for carrying out the comparison calculation process is each classification item of large, medium, and small corresponding to the keyword that matches the extracted word, or in addition, a code item of country name information, a code item of prefecture information, a code item of company information. Search for S
301, the keyword appearance frequency for each searched small classification item is multiplied by the coefficient of the large classification item to which the small classification item belongs among the coefficients set for each large classification item for each extracted attribute information, or Further, the keywords for each code item searched for each code table are weighted by the appearance frequency and S
302, the small classification item is sorted by the appearance frequency corrected by the coefficient, and as a result, the large and medium classification items to which the small classification item belongs are sorted, or the code items are further sorted by the appearance frequency of each code item, and S303, the classification item, Country name information code items, prefecture / city / town / village information code items, company information code items are aggregated into classification items or their code items, country / name information code items, prefecture / town / town / village information code items, companies S30 of calculating information code item
6.
【0087】勿論、分類項目のみを検索、ソート等の処
理をすることとしてもよく、適宜国名情報のコード項
目、都道府県市町村情報のコード項目、企業情報のコー
ド項目の検索等の処理は省略することとしてもよい。
又、重み付けS302は検索された小分類項目毎のキー
ワード出現頻度に、抽出した属性情報毎の中分類項目ま
たは小分類項目毎に設定された係数のうち該小分類項目
が属する中分類項目または小分類項目の係数を乗じて重
み付けをすることとしてもよく、更には、重み付けは属
性情報を有さない或は有しても反映させずに、検索され
た分類項目毎に、小分類項目毎のキーワード出現頻度に
該小分類項目が属する大分類項目毎に設定された或は小
分類項目毎又は中分類毎に設定された係数を乗じて重み
付けをすることしてもよい。Of course, only classification items may be searched, sorted, etc., and processing such as country code information code items, prefecture / city / town / village information code items, and company information code items may be omitted as appropriate. It may be that.
Further, the weighting S302 is based on the keyword appearance frequency for each searched small classification item, the medium classification item or the small classification item to which the small classification item belongs among the coefficients set for each extracted attribute information or the small classification item. Weighting may be performed by multiplying by the coefficient of the classification item. Further, the weighting does not reflect attribute information with or without attribute information, and the weighting is not reflected for each searched classification item and for each small classification item. The keyword appearance frequency may be weighted by multiplying it by a coefficient set for each large classification item to which the small classification item belongs, or for each small classification item, or for each intermediate classification.
【0088】尚、予め分類項目、国名情報、都道府県市
町村情報、企業情報のうち少なくても一つとの特定の関
係を指定するキーワード群のキーワードと抽出した単語
が一致する場合には、キーワードと特定の関係付けが指
定されている分類項目、国名情報のコード項目、都道府
県市町村情報のコード項目、企業情報のコード項目を特
定情報キーワードテーブルを参照して検索しS304、
分類の結果に反映させることとしてもよい。この場合に
S303で検索された分類項目、国名情報、都道府県市
町村情報、企業情報と何れかを優先させて分類結果に反
映させるかは任意に設定しうる。更に、見だし情報が本
文とは別個に単語抽出処理がされている場合であって、
予め分類項目との特定の関係関係付けを指定する特定分
類項目キーワードテーブルのキーワード群のキーワード
と見だし情報から抽出した単語が一致する場合には、見
だし情報部分のキーワードから特定の分類項目を検索す
るS305こととしてもよい。この場合にS303でソ
ートされ、優先順位がついた分類結果と何れかを優先さ
せて分類結果に反映させるかは任意に設定しうる。If the extracted word matches the keyword of the keyword group that specifies a specific relationship with at least one of the classification item, the country name information, the prefecture information, the company information, and the company information in advance, A classification item for which a specific association is designated, a code item for country name information, a code item for prefecture information, and a code item for company information are searched by referring to the specific information keyword table, and S304,
It may be reflected in the classification result. In this case, it is possible to arbitrarily set which of the classification item, country name information, prefecture / town / village information, and company information retrieved in S303 to be reflected in the classification result. Furthermore, when the found information is subjected to word extraction processing separately from the text,
If the keywords in the keyword group of the specific category item keyword table that specify a specific relationship with the category item in advance match the words extracted from the finding information, specify the particular category item from the keywords in the finding information part. It may be S305 to search. In this case, it is possible to arbitrarily set which of the classification results sorted in S303 and prioritized to be reflected in the classification result.
【0089】尚、分類の結果はソートされた最上位の項
目のみを分類結果として算出することとしてもよいが、
適宜の上位複数の項目を分類結果として算出することと
してもよい。It should be noted that, as for the classification result, only the sorted highest item may be calculated as the classification result.
A plurality of appropriate upper items may be calculated as the classification result.
【0090】分類の結果を出力する処理を行うS40
は、分類項目キーワードテーブル或は加えて各種コード
テーブルを読み込みS401、分類項目キーワードテー
ブル或は加えて各種コードテーブルを参照して分類結果
のコードから項目名を検索しS402、分類結果表示用
ダイアログに項目名をセットしS403、分類結果を表
示或いは更に印字するS404。ここで、分類結果はソ
ートされた最上位の項目のみを結果として表示してもよ
いが、適宜の上位複数の項目を分類結果として表示する
こととしてもよい。Processing for outputting the result of classification S40
Reads the classification item keyword table or the various code tables in addition to S401, searches the classification item keyword table or the various code tables for the item name from the classification result code in S402, and displays in the classification result display dialog. The item name is set in S403, and the classification result is displayed or further printed in S404. Here, as for the classification result, only the sorted highest item may be displayed as the result, but a plurality of appropriate upper items may be displayed as the classification result.
【0091】分類確認処理S50は分類結果を表示した
際に分類結果の変更が必要か否か、分類結果をキャンセ
ルするか否かの判断を要求しS501、変更を要しない
場合又は分類結果の変更の指示をうけて変更をした場合
S502、次の処理へすすみ、分類結果をキャンセルさ
れる場合には文書の変更を促しS503、分類確認処理
S50を行う。In the classification confirmation processing S50, when the classification result is displayed, it is determined whether or not the classification result needs to be changed and whether or not the classification result is cancelled. S501, if no change is necessary or the classification result is changed. When the change is received in response to the instruction of S502, the process proceeds to the next process, and when the classification result is cancelled, the document is prompted to be changed S503 and the classification confirmation process S50 is performed.
【0092】変換結果格納処理を行うS60は、分類項
目キーワードテーブル或は加えて各種コードテーブルを
参照して分類の結果の項目名からテーブル上のコードへ
変換しS601、テキスト形式の文章例えばXMLデー
タの所定のタグ項目に分類結果から変換したコードをセ
ットして文章に追記するS602。勿論、分類の結果を
コードに変換することなく分類結果の項目の単語をその
まま追記することとしてもよい。In step S60, the conversion result storing process is performed by converting the item name of the classification result into a code on the table by referring to the classification item keyword table or various code tables in addition, and in step S601, a text format sentence such as XML data. A code converted from the classification result is set in a predetermined tag item of No. and added to the sentence S602. Of course, the word of the item of the classification result may be added as it is without converting the classification result into a code.
【0093】文章を分類毎に蓄積又は/及び配信する処
理を行うS70は、分類結果が付与された文章例えばX
MLデータを蓄積しS701、又は/及び分類結果が付
与された文章を配信するS702。蓄積は予め設けた分
類の結果毎の格納領域に分類毎に格納するが、分類の結
果毎には格納領域を設けずに、格納することとしてもよ
い。又、配信は予め定めれた分類に対応した配信先に配
信されるが、分類にかかわらずに任意の配信先に配信す
ることとしてもよい。尚、分類の結果毎とは大分類項目
毎、中分類項目毎、小分類項目毎、国名情報毎、都道府
県市町村情報毎、企業情報毎の何れでもよく、又、これ
らの内の任意の分類の項目或いは該当する全ての分類の
項目に対応させて格納又は配信処理を行うこととしても
よい。In step S70, the process of accumulating and / or delivering the sentences for each classification is performed.
S701 which accumulates ML data and / or delivers the sentence to which the classification result was added S702. The accumulation is stored in advance in a storage area for each classification result, but may be stored without providing a storage area for each classification result. Further, although the distribution is distributed to the distribution destination corresponding to the predetermined classification, it may be distributed to any distribution destination regardless of the classification. The classification results may be any of large classification items, middle classification items, small classification items, country name information, prefecture information, company information, and company information, or any of these classifications. The storage or distribution process may be performed in correspondence with the item of or all applicable categories.
【0094】更に一定期間の分類の結果を集計し、設定
されたキーワードの出現頻度を統計処理し、対象文章数
で正規化した分類結果の項目毎の文章分布の統計処理を
行う分類結果集計処理S801と、該集計結果を出力す
る処理S802を含ませることは推奨される。Further, a classification result totaling process of totaling the results of classification for a certain period of time, statistically processing the appearance frequency of the set keyword, and statistically processing the sentence distribution of each item of the classification result normalized by the number of target sentences. It is recommended to include S801 and processing S802 for outputting the totalized result.
【0095】更に、分類項目ごとに記述されたキーワー
ド群たる分類項目キーワードテーブル又は/及びコード
項目毎に記述したキーワード群たる各種コードテーブル
を出力しS901、該キーワード群を変更、追加、削除
してS902、キーワード群を再構成するS903、処
理とを含ませることは推奨される。Further, a classification item keyword table which is a keyword group described for each classification item or / and various code tables which are a keyword group described for each code item are output and S901, the keyword group is changed, added or deleted. It is recommended to include S902, S903 for reconstructing the keyword group, and processing.
【0096】又、文書自動分類プログラムを記録したコ
ンピュータ読取り可能な記録媒体としては、以上のよう
な処理をコンピュータに実行させる文章自動分類プログ
ラムを磁気ディスク、磁気テープ、光ディスク等のコン
ピュータ読取可能な記録媒体に記録したものである。そ
して、文章自動分類処理を行う場合には該記録媒体をコ
ンピュータに読み込ませて当該プログラムを実行するこ
とにより、以上ような文章自動分類処理を行う。Further, as the computer-readable recording medium in which the automatic document classification program is recorded, a computer-readable recording medium such as a magnetic disk, a magnetic tape, or an optical disk is used for the automatic sentence classification program for causing a computer to execute the above-described processing. It is recorded on a medium. When performing the automatic sentence classification process, the recording medium is read by a computer and the program is executed to perform the automatic sentence classification process as described above.
【0097】次に、本発明自動分類方法の一実施例を図
18に示した文章900を例に具体的に説明する。先
ず、テキスト解析手段120は入力手段110により入
力された文章を解析し単語を抽出するための単語解析用
辞書テーブル181を格納手段180から読み込みS1
01、タグ等の制御符号、その他の記号等、改行等によ
る区切りの情報により文章の属性情報910、見出し情
報920、本文部分を認識し、属性情報「外信」910
を抽出しS102、単語解析用辞書テーブル181を参
照して見だし情報920の単語「通商」を抽出しS10
3、単語解析用辞書テーブル181を参照して本文部分
の単語「議会」、「財政」、「委員会」、「政権」、
「貿易」、「貿易」、「通商」、「公聴会」、「米
国」、「大阪」、「鈴木産業」等を抽出するS104
(テキスト解析処理S10)。尚、属性情報910の抽
出S102、見だし情報920の単語の抽出S103、
本文部分の単語の抽出S104は必ずしもこの順番であ
る必要はなく、同時に処理することとしてもよい。又、
分類する文章に属性情報910或は見だし情報920が
ない場合等には適宜に属性情報の抽出S102、見だし
情報の単語の抽出S103の処理を省略する。Next, one embodiment of the automatic classification method of the present invention will be specifically described by taking the sentence 900 shown in FIG. 18 as an example. First, the text analysis means 120 reads the word analysis dictionary table 181 for analyzing the sentence input by the input means 110 and extracting words from the storage means 180, S1.
The attribute information 910, the headline information 920, and the body portion of the sentence are recognized by the 01, the control code such as the tag, other symbols, and the delimiter information such as a line feed, and the attribute information “foreign communication” 910.
S102, the word "trading" of the found information 920 is extracted by referring to the word analysis dictionary table 181, and S10 is extracted.
3, referring to the word analysis dictionary table 181, the words "parliament", "financial", "committee", "government" in the text,
"Trade", "Trade", "Trade", "Public hearing", "US", "Osaka", "Suzuki industry", etc. are extracted in S104.
(Text analysis process S10). Incidentally, extraction S102 of the attribute information 910, extraction S103 of the word of the finding information 920,
The extraction of the words in the body portion S104 does not necessarily have to be performed in this order, and they may be processed simultaneously. or,
If the text to be classified does not have the attribute information 910 or the finding information 920, the processing of extracting attribute information S102 and finding information word S103 is appropriately omitted.
【0098】次に、キーワード走査手段130は分類項
目キーワードテーブル182或は分類項目キーワードテ
ーブル182に加えて都道府県市町村コードテーブル1
83、国名コードテーブル184、企業コードテーブル
185等のコードテーブルの内少なくても一つを読み込
みS201、分類項目キーワードテーブル182或は分
類項目キーワードテーブル182に加えて適宜のコード
テーブルをメモリへ展開しS202、抽出した単語「議
会」、「財政」、「委員会」、「政権」、「通商」、
「公聴会」、「米国」、「大阪」、「鈴木産業」等を分
類項目キーワードテーブル182のキーワード「政
権」、「財政」、「貿易」等と、更には都道府県市町村
コードテーブル183のキーワード「北海道」、「札幌
市」、「大阪」等と、国名コードテーブル184のキー
ワード「アフガニスタン」、「米国」等と、企業コード
テーブル185のキーワード「鈴木産業」、「田中銀
行」等と比較照合しS203、抽出した単語と一致した
キーワード「通商」、「貿易」、「輸入」、「鉄鋼」、
「米国」、「大阪」、「鈴木産業」等の出現頻度を分類
項目、国名コード項目、都道府県市町村コード項目、企
業コード項目毎に集計するS204(キーワード走査処
理S20)。本実施例においては図19に示すとおり
「通商」が3、「貿易」が2、「輸入」が1、「鉄鋼」
が2、「自動車」が2、「政権」が2、「財政」が1、
「赤字」が1であり、「米国」が1、「大阪」が1、
「鈴木産業」が1である。Next, the keyword scanning means 130, in addition to the classification item keyword table 182 or the classification item keyword table 182, the prefecture code code table 1
83, country name code table 184, company code table 185, and the like, at least one of the code tables is read in S201, the classification item keyword table 182 or the classification item keyword table 182, and an appropriate code table is expanded in the memory. S202, the extracted words "parliament", "finance", "committee", "government", "trade",
"Public hearing", "US", "Osaka", "Suzuki industry", etc. are the keywords of the category item keyword table 182 "Administration", "Finance", "Trade", etc., and also the keywords of the prefecture code table 183. Compares "Hokkaido", "Sapporo", "Osaka", etc. with the keywords "Afghanistan", "US" etc. of the country code table 184 and the keywords "Suzuki Sangyo", "Tanaka Bank" etc. of the company code table 185. S203, the keywords “trade”, “trade”, “import”, “steel”, which match the extracted words,
S204 (keyword scanning process S20) in which the appearance frequencies of "US", "Osaka", "Suzuki industry", etc. are totaled for each classification item, country code item, prefecture code, company code item. In this embodiment, as shown in FIG. 19, "trade" is 3, "trade" is 2, "import" is 1, and steel is "steel".
2, “automobile” is 2, “government” is 2, “finance” is 1,
"Red" is 1, "US" is 1, "Osaka" is 1,
"Suzuki industry" is 1.
【0099】そして、比較演算手段140は各種テーブ
ルを参照してキーワード「通商」に対して大分類項目
「経済」、中分類項目「マクロ経済」、小分類項目「貿
易」をというように一致したキーワードに対応する分類
項目、国名情報、都道府県市町村情報、企業情報を検索
しS301、検索された小分類項目毎に、小分類項目毎
のキーワード出現頻度、例えば小項目「貿易」では「通
商」が3、「貿易」が2、「輸入」が1であるので
「6」に抽出した属性情報「外信」910の小分類項目
「貿易」が属する大分類項目「経済」に設定された係数
「0.10」を乗じて重み付けを行い、同様の処理を小
分類項目毎に行うと共に、国名コード項目、都道府県市
町村コード項目、企業コード項目の出現頻度、例えば
「米国」が1、「大阪」が1、「鈴木産業」が1を集計
しS302、前記係数で修正した出現頻度「0.6」等
で分類項目をソートすると共に、国名情報、都道府県市
町村情報、企業情報の出現頻度を各情報毎にソートしS
303、分類項目、国名情報、都道府県市町村情報、企
業情報毎に分類結果を集計して分類項目、国名情報、都
道府県市町村情報、企業情報を算出するS306(比較
演算処理S30)。この際に各種算出された項目は例え
ば「経済」が「02000」、「米国」が「USA」、
「鈴木産業」が「2501」のようにコードに変換され
る。Then, the comparison operation means 140 refers to various tables and matches the keyword "trade" with the large classification item "economy", the middle classification item "macro economy", and the small classification item "trade". The classification item corresponding to the keyword, the country name information, the prefecture information, the company information is searched and S301 is searched, and the keyword appearance frequency for each small classification item, for example, "trade" in the small item "trade" Since "3", "Trade" is 2, and "Import" is 1, the coefficient set in the major category "Economy" to which the minor category "Trade" of the attribute information "Foreign Communication" 910 extracted in "6" belongs The weighting is performed by multiplying by "0.10", and the same processing is performed for each subcategory item, and the appearance frequency of the country code item, the prefecture code, the company code item, for example, "US" is 1 and "Osaka""But , “Suzuki Sangyo” totals 1 and sorts the classification items by S302, the appearance frequency “0.6” corrected by the coefficient, and the appearance frequency of country name information, prefecture information, company information for each information. Sorted into S
303, a classification item, country name information, prefecture / city / town / village information, and company information are totaled to calculate a classification item, country name information, prefecture / town / town / village information, and company information S306 (comparison calculation processing S30). At this time, various calculated items include, for example, “economy” is “02000”, “US” is “USA”,
"Suzuki industry" is converted into a code like "2501".
【0100】尚、予めキーワードと特定の関係付けが指
定されている分類項目、国名情報、都道府県市町村情
報、企業情報を格納手段180に格納された特定情報キ
ーワードテーブルを参照して検索しS304、分類項
目、国名情報、都道府県市町村情報、企業情報の分類結
果に反映させることとしてもよい。この場合にS301
で検索された国名情報、都道府県市町村情報情報、企業
情報と何れかを優先させて分類結果に反映させるかは任
意に設定しうる。更に、見だし情報が本文とは別個に単
語抽出処理がされている場合には、格納手段180に格
納された特定分類項目キーワードテーブルを参照して見
だし情報のキーワードから特定の分類項目を検索するS
305こととしてもよい。この場合にS303でソート
され、優先順位がついた分類結果と何れかを優先させて
分類結果に反映させるかは任意に設定しうる。It should be noted that the classification information, the country name information, the prefecture / town / town / village information, and the company information in which the keyword and the specific association are designated in advance are searched with reference to the specific information keyword table stored in the storage unit 180, S304, It may be reflected in the classification result of the classification item, country name information, prefecture information, company information. In this case S301
It is possible to arbitrarily set which of the country name information, the prefecture / town / town / village information, and the company information retrieved in step 1 to be reflected in the classification result. Further, when the found information is subjected to the word extraction processing separately from the text, the specific classified item keyword table stored in the storage means 180 is referred to search for a specific classified item from the keyword of the found information. S to do
It may be 305. In this case, it is possible to arbitrarily set which of the classification results sorted in S303 and prioritized to be reflected in the classification result.
【0101】次に、出力手段150により分類項目キー
ワードテーブル182或は加えて各種コードテーブル1
82,183,184,185を読み込みS401、分
類項目キーワードテーブル或は加えて各種コードテーブ
ル182,183,184,185を参照して分類結果
のコード情報「02000」、から「経済」を、「US
A」から「米国」を、「2501」から「鈴木産業」等
を検索しS402、分類結果表示用ダイアログに項目名
「経済」、「米国」、「大阪」、「鈴木産業」等をセッ
トしS403、図20に示すように分類結果を表示或は
印字するS404(分類結果出力処理S40)。Next, the output means 150 outputs the classification item keyword table 182 or the various code tables 1
82, 183, 184, 185 is read in S401, the classification item keyword table or the various code tables 182, 183, 184, 185 is referred to, and the classification result code information "02000" to "economy" is changed to "US".
Search for "A" from "A", "2501" to "Suzuki Sangyo", etc. S402, and set the item names "Economy", "US", "Osaka", "Suzuki Sangyo", etc. in the classification result display dialog. S403, S404 for displaying or printing the classification result as shown in FIG. 20 (classification result output process S40).
【0102】次に、出力手段150により分類結果を表
示した際に、例えば入力手段110により表示画面15
1上のOKタグ158又はキャンセルタグ159の指定
或いは参照タグ157の指定により、分類結果の変更が
必要か否か或いはを指示しS501、変更が不要であれ
ばOKタグ158を指定し次の処理を促し、参照タグ1
57の指定及び当該指定により画面151に表示される
項目一覧(図示せず)からの項目の指定により変更され
た場合には変更処理をし、キャンセルセルタグ159の
指定された場合には文章の変更を要求するS503(分
類確認処理S50)。Next, when the output means 150 displays the classification result, for example, the input means 110 displays the display screen 15
The designation of the OK tag 158 or the cancellation tag 159 or the reference tag 157 on 1 indicates whether or not the change of the classification result is necessary, S501, and if the change is not necessary, the OK tag 158 is specified and the next process is performed. Prompt and reference tag 1
57 and the item list (not shown) displayed on the screen 151 according to the designation, the change process is performed. If the cancel cell tag 159 is designated, the text is changed. S503 requesting a change (classification confirmation processing S50).
【0103】そして、変換結果格納手段160は分類項
目キーワードテーブル182或は加えて各種コードテー
ブ182,183,184,185を参照して分類結果
の項目名「経済」、「米国」、「鈴木産業」等からテー
ブル上のコード「02000」、「USA」、「250
1」等へ変換しS601、テキスト形式の文章の所定の
タグ項目に分類結果から変換したコードをセットするS
602(変換結果格納処理S60)。尚、コードに変換
せずに分類結果の項目名「経済」、「米国」、「鈴木産
業」等をそのまま文章に追記してもよい。Then, the conversion result storage means 160 refers to the classification item keyword table 182 or the various code tables 182, 183, 184 and 185, and the item names "economy", "US" and "Suzuki Sangyo" of the classification result. , Etc. from the code "02000", "USA", "250"
1 ”or the like in step S601, and the code converted from the classification result is set in a predetermined tag item of a text-formatted sentence in step S601.
602 (conversion result storage processing S60). It should be noted that the item names “economy”, “US”, “Suzuki Sangyo”, etc. of the classification result may be added to the text as they are without being converted into codes.
【0104】そして、蓄積手段170は、図21に示す
ような分類結果が付与された文章999を格納手段18
0に蓄積しS701、又は/及びモデム等の出力手段1
50は格納手段180に格納された或は未格納の分類結
果が付与された文章999をネットワークを介して配信
するS702。Then, the storage means 170 stores the sentence 999 to which the classification result as shown in FIG. 21 is added.
S701 and / or output means 1 such as a modem
Reference numeral 50 denotes a sentence 999 stored in the storage unit 180 or to which a classification result not yet stored is added, which is distributed via the network S702.
【0105】分類結果統計手段191は一定期間の分類
の結果を項目毎に集計し、設定されたキーワードの出現
頻度を統計処理し、対象文章数で正規化した分類項目毎
の文章分布の統計処理を行いS801、出力手段150
は該統計結果を出力するS802。The classification result statistical means 191 totals the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and statistically processes the sentence distribution for each classified item normalized by the number of target sentences. S801, output means 150
Outputs the statistical result in S802.
【0106】尚、時代の変化に伴い、単語の変化、地域
名の変化、企業の設立、合併、消滅等の変化に対応して
各種テーブル181,182,183,184,18
5、186を入力手段110の指示で格納手段180か
ら読み出して出力手段150にて表示しS901、入力
手段110にて項目、キーワード、係数等の追加、削
除、変更を行いS902、テーブルを再構成しS90
3、再構成したテーブルを格納手段180に格納する。Incidentally, various tables 181, 182, 183, 184, 18 are dealt with in response to changes in words, changes in area names, establishment of companies, mergers, disappearances, etc., with the changes of the times.
5, 186 are read from the storage unit 180 according to an instruction from the input unit 110 and displayed on the output unit 150 in S901, and items, keywords, coefficients, etc. are added, deleted, or changed in the input unit 110, and S902 is reconstructed. S90
3. The reconstructed table is stored in the storage unit 180.
【0107】[0107]
【発明の効果】以上のような本発明によれば、文章を極
めて速やかに且つ高精度に自動に分類することが可能と
なった。又、総ての文章を予め定められた分類グループ
に分類可能となり、更には分類後のグループによって、
当該文章の主題、関連分野、大まかな内容、関連する
国、地域、企業等の把握が容易であり、更には当該分類
後の文章を分類毎に蓄積、送信可能であって、利用者も
文章を解読することなく主題等を把握可能な分類後の文
章の活用が円滑に行うことが可能となり、更には簡易な
構成のコンピュータ端末を利用しても上述の効果を得ら
れた。As described above, according to the present invention, it becomes possible to classify sentences extremely quickly and highly accurately. Also, all sentences can be classified into a predetermined classification group, and further, after the classification,
It is easy to understand the subject, related fields, rough contents, related countries, regions, companies, etc. of the text, and the texts after the classification can be stored and transmitted for each classification, and the user can also write the texts. It becomes possible to smoothly utilize the classified texts that can grasp the subject without deciphering the above, and further, the above-mentioned effects can be obtained even by using a computer terminal having a simple configuration.
【図1】 本発明文章自動分類装置の一実施例ブロッ
ク図FIG. 1 is a block diagram of an embodiment of an automatic sentence classification device of the present invention.
【図2】 本発明文章自動分類装置の他実施例ブロッ
ク図FIG. 2 is a block diagram of another embodiment of the automatic sentence classification device of the present invention.
【図3】 本発明一実施例分類項目キーワードテーブ
ルを示す図FIG. 3 is a diagram showing a classification item keyword table according to an embodiment of the present invention.
【図4】 本発明一実施例都道府県市町村コードテー
ブルを示す図FIG. 4 is a diagram showing a prefecture / city / town / village code table according to an embodiment of the present invention.
【図5】 本発明一実施例国名コードテーブルを示す
図FIG. 5 is a diagram showing a country code table according to an embodiment of the present invention.
【図6】 本発明一実施例企業コードテーブルを示す
図FIG. 6 is a diagram showing a company code table according to an embodiment of the present invention.
【図7】 本発明一実施例係数テーブルを示す図FIG. 7 is a diagram showing a coefficient table according to an embodiment of the present invention.
【図8】 本発明一実施例の処理の流れを示すフロー
図FIG. 8 is a flow chart showing the flow of processing according to an embodiment of the present invention.
【図9】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 9 is a flowchart showing a part of a processing flow of the embodiment of the present invention.
【図10】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 10 is a flowchart showing a part of a processing flow of the embodiment of the present invention.
【図11】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 11 is a flowchart showing a part of the processing flow of the embodiment of the present invention.
【図12】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 12 is a flowchart showing a part of the processing flow of the embodiment of the present invention.
【図13】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 13 is a flowchart showing a part of a processing flow of the embodiment of the present invention.
【図14】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 14 is a flowchart showing a part of the processing flow of the embodiment of the present invention.
【図15】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 15 is a flowchart showing a part of the processing flow of the embodiment of the present invention.
【図16】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 16 is a flowchart showing a part of the processing flow of the embodiment of the present invention.
【図17】 本発明一実施例の処理の流れ一部を示すフ
ロー図FIG. 17 is a flowchart showing a part of the processing flow of the embodiment of the present invention.
【図18】 本発明における分類対象文章の一例を示す
図FIG. 18 is a diagram showing an example of a classification target sentence in the present invention.
【図19】 本発明一実施例分類項目の重み付けの概念
図FIG. 19 is a conceptual diagram of weighting of classification items according to an embodiment of the present invention.
【図20】 本発明一実施例分類結果の表示画面を示す
図FIG. 20 is a diagram showing a display screen of classification results according to the embodiment of the present invention.
【図21】 本発明一実施例分類済み文章を示す図FIG. 21 is a diagram showing classified sentences according to an embodiment of the present invention.
100 文章自動分類装置 110 入力手段 120 テキスト解析手段 130 キーワード走査手段 140 比較演算手段 150 出力手段 160 変換結果格納手段 170 蓄積手段 180 格納手段 182 分類項目キーワードテーブル 183 都道府県市町村コードテーブル 184 国名コードテーブル 185 企業コードテーブル 186 分類項目係数テーブル 190 制御手段 191 分類結果統計手段 200 文章自動分類装置 210 編集端末 211 入力手段 212 出力手段 220 サーバーシステム 230 ネットワーク 910 属性情報 920 見出し情報 100 Automatic sentence classifier 110 input means 120 Text analysis means 130 keyword scanning means 140 Comparison calculation means 150 output means 160 conversion result storage means 170 storage means 180 storage means 182 Classification item keyword table 183 Prefecture Code Table 184 country code table 185 Company Code Table 186 Classification item coefficient table 190 control means 191 Classification result statistical means 200 Automatic sentence classifier 210 Editing terminal 211 Input means 212 Output means 220 server system 230 network 910 Attribute information 920 Headline information
Claims (39)
ワードを記述した分類項目キーワードテーブルを格納し
た格納手段と、文章を入力する入力手段と、文章を解析
し、単語を抽出するテキスト解析手段と、抽出した単語
を格納手段に格納された分類項目キーワードテーブルの
キーワード群と比較照合するキーワード走査手段と、比
較照合した結果に重み付をして文章が該当する分類項目
を算出する比較演算手段を有することを特徴とする文章
自動分類装置。1. A storage unit for storing a classification item keyword table in which classification items and keywords associated with the classification items are stored, an input unit for inputting a sentence, and a text analysis unit for analyzing a sentence and extracting a word. A keyword scanning means for comparing and collating the extracted words with a keyword group of a classification item keyword table stored in the storing means, and a comparison calculating means for weighting the result of the comparison and collation to calculate a classification item to which the sentence corresponds. An automatic sentence classification device characterized by having.
ワードを記述した分類項目キーワードテーブルを格納し
た格納手段と、文章を入力する入力手段と、文章を解析
し、単語を抽出するテキスト解析手段と、抽出した単語
を格納手段に格納された分類項目キーワードテーブルの
キーワード群と比較照合し、抽出した単語と一致するキ
ーワードの出現頻度を分類項目ごとに集計するキーワー
ド走査手段と、集計結果に重み付をして文章が該当する
分類項目を算出する比較演算手段とを有することを特徴
とする文章自動分類装置。2. A storage unit for storing a classification item keyword table in which classification items and keywords associated with the classification items are stored, an input unit for inputting a sentence, and a text analysis unit for analyzing a sentence and extracting a word. , A keyword scanning means for comparing and collating the extracted words with a keyword group of a classification item keyword table stored in the storage means, and summing up the appearance frequency of keywords matching the extracted words for each classification item, and weighting the summing result An automatic sentence classification device, comprising: a comparison calculation means for calculating a classification item to which a sentence corresponds.
類項目係数テーブルを格納し、比較演算手段は一致した
キーワードに対応する分類項目を検索し、分類項目毎の
キーワード出現頻度に分類項目毎に設定された係数を乗
じて重み付をし、該係数で修正した出現頻度で分類項目
をソートし、分類結果を集計して文章が該当する分類項
目を算出することを特徴とする請求項1又は請求項2に
記載の文章自動分類装置。3. The storage means stores a classification item coefficient table in which a coefficient is set for each classification item, and the comparison calculation means searches for a classification item corresponding to a matching keyword, and the classification item is classified according to the keyword appearance frequency for each classification item. The weighting is performed by multiplying by a coefficient set for each, the classification items are sorted by the appearance frequency corrected by the coefficient, the classification results are totaled, and the classification item to which the sentence corresponds is calculated. The automatic sentence classification device according to claim 1 or claim 2.
と小分類項目に関連付けられたキーワードを記述した分
類項目キーワードテーブルと属性情報毎の大分類項目毎
に係数を設定した分類項目係数テーブルを格納した格納
手段と、属性情報を有する文章を入力する入力手段と、
入力された文章を解析し、属性情報を抽出すると共に属
性情報以外の部分から単語を抽出するテキスト解析手段
と、抽出した単語を格納手段に格納された分類項目キー
ワードテーブルのキーワード群と比較照合し、抽出した
単語と一致するキーワードの出現頻度を小分類項目毎に
集計するキーワード走査手段と、キーワードに対応する
小分類項目が属する大分類項目を検索し、小分類項目毎
のキーワード出現頻度に抽出した属性情報毎の大分類項
目毎に設定された係数のうち該小分類項目が属する大分
類項目の係数を乗じて重み付をし、該係数で修正した出
現頻度で小分類項目をソートし、分類結果を集計して文
章が該当する分類項目を算出する比較演算手段とを有す
ることを特徴とする文章自動分類装置。4. A classification item keyword table in which a classification item having at least two layers, large and small, and a keyword associated with the small classification item are described, and a classification item coefficient table in which a coefficient is set for each large classification item for each attribute information. Storage means for storing, and input means for inputting a sentence having attribute information,
A text analysis means that analyzes the input sentence, extracts attribute information and extracts words from the part other than the attribute information, and compares and collates the extracted words with the keyword group of the classification item keyword table stored in the storage means. , A keyword scanning means for totaling the appearance frequencies of keywords matching the extracted words for each small classification item, and searching for a large classification item to which the small classification item corresponding to the keyword belongs, and extracting the keyword appearance frequency for each small classification item Of the coefficients set for each large classification item for each attribute information, the weighting is performed by multiplying the coefficient of the large classification item to which the small classification item belongs, and the small classification items are sorted by the appearance frequency corrected by the coefficient, An automatic sentence classification device, comprising: a comparison calculation unit that aggregates classification results and calculates a classification item to which a sentence corresponds.
と小分類項目に関連付けられたキーワードを記述した分
類項目キーワードテーブルと属性情報毎の大分類項目毎
に係数を設定した分類項目係数テーブルと分類項目との
特定の関係付けを指定するキーワードを分類項目毎に記
述した特定分類項目キーワードテーブルを格納した格納
手段と、属性情報及び見出し情報を有する文章を入力す
る入力手段と、入力された文章を解析し、属性情報を抽
出すると共に属性情報以外の部分から単語を抽出するテ
キスト解析手段と、抽出した単語を格納手段に格納され
た分類項目キーワードテーブルのキーワード群と比較照
合し、抽出した単語と一致するキーワードの出現頻度を
小分類項目毎に集計すると共に、見出し情報から抽出し
た単語を格納手段に格納された特定分類項目キーワード
テーブルのキーワード群と比較照合し、抽出した単語と
一致するキーワードを検索するキーワード走査手段と、
キーワードに対応する小分類項目が属する大分類項目を
検索し、小分類項目毎のキーワード出現頻度に抽出した
属性情報毎の大分類項目毎に設定された係数のうち該小
分類項目が属する大分類項目の係数を乗じて重み付を
し、該係数で修正した出現頻度で小分類項目をソート
し、分類結果を集計して文章が該当する分類項目を算出
すると共に、見出し情報から抽出した単語と一致するキ
ーワードに対応する小分類項目を算出する比較演算手段
とを有することを特徴とする文章自動分類装置。5. A classification item keyword table in which a classification item consisting of at least two layers, large and small, and a keyword associated with the small classification item is described, and a classification item coefficient table in which a coefficient is set for each large classification item for each attribute information. Storage means for storing a specific classification item keyword table in which a keyword for designating a specific relation between a classification item and a classification item is stored, and input means for inputting a sentence having attribute information and heading information. A text analysis means that analyzes a sentence and extracts attribute information and extracts words from a portion other than the attribute information is compared with the keyword group of the classification item keyword table stored in the storage means and extracted. The frequency of appearance of keywords that match the words is totaled for each small classification item, and the words extracted from the heading information are stored. And keyword scanning means and keywords of stored specified category keyword table comparison matches, searching for keywords that match the extracted words,
A large classification item to which the small classification item belongs among the coefficients set for each large classification item for each attribute information extracted for the keyword appearance frequency for each small classification item by searching for the large classification item to which the small classification item corresponding to the keyword belongs The weighting is performed by multiplying the coefficient of the item, the small classification items are sorted by the appearance frequency corrected by the coefficient, the classification results are aggregated to calculate the classification item to which the sentence corresponds, and the word extracted from the heading information is used. An automatic sentence classification device comprising: a comparison calculation means for calculating a small classification item corresponding to a matching keyword.
連付けられたキーワードを記述した少なくても一以上の
コードテーブルが格納され、キーワード走査手段は抽出
した単語を少なくても一以上のコードテーブルのキーワ
ード群と比較照合し、抽出した単語と一致するキーワー
ドの出現頻度をコード項目毎に集計し、比較演算手段は
一致したキーワードに対応するコード項目を検索し、コ
ード項目毎のキーワード出現頻度でコード項目をソート
し、文章が該当するコード項目を算出することを特徴と
する請求項1乃至請求項5記載の文章自動分類装置。6. The storage means stores at least one or more code tables describing code items and keywords associated with the code items, and the keyword scanning means stores at least one or more code tables of extracted words. Comparing and collating with the keyword group of, the appearance frequency of the keyword that matches the extracted word is totaled for each code item, and the comparison operation means searches for the code item corresponding to the matching keyword, and the keyword appearance frequency for each code item is used. 6. The automatic sentence classification device according to claim 1, wherein the code items are sorted and the code item corresponding to the sentence is calculated.
ワードとする都道府県市町村コードテーブル、国名をキ
ーワードとする国名コードテーブル、企業名をキーワー
ドとする企業コードテーブルの内少なくても1つ以上を
含むことを特徴とする請求項6に記載の文章自動分類装
置。[Claim 7] The code table includes at least one of a prefectural municipality code table having a prefecture name as a keyword, a country code table having a country name as a keyword, and a company code table having a company name as a keyword. The automatic sentence classification device according to claim 6, characterized in that.
算手段により算出された分類の結果の項目を出力する出
力手段を有することを特徴とする請求項1乃至7に記載
の文章自動分類装置。8. The automatic document classification device according to claim 1, wherein the automatic document classification device further comprises output means for outputting items of classification results calculated by the comparison operation means. .
分類の結果の項目を文章に追記する変換結果格納手段を
有することを特徴とする請求項1乃至8に記載の文書自
動分類装置。9. The automatic document classification apparatus according to claim 1, wherein the automatic document classification apparatus further includes conversion result storage means for additionally writing the calculated classification result item in a sentence.
文章を分類の結果の項目毎に蓄積する蓄積手段又は/及
び配信する配信手段を有することを特徴とする請求項1
乃至請求項9に記載の文書自動分類装置。10. The automatic document classification device further comprises a storage means for storing the classified texts and / or a distribution means for distributing the classified texts for each item as a result of the classification.
10. The automatic document classification device according to claim 9.
間の分類の結果を項目毎に集計し、設定されたキーワー
ドの出現頻度を統計処理し、対象文章数で正規化した分
類項目毎の文章分布の統計処理を行う分類結果統計手段
と、該統計結果を出力する出力手段を有することを特徴
とする請求項1乃至請求項10に記載の文章自動分類装
置。11. The document automatic classification apparatus further collects the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the number of target sentences by the sentence for each classification item. 11. The automatic sentence classification device according to claim 1, further comprising a classification result statistical means for performing statistical processing of distribution and an output means for outputting the statistical result.
に格納されたテーブルを出力する出力手段と、テーブル
の内容を変更、追加、削除してテーブルを再構成する入
力手段と、再構成されたテーブルを格納する格納手段を
有することを特徴とする請求項1乃至請求項11に記載
の文書自動分類装置。12. The automatic document classification device is further reconfigured with an output means for outputting a table stored in a storage means, and an input means for reconfiguring the table by changing, adding or deleting the contents of the table. 12. The automatic document classification device according to claim 1, further comprising storage means for storing the table.
集端末及びサーバーシステムから構成される文章自動分
類装置であって、編集端末は文章を入力する入力手段
と、入力した文章及び分類処理要求をサーバーシステム
に送信する出力手段と、サーバーシステムからの分類処
理結果を受信する入力手段とを有し、サーバーシステム
は分類項目に関連付けられたキーワードを記述した分類
項目キーワードテーブルを格納した格納手段と、編集端
末からの文章及び分類処理要求を受信する入力手段と、
編集端末からの分類処理要求にしたがって該文章を単語
に分解、抽出するテキスト解析手段と、抽出された単語
を格納手段に格納されたキーワード群と比較照合するキ
ーワード走査手段と、比較した結果に重み付をして該当
する分類項目を見出す比較演算手段と、分類処理結果を
編集端末に送信する出力手段を有することを特徴とする
文章自動分類装置。13. An automatic text classification device comprising an editing terminal and a server system connected via a network, wherein the editing terminal is an input means for inputting a text and a server for inputting the input text and a classification processing request. The server system has an output means for transmitting to the system and an input means for receiving the classification processing result from the server system, and the server system has a storage means for storing a classification item keyword table describing keywords associated with the classification items, and an editing An input means for receiving a text and a classification processing request from the terminal,
A text analysis means for decomposing and extracting the sentence into words according to a classification processing request from the editing terminal, a keyword scanning means for comparing and collating the extracted words with a keyword group stored in the storing means, and weighting the comparison result. An automatic sentence classification device comprising: a comparison calculation means for adding a corresponding classification item to find out a corresponding classification item; and an output means for transmitting a classification processing result to an editing terminal.
解析処理と、抽出した単語をキーワードを分類項目に関
連付けて記述したキーワード群と比較照合するキーワー
ド走査処理と、比較照合した結果に重み付をして文章が
該当する分類項目を算出する比較演算処理とをコンピュ
ータに実行させることを特徴とする文章自動分類プログ
ラム。14. A text analysis process of analyzing a sentence and extracting a word, a keyword scanning process of comparing and matching the extracted word with a keyword group described by associating a keyword with a classification item, and weighting the result of the comparison and matching. An automatic sentence classification program characterized by causing a computer to execute a comparison calculation process for calculating a classification item to which a sentence corresponds.
解析処理と、抽出した単語をキーワードを分類項目に関
連付けて記述したキーワード群と比較照合し、抽出した
単語と一致するキーワードの出現頻度を分類項目毎に集
計するキーワード走査処理と、集計した結果に重み付を
して文章が該当する分類項目を算出して分類する比較演
算処理とをコンピュータに実行させることを特徴とする
文章自動分類プログラム。15. A text analysis process of analyzing a sentence and extracting a word, and comparing and collating the extracted word with a keyword group described by associating the extracted word with a classification item to determine the appearance frequency of the keyword that matches the extracted word. An automatic sentence classification program characterized by causing a computer to execute a keyword scanning process for totalizing each classification item and a comparison calculation process for weighting the totaled results to calculate and classify classification items corresponding to sentences .
応する分類項目を検索し、分類項目毎のキーワード出現
頻度に分類項目毎に設定された係数を乗じて重み付を
し、該係数で修正した出現頻度で分類項目をソートし、
分類結果を集計して文章が該当する分類項目を算出する
処理であることを特徴とする請求項14又は請求項15
に記載の文章自動分類プログラム。16. The comparison operation process searches for a category item corresponding to a matching keyword, multiplies the keyword appearance frequency of each category item by a coefficient set for each category item, and weights it, and corrects with the coefficient. Sort the categories by appearance frequency,
16. The process of totaling classification results to calculate a classification item to which a sentence corresponds, 16.
The automatic sentence classification program described in.
理をコンピュータに実行させるプログラムであって、属
性情報を有する文章を解析し、属性情報を抽出すると共
に、属性情報以外の部分から単語を抽出するテキスト解
析処理と、抽出した単語を少なくても大小分類項目の二
階層からなり、キーワードを小分類項目に関連付けて記
述したキーワード群と比較照合し、抽出した単語と一致
するキーワードの出現頻度を小分類項目毎に集計するキ
ーワード走査処理と、一致したキーワードに対応する小
分類項目が属する大分類項目を検索し、小分類項目毎の
キーワード出現頻度に抽出した属性情報毎の大分類項目
毎に設定された係数のうち該小分類項目が属する大分類
項目の係数を乗じて重み付をし、該係数で修正した出現
頻度で小分類項目をソートし、分類結果を集計して文章
が該当する分類項目を算出する比較演算処理とをコンピ
ュータに実行させることを特徴とする文章自動分類プロ
グラム。17. A program for causing a computer to automatically classify sentences having attribute information, analyzing sentences having attribute information, extracting attribute information, and extracting words from a portion other than the attribute information. It consists of a text analysis process, and the extracted words are composed of at least two layers of large and small classification items.The keywords are compared and collated with the keyword group described in association with the small classification items, and the appearance frequency of the keywords that match the extracted words is determined. A keyword scanning process that aggregates each small classification item and a large classification item to which the small classification item corresponding to the matching keyword belongs is searched, and the keyword appearance frequency for each small classification item is extracted for each large classification item for each attribute information extracted Of the set coefficients, weighting is performed by multiplying by the coefficient of the large classification item to which the small classification item belongs, and the small classification item with the appearance frequency corrected by the coefficient. Sorted, text automatic classification program sentences by aggregating the classification results, characterized in that to perform the comparison operation process of calculating a classification item corresponding to the computer.
自動分類する処理をコンピュータに実行させるプログラ
ムであって、属性情報及び見出し情報を有する文章を解
析し、属性情報を抽出すると共に、属性情報以外の部分
から単語を抽出するテキスト解析処理と、抽出した単語
をキーワードを小分類項目に関連付けて記述したキーワ
ード群と比較照合し、抽出した単語と一致するキーワー
ドの出現頻度を小分類項目毎に集計するキーワード走査
処理と、一致したキーワードに対応する小分類項目が属
する大分類項目を検索し、小分類項目毎のキーワード出
現頻度に抽出した属性情報毎の大分類項目毎に設定され
た係数のうち該小分類項目が属する大分類項目の係数を
乗じて重み付をし、該係数で修正した出現頻度で小分類
項目をソートし、分類結果を集計して文章が該当する分
類項目を算出すると共に見出し情報から抽出した単語と
一致するキーワードの属する分類項目を検索して文章が
該当する分類項目を算出する比較演算処理とをコンピュ
ータに実行させることを特徴とする文章自動分類プログ
ラム。18. A program for causing a computer to execute a process of automatically classifying sentences having attribute information and heading information, analyzing a sentence having attribute information and heading information, extracting attribute information, and excluding attribute information. A text analysis process that extracts words from the part of the word is compared with the keyword group that describes the extracted words by associating the keywords with the subcategory, and the appearance frequency of the keywords that match the extracted words is aggregated for each subcategory. Of the coefficients set for each large classification item for each attribute information extracted to the keyword scanning process and for searching the large classification items to which the small classification items corresponding to the matching keywords belong, and the keyword appearance frequency for each small classification item The coefficient of the large classification item to which the small classification item belongs is multiplied and weighted, and the small classification item is sorted by the appearance frequency corrected by the coefficient, A comparison calculation process is performed to calculate the classification items to which the text corresponds by calculating the classification items to which the sentence corresponds and to calculate the classification items to which the sentence corresponds by searching for the classification item to which the keyword matching the word extracted from the heading information belongs. An automatic text classification program characterized by being executed.
ーワードをコード項目に関連付けて記述した少なくても
一以上のキーワード群と比較照合し、抽出した単語と一
致するキーワードの出現頻度をコード項目毎に集計する
処理を含み、比較演算処理は一致したキーワードに対応
するコード項目を検索し、コード項目毎のキーワード出
現頻度でコード項目をソートし、文章が該当するコード
項目を算出する処理を含むことを特徴とする請求項14
乃至請求項18記載の文章自動分類プログラム。19. The keyword scanning process compares and compares the extracted words with at least one or more keyword groups in which the keywords are described by associating the keywords with the code items, and the appearance frequency of the keywords matching the extracted words is determined for each code item. The comparison calculation process includes a process of searching for code items corresponding to the matched keywords, sorting the code items by the keyword appearance frequency for each code item, and calculating a code item to which the sentence corresponds. 15. The method according to claim 14,
A sentence automatic classification program according to claim 18.
述したキーワード群は都道府県市町村名をキーワードと
する都道府県市町村キーワード群、国名をキーワードと
する国名キーワード群、企業名をキーワードとする企業
キーワード群の内少なくても1つ以上を含むことを特徴
とする請求項19に記載の文章自動分類プログラム。20. A keyword group in which a keyword is described in association with a code item is a prefecture keyword group that uses a prefecture name as a keyword, a country keyword group that uses a country name as a keyword, and a company keyword group that uses a company name as a keyword. 20. The automatic sentence classification program according to claim 19, wherein at least one of them is included.
記比較演算処理により算出された分類の結果の項目を出
力する出力処理とを含み、これらの処理をコンピュータ
に実行させることを特徴とする請求項14乃至20に記
載の文章自動分類プログラム。21. The automatic document classification program further includes an output process for outputting the classification result items calculated by the comparison operation process, and causes the computer to execute these processes. The automatic sentence classification program described in 14 to 20.
出された分類の結果の項目を文章に追記する変換結果格
納処理とを含み、これらの処理をコンピュータに実行さ
せることを特徴とする請求項14乃至21に記載の文章
自動分類プログラム。22. The automatic document classification program further includes a conversion result storage process of additionally writing the calculated classification result item in a sentence, and causes a computer to execute these processes. 21. The automatic sentence classification program described in any one of 21 to 21.
類した文章を分類の結果の項目毎に蓄積又は/及び配信
する処理とを含み、これらの処理をコンピュータに実行
させることを特徴とする請求項14乃至請求項22に記
載の文章自動分類プログラム。23. The automatic document classification program includes a process of accumulating and / or distributing the classified sentences for each item of the classification result, and causes a computer to execute these processes. The automatic sentence classification program according to any one of claims 14 to 22.
定期間の分類の結果を項目毎に集計し、設定されたキー
ワードの出現頻度を統計処理し、対象文章数で正規化し
た分類結果の項目毎の文章分布の統計処理を行う分類結
果統計処理と、該統計結果を出力する処理を含み、これ
らの処理をコンピュータに実行させることを特徴とする
請求項14乃至請求項23に記載の文章自動分類プログ
ラム。24. The automatic document classification program further collects the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the classification result by the number of target sentences for each item. 24. The automatic text classification according to claim 14, further comprising: a classification result statistical processing for performing statistical processing of the sentence distribution and a processing for outputting the statistical result, the processing being executed by a computer. program.
ワード群を変更、追加、削除してキーワード群を再構成
する処理と再構成したキーワード群を格納する処理を含
むことを特徴とする請求項14乃至請求項24に記載の
文章自動分類プログラム。25. A process for outputting a keyword group, a process for reconfiguring the keyword group by changing, adding, or deleting the keyword group, and a process for storing the reconfigured keyword group. The automatic sentence classification program according to any one of claims 14 to 24.
自動分類プログラムを記録したコンピュータ読取り可能
な記録媒体。26. A computer-readable recording medium in which the automatic document classification program according to claim 14 is recorded.
析し、単語を抽出するステップと、抽出した単語をキー
ワードを分類項目に関連付けて記述したキーワード群と
比較照合するステップと、比較照合した結果に重み付を
して文章が該当する分類項目を見出すステップとを有す
ることを特徴とする文章自動分類方法。27. A step of inputting a sentence, a step of analyzing the sentence and extracting a word, and a step of comparing and collating the extracted word with a keyword group in which a keyword is associated with a classification item and described. And a method of weighting the result to find a classification item to which the sentence corresponds.
解析ステップと、抽出した単語をキーワードを分類項目
に関連付けて記述したキーワード群と比較照合し抽出し
た単語と一致するキーワードの出現頻度を分類項目毎に
集計するキーワード走査ステップと、集計した結果に重
み付をして文章が該当する分類項目を見出す比較演算ス
テップとを有することを特徴とする文章自動分類方法。28. A text analysis step of analyzing a sentence and extracting words, and comparing and collating the extracted words with a keyword group described by associating the extracted words with classification items, and classifying the appearance frequency of the keywords that match the extracted words. An automatic sentence classification method comprising: a keyword scanning step of totaling each item; and a comparison calculation step of weighting the totaled result to find a classification item to which a sentence corresponds.
に対応する分類項目を検索するステップと、分類項目毎
のキーワード出現頻度に分類項目毎に設定された係数を
乗じに重み付をするステップと、該係数で修正した出現
頻度で分類項目をソートし、分類結果を集計して文章が
該当する分類項目を算出するステップを有することを特
徴とする請求項27又は請求項28に記載の文章自動分
類方法。29. The comparison operation step comprises a step of searching for a classification item corresponding to the matched keyword, a step of multiplying the keyword appearance frequency of each classification item by a coefficient set for each classification item, and weighting. 29. The automatic sentence classification method according to claim 27 or 28, further comprising a step of sorting the classification items by the appearance frequency corrected by the coefficient and totaling the classification results to calculate the classification item to which the sentence corresponds. .
法であって、属性情報を有する文章を解析し、属性情報
を抽出すると共に、属性情報以外の部分から単語を抽出
するテキスト解析ステップと、抽出した単語を少なくて
も大小分類項目の二階層からなり、キーワードを小分類
項目に関連付けて記述したキーワード群と比較照合し、
抽出した単語と一致するキーワードの出現頻度を小分類
項目毎に集計するキーワード走査ステップと、一致した
キーワードに対応する小分類項目が属する大分類項目を
検索し、小分類項目毎のキーワード出現頻度に抽出した
属性情報毎の大分類項目毎に設定された係数のうち該小
分類項目が属する大分類項目の係数を乗じて重み付を
し、該係数で修正した出現頻度で小分類項目をソート
し、分類結果を集計して文章が該当する分類項目を算出
する比較演算ステップとを有することを特徴とする文章
自動分類方法。30. A method for automatically classifying a sentence having attribute information, comprising: a text analyzing step of analyzing a sentence having attribute information, extracting attribute information, and extracting a word from a portion other than the attribute information. The extracted words consist of at least two layers of large and small classification items, and the keywords are compared and collated with the keyword group described in association with the small classification items,
The keyword scanning step that aggregates the appearance frequency of the keywords that match the extracted words for each sub-category item, and the large category item to which the sub-category item corresponding to the matching keyword belongs is searched, and the keyword appearance frequency for each sub-category item Of the coefficients set for each large category item for each extracted attribute information, weighting is performed by multiplying by the coefficient of the large category item to which the small category item belongs, and the small category items are sorted by the appearance frequency corrected by the coefficient. And a comparison operation step of calculating a classification item corresponding to a sentence by aggregating the classification results.
自動分類する方法であって、属性情報及び見出し情報を
有する文章を解析し、属性情報を抽出すると共に、属性
情報以外の部分から単語を抽出するテキスト解析ステッ
プと、抽出した単語をキーワードを小分類項目に関連付
けて記述したキーワード群と比較照合し、抽出した単語
と一致するキーワードの出現頻度を小分類項目毎に集計
するキーワード走査ステップと、一致したキーワードに
対応する小分類項目が属する大分類項目を検索し、小分
類項目毎のキーワード出現頻度に抽出した属性情報毎の
大分類項目毎に設定された係数のうち該小分類項目が属
する大分類項目の係数を乗じて重み付をし、該係数で修
正した出現頻度で小分類項目をソートし、分類結果を集
計して文章が該当する分類項目を算出すると共に、見出
し情報から抽出した単語と一致するキーワードの属する
分類項目を検索して文章が該当する分類項目を算出する
比較演算ステップとを有することを特徴とする文章自動
分類方法。31. A method for automatically classifying sentences having attribute information and heading information, analyzing sentences having attribute information and heading information, extracting attribute information, and extracting words from a portion other than the attribute information. A text analysis step, and a keyword scanning step of comparing and collating the extracted word with a keyword group described by associating the keyword with a small classification item, and aggregating the appearance frequency of the keyword that matches the extracted word for each small classification item, The large classification item to which the small classification item corresponding to the matched keyword belongs is searched, and the small classification item belongs to the coefficient set for each large classification item for each attribute information extracted to the keyword appearance frequency for each small classification item. Multiply the weights by the coefficient of the large classification item, sort the small classification items by the appearance frequency corrected by the coefficient, aggregate the classification results, and the sentence corresponds And a comparison calculation step of calculating a classification item to which a sentence corresponds and searching a classification item to which a keyword matching a word extracted from the heading information is calculated. .
をキーワードをコード項目に関連付けて記述した少なく
ても一以上のキーワード群と比較照合し、抽出した単語
と一致するキーワードの出現頻度をコード項目毎に集計
するステップを含み、比較演算ステップは一致したキー
ワードに対応するコード項目を検索し、コード項目毎の
キーワード出現頻度でコード項目をソートし、文章が該
当するコード項目を算出するステップを含むことを特徴
とする請求項27乃至請求項31記載の文章自動分類方
法。32. The keyword scanning step compares and collates the extracted words with at least one or more keyword groups in which the keywords are described by associating the keywords with the code items, and the appearance frequency of the keywords matching the extracted words is determined for each code item. Including the step of totaling, the comparison operation step includes a step of searching for code items corresponding to the matched keywords, sorting the code items by the keyword appearance frequency for each code item, and calculating the code items corresponding to the sentence. 32. The automatic sentence classification method according to claim 27, which is characterized in that.
述したキーワード群は都道府県市町村名をキーワードと
する都道府県市町村キーワード群、国名をキーワードと
する国名キーワード群、企業名をキーワードとする企業
キーワード群の内少なくても1つ以上を含むことを特徴
とする請求項32に記載の文章自動分類方法。[Claim 33] A keyword group in which a keyword is described in association with a code item includes a prefecture keyword with a prefecture name as a keyword, a country keyword group with a country name as a keyword, and a company keyword group with a company name as a keyword. 33. The automatic sentence classification method according to claim 32, wherein at least one of them is included.
演算ステップにより算出された分類の結果の項目を出力
する分類結果出力ステップとを有することを特徴とする
請求項27乃至33に記載の文章自動分類方法。34. The document according to claim 27, wherein the automatic document classification method further comprises a classification result output step of outputting a classification result item calculated by the comparison operation step. Automatic classification method.
た分類の結果の項目を文章に追記する変換結果格納ステ
ップとを有することを特徴とする請求項27乃至34に
記載の文章自動分類方法。35. The automatic document classification method according to claim 27, wherein the automatic document classification method further comprises a conversion result storing step of additionally writing the calculated classification result item into a sentence. .
文章を分類の結果の項目毎に蓄積するステップ又は/及
び配信するステップとを有することを特徴とする請求項
27乃至請求項35に記載の文章自動分類方法。36. The automatic document classification method further comprises the step of accumulating and / or distributing the classified texts for each item of the classification result. Automatic sentence classification method.
の分類の結果を項目毎に集計し、設定されたキーワード
の出現頻度を統計処理し、対象文章数で正規化した分類
結果の項目毎の文章分布の統計処理を行う分類結果統計
ステップと、該統計結果を出力するステップとを有する
ことを特徴とする請求項27乃至請求項36に記載の文
章自動分類方法。37. The automatic document classification method further collects the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the classification result by the number of target sentences for each item. 37. The automatic sentence classification method according to claim 27, further comprising: a classification result statistical step of performing statistical processing of the sentence distribution and a step of outputting the statistical result.
キーワード群を変更、追加、削除してキーワード群を再
構成するステップと、再構成されたキーワード郡を格納
するステップとを含むことを特徴とする請求項27乃至
請求項37に記載の文章自動分類方法。38. A step of outputting a keyword group, a step of changing, adding, or deleting the keyword group to reconstruct the keyword group, and a step of storing the reconstructed keyword group. 38. The automatic sentence classification method according to claim 27.
編集端末が該文章をサーバーシステムに送信して分類処
理を要求するステップと、サーバーシステムが文章及び
分類処理要求を受信するステップと、サーバーシステム
が該文章を解析し、単語を抽出するステップと、抽出し
た単語をキーワードを分類項目に関連付けて記述したキ
ーワード群と比較照合するステップと、比較照合した結
果に重み付けをして該当する項目を見出すステップと、
分類処理結果を編集者端末に送信するステップと、編集
端末が分類処理結果を受信するステップとを有すること
を特徴とする文章自動分類方法。39. A step of inputting a sentence to an editing terminal,
A step in which the editing terminal sends the sentence to the server system to request a classification process, a step in which the server system receives a sentence and a classification process request, a step in which the server system analyzes the sentence and extracts a word, A step of comparing and matching the extracted word with a keyword group described by associating a keyword with a classification item; a step of weighting the result of the comparison and matching to find a corresponding item;
An automatic sentence classification method, comprising: a step of transmitting a classification processing result to an editor terminal; and a step of the editing terminal receiving the classification processing result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001225609A JP4711556B2 (en) | 2001-07-26 | 2001-07-26 | Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001225609A JP4711556B2 (en) | 2001-07-26 | 2001-07-26 | Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003036261A true JP2003036261A (en) | 2003-02-07 |
JP4711556B2 JP4711556B2 (en) | 2011-06-29 |
Family
ID=19058574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001225609A Expired - Fee Related JP4711556B2 (en) | 2001-07-26 | 2001-07-26 | Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4711556B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006527891A (en) * | 2003-06-16 | 2006-12-07 | グーグル・インク | System and method for providing preferred country bias for search results |
WO2007060726A1 (en) * | 2005-11-25 | 2007-05-31 | Mitsubishi Space Software Co., Ltd. | Document retrieval device, method, and program |
WO2007060727A1 (en) * | 2005-11-25 | 2007-05-31 | Mitsubishi Space Software Co., Ltd. | Document retrieval device, method, and program |
JP2009295186A (en) * | 2009-09-16 | 2009-12-17 | Mitsubishi Space Software Kk | Document search device, document search method, and document search program |
JP2014167835A (en) * | 2014-06-18 | 2014-09-11 | Ubic:Kk | Document sorting system, control method of document sorting system, and control program of document sorting system |
WO2015025978A1 (en) * | 2013-08-23 | 2015-02-26 | 株式会社Ubic | Text classification system, text classification method, and text classification program |
WO2015125810A1 (en) * | 2014-02-19 | 2015-08-27 | 株式会社 東芝 | Information processing device and information processing method |
CN111126879A (en) * | 2019-12-31 | 2020-05-08 | 厦门美契信息技术有限公司 | Green financial item selection evaluation method |
-
2001
- 2001-07-26 JP JP2001225609A patent/JP4711556B2/en not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006527891A (en) * | 2003-06-16 | 2006-12-07 | グーグル・インク | System and method for providing preferred country bias for search results |
WO2007060726A1 (en) * | 2005-11-25 | 2007-05-31 | Mitsubishi Space Software Co., Ltd. | Document retrieval device, method, and program |
WO2007060727A1 (en) * | 2005-11-25 | 2007-05-31 | Mitsubishi Space Software Co., Ltd. | Document retrieval device, method, and program |
JP2009295186A (en) * | 2009-09-16 | 2009-12-17 | Mitsubishi Space Software Kk | Document search device, document search method, and document search program |
WO2015025978A1 (en) * | 2013-08-23 | 2015-02-26 | 株式会社Ubic | Text classification system, text classification method, and text classification program |
WO2015125810A1 (en) * | 2014-02-19 | 2015-08-27 | 株式会社 東芝 | Information processing device and information processing method |
JPWO2015125810A1 (en) * | 2014-02-19 | 2017-03-30 | 帝人株式会社 | Information processing apparatus and information processing method |
US11043287B2 (en) | 2014-02-19 | 2021-06-22 | Teijin Limited | Information processing apparatus and information processing method |
JP2014167835A (en) * | 2014-06-18 | 2014-09-11 | Ubic:Kk | Document sorting system, control method of document sorting system, and control program of document sorting system |
CN111126879A (en) * | 2019-12-31 | 2020-05-08 | 厦门美契信息技术有限公司 | Green financial item selection evaluation method |
CN111126879B (en) * | 2019-12-31 | 2024-05-31 | 厦门美契信息技术有限公司 | Green melt item selection evaluation method |
Also Published As
Publication number | Publication date |
---|---|
JP4711556B2 (en) | 2011-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112184525B (en) | System and method for realizing intelligent matching recommendation through natural semantic analysis | |
CN110427623B (en) | Semi-structured document knowledge extraction method and device, electronic equipment and storage medium | |
CN112035653B (en) | A method and device for extracting key policy information, storage medium, and electronic device | |
CN108717406B (en) | Text emotion analysis method and device and storage medium | |
CN107305551A (en) | The method and apparatus of pushed information | |
CN112052396A (en) | Course matching method, system, computer equipment and storage medium | |
CN111078835A (en) | Resume evaluation method and device, computer equipment and storage medium | |
Mehrbod et al. | Tender calls search using a procurement product named entity recogniser | |
CN113268615A (en) | Resource label generation method and device, electronic equipment and storage medium | |
CN116821372A (en) | Knowledge graph-based data processing method and device, electronic equipment and medium | |
CN116991873A (en) | Target report data processing method and device based on knowledge graph and server | |
CN112989791B (en) | Method, system and medium for de-duplication based on text information extraction result | |
CN111881283A (en) | Business keyword library creating method, intelligent chat guiding method and device | |
CN116244410A (en) | Index data analysis method and system based on knowledge graph and natural language | |
CN112488593B (en) | Auxiliary bid evaluation system and method for bidding | |
Kandula et al. | Design and Implementation of a Chatbot for Automated Legal Assistance using Natural Language Processing and Machine Learning | |
JP2003036261A (en) | Device, program, and method for automatically classifying sentence, and computer readable recording medium recorded with automated sentence classifying program | |
CN115878778A (en) | Natural language understanding method for business domain | |
CN111737607B (en) | Data processing method, device, electronic equipment and storage medium | |
Wormell | Critical aspects of the Danish welfare state—as revealed by issue tracking | |
CN114036921A (en) | A method and device for matching policy information | |
CN110688559A (en) | Retrieval method and device | |
CN116861873A (en) | Contract data processing method and device | |
CN116108181A (en) | Client information processing method and device and electronic equipment | |
Mei‐fang et al. | Product online review analysis using fuzzy ontology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100907 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110322 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |