[go: up one dir, main page]

JPH1185797A - 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体 - Google Patents

文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Info

Publication number
JPH1185797A
JPH1185797A JP9250126A JP25012697A JPH1185797A JP H1185797 A JPH1185797 A JP H1185797A JP 9250126 A JP9250126 A JP 9250126A JP 25012697 A JP25012697 A JP 25012697A JP H1185797 A JPH1185797 A JP H1185797A
Authority
JP
Japan
Prior art keywords
document
vector
learning
classification
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9250126A
Other languages
English (en)
Inventor
Noriko Otani
紀子 大谷
Shiro Ito
史朗 伊藤
Shogo Shibata
昇吾 柴田
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9250126A priority Critical patent/JPH1185797A/ja
Publication of JPH1185797A publication Critical patent/JPH1185797A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 話題を正確に反映したベクトル空間を形成す
ることができ、分類を適正に行うことができる文書自動
分類装置を提供する。 【解決手段】 文書自動分類装置は、学習用文書から有
効語を選定し(有効語選定部103)、学習用文書と有
効語とを参照して各段落内に含まれている有効語の数を
求め(段落内有効語数計算部105)、段落内有効語数
を用いて各有効語の組の段落内共起頻度を求める(段落
内共起頻度計算部107)。この求められた段落内共起
頻度から各有効語の有効語ベクトルが求められ、学習用
文書と分類対象文書のそれぞれについて、有効語ベクト
ルを参照して文書ベクトルが求められる。この学習用文
書の文書ベクトルから求められた各カテゴリのフォルダ
ベクトルと分類対象文書の文書ベクトルとは比較され、
この比較結果に応じて分類対象文書が属するカテゴリが
決定される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類装置、それに
用いられる学習装置および分類装置と、文書自動分類方
法、それに用いられる学習方法および分類方法と、文書
自動分類装置を構築するための記憶媒体とに関する。
【0002】
【従来の技術】分類対象文書をユーザの意図に沿って分
類する方法の一つとして、ベクトル空間モデルを利用し
た方法がある。このベクトル空間モデルでは、分類に有
用な語や文書、カテゴリをベクトルで表現し、ベクトル
の方向から文書が属するカテゴリを決定する。このベク
トル空間モデルを利用した文書自動分類処理は、学習フ
ェーズと分類フェーズとに分けられる。学習フェーズで
は、予め正しく分類された学習用文書から分類に有用な
語(以下、有効語という)を選出し、各有効語をベクト
ル表現する。このベクトルは有効語ベクトルと呼ばれ、
この有効語ベクトルの成分は、出現頻度や単語共起確率
などにより求められる。また、学習用文書をベクトル表
現して、各カテゴリの特徴を表すフォルダベクトルの算
出が行われる。分類フェーズでは、学習フェーズで得ら
れた有効語辞書を用いて分類対象文書をベクトルで表現
し(以下、文書ベクトルという)、この文書ベクトルと
フォルダベクトルとを比較し、該比較結果に応じて分類
対象文書が属するカテゴリを決定する。
【0003】この方法を採用した文書自動分類装置の構
成について図7ないし図9を参照しながら説明する。図
7は従来の文書自動分類装置の構成を示すブロック図、
図8は図7の文書自動分類装置における学習フェーズの
処理手順を示すフローチャート、図9は図7の文書自動
分類装置における分類フェーズの処理手順を示すフロー
チャートである。
【0004】文書自動分類装置は、図7に示すように、
学習用文書を保持する学習用文書保持部501と、分類
対象文書を保持する分類対象文書保持部502と、学習
用文書から有効語を選定する有効語選定部503と、選
定された有効語を保持する有効語保持部504と、学習
用文書と有効語とを参照して各文書に含まれている有効
語の数を求める文書内有効語数計算部505と、求めら
れた各文書内の有効語数を保持する文書内有効語数保持
部506とを備える。
【0005】文書内有効語数保持部506に保持された
文書内の有効語数は文書内共起頻度計算部507に与え
られ、文書内共起頻度計算部507は文書内有効語数を
用いて各有効語の組の文書内共起頻度を求める。この求
められた文書内共起頻度は、文書内共起頻度保持部50
8に保持された後に、有効語ベクトル計算部509に与
えられる。有効語ベクトル計算部509は、文書内共起
頻度を用いて各有効語の有効語ベクトルを求める。ここ
で、有効語Ti と有効語Tj の共起確率をci,j 、有効
語数をNとすると、有効語Ti の有効語ベクトルTi
は、次の(1)式により、 Ti =(ci,1 ,ci,2 ,…,ci,N ) …(1) となる。また、共起確率ci,j は次の(2)式により定
義される。
【0006】 ci,j =(Ti とTj の両方を含む文書数)/(Ti を含む文書数) …(2) 有効語ベクトル計算部509により求められた有効語ベ
クトルは、有効語ベクトル保持部510に保持された後
に文書ベクトル計算部511に与えられる。文書ベクト
ル計算部511は、学習用文書と分類対象文書のそれぞ
れについて、有効語ベクトルを参照して文書ベクトルを
求め、学習用文書と分類対象文書のそれぞれについて求
められた文書ベクトルは文書ベクトル保持部512に保
持される。文書ベクトル保持部512に保持された学習
用文書の文書ベクトルはフォルダベクトル計算部513
に与えられ、フォルダベクトル計算部513は学習用文
書の文書ベクトルを用いて各カテゴリのフォルダベクト
ルを求める。求められた各カテゴリのフォルダベクトル
は、フォルダベクトル保持部514に保持される。
【0007】フォルダベクトル保持部514に保持され
た各カテゴリのフォルダベクトルは、文書ベクトル保持
部512に保持された分類対象文書の文書ベクトルとと
もに分類決定部515に与えられ、分類決定部515は
分類対象文書の文書ベクトルと各カテゴリのフォルダベ
クトルとを比較し、該比較結果に応じて分類対象文書が
属するカテゴリを決定する。この決定された分類対象文
書のカテゴリは分類結果保持部516に保持される。
【0008】次に、文書自動分類装置における学習フェ
ーズの処理手順について図8を参照しながら説明する。
【0009】まず、ステップS601において学習要文
書に含まれる語の中から、分類に有用な語を有効語とし
て選定し、続くステップS602で、各文書内に含まれ
ている選定した有効語の数を求める。
【0010】次いで、ステップS603に進み、文書内
有効語数から各有効語の組の文書内共起頻度を求め、続
くステップS604で、文書内共起頻度から有効語ベク
トルを算出する。そして、ステップS605で、有効語
ベクトルを参照して学習用文書から有効語を取り出し、
続くステップS606で、取り出した有効語の有効語ベ
クトルの平均を取って学習用文書の文書ベクトルを求め
る。
【0011】次いで、ステップS607に進み、学習用
文書における各カテゴリに属する文書の文書ベクトルの
平均を取り、該文書のベクトルの平均からフォルダベク
トルを求め、本処理を終了する。
【0012】この学習フェーズが終了すると、分類フェ
ーズが開始される。この分類フェーズの処理手順につい
て図9を参照しながら説明する。
【0013】分類フェーズでは、まずステップS701
において上記ステップS604で求めた有効語ベクトル
を参照して分類対象文書から有効語を取り出し、続くス
テップS702で取り出した有効語のベクトル(上記ス
テップS604で求めた有効語ベクトル)の平均を取
り、このベクトルの平均から分類対象文書の文書ベクト
ルを求める。
【0014】次いで、ステップS703に進み、分類対
象文書の文書ベクトルと学習フェーズで求められたフォ
ルダベクトルとを比較し、該比較結果に応じて分類対象
文書が属するカテゴリを決定し、本処理を終了する。
【0015】
【発明が解決しようとする課題】しかし、上述した従来
の文書自動分類装置では、学習用文書における有効語の
文書内共起頻度から有効語ベクトルを求めるから、異な
る話題について述べた2つの段落に出現する有効語同士
も共起していると判断されて話題を正確に反映したベク
トル空間が形成されないことがあり、ひいては分類を適
正に行うことができない。
【0016】本発明の目的は、話題を正確に反映したベ
クトル空間を形成することができ、分類を適正に行うこ
とができる文書自動分類装置、文書自動分類方法および
記憶媒体を提供することにある。
【0017】本発明の他の目的は、話題を正確に反映し
たベクトル空間を形成することができ、分類を適正に行
うことが可能な文書自動分類システムを実現することが
できる学習装置、分類装置、学習方法、分類方法および
記憶媒体を提供することにある。
【0018】
【課題を解決するための手段】請求項1記載の発明は、
学習用文書と該学習用文書から選出された有効語を用い
て、分類対象文書をユーザの意図に沿って分類する文書
自動分類装置において、前記学習用文書について前記有
効語を参照して各文章単位毎にそれに含まれる各有効語
の数を求める文章単位内有効語数計算手段と、前記有効
語数を参照して各有効語の組の文章単位内共起頻度を求
める文章単位内共起頻度計算手段と、前記文章単位内共
起頻度を参照して前記各有効語の有効語ベクトルを求め
る有効語ベクトル計算手段と、前記学習用文書と前記分
類対象文書とのそれぞれについて、前記有効語ベクトル
を参照して文書ベクトルを求める文書ベクトル計算手段
と、前記学習用文書について求められた文書ベクトルを
用いて各カテゴリのフォルダベクトルを求めるフォルダ
ベクトル計算手段と、前記分類対象文書について求めら
れた文書ベクトルと前記各カテゴリのフォルダベクトル
とを比較し、該比較結果に応じて前記分類対象文書が属
するカテゴリを決定する分類決定手段とを備えることを
特徴とする。
【0019】請求項2記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに用
いられる、前記分類対象文書が属するカテゴリを決定す
るための基準となる各カテゴリのフォルダベクトルを求
めるための学習装置において、学習用文書を保持する学
習用文書保持手段と、前記学習用文書から有効語を選定
する有効語選定手段と、前記学習用文書について前記有
効語を参照して各文章単位毎にそれに含まれる各有効語
の数を求める文章単位内有効語数計算手段と、前記有効
語数を参照して各有効語の組の文章単位内共起頻度を求
める文章単位内共起頻度計算手段と、前記文章単位内共
起頻度を参照して前記各有効語の有効語ベクトルを求め
る有効語ベクトル計算手段と、前記有効語ベクトルを参
照して文書ベクトルを求める文書ベクトル計算手段と、
前記文書ベクトルを用いて前記各カテゴリのフォルダベ
クトルを求めるフォルダベクトル計算手段とを備えるこ
とを特徴とする。
【0020】請求項3記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに請
求項2記載の学習装置とともに用いられる、前記分類対
象文書が属するカテゴリを決定するための分類装置にお
いて、前記分類対象文書を保持する分類対象文書保持手
段と、前記分類対象文書について、前記学習装置で求め
られた有効語ベクトルを参照して文書ベクトルを求める
文書ベクトル計算手段と、前記分類対象文書について求
められた文書ベクトルと前記学習装置で求められた各カ
テゴリのフォルダベクトルとを比較し、該比較結果に応
じて前記分類対象文書が属するカテゴリを決定する分類
決定手段とを備えることを特徴とする。
【0021】請求項4記載の発明は、学習用文書と該学
習用文書から選出された有効語を用いて、分類対象文書
をユーザの意図に沿って分類する文書自動分類方法にお
いて、前記学習用文書について前記有効語を参照して各
文章単位毎にそれに含まれる各有効語の数を求める工程
と、前記有効語数を参照して各有効語の組の文章単位内
共起頻度を求める工程と、前記文章単位内共起頻度を参
照して前記各有効語の有効語ベクトルを求める工程と、
前記学習用文書と前記分類対象文書とのそれぞれについ
て、前記有効語ベクトルを参照して文書ベクトルを求め
る工程と、前記学習用文書について求められた文書ベク
トルを用いて各カテゴリのフォルダベクトルを求める工
程と、前記分類対象文書について求められた文書ベクト
ルと前記各カテゴリのフォルダベクトルとを比較し、該
比較結果に応じて前記分類対象文書が属するカテゴリを
決定する工程とを備えることを特徴とする。
【0022】請求項5記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに用
いられる、前記分類対象文書が属するカテゴリを決定す
るための基準となる各カテゴリのフォルダベクトルを求
めるための学習方法において、学習用文書を保持する工
程と、前記学習用文書から有効語を選定する工程と、前
記学習用文書について前記有効語を参照して各文章単位
毎にそれに含まれる各有効語の数を求める工程と、前記
有効語数を参照して各有効語の組の文章単位内共起頻度
を求める工程と、前記文章単位内共起頻度を参照して前
記各有効語の有効語ベクトルを求める工程と、前記有効
語ベクトルを参照して文書ベクトルを求める工程と、前
記文書ベクトルを用いて前記各カテゴリのフォルダベク
トルを求める工程とを備えることを特徴とする。
【0023】請求項6記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに請
求項5記載の学習方法とともに用いられる、前記分類対
象文書が属するカテゴリを決定するための分類方法にお
いて、前記分類対象文書を保持する工程と、前記分類対
象文書について、前記学習方法で求められた有効語ベク
トルを参照して文書ベクトルを求める工程と、前記分類
対象文書について求められた文書ベクトルと前記学習方
法で求められた各カテゴリのフォルダベクトルとを比較
し、該比較結果に応じて前記分類対象文書が属するカテ
ゴリを決定する工程とを備えることを特徴とする。
【0024】請求項7記載の発明は、学習用文書と該学
習用文書から選出された有効語を用いて、分類対象文書
をユーザの意図に沿って分類する文書自動分類装置を構
築するためのプログラムを格納した記憶媒体において、
前記プログラムは、前記学習用文書について前記有効語
を参照して各文章単位毎にそれに含まれる各有効語の数
を求める文章単位内有効語数計算モジュールと、前記有
効語数を参照して各有効語の組の文章単位内共起頻度を
求める文章単位内共起頻度計算モジュールと、前記文章
単位内共起頻度を参照して前記各有効語の有効語ベクト
ルを求める有効語ベクトル計算モジュールと、前記学習
用文書と前記分類対象文書とのそれぞれについて、前記
有効語ベクトルを参照して文書ベクトルを求める文書ベ
クトル計算モジュールと、前記学習用文書について求め
られた文書ベクトルを用いて各カテゴリのフォルダベク
トルを求めるフォルダベクトル計算モジュールと、前記
分類対象文書について求められた文書ベクトルと前記各
カテゴリのフォルダベクトルとを比較し、該比較結果に
応じて前記分類対象文書が属するカテゴリを決定する分
類決定モジュールとを備えることを特徴とする。
【0025】請求項8記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに用
いられる、前記分類対象文書が属するカテゴリを決定す
るための基準となる各カテゴリのフォルダベクトルを求
めるための学習装置を構築するための学習プログラムを
格納した記憶媒体において、前記学習プログラムは、学
習用文書を保持する学習用文書保持モジュールと、前記
学習用文書から有効語を選定する有効語選定モジュール
と、前記学習用文書について前記有効語を参照して各文
章単位毎にそれに含まれる各有効語の数を求める文章単
位内有効語数計算モジュールと、前記有効語数を参照し
て各有効語の組の文章単位内共起頻度を求める文章単位
内共起頻度計算モジュールと、前記文章単位内共起頻度
を参照して前記各有効語の有効語ベクトルを求める有効
語ベクトル計算モジュールと、前記有効語ベクトルを参
照して文書ベクトルを求める文書ベクトル計算モジュー
ルと、前記文書ベクトルを用いて前記各カテゴリのフォ
ルダベクトルを求めるフォルダベクトルモジュールとを
備えることを特徴とする。
【0026】請求項9記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに請
求項8記載の記憶媒体とともに用いられる、前記分類対
象文書が属するカテゴリを決定するための分類装置を構
築するための分類プログラムを格納した記憶媒体におい
て、前記分類プログラムは、前記分類対象文書を保持す
る分類対象文書保持モジュールと、前記分類対象文書に
ついて、前記請求項8記載の記憶媒体の学習プログラム
により求められた有効語ベクトルを参照して文書ベクト
ルを求める文書ベクトル計算モジュールと、前記分類対
象文書について求められた文書ベクトルと前記請求項8
記載の記憶媒体の学習プログラムにより求められた各カ
テゴリのフォルダベクトルとを比較し、該比較結果に応
じて前記分類対象文書が属するカテゴリを決定する分類
決定モジュールとを備えることを特徴とする。
【0027】
【発明の実施の形態】以下に本発明の実施の形態につい
て図を参照しながら説明する。
【0028】図1は本発明の文書自動分類装置の実施の
一形態の機能構成を示すブロック図、図2は図1の文書
自動分類装置のハードウェア構成を示すブロック図であ
る。
【0029】文書自動分類装置は、図1に示すように、
学習用文書を保持する学習用文書保持部101と、分類
対象文書を保持する分類対象文書保持部102と、学習
用文書から有効語を選定する有効語選定部103と、選
定された有効語を保持する有効語保持部104と、学習
用文書と有効語とを参照して各段落内に含まれている有
効語の数を求める段落内有効語数計算部105と、求め
られた各段落内の有効語数を保持する段落内有効語数保
持部106とを備える。
【0030】段落内有効語数保持部106に保持された
各段落内の有効語数は段落内共起頻度計算部107に与
えられ、段落内共起頻度計算部107は段落内有効語数
を用いて各有効語の組の段落内共起頻度を求める。この
求められた段落内共起頻度は、段落内共起頻度保持部1
08に保持された後に、有効語ベクトル計算部109に
与えられる。有効語ベクトル計算部109は、段落内共
起頻度を用いて各有効語の有効語ベクトルを求める。こ
こで、有効語Ti と有効語Tjの共起確率をc'i,j、有
効語数をNとすると、有効語Ti の有効語ベクトルT'i
は、次の(3)式により、 T'i=(c'i,1,c'i,2,…,c'i,N) …(3) となる。また、共起確率ci,j は次の(4)式により定
義される。
【0031】 c'i,j=(Ti とTj の両方を含む段落数)/(Ti を含む段落数) …(4) 有効語ベクトル計算部109により求められた有効語ベ
クトルは、有効語ベクトル保持部110に保持された後
に文書ベクトル計算部111に与えられる。文書ベクト
ル計算部111は、学習用文書と分類対象文書のそれぞ
れについて、有効語ベクトルを参照して文書ベクトルを
求め、学習用文書と分類対象文書のそれぞれについて求
められた文書ベクトルは文書ベクトル保持部112に保
持される。文書ベクトル保持部112に保持された学習
用文書の文書ベクトルはフォルダベクトル計算部113
に与えられ、フォルダベクトル計算部113は学習用文
書の文書ベクトルを用いて各カテゴリのフォルダベクト
ルを求める。求められた各カテゴリのフォルダベクトル
は、フォルダベクトル保持部114に保持される。
【0032】フォルダベクトル保持部114に保持され
た各カテゴリのフォルダベクトルは、文書ベクトル保持
部112に保持された分類対象文書の文書ベクトルとと
もに分類決定部115に与えられ、分類決定部115は
分類対象文書の文書ベクトルと各カテゴリのフォルダベ
クトルとを比較し、該比較結果に応じて分類対象文書が
属するカテゴリを決定する。この決定された分類対象文
書のカテゴリは分類結果保持部116に保持される。
【0033】この文書自動分類装置のハードウェア構成
においては、図2に示すように、ROM201に格納さ
れている制御プログラムを実行して後述する制御(図3
および図4に示す制御)を行う中央処理装置203が設
けられている。中央処理装置203の演算処理の作業領
域としてはRAM202が用いられ、また、RAM20
2は、有効ご保持部104、段落内共起頻度保持部10
8、文書ベクトル保持部112、分類結果保持部116
のための記憶領域を提供する。
【0034】中央処理装置203には、ROM201お
よびRAM202とともに、ハードディスク装置204
がバス205を介して接続され、ハードディスク装置2
04は、学習用文書保持部101、分類対象文書保持部
102、有効語ベクトル保持部110およびフォルダベ
クトル保持部114を構成する。なお、ハードディスク
装置204に代えて、他の記憶媒体を用いて、学習用文
書保持部101、分類対象文書保持部102、有効語ベ
クトル保持部110およびフォルダベクトル保持部11
4を構成することも可能である。
【0035】次に、本文書自動分類装置が実行する処理
について図3および図4を参照しながら説明する。図3
は図1の文書自動分類装置における学習フェーズの処理
手順を示すフローチャート、図4は図1の文書自動分類
装置における分類フェーズの処理手順を示すフローチャ
ートである。
【0036】本文書自動分類装置における処理は学習フ
ェーズと分類フェーズとに分けられ、最初に、学習フェ
ーズの処理手順について図3を参照しながら説明する。
【0037】学習フェーズでは、図3に示すように、ま
ずステップS301において学習要文書に含まれる語の
中から、分類に有用な語を有効語として選定し、続くス
テップS302で、各段落内に含まれている選定した有
効語の数を求める。
【0038】次いで、ステップS303に進み、各段落
内有効語数から各有効語の組の段落内共起頻度を求め、
続くステップS304で、段落内共起頻度から有効語ベ
クトルを算出する。そして、ステップS305で、有効
語ベクトルを参照して学習用文書から有効語を取り出
し、続くステップS306で、取り出した有効語の有効
語ベクトルの平均を取って学習用文書の文書ベクトルを
求める。
【0039】次いで、ステップS307に進み、学習用
文書における各カテゴリに属する文書の文書ベクトルの
平均を取り、該文書のベクトルの平均からフォルダベク
トルを求め、本処理を終了する。
【0040】この学習フェーズが終了すると、分類フェ
ーズが開始される。この分類フェーズの処理手順につい
て図4を参照しながら説明する。
【0041】分類フェーズでは、図4に示すように、ま
ずステップS401において上記ステップS304で算
出した有効語ベクトルを参照して分類対象文書から有効
語を取り出し、続くステップS402で取り出した有効
語のベクトル(上記ステップS304で算出した有効語
ベクトル)の平均を取り、このベクトルの平均から分類
対象文書の文書ベクトルを求める。
【0042】次いで、ステップS403に進み、分類対
象文書の文書ベクトルと学習フェーズで求められたフォ
ルダベクトルとを比較し、該比較結果に応じて分類対象
文書が属するカテゴリを決定し、本処理を終了する。
【0043】以上より、本実施の形態では、文書中の内
容の変化に応じて設けられた段落構造を利用して段落内
共起頻度から有効語ベクトルを求めることにより、異な
る話題について述べた2つの段落に出現する有効語同士
が共起していると判断されることはなく、意味が単語共
起に基づく話題を正確に反映したベクトル空間を形成す
ることができ、分類を適正に行うことができる。
【0044】なお、本実施の形態では、学習文書からの
有効語の選定が終了した後に、段落内有効語数を求める
ように設定しているが、有効語の候補を取り出す際に各
有効語の段落内の出現回数を算出してもよい。
【0045】また、本実施の形態では、学習フェーズに
おいて、有効語の組に対する共起頻度を求めた後に、各
有効語の有効語ベクトルを求めるようにしているが、共
起頻度の算出と有効語ベクトルの算出とを平行して行う
ようにしてもよい。
【0046】さらに、本実施の形態では、段落単位でそ
の段落内の共起頻度を求めているが、これに限定される
ものではなく、文や節など、他の文章単位で扱うことも
可能である。
【0047】さらに、本実施の形態では、上述の処理
(各ブロックの機能)を実行するためのプログラムをR
OMに格納した例を示したが、他の記憶媒体を用いて上
記プログラムを供給するように構成することも可能であ
る。また、各ブロックの機能をそれぞれ有する回路構成
により本装置を構成することも可能である。
【0048】さらに、本装置をコンピュータなどの情報
処理装置上に構築することも可能である。この場合、上
述の処理(各ブロックの機能)を実行するためのプログ
ラムを格納した記憶媒体を準備し、CPUなどが該記憶
媒体から上記プログラムを読み出して実行することによ
り、文書自動分類装置が構成される。上記プログラムを
供給するための記憶媒体としては、フロッピーディス
ク、ハードディスク、光ディスク、光磁気ディスク、C
DROM、CD−R、磁気テープ、不揮発性メモリカー
ド、ROMなどを用いることができる。なお、上記プロ
グラムの実行により文書自動分類装置を構成する場合に
は、コンピュータ上で稼働しているOSが上記プログラ
ムに含まれる処理の一部または全てを実行するように構
成されている場合も含まれる。また、記憶媒体から供給
されたプログラムがコンピュータに搭載された拡張機能
ボードまたは接続された周辺拡張ユニットに書き込まれ
た後に、拡張機能ボードまたは周辺拡張ユニットに設け
られたCPUが書き込まれたプログラムを実行する場合
も含まれる。
【0049】さらに、本発明の原理は、複数の機器から
なるシステム、ひとつの機器からなる装置のいずれにも
適用することが可能である。
【0050】さらに、本実施の形態では、学習フェーズ
と分類フェーズとを一つの装置上で行う例を説明した
が、これに限定されるものではなく、例えば、学習フェ
ーズを行う装置と、分類フェーズを行う装置とを準備
し、それぞれの装置を用いて文書の分類を行うように構
成することもできる。この場合、学習フェーズを行う装
置により、有効語ベクトルを求めまたフォルダベクトル
を求め、この有効語ベクトルおよびフォルダベクトルを
可搬記憶媒体または通信により、分類フェーズを行う装
置に供給して分類を行う方法が用いられる。
【0051】この学習フェーズを行う装置および分類フ
ェーズを行う装置について図5および図6を参照しなが
ら説明する。図5は本発明の学習装置の実施の一形態の
構成を示すブロック図、図6は本発明の分類装置の実施
の一形態の構成を示すブロック図である。
【0052】学習フェーズを行う装置は、図5に示すよ
うに、学習用文書を保持する学習用文書保持部801
と、学習用文書から有効語を選定する有効語選定部80
2と、選定された有効語を保持する有効語保持部803
と、学習用文書と有効語とを参照して各段落内に含まれ
ている有効語の数を求める段落内有効語数計算部804
と、求められた各段落内の有効語数を保持する段落内有
効語数保持部805とを備える。
【0053】段落内有効語数保持部805に保持された
各段落内の有効語数は段落内共起頻度計算部806に与
えられ、段落内共起頻度計算部806は段落内有効語数
を用いて各有効語の組の段落内共起頻度を求める。この
求められた段落内共起頻度は、段落内共起頻度保持部8
07に保持された後に、有効語ベクトル計算部808に
与えられる。有効語ベクトル計算部808は、段落内共
起頻度を用いて各有効語の有効語ベクトルを求める。
【0054】有効語ベクトル計算部808により求めら
れた有効語ベクトルは、有効語ベクトル保持部809に
保持された後に文書ベクトル計算部810に与えられ
る。文書ベクトル計算部810は、学習用文書につい
て、有効語ベクトルを参照して文書ベクトルを求め、学
習用文書について求められた文書ベクトルは文書ベクト
ル保持部811に保持される。文書ベクトル保持部81
1に保持された学習用文書の文書ベクトルはフォルダベ
クトル計算部812に与えられ、フォルダベクトル計算
部812は学習用文書の文書ベクトルを用いて各カテゴ
リのフォルダベクトルを求める。求められた各カテゴリ
のフォルダベクトルは、フォルダベクトル保持部813
に保持される。
【0055】フォルダベクトル保持部813に保持され
た各カテゴリのフォルダベクトル、および有効語ベクト
ル保持部809に保持された有効語ベクトルは、可搬記
憶媒体に記憶されて分類フェーズを行う装置に供給さ
れ、または通信により分類フェーズを行う装置に供給さ
れる。
【0056】分類フェーズを行う装置は、図6に示すよ
うに、分類対象文書を保持する分類対象文書保持部90
1と、学習フェーズを行う装置から可搬記憶媒体または
通信を介して供給された有効語ベクトルを保持する有効
語ベクトル保持部902と、学習フェーズを行う装置か
ら可搬記憶媒体または通信を介して供給されたフォルダ
ベクトルを保持するフォルダベクトル保持部905と、
分類対象文書について、有効語ベクトルを参照して文書
ベクトルを求める文書ベクトル計算部903と、分類対
象文書について求められた文書ベクトルを保持する文書
ベクトル保持部904とを備える。
【0057】文書ベクトル保持部904に保持された分
類対象文書の文書ベクトルは、フォルダベクトル保持部
905に保持された各カテゴリのフォルダベクトルとと
もに分類決定部906に与えられ、分類決定部906は
分類対象文書の文書ベクトルと各カテゴリのフォルダベ
クトルとを比較し、該比較結果に応じて分類対象文書が
属するカテゴリを決定する。この決定された分類対象文
書のカテゴリは分類結果保持部907に保持される。
【0058】
【発明の効果】以上に説明したように、請求項1記載の
文書自動分類装置によれば、学習用文書について有効語
を参照して各文章単位毎にそれに含まれる各有効語の数
を求める文章単位内有効語数計算手段と、有効語数を参
照して各有効語の組の文章単位内共起頻度を求める文章
単位内共起頻度計算手段と、文章単位内共起頻度を参照
して各有効語の有効語ベクトルを求める有効語ベクトル
計算手段と、学習用文書と分類対象文書とのそれぞれに
ついて、有効語ベクトルを参照して文書ベクトルを求め
る文書ベクトル計算手段と、学習用文書について求めら
れた文書ベクトルを用いて各カテゴリのフォルダベクト
ルを求めるフォルダベクトル計算手段と、分類対象文書
について求められた文書ベクトルと各カテゴリのフォル
ダベクトルとを比較し、該比較結果に応じて分類対象文
書が属するカテゴリを決定する分類決定手段とを備える
から、話題を正確に反映したベクトル空間を形成するこ
とができ、分類を適正に行うことができる。
【0059】請求項2記載の学習装置によれば、学習用
文書を保持する学習用文書保持手段と、学習用文書から
有効語を選定する有効語選定手段と、学習用文書につい
て有効語を参照して各文章単位毎にそれに含まれる各有
効語の数を求める文章単位内有効語数計算手段と、有効
語数を参照して各有効語の組の文章単位内共起頻度を求
める文章単位内共起頻度計算手段と、文章単位内共起頻
度を参照して各有効語の有効語ベクトルを求める有効語
ベクトル計算手段と、有効語ベクトルを参照して文書ベ
クトルを求める文書ベクトル計算手段と、文書ベクトル
を用いて各カテゴリのフォルダベクトルを求めるフォル
ダベクトル計算手段とを備えるから、話題を正確に反映
したベクトル空間を形成することができ、分類を適正に
行うことが可能な文書自動分類システムを実現すること
ができる。
【0060】請求項3記載の分類装置によれば、分類対
象文書を保持する分類対象文書保持手段と、分類対象文
書について、学習装置で求められた有効語ベクトルを参
照して文書ベクトルを求める文書ベクトル計算手段と、
分類対象文書について求められた文書ベクトルと学習装
置で求められた各カテゴリのフォルダベクトルとを比較
し、該比較結果に応じて前記分類対象文書が属するカテ
ゴリを決定する分類決定手段とを備えるから、話題を正
確に反映したベクトル空間を形成することができ、分類
を適正に行うことが可能な文書自動分類システムを実現
することができる。
【0061】請求項4記載の文書自動分類方法によれ
ば、学習用文書について有効語を参照して各文章単位毎
にそれに含まれる各有効語の数を求める工程と、有効語
数を参照して各有効語の組の文章単位内共起頻度を求め
る工程と、文章単位内共起頻度を参照して各有効語の有
効語ベクトルを求める工程と、学習用文書と分類対象文
書とのそれぞれについて、有効語ベクトルを参照して文
書ベクトルを求める工程と、学習用文書について求めら
れた文書ベクトルを用いて各カテゴリのフォルダベクト
ルを求める工程と、分類対象文書について求められた文
書ベクトルと各カテゴリのフォルダベクトルとを比較
し、該比較結果に応じて分類対象文書が属するカテゴリ
を決定する工程とを備えるから、話題を正確に反映した
ベクトル空間を形成することができ、分類を適正に行う
ことができる。
【0062】請求項5記載の学習方法によれば、学習用
文書を保持する工程と、学習用文書について有効語を参
照して各文章単位毎にそれに含まれる各有効語の数を求
める工程と、学習用文書から有効語を選定する工程と、
有効語数を参照して各有効語の組の文章単位内共起頻度
を求める工程と、文章単位内共起頻度を参照して各有効
語の有効語ベクトルを求める工程と、有効語ベクトルを
参照して文書ベクトルを求める工程と、文書ベクトルを
用いて各カテゴリのフォルダベクトルを求める工程とを
備えるから、話題を正確に反映したベクトル空間を形成
することができ、分類を適正に行うことが可能な文書自
動分類システムを実現することができる。
【0063】請求項6記載の分類方法によれば、分類対
象文書を保持する工程と、分類対象文書について、学習
方法で求められた有効語ベクトルを参照して文書ベクト
ルを求める工程と、分類対象文書について求められた文
書ベクトルと学習方法で求められた各カテゴリのフォル
ダベクトルとを比較し、該比較結果に応じて前記分類対
象文書が属するカテゴリを決定する工程とを備えるか
ら、話題を正確に反映したベクトル空間を形成すること
ができ、分類を適正に行うことが可能な文書自動分類シ
ステムを実現することができる。
【0064】請求項7記載の記憶媒体によれば、プログ
ラムが、学習用文書について有効語を参照して各文章単
位毎にそれに含まれる各有効語の数を求める文章単位内
有効語数計算モジュールと、有効語数を参照して各有効
語の組の文章単位内共起頻度を求める文章単位内共起頻
度計算モジュールと、文章単位内共起頻度を参照して各
有効語の有効語ベクトルを求める有効語ベクトル計算モ
ジュールと、学習用文書と分類対象文書とのそれぞれに
ついて、有効語ベクトルを参照して文書ベクトルを求め
る文書ベクトル計算モジュールと、学習用文書について
求められた文書ベクトルを用いて各カテゴリのフォルダ
ベクトルを求めるフォルダベクトル計算モジュールと、
分類対象文書について求められた文書ベクトルと各カテ
ゴリのフォルダベクトルとを比較し、該比較結果に応じ
て分類対象文書が属するカテゴリを決定する分類決定モ
ジュールとを備えるから、話題を正確に反映したベクト
ル空間を形成することができ、分類を適正に行うことが
できる。
【0065】請求項8記載の記憶媒体によれば、学習プ
ログラムが、学習用文書を保持する学習用文書保持モジ
ュールと、学習用文書から有効語を選定する有効語選定
モジュールと、学習用文書について有効語を参照して各
文章単位毎にそれに含まれる各有効語の数を求める文章
単位内有効語数計算モジュールと、有効語数を参照して
各有効語の組の文章単位内共起頻度を求める文章単位内
共起頻度計算モジュールと、文章単位内共起頻度を参照
して各有効語の有効語ベクトルを求める有効語ベクトル
計算モジュールと、有効語ベクトルを参照して文書ベク
トルを求める文書ベクトル計算モジュールと、文書ベク
トルを用いて各カテゴリのフォルダベクトルを求めるフ
ォルダベクトルモジュールとを備えるから、話題を正確
に反映したベクトル空間を形成することができ、分類を
適正に行うことが可能な文書自動分類システムを実現す
ることができる。
【0066】請求項9記載の記憶媒体によれば、分類プ
ログラムが、分類対象文書を保持する分類対象文書保持
モジュールと、分類対象文書について、請求項8記載の
記憶媒体の学習プログラムにより求められた有効語ベク
トルを参照して文書ベクトルを求める文書ベクトル計算
モジュールと、分類対象文書について求められた文書ベ
クトルと請求項8記載の記憶媒体の学習プログラムによ
り求められた各カテゴリのフォルダベクトルとを比較
し、該比較結果に応じて分類対象文書が属するカテゴリ
を決定する分類決定モジュールとを備えるから、話題を
正確に反映したベクトル空間を形成することができ、分
類を適正に行うことが可能な文書自動分類システムを実
現することができる。
【図面の簡単な説明】
【図1】本発明の文書自動分類装置の実施の一形態の機
能構成を示すブロック図である。
【図2】図1の文書自動分類装置のハードウェア構成を
示すブロック図である。
【図3】図1の文書自動分類装置における学習フェーズ
の処理手順を示すフローチャートである。
【図4】図1の文書自動分類装置における分類フェーズ
の処理手順を示すフローチャートである。
【図5】本発明の学習装置の実施の一形態の構成を示す
ブロック図である。
【図6】本発明の分類装置の実施の一形態の構成を示す
ブロック図である。
【図7】従来の文書自動分類装置の構成を示すブロック
図である。
【図8】図7の文書自動分類装置における学習フェーズ
の処理手順を示すフローチャートである。
【図9】図7の文書自動分類装置における分類フェーズ
の処理手順を示すフローチャートである。
【符号の説明】
101,801 学習用文書保持部 102,901 分類対象文書保持部 103,802 有効語選定部 104,803 有効語保持部 105,804 段落内有効語数計算部 106,805 段落内有効語数保持部 107,806 段落内共起頻度計算部 108,807 段落内共起頻度保持部 109,808 有効語ベクトル計算部 110,809,902 有効語ベクトル保持部 111,810,903 文書ベクトル計算部 112,811,904 文書ベクトル保持部 113,812 フォルダベクトル計算部 114,813,905 フォルダベクトル保持部 115、906 分類決定部 116、907 分類結果保持部 201 ROM 202 RAM 203 中央処理装置 204 ハードディスク装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 学習用文書と該学習用文書から選出され
    た有効語を用いて、分類対象文書をユーザの意図に沿っ
    て分類する文書自動分類装置において、前記学習用文書
    について前記有効語を参照して各文章単位毎にそれに含
    まれる各有効語の数を求める文章単位内有効語数計算手
    段と、前記有効語数を参照して各有効語の組の文章単位
    内共起頻度を求める文章単位内共起頻度計算手段と、前
    記文章単位内共起頻度を参照して前記各有効語の有効語
    ベクトルを求める有効語ベクトル計算手段と、前記学習
    用文書と前記分類対象文書とのそれぞれについて、前記
    有効語ベクトルを参照して文書ベクトルを求める文書ベ
    クトル計算手段と、前記学習用文書について求められた
    文書ベクトルを用いて各カテゴリのフォルダベクトルを
    求めるフォルダベクトル計算手段と、前記分類対象文書
    について求められた文書ベクトルと前記各カテゴリのフ
    ォルダベクトルとを比較し、該比較結果に応じて前記分
    類対象文書が属するカテゴリを決定する分類決定手段と
    を備えることを特徴とする文書自動分類装置。
  2. 【請求項2】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに用いられる、前記分類対
    象文書が属するカテゴリを決定するための基準となる各
    カテゴリのフォルダベクトルを求めるための学習装置に
    おいて、学習用文書を保持する学習用文書保持手段と、
    前記学習用文書から有効語を選定する有効語選定手段
    と、前記学習用文書について前記有効語を参照して各文
    章単位毎にそれに含まれる各有効語の数を求める文章単
    位内有効語数計算手段と、前記有効語数を参照して各有
    効語の組の文章単位内共起頻度を求める文章単位内共起
    頻度計算手段と、前記文章単位内共起頻度を参照して前
    記各有効語の有効語ベクトルを求める有効語ベクトル計
    算手段と、前記有効語ベクトルを参照して文書ベクトル
    を求める文書ベクトル計算手段と、前記文書ベクトルを
    用いて前記各カテゴリのフォルダベクトルを求めるフォ
    ルダベクトル計算手段とを備えることを特徴とする学習
    装置。
  3. 【請求項3】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに請求項2記載の学習装置
    とともに用いられる、前記分類対象文書が属するカテゴ
    リを決定するための分類装置において、前記分類対象文
    書を保持する分類対象文書保持手段と、前記分類対象文
    書について、前記学習装置で求められた有効語ベクトル
    を参照して文書ベクトルを求める文書ベクトル計算手段
    と、前記分類対象文書について求められた文書ベクトル
    と前記学習装置で求められた各カテゴリのフォルダベク
    トルとを比較し、該比較結果に応じて前記分類対象文書
    が属するカテゴリを決定する分類決定手段とを備えるこ
    とを特徴とする分類装置。
  4. 【請求項4】 学習用文書と該学習用文書から選出され
    た有効語を用いて、分類対象文書をユーザの意図に沿っ
    て分類する文書自動分類方法において、前記学習用文書
    について前記有効語を参照して各文章単位毎にそれに含
    まれる各有効語の数を求める工程と、前記有効語数を参
    照して各有効語の組の文章単位内共起頻度を求める工程
    と、前記文章単位内共起頻度を参照して前記各有効語の
    有効語ベクトルを求める工程と、前記学習用文書と前記
    分類対象文書とのそれぞれについて、前記有効語ベクト
    ルを参照して文書ベクトルを求める工程と、前記学習用
    文書について求められた文書ベクトルを用いて各カテゴ
    リのフォルダベクトルを求める工程と、前記分類対象文
    書について求められた文書ベクトルと前記各カテゴリの
    フォルダベクトルとを比較し、該比較結果に応じて前記
    分類対象文書が属するカテゴリを決定する工程とを備え
    ることを特徴とする文書自動分類方法。
  5. 【請求項5】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに用いられる、前記分類対
    象文書が属するカテゴリを決定するための基準となる各
    カテゴリのフォルダベクトルを求めるための学習方法に
    おいて、学習用文書を保持する工程と、前記学習用文書
    から有効語を選定する工程と、前記学習用文書について
    前記有効語を参照して各文章単位毎にそれに含まれる各
    有効語の数を求める工程と、前記有効語数を参照して各
    有効語の組の文章単位内共起頻度を求める工程と、前記
    文章単位内共起頻度を参照して前記各有効語の有効語ベ
    クトルを求める工程と、前記有効語ベクトルを参照して
    文書ベクトルを求める工程と、前記文書ベクトルを用い
    て前記各カテゴリのフォルダベクトルを求める工程とを
    備えることを特徴とする学習方法。
  6. 【請求項6】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに請求項5記載の学習方法
    とともに用いられる、前記分類対象文書が属するカテゴ
    リを決定するための分類方法において、前記分類対象文
    書を保持する工程と、前記分類対象文書について、前記
    学習方法で求められた有効語ベクトルを参照して文書ベ
    クトルを求める工程と、前記分類対象文書について求め
    られた文書ベクトルと前記学習方法で求められた各カテ
    ゴリのフォルダベクトルとを比較し、該比較結果に応じ
    て前記分類対象文書が属するカテゴリを決定する工程と
    を備えることを特徴とする分類方法。
  7. 【請求項7】 学習用文書と該学習用文書から選出され
    た有効語を用いて、分類対象文書をユーザの意図に沿っ
    て分類する文書自動分類装置を構築するためのプログラ
    ムを格納した記憶媒体において、前記プログラムは、前
    記学習用文書について前記有効語を参照して各文章単位
    毎にそれに含まれる各有効語の数を求める文章単位内有
    効語数計算モジュールと、前記有効語数を参照して各有
    効語の組の文章単位内共起頻度を求める文章単位内共起
    頻度計算モジュールと、前記文章単位内共起頻度を参照
    して前記各有効語の有効語ベクトルを求める有効語ベク
    トル計算モジュールと、前記学習用文書と前記分類対象
    文書とのそれぞれについて、前記有効語ベクトルを参照
    して文書ベクトルを求める文書ベクトル計算モジュール
    と、前記学習用文書について求められた文書ベクトルを
    用いて各カテゴリのフォルダベクトルを求めるフォルダ
    ベクトル計算モジュールと、前記分類対象文書について
    求められた文書ベクトルと前記各カテゴリのフォルダベ
    クトルとを比較し、該比較結果に応じて前記分類対象文
    書が属するカテゴリを決定する分類決定モジュールとを
    備えることを特徴とする記憶媒体。
  8. 【請求項8】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに用いられる、前記分類対
    象文書が属するカテゴリを決定するための基準となる各
    カテゴリのフォルダベクトルを求めるための学習装置を
    構築するための学習プログラムを格納した記憶媒体にお
    いて、前記学習プログラムは、学習用文書を保持する学
    習用文書保持モジュールと、前記学習用文書から有効語
    を選定する有効語選定モジュールと、前記学習用文書に
    ついて前記有効語を参照して各文章単位毎にそれに含ま
    れる各有効語の数を求める文章単位内有効語数計算モジ
    ュールと、前記有効語数を参照して各有効語の組の文章
    単位内共起頻度を求める文章単位内共起頻度計算モジュ
    ールと、前記文章単位内共起頻度を参照して前記各有効
    語の有効語ベクトルを求める有効語ベクトル計算モジュ
    ールと、前記有効語ベクトルを参照して文書ベクトルを
    求める文書ベクトル計算モジュールと、前記文書ベクト
    ルを用いて前記各カテゴリのフォルダベクトルを求める
    フォルダベクトルモジュールとを備えることを特徴とす
    る記憶媒体。
  9. 【請求項9】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに請求項8記載の記憶媒体
    とともに用いられる、前記分類対象文書が属するカテゴ
    リを決定するための分類装置を構築するための分類プロ
    グラムを格納した記憶媒体において、前記分類プログラ
    ムは、前記分類対象文書を保持する分類対象文書保持モ
    ジュールと、前記分類対象文書について、前記請求項8
    記載の記憶媒体の学習プログラムにより求められた有効
    語ベクトルを参照して文書ベクトルを求める文書ベクト
    ル計算モジュールと、前記分類対象文書について求めら
    れた文書ベクトルと前記請求項8記載の記憶媒体の学習
    プログラムにより求められた各カテゴリのフォルダベク
    トルとを比較し、該比較結果に応じて前記分類対象文書
    が属するカテゴリを決定する分類決定モジュールとを備
    えることを特徴とする記憶媒体。
JP9250126A 1997-09-01 1997-09-01 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体 Pending JPH1185797A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9250126A JPH1185797A (ja) 1997-09-01 1997-09-01 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9250126A JPH1185797A (ja) 1997-09-01 1997-09-01 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Publications (1)

Publication Number Publication Date
JPH1185797A true JPH1185797A (ja) 1999-03-30

Family

ID=17203219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9250126A Pending JPH1185797A (ja) 1997-09-01 1997-09-01 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Country Status (1)

Country Link
JP (1) JPH1185797A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001014992A1 (en) * 1999-08-25 2001-03-01 Kent Ridge Digital Labs Document classification apparatus
JP2009163771A (ja) * 2001-11-02 2009-07-23 Thomson Reuters Global Resources ドキュメントを分類するシステム、方法、およびソフトウェア
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001014992A1 (en) * 1999-08-25 2001-03-01 Kent Ridge Digital Labs Document classification apparatus
JP2009163771A (ja) * 2001-11-02 2009-07-23 Thomson Reuters Global Resources ドキュメントを分類するシステム、方法、およびソフトウェア
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统

Similar Documents

Publication Publication Date Title
US8620662B2 (en) Context-aware unit selection
US7840521B2 (en) Computer-based method and system for efficient categorizing of digital documents
EP1349145B1 (en) System and method for providing information using spoken dialogue interface
CN110232112B (zh) 文章中关键词提取方法及装置
CN110188168A (zh) 语义关系识别方法和装置
CN108959559B (zh) 问答对生成方法和装置
US20230119161A1 (en) Efficient Index Lookup Using Language-Agnostic Vectors and Context Vectors
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
Kaiser et al. A Simple Fusion Method of State And Sequence Segmentation for Music Structure Discovery.
JP2003223456A (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
JP4947861B2 (ja) 自然言語処理装置およびその制御方法ならびにプログラム
WO2016175785A1 (en) Topic identification based on functional summarization
US20110013806A1 (en) Methods of object search and recognition
Banerjee et al. Generating abstractive summaries from meeting transcripts
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
JPH09282331A (ja) 文書類似判定装置および文書類似判定方法
JP3996125B2 (ja) 文章生成装置及び生成方法
JPH1185797A (ja) 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
US20050060308A1 (en) System, method, and recording medium for coarse-to-fine descriptor propagation, mapping and/or classification
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JPH1185796A (ja) 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
JP5673265B2 (ja) 校正支援装置及び校正支援プログラム
CN116089839A (zh) 确定目标实体的代表性事实