JP2000194723A - 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 - Google Patents
類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法Info
- Publication number
- JP2000194723A JP2000194723A JP10376853A JP37685398A JP2000194723A JP 2000194723 A JP2000194723 A JP 2000194723A JP 10376853 A JP10376853 A JP 10376853A JP 37685398 A JP37685398 A JP 37685398A JP 2000194723 A JP2000194723 A JP 2000194723A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- similarity
- preference
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 ユーザーの嗜好を踏まえて適切に文書を特徴
付け、文書の検索、分類等の処理を適切かつ容易に行う
ことのできる文書処理装置を提供すること。 【解決手段】 過去の処理文書から処理重要語句を取得
し、処理重要語句の処理文書中の出現頻度等からユーザ
ー全体の嗜好を表すGPベクトルを取得する。また、類
似度を取得する基準となる基準文書Aにおける処理重要
語句の重要度を取得し、この重要度を要素とする文書ベ
クトルVaを取得し、GPベクトルと文書ベクトルVa
の各要素を掛け合わせて嗜好文書ベクトルV’aを得
る。この嗜好文書ベクトルには、ユーザーの嗜好が反映
されている。嗜好文書ベクトルV’aと他の文書Bの文
書ベクトルVb,とでなす角qのコサイン値cos
(q)を、基準文書Aと他の文書Bとの類似度とする。
この類似度が大きいほど、他の文書はユーザーの嗜好に
近いものとなる。
付け、文書の検索、分類等の処理を適切かつ容易に行う
ことのできる文書処理装置を提供すること。 【解決手段】 過去の処理文書から処理重要語句を取得
し、処理重要語句の処理文書中の出現頻度等からユーザ
ー全体の嗜好を表すGPベクトルを取得する。また、類
似度を取得する基準となる基準文書Aにおける処理重要
語句の重要度を取得し、この重要度を要素とする文書ベ
クトルVaを取得し、GPベクトルと文書ベクトルVa
の各要素を掛け合わせて嗜好文書ベクトルV’aを得
る。この嗜好文書ベクトルには、ユーザーの嗜好が反映
されている。嗜好文書ベクトルV’aと他の文書Bの文
書ベクトルVb,とでなす角qのコサイン値cos
(q)を、基準文書Aと他の文書Bとの類似度とする。
この類似度が大きいほど、他の文書はユーザーの嗜好に
近いものとなる。
Description
【0001】
【発明の属する技術分野】本発明は、類似度表示装置、
類似度表示プログラムが記憶された記憶媒体、文書処理
装置、文書処理プログラムが記憶された記憶媒体、及び
文書処理方法に関し、更に詳細には、類似する文書やユ
ーザーの検索に関する。
類似度表示プログラムが記憶された記憶媒体、文書処理
装置、文書処理プログラムが記憶された記憶媒体、及び
文書処理方法に関し、更に詳細には、類似する文書やユ
ーザーの検索に関する。
【0002】
【従来の技術】従来の文書処理装置、文書処理プログラ
ムが記憶された記憶媒体、及び文書処理方法による文書
処理においては、複数の文書を検索・分類するために、
それぞれの文書について当該文書を特徴付ける文書ベク
トルを取得し、この文書ベクトルから文書間の類似度を
算出することが行われている。
ムが記憶された記憶媒体、及び文書処理方法による文書
処理においては、複数の文書を検索・分類するために、
それぞれの文書について当該文書を特徴付ける文書ベク
トルを取得し、この文書ベクトルから文書間の類似度を
算出することが行われている。
【0003】
【発明が解決しようとする課題】しかし、同一の文書で
も、例えば営業用や技術資料用等の利用目的その他のユ
ーザーの嗜好が異なると、重要部位等に差異が生じる。
そして、上述のような文書ベクトルを用いた文書処理に
よって文書の検索や分類をしても、ユーザーの嗜好を踏
まえた処理は行うことができないため、この様な嗜好を
加味した上での文書処理を行うことのできる文書処理装
置や文書処理プログラムが記憶された記憶媒体、文書処
理方法が望まれていた。また、このようなユーザーの嗜
好は、前記の文書類似度と同様に、1人又は1グループ
のユーザーの嗜好に対する他のユーザーの嗜好の類似度
(嗜好類似度)を算出してユーザーをグループ分けする
のに有用である。そして、文書やユーザー等の類似度
は、検索や分類を容易に行うためには、その大小を一見
して把握し易いように表示されることが望ましく、ま
た、1つの文書やユーザー等に対する他の文書やユーザ
ー等の類似度だけでなく3つ以上の文書における各文書
や各ユーザー等の相互間の類似度の大小が把握できるこ
とが望ましい。
も、例えば営業用や技術資料用等の利用目的その他のユ
ーザーの嗜好が異なると、重要部位等に差異が生じる。
そして、上述のような文書ベクトルを用いた文書処理に
よって文書の検索や分類をしても、ユーザーの嗜好を踏
まえた処理は行うことができないため、この様な嗜好を
加味した上での文書処理を行うことのできる文書処理装
置や文書処理プログラムが記憶された記憶媒体、文書処
理方法が望まれていた。また、このようなユーザーの嗜
好は、前記の文書類似度と同様に、1人又は1グループ
のユーザーの嗜好に対する他のユーザーの嗜好の類似度
(嗜好類似度)を算出してユーザーをグループ分けする
のに有用である。そして、文書やユーザー等の類似度
は、検索や分類を容易に行うためには、その大小を一見
して把握し易いように表示されることが望ましく、ま
た、1つの文書やユーザー等に対する他の文書やユーザ
ー等の類似度だけでなく3つ以上の文書における各文書
や各ユーザー等の相互間の類似度の大小が把握できるこ
とが望ましい。
【0004】本発明は、上述のような課題を解決するた
めになされたもので、ユーザーの嗜好を踏まえた文書や
ユーザーの検索、分類等の処理を行うことのできる文書
処理装置、文書処理プログラムが記憶された記憶媒体、
文書処理方法、及び、文書処理装置等に用いることがで
き、文書やユーザー等の類似度を容易に把握可能に表示
する類似度表示装置、及び類似度表示プログラムが記憶
された記憶媒体を提供することを目的とする。
めになされたもので、ユーザーの嗜好を踏まえた文書や
ユーザーの検索、分類等の処理を行うことのできる文書
処理装置、文書処理プログラムが記憶された記憶媒体、
文書処理方法、及び、文書処理装置等に用いることがで
き、文書やユーザー等の類似度を容易に把握可能に表示
する類似度表示装置、及び類似度表示プログラムが記憶
された記憶媒体を提供することを目的とする。
【0005】
【課題を解決するための手段】請求項1に記載の発明
は、複数の対象それぞれについて、その特徴の程度を表
す特徴度を取得する特徴度取得手段と、前記特徴度取得
手段により取得された前記特徴度をもとに、複数の前記
対象相互間の特徴類似度を取得する特徴類似度取得手段
と、複数の前記対象と前記対象間を亘る線分とを表示
し、且つ前記線分の表示状態によりそれらの対称間の特
徴類似度の大小を視覚的に把握可能に表す記特徴類似度
取得手段とを備える類似度表示装置を提供することによ
り前記目的を達成するものである。請求項2に記載の発
明は、請求項1に記載の類似度表示装置において、前記
特徴類似度の範囲を取得する特徴類似範囲取得手段を備
え、前記特徴類似度表示手段は、前記特徴類似範囲取得
手段により取得された前記範囲のみの線分を表示する類
似度表示装置を提供することにより前記目的を達成する
ものである。請求項3に記載の発明は、請求項1または
請求項2に記載の文書処理装置において、文書処理装置
に用いられ、前記対象がユーザーであり、前記特徴度が
前記ユーザーそれぞれの嗜好を表す複数のキーワードに
対する重要度を要素値とする嗜好ベクトルである類似度
表示装置を提供することにより前記目的を達成するもの
である。請求項4に記載の発明は、請求項1または請求
項2に記載の文書処理装置において、文書処理装置に用
いられ、前記対象が文書であり、前記特徴度が前記文書
を特徴付ける文書ベクトルである類似度表示装置を提供
することにより前記目的を達成するものである。請求項
5に記載の発明は、複数の対象それぞれについて、その
特徴を表す特徴度を取得する特徴度取得機能と、前記特
徴度取得機能により取得された前記特徴度をもとに、複
数の前記対象相互間の特徴類似度を取得する特徴類似度
取得機能と、複数の前記対象と前記対象間を亘る線分と
を表示し、且つ前記線分の表示状態によりそれらの対称
間の特徴類似度の大小を視覚的に把握可能に表す記特徴
類似度取得機能とをコンピュータに実現させるためのコ
ンピュータ読み取り可能な類似度表示プログラムが記憶
された記憶媒体を提供することにより前記目的を達成す
るものである。
は、複数の対象それぞれについて、その特徴の程度を表
す特徴度を取得する特徴度取得手段と、前記特徴度取得
手段により取得された前記特徴度をもとに、複数の前記
対象相互間の特徴類似度を取得する特徴類似度取得手段
と、複数の前記対象と前記対象間を亘る線分とを表示
し、且つ前記線分の表示状態によりそれらの対称間の特
徴類似度の大小を視覚的に把握可能に表す記特徴類似度
取得手段とを備える類似度表示装置を提供することによ
り前記目的を達成するものである。請求項2に記載の発
明は、請求項1に記載の類似度表示装置において、前記
特徴類似度の範囲を取得する特徴類似範囲取得手段を備
え、前記特徴類似度表示手段は、前記特徴類似範囲取得
手段により取得された前記範囲のみの線分を表示する類
似度表示装置を提供することにより前記目的を達成する
ものである。請求項3に記載の発明は、請求項1または
請求項2に記載の文書処理装置において、文書処理装置
に用いられ、前記対象がユーザーであり、前記特徴度が
前記ユーザーそれぞれの嗜好を表す複数のキーワードに
対する重要度を要素値とする嗜好ベクトルである類似度
表示装置を提供することにより前記目的を達成するもの
である。請求項4に記載の発明は、請求項1または請求
項2に記載の文書処理装置において、文書処理装置に用
いられ、前記対象が文書であり、前記特徴度が前記文書
を特徴付ける文書ベクトルである類似度表示装置を提供
することにより前記目的を達成するものである。請求項
5に記載の発明は、複数の対象それぞれについて、その
特徴を表す特徴度を取得する特徴度取得機能と、前記特
徴度取得機能により取得された前記特徴度をもとに、複
数の前記対象相互間の特徴類似度を取得する特徴類似度
取得機能と、複数の前記対象と前記対象間を亘る線分と
を表示し、且つ前記線分の表示状態によりそれらの対称
間の特徴類似度の大小を視覚的に把握可能に表す記特徴
類似度取得機能とをコンピュータに実現させるためのコ
ンピュータ読み取り可能な類似度表示プログラムが記憶
された記憶媒体を提供することにより前記目的を達成す
るものである。
【0006】請求項6に記載の発明は、図9に示すよう
に、ユーザーの嗜好を表す複数のキーワードに対する重
要度を要素値とする嗜好ベクトルを取得する嗜好ベクト
ル取得手段101と、文書を取得する文書取得手段10
2と、前記文書取得手段102により取得された文書を
特徴付ける文書ベクトルを取得する文書ベクトル取得手
段103と、前記文書ベクトル取得手段により取得され
た前記文書ベクトルを前記嗜好ベクトルによりシフトさ
せるシフト手段104とを具備する文書処理装置を提供
することにより前記目的を達成するものである。請求項
7に記載の発明は、図9に示すように、請求項1に記載
の文書処理装置において、前記嗜好ベクトル取得手段1
01は、前記ユーザーが作成した文書又はアクセスした
文書に対する複数の文書ベクトルから前記嗜好ベクトル
を作成する文書処理装置を提供することにより前記目的
を達成するものである。請求項8に記載の発明は、図1
0に示すように、請求項1または請求項2に記載の文書
処理装置において、複数のユーザーと、複数の前記ユー
ザーそれぞれの嗜好を表す複数のキーワードとの一方を
行、他方を列とし、前記各ユーザーに対する前記各キー
ワードの重要度を要素値とするGP行列を取得するGP
行列取得手段105を備え、前記嗜好ベクトル取得手段
101は、前記GP行列により前記嗜好ベクトルを取得
する文書処理装置を提供することにより前記目的を達成
するものである。請求項9に記載の発明は、図10に示
すように、請求項3に記載の文書処理装置において、前
記GP行列取得手段105は、ユーザーが過去に処理し
た文書と該文書のキーワードとのうちの一方を行、他方
を列とし、前記文書におけるキーワードの重要度を要素
値とする文書−キーワード行列と、ユーザーが過去に処
理した文書とユーザーとのうちの一方を行、他方を列と
し、各ユーザーの前記文書の処理回数を要素とする文書
−ユーザー行列と、からGP行列を取得する文書処理装
置を提供することにより前記目的を達成するものであ
る。請求項10に記載の発明は、図11に示すように、
請求項1から請求項4のうちのいずれか1の請求項に記
載の文書処理装置において、所定の文書の文書ベクトル
を嗜好ベクトルによりシフトさせた嗜好文書ベクトル
と、他の文書の文書ベクトルから、前記所定の文書と前
記他の文書との類似度を算出する類似度算出手段106
を具備する文書処理装置を提供することにより前記目的
を達成するものである。請求項11に記載の発明は、図
12に示すように、ユーザーの嗜好を表す複数のキーワ
ードに対する重要度を要素値とする嗜好ベクトルを取得
する嗜好ベクトル取得機能201と、文書を取得する文
書取得機能202と、前記文書取得機能202により取
得された文書を特徴付ける文書ベクトルを取得する文書
ベクトル取得機能203と、前記文書ベクトル取得機能
203により取得された前記文書ベクトルを前記嗜好ベ
クトルによりシフトさせるシフト機能204とをコンピ
ュータに実現させるためのコンピュータ読み取り可能な
文書処理プログラムが記憶された記憶媒体を提供するこ
とにより前記目的を達成するものである。請求項12に
記載の発明は、図12に示すように、請求項6に記載の
記憶媒体において、前記嗜好ベクトル取得機能201
は、前記ユーザーが作成した文書又はアクセスした文書
に対する複数の文書ベクトルから前記嗜好ベクトルを作
成する文書処理プログラムが記憶された記憶媒体を提供
することにより前記目的を達成するものである。請求項
13に記載の発明は、図13に示すように、請求項6ま
たは請求項7に記載の記憶媒体において、複数のユーザ
ーと、複数の前記ユーザーそれぞれの嗜好を表す複数の
キーワードとの一方を行、他方を列とし、前記各ユーザ
ーに対する前記各キーワードの重要度を要素値とするG
P行列を取得するGP行列取得機能205を備え、前記
嗜好ベクトル取得機能201は、前記GP行列により前
記嗜好ベクトルを取得する文書処理プログラムが記憶さ
れた記憶媒体を提供することにより前記目的を達成す
る。請求項14に記載の発明は、図13に示すように、
前記GP行列取得機能205は、ユーザーが過去に処理
した文書と該文書のキーワードとのうちの一方を行、他
方を列とし、前記文書におけるキーワードの重要度を要
素値とする文書−キーワード行列と、ユーザーが過去に
処理した文書とユーザーとのうちの一方を行、他方を列
とし、各ユーザーの前記文書の処理回数を要素とする文
書−ユーザー行列と、からGP行列を取得する文書処理
プログラムが記憶された記憶媒体を提供することにより
前記目的を達成するものである。請求項15に記載の発
明は、図14に示すように、請求項6から請求項9のう
ちのいずれか1の請求項に記載の記憶媒体において、所
定の文書の文書ベクトルを嗜好ベクトルによりシフトさ
せた嗜好文書ベクトルと、他の文書の文書ベクトルか
ら、前記所定の文書と前記他の文書との類似度を算出す
る類似度算出機能206を具備する文書処理プログラム
が記憶された記憶媒体を提供することにより前記目的を
達成するものである。請求項16に記載の発明は、図1
5に示すように、ユーザーの嗜好を表す複数のキーワー
ドに対する重要度を要素値とする嗜好ベクトルと文書と
を取得301し、前記文書を特徴付ける文書ベクトルを
取得302し、前記文書ベクトルを前記嗜好ベクトルに
よりシフト303させる文書処理方法を提供することに
より前記目的を達成するものである。
に、ユーザーの嗜好を表す複数のキーワードに対する重
要度を要素値とする嗜好ベクトルを取得する嗜好ベクト
ル取得手段101と、文書を取得する文書取得手段10
2と、前記文書取得手段102により取得された文書を
特徴付ける文書ベクトルを取得する文書ベクトル取得手
段103と、前記文書ベクトル取得手段により取得され
た前記文書ベクトルを前記嗜好ベクトルによりシフトさ
せるシフト手段104とを具備する文書処理装置を提供
することにより前記目的を達成するものである。請求項
7に記載の発明は、図9に示すように、請求項1に記載
の文書処理装置において、前記嗜好ベクトル取得手段1
01は、前記ユーザーが作成した文書又はアクセスした
文書に対する複数の文書ベクトルから前記嗜好ベクトル
を作成する文書処理装置を提供することにより前記目的
を達成するものである。請求項8に記載の発明は、図1
0に示すように、請求項1または請求項2に記載の文書
処理装置において、複数のユーザーと、複数の前記ユー
ザーそれぞれの嗜好を表す複数のキーワードとの一方を
行、他方を列とし、前記各ユーザーに対する前記各キー
ワードの重要度を要素値とするGP行列を取得するGP
行列取得手段105を備え、前記嗜好ベクトル取得手段
101は、前記GP行列により前記嗜好ベクトルを取得
する文書処理装置を提供することにより前記目的を達成
するものである。請求項9に記載の発明は、図10に示
すように、請求項3に記載の文書処理装置において、前
記GP行列取得手段105は、ユーザーが過去に処理し
た文書と該文書のキーワードとのうちの一方を行、他方
を列とし、前記文書におけるキーワードの重要度を要素
値とする文書−キーワード行列と、ユーザーが過去に処
理した文書とユーザーとのうちの一方を行、他方を列と
し、各ユーザーの前記文書の処理回数を要素とする文書
−ユーザー行列と、からGP行列を取得する文書処理装
置を提供することにより前記目的を達成するものであ
る。請求項10に記載の発明は、図11に示すように、
請求項1から請求項4のうちのいずれか1の請求項に記
載の文書処理装置において、所定の文書の文書ベクトル
を嗜好ベクトルによりシフトさせた嗜好文書ベクトル
と、他の文書の文書ベクトルから、前記所定の文書と前
記他の文書との類似度を算出する類似度算出手段106
を具備する文書処理装置を提供することにより前記目的
を達成するものである。請求項11に記載の発明は、図
12に示すように、ユーザーの嗜好を表す複数のキーワ
ードに対する重要度を要素値とする嗜好ベクトルを取得
する嗜好ベクトル取得機能201と、文書を取得する文
書取得機能202と、前記文書取得機能202により取
得された文書を特徴付ける文書ベクトルを取得する文書
ベクトル取得機能203と、前記文書ベクトル取得機能
203により取得された前記文書ベクトルを前記嗜好ベ
クトルによりシフトさせるシフト機能204とをコンピ
ュータに実現させるためのコンピュータ読み取り可能な
文書処理プログラムが記憶された記憶媒体を提供するこ
とにより前記目的を達成するものである。請求項12に
記載の発明は、図12に示すように、請求項6に記載の
記憶媒体において、前記嗜好ベクトル取得機能201
は、前記ユーザーが作成した文書又はアクセスした文書
に対する複数の文書ベクトルから前記嗜好ベクトルを作
成する文書処理プログラムが記憶された記憶媒体を提供
することにより前記目的を達成するものである。請求項
13に記載の発明は、図13に示すように、請求項6ま
たは請求項7に記載の記憶媒体において、複数のユーザ
ーと、複数の前記ユーザーそれぞれの嗜好を表す複数の
キーワードとの一方を行、他方を列とし、前記各ユーザ
ーに対する前記各キーワードの重要度を要素値とするG
P行列を取得するGP行列取得機能205を備え、前記
嗜好ベクトル取得機能201は、前記GP行列により前
記嗜好ベクトルを取得する文書処理プログラムが記憶さ
れた記憶媒体を提供することにより前記目的を達成す
る。請求項14に記載の発明は、図13に示すように、
前記GP行列取得機能205は、ユーザーが過去に処理
した文書と該文書のキーワードとのうちの一方を行、他
方を列とし、前記文書におけるキーワードの重要度を要
素値とする文書−キーワード行列と、ユーザーが過去に
処理した文書とユーザーとのうちの一方を行、他方を列
とし、各ユーザーの前記文書の処理回数を要素とする文
書−ユーザー行列と、からGP行列を取得する文書処理
プログラムが記憶された記憶媒体を提供することにより
前記目的を達成するものである。請求項15に記載の発
明は、図14に示すように、請求項6から請求項9のう
ちのいずれか1の請求項に記載の記憶媒体において、所
定の文書の文書ベクトルを嗜好ベクトルによりシフトさ
せた嗜好文書ベクトルと、他の文書の文書ベクトルか
ら、前記所定の文書と前記他の文書との類似度を算出す
る類似度算出機能206を具備する文書処理プログラム
が記憶された記憶媒体を提供することにより前記目的を
達成するものである。請求項16に記載の発明は、図1
5に示すように、ユーザーの嗜好を表す複数のキーワー
ドに対する重要度を要素値とする嗜好ベクトルと文書と
を取得301し、前記文書を特徴付ける文書ベクトルを
取得302し、前記文書ベクトルを前記嗜好ベクトルに
よりシフト303させる文書処理方法を提供することに
より前記目的を達成するものである。
【0007】
【発明の実施の形態】以下、本発明の文書処理装置、文
書処理プログラムが記憶された記憶媒体、文書処理方
法、本発明の類似度表示装置、類似度表示プログラムが
記憶された記憶媒体、及び類似度表示方法の好適な実施
の形態について、図面を参照して詳細に説明する。 (1)実施形態の概要 本実施形態では、過去の処理文書中の出現頻度等から処
理重要語句(キーワード)a,b,…を取得し、処理重
要語句の処理文書中の出現頻度、各処理文書の処理回
数、処理したメンバーの重要度から、ユーザー全体の嗜
好を表すGPベクトルを取得する。また、類似度を取得
する基準となる基準文書Aにおける処理重要語句a,
b,…の重要度g(a),g(b),…を取得し、重要
度g(a),g(b),…を要素とする文書ベクトルV
aを取得し、GPベクトルと文書ベクトルVa,Vb,
Vc,…の各要素を掛け合わせて嗜好文書ベクトルV’
aを得る。この嗜好文書ベクトルには、ユーザーの嗜好
が反映されている。嗜好文書ベクトルV’aと他の文書
の文書ベクトルVb,とでなす角qのコサイン値cos
(q)を、基準文書Aと他の文書Bとの類似度とする。
この類似度が大きいほど、他の文書はユーザーの嗜好に
近いものとなる。
書処理プログラムが記憶された記憶媒体、文書処理方
法、本発明の類似度表示装置、類似度表示プログラムが
記憶された記憶媒体、及び類似度表示方法の好適な実施
の形態について、図面を参照して詳細に説明する。 (1)実施形態の概要 本実施形態では、過去の処理文書中の出現頻度等から処
理重要語句(キーワード)a,b,…を取得し、処理重
要語句の処理文書中の出現頻度、各処理文書の処理回
数、処理したメンバーの重要度から、ユーザー全体の嗜
好を表すGPベクトルを取得する。また、類似度を取得
する基準となる基準文書Aにおける処理重要語句a,
b,…の重要度g(a),g(b),…を取得し、重要
度g(a),g(b),…を要素とする文書ベクトルV
aを取得し、GPベクトルと文書ベクトルVa,Vb,
Vc,…の各要素を掛け合わせて嗜好文書ベクトルV’
aを得る。この嗜好文書ベクトルには、ユーザーの嗜好
が反映されている。嗜好文書ベクトルV’aと他の文書
の文書ベクトルVb,とでなす角qのコサイン値cos
(q)を、基準文書Aと他の文書Bとの類似度とする。
この類似度が大きいほど、他の文書はユーザーの嗜好に
近いものとなる。
【0008】(2)実施形態の詳細 図1は、本発明の文書処理装置の第1の実施形態であ
り、本発明の文書処理プログラムが記憶された記憶媒体
の第1の実施形態の該プログラムが読み取られたコンピ
ュータの構成を表したブロック図である。この図1に示
すように、文書処理装置(コンピュータ)は、装置全体
を制御するための制御部11を備えている。この制御部
11には、データバス等のバスライン21を介して、入
力装置としてのキーボード12やマウス13、表示装置
14、印刷装置15、記憶装置16、記憶媒体駆動装置
17、通信制御装置18、入出力I/F19、及び文字
認識装置20が接続されている。制御部11は、CPU
111、ROM112、RAM113を備えている。R
OM112は、CPU111が各種制御や演算を行うた
めの各種プログラムやデータが予め格納されたリードオ
ンリーメモリである。
り、本発明の文書処理プログラムが記憶された記憶媒体
の第1の実施形態の該プログラムが読み取られたコンピ
ュータの構成を表したブロック図である。この図1に示
すように、文書処理装置(コンピュータ)は、装置全体
を制御するための制御部11を備えている。この制御部
11には、データバス等のバスライン21を介して、入
力装置としてのキーボード12やマウス13、表示装置
14、印刷装置15、記憶装置16、記憶媒体駆動装置
17、通信制御装置18、入出力I/F19、及び文字
認識装置20が接続されている。制御部11は、CPU
111、ROM112、RAM113を備えている。R
OM112は、CPU111が各種制御や演算を行うた
めの各種プログラムやデータが予め格納されたリードオ
ンリーメモリである。
【0009】RAM113は、CPU111にワーキン
グメモリとして使用されるランダムアクセスメモリであ
る。このRAM113には、本実施形態による文書ベク
トル取得処理を行うためのエリアとして、文書ベクトル
取得の対象となる文書を格納する対象文書格納エリア1
131、キーワード格納エリア1132、文書ベクトル
格納エリア1134が確保され、また、嗜好文書ベクト
ル取得処理を行うためのエリアとして、行列格納エリア
1135、嗜好文書ベクトル格納エリア1136、類似
度格納エリア1137その他の各種エリアが確保される
ようになっている。
グメモリとして使用されるランダムアクセスメモリであ
る。このRAM113には、本実施形態による文書ベク
トル取得処理を行うためのエリアとして、文書ベクトル
取得の対象となる文書を格納する対象文書格納エリア1
131、キーワード格納エリア1132、文書ベクトル
格納エリア1134が確保され、また、嗜好文書ベクト
ル取得処理を行うためのエリアとして、行列格納エリア
1135、嗜好文書ベクトル格納エリア1136、類似
度格納エリア1137その他の各種エリアが確保される
ようになっている。
【0010】キーボード12は、かな文字を入力するた
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス13は、ポインティングデバイスであり、表
示装置14に表示されたキーやアイコン等を左クリック
することで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が
使用される。この表示装置14には、文書ベクトルを取
得する対象文書の内容や、本実施形態により算出された
文書間の類似度、算出された類似度をもとに行った検索
結果や分類結果等が表示されるようになっている。印刷
装置15は、表示装置14に表示された文章や、記憶装
置16の文書データベース164に格納された文書等の
印刷を行うためのものである。この印刷装置としては、
レーザプリンタ、ドットプリンタ、インクジェットプリ
ンタ、ページプリンタ、感熱式プリンタ、熱転写式プリ
ンタ、等の各種印刷装置が使用される。
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス13は、ポインティングデバイスであり、表
示装置14に表示されたキーやアイコン等を左クリック
することで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が
使用される。この表示装置14には、文書ベクトルを取
得する対象文書の内容や、本実施形態により算出された
文書間の類似度、算出された類似度をもとに行った検索
結果や分類結果等が表示されるようになっている。印刷
装置15は、表示装置14に表示された文章や、記憶装
置16の文書データベース164に格納された文書等の
印刷を行うためのものである。この印刷装置としては、
レーザプリンタ、ドットプリンタ、インクジェットプリ
ンタ、ページプリンタ、感熱式プリンタ、熱転写式プリ
ンタ、等の各種印刷装置が使用される。
【0011】記憶装置16は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書161、プログラム格納部1
62、文書データベース164、重要語データベース1
65、行列データベース168、文書ベクトルデータベ
ース166、嗜好文書ベクトルデータベース167、図
示しないその他の格納部(例えば、この記憶装置16内
に格納されているプログラムやデータ等をバックアップ
するための格納部)等を有している。プログラム格納部
162には、本実施形態における嗜好文書ベクトル取得
処理プログラム、類似度算出処理プログラム等の各種プ
ログラムの他、仮名漢字変換辞書161を使用して入力
された仮名文字列を漢字混り文に変換する仮名漢字変換
プログラム等の各種プログラムが格納されている。
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書161、プログラム格納部1
62、文書データベース164、重要語データベース1
65、行列データベース168、文書ベクトルデータベ
ース166、嗜好文書ベクトルデータベース167、図
示しないその他の格納部(例えば、この記憶装置16内
に格納されているプログラムやデータ等をバックアップ
するための格納部)等を有している。プログラム格納部
162には、本実施形態における嗜好文書ベクトル取得
処理プログラム、類似度算出処理プログラム等の各種プ
ログラムの他、仮名漢字変換辞書161を使用して入力
された仮名文字列を漢字混り文に変換する仮名漢字変換
プログラム等の各種プログラムが格納されている。
【0012】文書データベース164には、仮名漢字変
換プログラムにより作成された文書や、他の装置で作成
されて記憶媒体駆動装置17や通信制御装置18から読
み込まれた文書が格納される。この文書データベース1
64に格納される各文書の形式は特に限定されるもので
はなく、テキスト形式の文書、HTML(Hyper TextMa
rkup Language)形式の文書、JIS形式の文書等の各
種形式の文書の格納が可能である。更にこの文書データ
ベース164には、文書を処理したユーザー(処理者)
及びその処理回数が各文書に対応付けて格納されてい
る。前記処理回数は、所定期間毎に値を0にリセットさ
れる。重要語データベース165には、前記所定期間内
に処理した処理文書から抽出された重要語句(処理重要
語句)及びその重要度(処理重要度)が格納される。
換プログラムにより作成された文書や、他の装置で作成
されて記憶媒体駆動装置17や通信制御装置18から読
み込まれた文書が格納される。この文書データベース1
64に格納される各文書の形式は特に限定されるもので
はなく、テキスト形式の文書、HTML(Hyper TextMa
rkup Language)形式の文書、JIS形式の文書等の各
種形式の文書の格納が可能である。更にこの文書データ
ベース164には、文書を処理したユーザー(処理者)
及びその処理回数が各文書に対応付けて格納されてい
る。前記処理回数は、所定期間毎に値を0にリセットさ
れる。重要語データベース165には、前記所定期間内
に処理した処理文書から抽出された重要語句(処理重要
語句)及びその重要度(処理重要度)が格納される。
【0013】行列データベース168には、過去の所定
期間に行われた文書処理の処理内容により取得される行
列Ga,Gb,Gcが格納されている。文書ベクトル
は、これらの行列Ga,Gb,Gcにより取得されるG
P(Group Personalize)行列をもとに、嗜好文書ベク
トルに変換される。図2(a)〜(c)は、行列Ga,
Gb,Gcを示す説明図である。
期間に行われた文書処理の処理内容により取得される行
列Ga,Gb,Gcが格納されている。文書ベクトル
は、これらの行列Ga,Gb,Gcにより取得されるG
P(Group Personalize)行列をもとに、嗜好文書ベク
トルに変換される。図2(a)〜(c)は、行列Ga,
Gb,Gcを示す説明図である。
【0014】行列Ga(文書−キーワード行列)は、図
2(a)に示すように、前記所処理重要語句を行に、同
処理文書を列にとった行列であり、各要素は処理重要語
句の処理重要度f(x)を表している。行列Gb(文書
−ユーザー行列)は、図2(b)に示すように、前記処
理文書を行にとり、ユーザーのメンバーを列にとった行
列であり、各要素は、メンバーが各文書を前記所定期間
内に処理した回数となっている。行列Gcは、図2
(c)に示すように、行および列がともにユーザーのメ
ンバーそれぞれの重要度係数を示している。行列Ga及
び行列Gbは所定期間ごとに書き換えられ、行列Gcは
操作者からの入力により適宜書き換えられる。
2(a)に示すように、前記所処理重要語句を行に、同
処理文書を列にとった行列であり、各要素は処理重要語
句の処理重要度f(x)を表している。行列Gb(文書
−ユーザー行列)は、図2(b)に示すように、前記処
理文書を行にとり、ユーザーのメンバーを列にとった行
列であり、各要素は、メンバーが各文書を前記所定期間
内に処理した回数となっている。行列Gcは、図2
(c)に示すように、行および列がともにユーザーのメ
ンバーそれぞれの重要度係数を示している。行列Ga及
び行列Gbは所定期間ごとに書き換えられ、行列Gcは
操作者からの入力により適宜書き換えられる。
【0015】文書ベクトルデータベース166、及び嗜
好文書ベクトルデータベース167には、本実施形態に
おいて類似度を算出する基準となる基準文書、及び、該
基準文書に対する類似度を比較する対象文書それぞれの
文書ベクトル及び嗜好文書ベクトルが格納される。
好文書ベクトルデータベース167には、本実施形態に
おいて類似度を算出する基準となる基準文書、及び、該
基準文書に対する類似度を比較する対象文書それぞれの
文書ベクトル及び嗜好文書ベクトルが格納される。
【0016】記憶媒体駆動装置17は、CPU111が
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラムには、本実施
形態の文書処理装置により実行される各種処理のための
プログラム、および、そこで使用される辞書、データ等
も含まれる。ここで、記憶媒体とは、コンピュータプロ
グラムやデータ等が記憶される記憶媒体をいい、具体的
には、フロッピーディスク、ハードディスク、磁気テー
プ等の磁気記憶媒体、メモリチップやICカード等の半
導体記憶媒体、CD−ROMやMO、PD(相変化書換
型光ディスク)等の光学的に情報が読み取られる記憶媒
体、紙カードや紙テープ等の用紙(および、用紙に相当
する機能を持った媒体)を用いた記憶媒体、その他各種
方法でコンピュータプログラム等が記憶される記憶媒体
が含まれる。本実施形態の文書処理装置において使用さ
れる記憶媒体としては、主として、CD−ROMやフロ
ッピーディスクが使用される。記憶媒体駆動装置17
は、これらの各種記憶媒体からコンピュータプログラム
を読み込む他に、フロッピーディスクのような書き込み
可能な記憶媒体に対してRAM113や記憶装置16に
格納されているデータ等を書き込むことが可能である。
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラムには、本実施
形態の文書処理装置により実行される各種処理のための
プログラム、および、そこで使用される辞書、データ等
も含まれる。ここで、記憶媒体とは、コンピュータプロ
グラムやデータ等が記憶される記憶媒体をいい、具体的
には、フロッピーディスク、ハードディスク、磁気テー
プ等の磁気記憶媒体、メモリチップやICカード等の半
導体記憶媒体、CD−ROMやMO、PD(相変化書換
型光ディスク)等の光学的に情報が読み取られる記憶媒
体、紙カードや紙テープ等の用紙(および、用紙に相当
する機能を持った媒体)を用いた記憶媒体、その他各種
方法でコンピュータプログラム等が記憶される記憶媒体
が含まれる。本実施形態の文書処理装置において使用さ
れる記憶媒体としては、主として、CD−ROMやフロ
ッピーディスクが使用される。記憶媒体駆動装置17
は、これらの各種記憶媒体からコンピュータプログラム
を読み込む他に、フロッピーディスクのような書き込み
可能な記憶媒体に対してRAM113や記憶装置16に
格納されているデータ等を書き込むことが可能である。
【0017】本実施形態の文書処理装置では、制御部1
1のCPU111が、記憶媒体駆動装置17にセットさ
れた外部の記憶媒体からコンピュータプログラムを読み
込んで、記憶装置16の各部に格納(インストール)す
る。そして、本実施形態による類似度算出等の各種処理
を実行する場合、記憶装置16から該当プログラムをR
AM113に読み込み、実行するようになっている。但
し、記憶装置16からではなく、記憶媒体駆動装置17
により外部の記憶媒体から直接RAM113に読み込ん
で実行することも可能である。また、文書処理装置によ
っては、本実施形態の嗜好文書ベクトル取得処理プログ
ラム等を予めROM112に記憶しておき、これをCP
U111が実行するようにしてもよい。
1のCPU111が、記憶媒体駆動装置17にセットさ
れた外部の記憶媒体からコンピュータプログラムを読み
込んで、記憶装置16の各部に格納(インストール)す
る。そして、本実施形態による類似度算出等の各種処理
を実行する場合、記憶装置16から該当プログラムをR
AM113に読み込み、実行するようになっている。但
し、記憶装置16からではなく、記憶媒体駆動装置17
により外部の記憶媒体から直接RAM113に読み込ん
で実行することも可能である。また、文書処理装置によ
っては、本実施形態の嗜好文書ベクトル取得処理プログ
ラム等を予めROM112に記憶しておき、これをCP
U111が実行するようにしてもよい。
【0018】通信制御装置18は、他のパーソナルコン
ピュータやワードプロセッサ等との間でテキスト形式や
HTML形式等の各種形式の文書やビットマップデータ
等の各種データの送受信を行うことができるようになっ
ている。入出力I/F19は、音声や音楽等の出力を行
うスピーカ等の各種機器を接続するためのインターフェ
ースである。文字認識装置20は、用紙等に記載された
文字をテキスト形式やHTML等の各種形式で認識する
装置であり、イメージスキャナや文字認識プログラム等
で構成されている。
ピュータやワードプロセッサ等との間でテキスト形式や
HTML形式等の各種形式の文書やビットマップデータ
等の各種データの送受信を行うことができるようになっ
ている。入出力I/F19は、音声や音楽等の出力を行
うスピーカ等の各種機器を接続するためのインターフェ
ースである。文字認識装置20は、用紙等に記載された
文字をテキスト形式やHTML等の各種形式で認識する
装置であり、イメージスキャナや文字認識プログラム等
で構成されている。
【0019】本実施形態では、キーボード12の入力操
作により作成した文書(RAM113の所定格納エリア
に格納)の他、外部で作成して所定の記憶媒体に格納し
た文書で記憶媒体駆動装置17から読み込んだ文書、予
め文書データベース164に格納されている文書、通信
制御装置18からダウンロードした文書、及び文字認識
装置20で文字認識した文書、等の各種文書を対象文書
として取得することが可能である。
作により作成した文書(RAM113の所定格納エリア
に格納)の他、外部で作成して所定の記憶媒体に格納し
た文書で記憶媒体駆動装置17から読み込んだ文書、予
め文書データベース164に格納されている文書、通信
制御装置18からダウンロードした文書、及び文字認識
装置20で文字認識した文書、等の各種文書を対象文書
として取得することが可能である。
【0020】次に、上述のような構成の文書処理装置に
よる嗜好文書ベクトル取得処理及び類似度算出処理につ
いて図面を参照して説明する。
よる嗜好文書ベクトル取得処理及び類似度算出処理につ
いて図面を参照して説明する。
【0021】本実施形態においては、所定期間毎に、該
所定期間内に行われた文書処理の処理内容基づいて新た
な処理重要語句及び処理重要度が取得され、行列データ
ベース168内の行列Ga及び行列Gbが書き換えられ
る。
所定期間内に行われた文書処理の処理内容基づいて新た
な処理重要語句及び処理重要度が取得され、行列データ
ベース168内の行列Ga及び行列Gbが書き換えられ
る。
【0022】図3は、行列Ga,Gb書き換え処理の動
作を表したフローチャートである。CPU111は、所
定期間内に処理された文書(処理文書)を文書データベ
ース164から順次取得してRAM113の所定作業領
域に格納し(ステップ11)、各処理文書についての重
要語句(処理重要語句)及びその重要度(処理重要度)
を取得する(ステップ12)。
作を表したフローチャートである。CPU111は、所
定期間内に処理された文書(処理文書)を文書データベ
ース164から順次取得してRAM113の所定作業領
域に格納し(ステップ11)、各処理文書についての重
要語句(処理重要語句)及びその重要度(処理重要度)
を取得する(ステップ12)。
【0023】図4は処理重要語句・処理重要度取得処理
の動作を表したフローチャートである。図4に示すよう
に、CPU111は、文書データベース164から取得
した処理文書について、各処理文書毎に形態素解析を行
うことで自立語を抽出する(ステップ121)と共に、
名詞句、複合名詞句等を含めた候補語(句)を処理文書
から抽出する(ステップ122)。次に、抽出した候補
語(句)の処理文書での出現頻度、評価関数から、各候
補語(句)の処理重要度f(x)を取得する(ステップ
123)。ここで、評価関数としては、例えば、所定の
重要語句が予め指定されている場合にはその重要語句に
対する重み付け、単語、名詞句、複合名詞句等の候補語
(句)の種類による重み付け等が使用される。
の動作を表したフローチャートである。図4に示すよう
に、CPU111は、文書データベース164から取得
した処理文書について、各処理文書毎に形態素解析を行
うことで自立語を抽出する(ステップ121)と共に、
名詞句、複合名詞句等を含めた候補語(句)を処理文書
から抽出する(ステップ122)。次に、抽出した候補
語(句)の処理文書での出現頻度、評価関数から、各候
補語(句)の処理重要度f(x)を取得する(ステップ
123)。ここで、評価関数としては、例えば、所定の
重要語句が予め指定されている場合にはその重要語句に
対する重み付け、単語、名詞句、複合名詞句等の候補語
(句)の種類による重み付け等が使用される。
【0024】さらにCPU111は、取得した処理重要
度f(x)の値をもとに候補語(句)から処理重要語句
a,b,…を取得し(ステップ124)、この処理重要
語句a,b,…及びその処理重要度f(a),f
(b),…を重要語データベース165に格納する(ス
テップ125)。すべての処理文書について、処理重要
語句及びその処理重要度を取得すると、図4に示す行列
Ga,Gb書き換え処理ルーチンへリターンする。
度f(x)の値をもとに候補語(句)から処理重要語句
a,b,…を取得し(ステップ124)、この処理重要
語句a,b,…及びその処理重要度f(a),f
(b),…を重要語データベース165に格納する(ス
テップ125)。すべての処理文書について、処理重要
語句及びその処理重要度を取得すると、図4に示す行列
Ga,Gb書き換え処理ルーチンへリターンする。
【0025】続いて、CPU111は、行列データベー
ス168の行列Gaを、前記処理重要語句a,b,…を
行に、前記所定期間の処理文書を列に、また処理重要度
f(a),f(b),…を各要素にとったものに書き換
える(ステップ13)。このとき、行列Gaの行数は、
各処理文書の処理重要語句の和集合の数とし、各処理文
書において含まれていない処理重要語句については、そ
の処理重要度f(x)は0と定義される。
ス168の行列Gaを、前記処理重要語句a,b,…を
行に、前記所定期間の処理文書を列に、また処理重要度
f(a),f(b),…を各要素にとったものに書き換
える(ステップ13)。このとき、行列Gaの行数は、
各処理文書の処理重要語句の和集合の数とし、各処理文
書において含まれていない処理重要語句については、そ
の処理重要度f(x)は0と定義される。
【0026】例えば図2おいて、処理文書Bの処理重要
語は「重要、重要語、重要度、…」、処理文書Cの処理
重要語句は「重要、…、政治、…」であり、これらの処
理重要語句に対応する処理重要度は、処理文書Bについ
ては( 1,18,19,…)、処理文書Cについては
(18,…,21,…)である。これに対して行列Ga
においては、その行は「重要、重要語、重要度、…、政
治、…」とし、両文書の列における要素値はつぎの通り
定義される。 処理文書Bの列=( 1,18,19,…, 0,
…)、 処理文書Cの列=(18, 0, 0,…,21,…)
語は「重要、重要語、重要度、…」、処理文書Cの処理
重要語句は「重要、…、政治、…」であり、これらの処
理重要語句に対応する処理重要度は、処理文書Bについ
ては( 1,18,19,…)、処理文書Cについては
(18,…,21,…)である。これに対して行列Ga
においては、その行は「重要、重要語、重要度、…、政
治、…」とし、両文書の列における要素値はつぎの通り
定義される。 処理文書Bの列=( 1,18,19,…, 0,
…)、 処理文書Cの列=(18, 0, 0,…,21,…)
【0027】また、CPU111は、文書データベース
164から、各処理文書の処理回数を取得し(ステップ
14)、行列Gbを、所定期間内の処理文書を行に、文
書データベース164から取得した処理回数を各要素と
したものに書き換えて(ステップ15)、行列Ga,G
b書き換え処理を終了する。
164から、各処理文書の処理回数を取得し(ステップ
14)、行列Gbを、所定期間内の処理文書を行に、文
書データベース164から取得した処理回数を各要素と
したものに書き換えて(ステップ15)、行列Ga,G
b書き換え処理を終了する。
【0028】図5は、本実施形態による文書嗜好ベクト
ル取得処理の動作を示すフローチャートである。嗜好文
書ベクトル取得に際しては、嗜好文書ベクトル取得の対
象となる文書(対象文書)を取得し、RAM113の対
象文書格納エリア1131に格納する(ステップ2
1)。対象文書は、ユーザの指示に従ってRAM11
3、記憶装置16の文書データベース164、記憶媒体
駆動装置17、または通信制御装置18(パソコン通
信、インターネット等の通信による場合)から取得す
る。
ル取得処理の動作を示すフローチャートである。嗜好文
書ベクトル取得に際しては、嗜好文書ベクトル取得の対
象となる文書(対象文書)を取得し、RAM113の対
象文書格納エリア1131に格納する(ステップ2
1)。対象文書は、ユーザの指示に従ってRAM11
3、記憶装置16の文書データベース164、記憶媒体
駆動装置17、または通信制御装置18(パソコン通
信、インターネット等の通信による場合)から取得す
る。
【0029】次にCPU111は、対象文書中から行列
Gaの処理重要語句を抽出する(ステップ22)。次
に、抽出した処理重要語句の対象文書中での出現頻度、
評価関数等から、重要度g(y)を取得する(ステップ
23)。ここで、評価関数としては、例えば、処理重要
語句に対する予め指定されている重み付け、単語、名詞
句、複合名詞句等の候補語(句)の種類による重み付け
等が使用される。
Gaの処理重要語句を抽出する(ステップ22)。次
に、抽出した処理重要語句の対象文書中での出現頻度、
評価関数等から、重要度g(y)を取得する(ステップ
23)。ここで、評価関数としては、例えば、処理重要
語句に対する予め指定されている重み付け、単語、名詞
句、複合名詞句等の候補語(句)の種類による重み付け
等が使用される。
【0030】そして、この処理重要語句a,b,…の対
象文書中における重要度g(a),g(b)、…を要素
とする文書ベクトルVを取得する(ステップ24)。
象文書中における重要度g(a),g(b)、…を要素
とする文書ベクトルVを取得する(ステップ24)。
【0031】文書ベクトルVを取得すると、CPU11
1は、行列データベース168から行列Ga,Gb,G
cを取得し、次の式に従って、GP行列を求める(ステ
ップ25)。 GP=Ga・Gb・Gc 従って、本実施形態におけるGP行列は、Ga行列の次
元合わせを行った行をそのまま行にとり、ユーザーの各
メンバーを列にとってなっており、GP行列の各要素
は、メンバー毎の過去の文書処理における処理重要語句
の処理重要度f(x)に各メンバーの重要度を加味して
表した数値となっている。
1は、行列データベース168から行列Ga,Gb,G
cを取得し、次の式に従って、GP行列を求める(ステ
ップ25)。 GP=Ga・Gb・Gc 従って、本実施形態におけるGP行列は、Ga行列の次
元合わせを行った行をそのまま行にとり、ユーザーの各
メンバーを列にとってなっており、GP行列の各要素
は、メンバー毎の過去の文書処理における処理重要語句
の処理重要度f(x)に各メンバーの重要度を加味して
表した数値となっている。
【0032】GP行列が取得されると、続いてCPU1
11は、このGP行列をもとにGPベクトル(嗜好ベク
トル)を取得する(ステップ26)。図6は、GP行列
からGPベクトルを算出する行程を概念的に説明する説
明図である。
11は、このGP行列をもとにGPベクトル(嗜好ベク
トル)を取得する(ステップ26)。図6は、GP行列
からGPベクトルを算出する行程を概念的に説明する説
明図である。
【0033】CPU111は、まず、GP行列の各要素
gij(i=1〜メンバー数m、j=1〜処理重要語句
の和集合の数k)の各行毎の要素の平均値を算出して列
ベクトル(総GPベクトル)を得る(図6(1)→
(2))。この総GPベクトルは、各要素giが処理重
要語句毎のユーザーグループ全体における過去の文書処
理での出現頻度(但し各処理重要語句の予め決められた
処理重要語句の重み等や、メンバーの重要度が加味され
ている)を反映した数値となっている。CPU111
は、更に、この総GPベクトルの各要素giを文書の処
理回数の総数で割って、1列のGPベクトルを得る(図
6(2)→(3))。この様に、総GPベクトルを文書
の処理回数の総数で割るのは、行列Gbに文書の処理回
数が要素として含まれており、処理回数が増えるに従っ
てGPベクトルが大きくなっていくのを回避するためで
ある。
gij(i=1〜メンバー数m、j=1〜処理重要語句
の和集合の数k)の各行毎の要素の平均値を算出して列
ベクトル(総GPベクトル)を得る(図6(1)→
(2))。この総GPベクトルは、各要素giが処理重
要語句毎のユーザーグループ全体における過去の文書処
理での出現頻度(但し各処理重要語句の予め決められた
処理重要語句の重み等や、メンバーの重要度が加味され
ている)を反映した数値となっている。CPU111
は、更に、この総GPベクトルの各要素giを文書の処
理回数の総数で割って、1列のGPベクトルを得る(図
6(2)→(3))。この様に、総GPベクトルを文書
の処理回数の総数で割るのは、行列Gbに文書の処理回
数が要素として含まれており、処理回数が増えるに従っ
てGPベクトルが大きくなっていくのを回避するためで
ある。
【0034】そして、CPU111は、GPベクトルの
各要素とこの各要素に対応する文書ベクトルVの要素と
を掛け合わせて、嗜好文書ベクトルV’を得る。嗜好文
書ベクトルV’は、嗜好文書ベクトルデータベース16
7に格納して(ステップ26)、嗜好文書ベクトル取得
処理を終了する。
各要素とこの各要素に対応する文書ベクトルVの要素と
を掛け合わせて、嗜好文書ベクトルV’を得る。嗜好文
書ベクトルV’は、嗜好文書ベクトルデータベース16
7に格納して(ステップ26)、嗜好文書ベクトル取得
処理を終了する。
【0035】図7は、文書ベクトルを嗜好文書ベクトル
にシフトさせた状態を概念的に示す説明図である。尚、
この説明図では、表示の都合上処理重要語句をX,Yの
2つとして説明するが、処理重要語句の数が異なってい
ても、文書ベクトルを嗜好文書ベクトルにシフトさせた
状態については本質的に同様である。図7に示すよう
に、文書ベクトルVp=(0,1)、文書ベクトルVq
=(2,1)、及び文書ベクトルVr=(8,1)をG
Pベクトル=(1,2)によりシフトさせたものであ
る。文書ベクトルVp、文書ベクトルVq、文書ベクト
ルVrは、GPベクトルにより、それぞれ嗜好文書ベク
トルVp’=(0,2)、Vq’=(2,2)、Vr=
(8,2)にシフトされる。このように、出現頻度等に
よって決定される要素値により、文書ベクトルから嗜好
文書ベクトルへ様々な角度でシフトされる。
にシフトさせた状態を概念的に示す説明図である。尚、
この説明図では、表示の都合上処理重要語句をX,Yの
2つとして説明するが、処理重要語句の数が異なってい
ても、文書ベクトルを嗜好文書ベクトルにシフトさせた
状態については本質的に同様である。図7に示すよう
に、文書ベクトルVp=(0,1)、文書ベクトルVq
=(2,1)、及び文書ベクトルVr=(8,1)をG
Pベクトル=(1,2)によりシフトさせたものであ
る。文書ベクトルVp、文書ベクトルVq、文書ベクト
ルVrは、GPベクトルにより、それぞれ嗜好文書ベク
トルVp’=(0,2)、Vq’=(2,2)、Vr=
(8,2)にシフトされる。このように、出現頻度等に
よって決定される要素値により、文書ベクトルから嗜好
文書ベクトルへ様々な角度でシフトされる。
【0036】次に、本実施形態による類似度算出処理に
ついて図8を参照して説明する。図8は、類似度算出処
理の動作を示すフローチャートである。
ついて図8を参照して説明する。図8は、類似度算出処
理の動作を示すフローチャートである。
【0037】類似度算出に際しては、CPU111は、
類似度を算出する基準となる文書(基準文書A)につい
ての文書嗜好ベクトルV’aを取得する(ステップ2
1)。基準文書Aについての文書嗜好ベクトルV’a
は、上述の動作によって、または既に嗜好文書ベクトル
データベース167に格納されている場合にはこの文書
嗜好ベクトルデータベース167から読み出して、取得
する。尚、基準文書Aは、文書データベース164に格
納されている文書等から処理時に選択しても、予め決定
されているものを用いてもよい。また、基準文書Aとし
ては、1つの文書の他、複数の文書よりなる文書群や、
文書群からクラスタリング処理により自動抽出した文書
群を用いることもできる。
類似度を算出する基準となる文書(基準文書A)につい
ての文書嗜好ベクトルV’aを取得する(ステップ2
1)。基準文書Aについての文書嗜好ベクトルV’a
は、上述の動作によって、または既に嗜好文書ベクトル
データベース167に格納されている場合にはこの文書
嗜好ベクトルデータベース167から読み出して、取得
する。尚、基準文書Aは、文書データベース164に格
納されている文書等から処理時に選択しても、予め決定
されているものを用いてもよい。また、基準文書Aとし
ては、1つの文書の他、複数の文書よりなる文書群や、
文書群からクラスタリング処理により自動抽出した文書
群を用いることもできる。
【0038】また、基準文書Aとの類似度を算出する比
較文書Bについての文書ベクトルVbを取得する(ステ
ップ22)。
較文書Bについての文書ベクトルVbを取得する(ステ
ップ22)。
【0039】次に、CPU111は、基準文書Aと比較
文書Bとの類似度Sbを、基準文書Aの嗜好文書ベクト
ルVa’と比較文書Bの文書ベクトルVb間の角度qに
依存するコサインにより求める(ステップ23)。すな
わち、比較文書Bの基準文書Aに対する類似度Sbは、
嗜好文書ベクトルVa’と文書ベクトルVbの間の角度
をq、嗜好文書ベクトルVa’と文書ベクトルVbの内
積をVa’・Vb、嗜好文書ベクトルVa’,文書ベク
トルVbの大きさをそれぞれ|Va’|、|Vb|とし
た場合、次の数式1により求まる。
文書Bとの類似度Sbを、基準文書Aの嗜好文書ベクト
ルVa’と比較文書Bの文書ベクトルVb間の角度qに
依存するコサインにより求める(ステップ23)。すな
わち、比較文書Bの基準文書Aに対する類似度Sbは、
嗜好文書ベクトルVa’と文書ベクトルVbの間の角度
をq、嗜好文書ベクトルVa’と文書ベクトルVbの内
積をVa’・Vb、嗜好文書ベクトルVa’,文書ベク
トルVbの大きさをそれぞれ|Va’|、|Vb|とし
た場合、次の数式1により求まる。
【0040】[数式1] 類似度Sb=COS(q)=(Va’・Vb)/(|V
a’|×|Vb|)
a’|×|Vb|)
【0041】この類似度Sbの値は−1≦Sb≦1まで
の値をとり、1に近いほど比較文書Bの文書ベクトルV
bと基準文書Aの嗜好文書ベクトルVaとの向きが近
く、文書ベクトルVbが嗜好文書ベクトルVaに類似
し、比較文書Bが、ユーザーの嗜好に近いと考えること
ができる。
の値をとり、1に近いほど比較文書Bの文書ベクトルV
bと基準文書Aの嗜好文書ベクトルVaとの向きが近
く、文書ベクトルVbが嗜好文書ベクトルVaに類似
し、比較文書Bが、ユーザーの嗜好に近いと考えること
ができる。
【0042】CPU111は、求められた類似度Sbを
比較文書Bと対応させて類似度格納エリア1137に格
納して(ステップ24)、類似度算出処理を終了する。
比較文書Bと対応させて類似度格納エリア1137に格
納して(ステップ24)、類似度算出処理を終了する。
【0043】この様に、本実施形態では、ユーザーの処
理文書中における処理重要語句の頻出頻度をもとに、基
準文書Aの文書ベクトルVをシフト(文書ベクトルの各
要素値を変換)してユーザーの嗜好を加味した嗜好文書
ベクトルV’を取得し、この嗜好文書ベクトルV’に対
する他の文書の類似度が算出される。従って、この類似
度は、ユーザーの興味や注目度、目的等の嗜好ユーザー
の嗜好に対する指標となるので、この類似度に基づいて
文書の分類や検索を行うことにより、ユーザーの嗜好を
反映した分類や検索が可能となる。また、ユーザーの興
味や注目度等に合う文書を選択して配信することが可能
となる。本実施形態によると、GP行列を用いた変換に
よって文書ベクトルVを嗜好文書ベクトルV’にシフト
させているので、計算処理が簡単であり、ベクトル空間
法を採用したコア・エンジンを備えた一般の文書処理装
置に容易に適用することが可能である。
理文書中における処理重要語句の頻出頻度をもとに、基
準文書Aの文書ベクトルVをシフト(文書ベクトルの各
要素値を変換)してユーザーの嗜好を加味した嗜好文書
ベクトルV’を取得し、この嗜好文書ベクトルV’に対
する他の文書の類似度が算出される。従って、この類似
度は、ユーザーの興味や注目度、目的等の嗜好ユーザー
の嗜好に対する指標となるので、この類似度に基づいて
文書の分類や検索を行うことにより、ユーザーの嗜好を
反映した分類や検索が可能となる。また、ユーザーの興
味や注目度等に合う文書を選択して配信することが可能
となる。本実施形態によると、GP行列を用いた変換に
よって文書ベクトルVを嗜好文書ベクトルV’にシフト
させているので、計算処理が簡単であり、ベクトル空間
法を採用したコア・エンジンを備えた一般の文書処理装
置に容易に適用することが可能である。
【0044】本実施形態によると、文書ベクトルを嗜好
文書ベクトルにシフトさせるGPベクトル(嗜好ベクト
ル)のもととなるGP行列を、表現すべき特徴毎の単純
な観点で構成した行列Ga,Gb,Gcの掛け合わせて
求めているので、様々な特徴を考慮に入れたGP行列を
容易に構成して文書ベクトルVをシフトさせることが可
能である。本実施形態によると、文書ベクトルを嗜好文
書ベクトルにシフトさせるGPベクトルのもととなるG
P行列は、各列がユーザーのメンバーの興味を反映して
いるので、ユーザーを数グループに分割した該グループ
のGP行列や個々のメンバーのGP行列(ベクトル)を
容易に得ることができる。本実施形態よると、GP行列
がユーザーの過去に処理した文書をもとに適宜書き換え
られている行列Ga,Gb,Gcをもとに取得されてい
るので、文書ベクトルVがユーザーの嗜好の経時的掲示
変化に対応した嗜好文書ベクトルV’にシフトされ、ユ
ーザーの嗜好の変遷に追随した類似度の算出および検索
・分類等の処理が可能となる。
文書ベクトルにシフトさせるGPベクトル(嗜好ベクト
ル)のもととなるGP行列を、表現すべき特徴毎の単純
な観点で構成した行列Ga,Gb,Gcの掛け合わせて
求めているので、様々な特徴を考慮に入れたGP行列を
容易に構成して文書ベクトルVをシフトさせることが可
能である。本実施形態によると、文書ベクトルを嗜好文
書ベクトルにシフトさせるGPベクトルのもととなるG
P行列は、各列がユーザーのメンバーの興味を反映して
いるので、ユーザーを数グループに分割した該グループ
のGP行列や個々のメンバーのGP行列(ベクトル)を
容易に得ることができる。本実施形態よると、GP行列
がユーザーの過去に処理した文書をもとに適宜書き換え
られている行列Ga,Gb,Gcをもとに取得されてい
るので、文書ベクトルVがユーザーの嗜好の経時的掲示
変化に対応した嗜好文書ベクトルV’にシフトされ、ユ
ーザーの嗜好の変遷に追随した類似度の算出および検索
・分類等の処理が可能となる。
【0045】次に、本発明の類似度表示装置、類似度表
示プログラムが記憶された記憶媒体、及び類似度表示方
法の実施形態について、この実施形態を適用した、本発
明の文書処理装置、文書処理プログラムが記憶された記
憶媒体及び文書処理方法の第2の実施形態とともに説明
する。
示プログラムが記憶された記憶媒体、及び類似度表示方
法の実施形態について、この実施形態を適用した、本発
明の文書処理装置、文書処理プログラムが記憶された記
憶媒体及び文書処理方法の第2の実施形態とともに説明
する。
【0046】図16は、本発明の類似度表示装置の実施
形態が適用された本発明の文書処理装置の第2の実施形
態であり、本発明の類似度表示プログラムが記憶された
記憶媒体の実施形態であり且つこの類似度表示プログラ
ムの実施形態を含む本発明の文書処理プログラムが記憶
された記憶媒体の第2の実施形態の該プログラムが読み
取られたコンピュータの、構成を表したブロック図であ
る。この図16に示すように、本実施形態においては、
RAM113には、複数の対処としての文書の特徴の程
度を表す特徴度としての文書ベクトルを取得する文書ベ
クトル取得処理(特徴度取得処理)を行うためのエリア
として、前記第1の実施形態と同様の対象文書格納エリ
ア1131、キーワード格納エリア1132、文書ベク
トル格納エリア1134が確保されており、また、特徴
度としての文書ベクトルをもとに複数の文書相互間の文
書類似度(特徴類似度)を取得する文書類似度取得処理
(特徴類似度取得処理)を行うためのエリアとして、文
書類似度を取得する文書の文書名を格納する文書格納エ
リア1141、この文書格納エリア1141に格納され
ている文書名の文書相互間の文書類似度をそれらの文書
と対応させて格納する文書類似度格納エリア1142が
確保されている。更に、本実施形態による文書類似度グ
ラフ化処理(特徴類似度表示処理)を行うためのエリア
として、文書類似度に基づき算出された線分の太さをそ
の文書類似度の文書の対と対応させて格納する文書類似
度グラフ値格納エリア1143、及び文書類似度しきい
値格納エリア1144が確保されている。この文書類似
度しきい値格納エリア1144に格納されるしきい値
は、初期値−1に設定されている。
形態が適用された本発明の文書処理装置の第2の実施形
態であり、本発明の類似度表示プログラムが記憶された
記憶媒体の実施形態であり且つこの類似度表示プログラ
ムの実施形態を含む本発明の文書処理プログラムが記憶
された記憶媒体の第2の実施形態の該プログラムが読み
取られたコンピュータの、構成を表したブロック図であ
る。この図16に示すように、本実施形態においては、
RAM113には、複数の対処としての文書の特徴の程
度を表す特徴度としての文書ベクトルを取得する文書ベ
クトル取得処理(特徴度取得処理)を行うためのエリア
として、前記第1の実施形態と同様の対象文書格納エリ
ア1131、キーワード格納エリア1132、文書ベク
トル格納エリア1134が確保されており、また、特徴
度としての文書ベクトルをもとに複数の文書相互間の文
書類似度(特徴類似度)を取得する文書類似度取得処理
(特徴類似度取得処理)を行うためのエリアとして、文
書類似度を取得する文書の文書名を格納する文書格納エ
リア1141、この文書格納エリア1141に格納され
ている文書名の文書相互間の文書類似度をそれらの文書
と対応させて格納する文書類似度格納エリア1142が
確保されている。更に、本実施形態による文書類似度グ
ラフ化処理(特徴類似度表示処理)を行うためのエリア
として、文書類似度に基づき算出された線分の太さをそ
の文書類似度の文書の対と対応させて格納する文書類似
度グラフ値格納エリア1143、及び文書類似度しきい
値格納エリア1144が確保されている。この文書類似
度しきい値格納エリア1144に格納されるしきい値
は、初期値−1に設定されている。
【0047】更に、RAM113には、複数の対象とし
てのユーザーの特徴の程度を表す特徴度としての嗜好ベ
クトルを取得する嗜好ベクトル取得処理(特徴度取得処
理)を行うためのエリアとして、前記第1の実施形態と
同様の行列格納エリア1135、及び嗜好ベクトル格納
エリア1146が確保されており、また、特徴度として
の嗜好ベクトルをもとに複数のユーザー相互間の嗜好類
似度(特徴類似度)を取得する嗜好類似度取得処理(特
徴類似度取得処理)を行うためのエリアとして、処理対
象となるユーザーのユーザー名を格納するユーザー格納
エリア1145、及びこのユーザー格納エリア1145
に格納されているユーザー相互間の嗜好類似度をそれら
のユーザーの対と対応させて格納する嗜好類似度格納エ
リア1147が確保されている。更に、嗜好類似度グラ
フ化処理(特徴類似度表示処理)を行うためのエリアと
して、嗜好類似度に基づき算出された線分の太さをその
嗜好類似度のユーザーの対と対応させて格納する嗜好類
似度グラフ値格納エリア1148、及び嗜好類似度しき
い値格納エリア1149が確保されている。この嗜好類
似度しきい値格納エリア1149に格納されるしきい値
は、初期値−1に設定されている。
てのユーザーの特徴の程度を表す特徴度としての嗜好ベ
クトルを取得する嗜好ベクトル取得処理(特徴度取得処
理)を行うためのエリアとして、前記第1の実施形態と
同様の行列格納エリア1135、及び嗜好ベクトル格納
エリア1146が確保されており、また、特徴度として
の嗜好ベクトルをもとに複数のユーザー相互間の嗜好類
似度(特徴類似度)を取得する嗜好類似度取得処理(特
徴類似度取得処理)を行うためのエリアとして、処理対
象となるユーザーのユーザー名を格納するユーザー格納
エリア1145、及びこのユーザー格納エリア1145
に格納されているユーザー相互間の嗜好類似度をそれら
のユーザーの対と対応させて格納する嗜好類似度格納エ
リア1147が確保されている。更に、嗜好類似度グラ
フ化処理(特徴類似度表示処理)を行うためのエリアと
して、嗜好類似度に基づき算出された線分の太さをその
嗜好類似度のユーザーの対と対応させて格納する嗜好類
似度グラフ値格納エリア1148、及び嗜好類似度しき
い値格納エリア1149が確保されている。この嗜好類
似度しきい値格納エリア1149に格納されるしきい値
は、初期値−1に設定されている。
【0048】また、本実施形態においては、表示装置1
4は、嗜好類似度表示手段及び文書類似度表示手段(特
徴類似度表示手段)として、ユーザー間の嗜好類似度の
大小をそのユーザーの対に対応させてグラフ化した嗜好
類似度グラフや、文書間の文書類似度の大小をその文書
の対に対応させてグラフ化した文書類似度グラフを表示
するようになっている。更に、本実施形態においては、
表示手段14には、嗜好類似範囲取得手段(特徴類似範
囲取得手段)としての嗜好類似度バーや文書類似範囲取
得手段(特徴類似範囲取得手段)としての文書類似度バ
ーが表示され、これらのバーの選択ポインタの位置か
ら、嗜好類似度グラフや文書類似度グラフにおいて線分
を表示させる文書類似範囲や嗜好類似範囲が取得される
ようになっている。
4は、嗜好類似度表示手段及び文書類似度表示手段(特
徴類似度表示手段)として、ユーザー間の嗜好類似度の
大小をそのユーザーの対に対応させてグラフ化した嗜好
類似度グラフや、文書間の文書類似度の大小をその文書
の対に対応させてグラフ化した文書類似度グラフを表示
するようになっている。更に、本実施形態においては、
表示手段14には、嗜好類似範囲取得手段(特徴類似範
囲取得手段)としての嗜好類似度バーや文書類似範囲取
得手段(特徴類似範囲取得手段)としての文書類似度バ
ーが表示され、これらのバーの選択ポインタの位置か
ら、嗜好類似度グラフや文書類似度グラフにおいて線分
を表示させる文書類似範囲や嗜好類似範囲が取得される
ようになっている。
【0049】更に記憶装置16のプログラム格納部16
2には、前記第1の実施形態における嗜好文書ベクトル
取得処理プログラムに代えて、各ユーザーの嗜好ベクト
ルを取得する嗜好ベクトル取得処理プログラム、前記第
1の実施形態の嗜好文書取得処理プログラムにおける文
書ベクトル取得処理と同様に文書ベクトルを取得する文
書ベクトル取得処理プログラム、嗜好類似度取得処理プ
ログラム、嗜好類似度グラフ化プログラム、文書類似度
取得処理プログラム、文書類似度グラフ化プログラムが
格納されている。
2には、前記第1の実施形態における嗜好文書ベクトル
取得処理プログラムに代えて、各ユーザーの嗜好ベクト
ルを取得する嗜好ベクトル取得処理プログラム、前記第
1の実施形態の嗜好文書取得処理プログラムにおける文
書ベクトル取得処理と同様に文書ベクトルを取得する文
書ベクトル取得処理プログラム、嗜好類似度取得処理プ
ログラム、嗜好類似度グラフ化プログラム、文書類似度
取得処理プログラム、文書類似度グラフ化プログラムが
格納されている。
【0050】また、本実施形態においては、前記第1の
実施形態における嗜好文書ベクトルデータベースに代え
て嗜好ベクトルデータベース169が備えられており、
各ユーザーの嗜好ベクトルが各ユーザーに対応して格納
される。
実施形態における嗜好文書ベクトルデータベースに代え
て嗜好ベクトルデータベース169が備えられており、
各ユーザーの嗜好ベクトルが各ユーザーに対応して格納
される。
【0051】これら以外の構成については、前述の第1
の実施形態と同様である。
の実施形態と同様である。
【0052】次に、上述のような構成の文書処理装置及
び類似度表示装置の動作であって、本発明の文書処理方
法の第2の実施形態について説明する。尚、上述した第
1の実施形態の文書処理装置と同様の動作については説
明は省略する。
び類似度表示装置の動作であって、本発明の文書処理方
法の第2の実施形態について説明する。尚、上述した第
1の実施形態の文書処理装置と同様の動作については説
明は省略する。
【0053】まず、本実施形態による嗜好度取得処理、
嗜好類似度取得処理、及び嗜好類似度グラフ化処理につ
いて説明する。尚、本実施形態の嗜好度取得処理、嗜好
類似度取得処理、及び嗜好類似度グラフ化処理処理にお
いては、個人のユーザー相互についての嗜好類似度を取
得しグラフ化するものとする。
嗜好類似度取得処理、及び嗜好類似度グラフ化処理につ
いて説明する。尚、本実施形態の嗜好度取得処理、嗜好
類似度取得処理、及び嗜好類似度グラフ化処理処理にお
いては、個人のユーザー相互についての嗜好類似度を取
得しグラフ化するものとする。
【0054】嗜好度取得処理に際しては、図17に示す
ように、CPU111は、まず、嗜好類似度を取得する
ユーザーを取得し、ユーザー格納エリア1145に格納
する(ステップ51)。このユーザーの取得は、キーボ
ードからのユーザー名やID番号の入力や、表示装置1
4における行列データベースにおいて行列Gaの各行と
なっているユーザーすべての表示中からのマウスポイン
タやキーボードによる選択等により行われる。
ように、CPU111は、まず、嗜好類似度を取得する
ユーザーを取得し、ユーザー格納エリア1145に格納
する(ステップ51)。このユーザーの取得は、キーボ
ードからのユーザー名やID番号の入力や、表示装置1
4における行列データベースにおいて行列Gaの各行と
なっているユーザーすべての表示中からのマウスポイン
タやキーボードによる選択等により行われる。
【0055】また、CPU111は、行列データベース
168から行列Ga,Gb,Gcを取得し、次の式に従
って、GP行列を求める(ステップ52)。 GP=Ga・Gb・Gc 従って、GP行列は、Ga行列の次元合わせを行った行
をそのまま行にとり、ユーザーの各メンバーを列にとっ
てなっており、GP行列の各要素は、メンバー毎の過去
の文書処理における処理重要語句の処理重要度f(x)
に各メンバーの重要度を加味して表した数値となってい
る。
168から行列Ga,Gb,Gcを取得し、次の式に従
って、GP行列を求める(ステップ52)。 GP=Ga・Gb・Gc 従って、GP行列は、Ga行列の次元合わせを行った行
をそのまま行にとり、ユーザーの各メンバーを列にとっ
てなっており、GP行列の各要素は、メンバー毎の過去
の文書処理における処理重要語句の処理重要度f(x)
に各メンバーの重要度を加味して表した数値となってい
る。
【0056】GP行列を取得すると、続いてCPU11
1は、このGP行列をもとに前記ユーザー格納エリア1
145に格納されているユーザー毎に嗜好ベクトルを取
得し、各ユーザーと対応させて嗜好ベクトルデータベー
ス169及び嗜好ベクトル格納エリア1146に格納し
(ステップ53)、嗜好度取得処理を終了する。
1は、このGP行列をもとに前記ユーザー格納エリア1
145に格納されているユーザー毎に嗜好ベクトルを取
得し、各ユーザーと対応させて嗜好ベクトルデータベー
ス169及び嗜好ベクトル格納エリア1146に格納し
(ステップ53)、嗜好度取得処理を終了する。
【0057】図18は、GP行列から嗜好ベクトルを算
出する行程を概念的に説明する説明図である。CPU1
11は、まず、GP行列の各列毎の各要素gij(i=
1〜ユーザー数m、j=1〜処理重要語句の和集合の数
k)からなる列ベクトル(各ユーザーの総嗜好ベクト
ル)を得る(図18(1)→(2))。続いてCPU1
11は、各ユーザーの総嗜好ベクトルの各要素gijを
文書の処理回数の総数で割って、各ユーザーそれぞれの
嗜好ベクトルを得る(図18(2)→(3))。この様
に、総嗜好ベクトルを文書の処理回数の総数で割るの
は、行列Gbに文書の処理回数が要素として含まれてお
り、処理回数が増えるに従って嗜好ベクトルが大きくな
っていくのを回避するためである。
出する行程を概念的に説明する説明図である。CPU1
11は、まず、GP行列の各列毎の各要素gij(i=
1〜ユーザー数m、j=1〜処理重要語句の和集合の数
k)からなる列ベクトル(各ユーザーの総嗜好ベクト
ル)を得る(図18(1)→(2))。続いてCPU1
11は、各ユーザーの総嗜好ベクトルの各要素gijを
文書の処理回数の総数で割って、各ユーザーそれぞれの
嗜好ベクトルを得る(図18(2)→(3))。この様
に、総嗜好ベクトルを文書の処理回数の総数で割るの
は、行列Gbに文書の処理回数が要素として含まれてお
り、処理回数が増えるに従って嗜好ベクトルが大きくな
っていくのを回避するためである。
【0058】尚、前回に嗜好ベクトルを取得してから、
行列Ga及び行列Gbが書き換えられていな場合には、
新たにGP行列を取得することなく嗜好ベクトルデータ
べース169からそのまま嗜好ベクトルを読み出し取得
して嗜好ベクトル格納エリア1146に格納する。
行列Ga及び行列Gbが書き換えられていな場合には、
新たにGP行列を取得することなく嗜好ベクトルデータ
べース169からそのまま嗜好ベクトルを読み出し取得
して嗜好ベクトル格納エリア1146に格納する。
【0059】次に、CPU111は、嗜好類似度取得処
理を行う。嗜好類似度取得処理においては、ユーザー格
納エリア1145に格納されているユーザーの嗜好ベク
トル全ての相互間について嗜好類似度を算出する。各ユ
ーザー相互間の嗜好類似度は、当該ユーザーの嗜好ベク
トル間の角度に依存するコサインにより求める。即ち、
嗜好類似度を求めるユーザーをA及びB、各ユーザーの
嗜好ベクトルをそれぞれUa,Ub、両嗜好ベクトルU
a,Ub間の角度をr、両嗜好ベクトルの内積をUa・
Ub、両嗜好ベクトルの大きさをそれぞれ|Ua|,|
Ub|とした場合、次の数式2により求まる。 [数式2] 嗜好類似度Tab=COS(r) =(Ua・Ub)/(|Ua|×|Ub|)
理を行う。嗜好類似度取得処理においては、ユーザー格
納エリア1145に格納されているユーザーの嗜好ベク
トル全ての相互間について嗜好類似度を算出する。各ユ
ーザー相互間の嗜好類似度は、当該ユーザーの嗜好ベク
トル間の角度に依存するコサインにより求める。即ち、
嗜好類似度を求めるユーザーをA及びB、各ユーザーの
嗜好ベクトルをそれぞれUa,Ub、両嗜好ベクトルU
a,Ub間の角度をr、両嗜好ベクトルの内積をUa・
Ub、両嗜好ベクトルの大きさをそれぞれ|Ua|,|
Ub|とした場合、次の数式2により求まる。 [数式2] 嗜好類似度Tab=COS(r) =(Ua・Ub)/(|Ua|×|Ub|)
【0060】この嗜好類似度Tabの値は−1≦Tab
≦1までの値をとり、1に近いほど2つの嗜好ベクトル
Ua,Ubが互いに平行に近く、ユーザーA,Bの嗜好
が似ていると考えることができる。
≦1までの値をとり、1に近いほど2つの嗜好ベクトル
Ua,Ubが互いに平行に近く、ユーザーA,Bの嗜好
が似ていると考えることができる。
【0061】算出された嗜好類似度は、ユーザーの対と
対応させてRAM113の嗜好類似度格納エリア113
5に格納し、嗜好類似度算出処理を終了する。
対応させてRAM113の嗜好類似度格納エリア113
5に格納し、嗜好類似度算出処理を終了する。
【0062】本実施形態による嗜好類似度グラフ化処理
においては、CPU111は、上述の嗜好類似度取得処
理により取得されたユーザー間の嗜好類似度をもとに、
グラフ中の各ユーザー間の線の太さを数式3により算出
し、嗜好類似度グラフ値格納エリア1148に、ユーザ
ーの対に対応させて格納する。 [数式3] 線の太さ=INT(最大線太さ×ユーザー間の嗜好類似
度/最大類似度+0.5)
においては、CPU111は、上述の嗜好類似度取得処
理により取得されたユーザー間の嗜好類似度をもとに、
グラフ中の各ユーザー間の線の太さを数式3により算出
し、嗜好類似度グラフ値格納エリア1148に、ユーザ
ーの対に対応させて格納する。 [数式3] 線の太さ=INT(最大線太さ×ユーザー間の嗜好類似
度/最大類似度+0.5)
【0063】ただしINTは引数を越えない最大整数を
求める関数であり、最大線太さは、表示装置において表
示されるグラフの予め決められた最大の線の太さであ
る。コンピュータ内では線の太さは正の整数によってド
ット単位で表されるので、本実施形態においては上記の
式により整数として求めることとしている。上記数式3
において最大類似度とは、前記嗜好類似度取得処理にお
いて取得された嗜好類似度の最大値である。従って、上
述の数式3により求められる線分の太さは、嗜好類似度
とほぼ比例したものとなる。
求める関数であり、最大線太さは、表示装置において表
示されるグラフの予め決められた最大の線の太さであ
る。コンピュータ内では線の太さは正の整数によってド
ット単位で表されるので、本実施形態においては上記の
式により整数として求めることとしている。上記数式3
において最大類似度とは、前記嗜好類似度取得処理にお
いて取得された嗜好類似度の最大値である。従って、上
述の数式3により求められる線分の太さは、嗜好類似度
とほぼ比例したものとなる。
【0064】そして、表示装置14に、ユーザー格納エ
リア1145に格納されるユーザーについての嗜好類似
度表示グラフを表示する。この嗜好類似度表示グラフ
は、ユーザー名を1つの仮想円周上に等間隔に配置し、
各ユーザー間に、そのユーザー間の嗜好類似度をもとに
上記の数式から求められた線分の太さの線分を亘して表
示するものである。尚、上記数式3により求められた線
分の太さが負数となった場合には線分を破線とし、破線
の太さを上記数式3により求めた線分の太さの絶対値と
して表示する。
リア1145に格納されるユーザーについての嗜好類似
度表示グラフを表示する。この嗜好類似度表示グラフ
は、ユーザー名を1つの仮想円周上に等間隔に配置し、
各ユーザー間に、そのユーザー間の嗜好類似度をもとに
上記の数式から求められた線分の太さの線分を亘して表
示するものである。尚、上記数式3により求められた線
分の太さが負数となった場合には線分を破線とし、破線
の太さを上記数式3により求めた線分の太さの絶対値と
して表示する。
【0065】また、表示装置14には、嗜好類似度表示
グラフとともに、嗜好類似度バーを表示する。この嗜好
類似度バーは、途中に嗜好類似度を示す目盛りが付され
ている垂直バーとこの垂直バーに重なって表示される選
択ポインタよりなっている。選択ポインタは、表示画面
上でマウスポインタによりドラッグして嗜好類似度バー
上を移動させることができるようになっている。CPU
111は、選択ポインタが移動されると、この選択ポイ
ンタの新たな位置の嗜好類似度を取得して嗜好類似度し
きい値格納エリア1149に格納し、この嗜好類似度以
上の嗜好類似度を表す線分のみを表示した嗜好類似度表
示グラフを新たに表示する。上記嗜好類似度しきい値格
納エリア1149に格納される初期値は−1となってお
り、嗜好類似度算出処理後の最初の表示においては、全
ての線分を表示するようになっている。
グラフとともに、嗜好類似度バーを表示する。この嗜好
類似度バーは、途中に嗜好類似度を示す目盛りが付され
ている垂直バーとこの垂直バーに重なって表示される選
択ポインタよりなっている。選択ポインタは、表示画面
上でマウスポインタによりドラッグして嗜好類似度バー
上を移動させることができるようになっている。CPU
111は、選択ポインタが移動されると、この選択ポイ
ンタの新たな位置の嗜好類似度を取得して嗜好類似度し
きい値格納エリア1149に格納し、この嗜好類似度以
上の嗜好類似度を表す線分のみを表示した嗜好類似度表
示グラフを新たに表示する。上記嗜好類似度しきい値格
納エリア1149に格納される初期値は−1となってお
り、嗜好類似度算出処理後の最初の表示においては、全
ての線分を表示するようになっている。
【0066】図19は表示装置14に表示する嗜好類似
度表示グラフの一例であり、(a)は嗜好類似度バーの
選択ポインタが垂直バーの嗜好類似度−1の位置に配置
されている場合を示し、(b)は嗜好類似度バーの選択
ポインタが垂直バーの嗜好類似度0.50の位置に配置
されている場合を示す図である。この嗜好類似度表示グ
ラフにおいては8人のユーザー間の嗜好類似度を線分と
して視覚化して表示している。
度表示グラフの一例であり、(a)は嗜好類似度バーの
選択ポインタが垂直バーの嗜好類似度−1の位置に配置
されている場合を示し、(b)は嗜好類似度バーの選択
ポインタが垂直バーの嗜好類似度0.50の位置に配置
されている場合を示す図である。この嗜好類似度表示グ
ラフにおいては8人のユーザー間の嗜好類似度を線分と
して視覚化して表示している。
【0067】図19(a)では、選択ポインタの位置か
ら、嗜好類似度しきい値が−1に設定されているため、
表示されている全てのユーザーが線分で結ばれている。
そしてこの線分の太さは、嗜好類似度の大きさとほぼ比
例して表示され、ユーザー全ての相互の嗜好類似度の大
小が一見して把握できる。図19(b)では、選択ポイ
ンタの位置から、嗜好類似度しきい値が0.50に設定
されているため、互いの嗜好類似度が0.50以上のユ
ーザーどうしのみが線分で結ばれている。この線分は嗜
好類似度0.50以上に相当する太さとなっている。
ら、嗜好類似度しきい値が−1に設定されているため、
表示されている全てのユーザーが線分で結ばれている。
そしてこの線分の太さは、嗜好類似度の大きさとほぼ比
例して表示され、ユーザー全ての相互の嗜好類似度の大
小が一見して把握できる。図19(b)では、選択ポイ
ンタの位置から、嗜好類似度しきい値が0.50に設定
されているため、互いの嗜好類似度が0.50以上のユ
ーザーどうしのみが線分で結ばれている。この線分は嗜
好類似度0.50以上に相当する太さとなっている。
【0068】次に、本実施形態による文書ベクトル取得
処理、文書類似度取得処理、及び文書類似度グラフ化処
理について説明する。
処理、文書類似度取得処理、及び文書類似度グラフ化処
理について説明する。
【0069】文書ベクトル取得処理に際して、CPU1
11は、まず、文書類似度を取得する文書名を取得し、
文書格納エリア1141に格納する。この文書名の取得
は、キーボードからの文書名やファイル番号の入力や、
記憶装置16の文書データベース164から読み出し表
示した文書名のマウスポインタやキーボードによる選択
等により行われる。
11は、まず、文書類似度を取得する文書名を取得し、
文書格納エリア1141に格納する。この文書名の取得
は、キーボードからの文書名やファイル番号の入力や、
記憶装置16の文書データベース164から読み出し表
示した文書名のマウスポインタやキーボードによる選択
等により行われる。
【0070】そして、文書格納エリア1141に格納さ
れる文書名の文書について、前記第1の実施形態と同様
の手法により文書ベクトルを取得し、文書ベクトル格納
エリア1134及び文書ベクトルデータベース166に
格納し、文書ベクトル取得処理を終了する。尚、文書格
納エリア1141に文書名が格納されている文書の文書
ベクトルが既に文書ベクトルデータベース166に格納
されており、その文書ベクトルを取得してから行列Ga
が書き換えられていな場合には、新たに文書ベクトルを
求めることなく文書ベクトルデータべース166から文
書ベクトルを読み出し取得して嗜好ベクトル格納エリア
1146に格納する。
れる文書名の文書について、前記第1の実施形態と同様
の手法により文書ベクトルを取得し、文書ベクトル格納
エリア1134及び文書ベクトルデータベース166に
格納し、文書ベクトル取得処理を終了する。尚、文書格
納エリア1141に文書名が格納されている文書の文書
ベクトルが既に文書ベクトルデータベース166に格納
されており、その文書ベクトルを取得してから行列Ga
が書き換えられていな場合には、新たに文書ベクトルを
求めることなく文書ベクトルデータべース166から文
書ベクトルを読み出し取得して嗜好ベクトル格納エリア
1146に格納する。
【0071】続いてCPU111は、文書類似度取得処
理を行う。この文書類似度取得処理においては、文書格
納エリア1141に格納されている文書の文書ベクトル
全ての相互間について文書類似度を算出する。
理を行う。この文書類似度取得処理においては、文書格
納エリア1141に格納されている文書の文書ベクトル
全ての相互間について文書類似度を算出する。
【0072】各文書相互間の文書類似度は、当該文書の
文書ベクトル間の角度に依存するコサインにより求め
る。即ち、文書類似度を求める文書をQ及びW、各文書
の文書ベクトルをそれぞれVq,Vw、両文書ベクトル
Vq,Vw間の角度をr、両嗜好ベクトルの内積をVq
・Vw、両文書ベクトルの大きさをそれぞれ|Vq|、
|Vw|とした場合、次の数式4により求まる。 [数式4] 文書類似度S’qw=COS(r) =(Vq・Vw)/(|Vq|×|Vw|)
文書ベクトル間の角度に依存するコサインにより求め
る。即ち、文書類似度を求める文書をQ及びW、各文書
の文書ベクトルをそれぞれVq,Vw、両文書ベクトル
Vq,Vw間の角度をr、両嗜好ベクトルの内積をVq
・Vw、両文書ベクトルの大きさをそれぞれ|Vq|、
|Vw|とした場合、次の数式4により求まる。 [数式4] 文書類似度S’qw=COS(r) =(Vq・Vw)/(|Vq|×|Vw|)
【0073】この文書類似度S’qwの値は−1≦Tb
≦1までの値をとり、1に近いほど2つの文書ベクトル
Vq,Vwが互いに平行に近く、文書Q,Wの内容が似
ていると考えることができる。
≦1までの値をとり、1に近いほど2つの文書ベクトル
Vq,Vwが互いに平行に近く、文書Q,Wの内容が似
ていると考えることができる。
【0074】算出された文書類似度は、文書の対と対応
させてRAM113の文書嗜好類似度格納エリア114
2及び記憶装置16の文書ベクトルデータベース166
に格納しする。
させてRAM113の文書嗜好類似度格納エリア114
2及び記憶装置16の文書ベクトルデータベース166
に格納しする。
【0075】本実施形態による文書類似度グラフ化処理
においては、CPU111は、上述の文書類似度取得処
理により取得された文書類似度をもとに、グラフ中の各
文書間の線の太さを数式5により算出し、文書類似度グ
ラフ値格納エリア1143に文書の対に対応させて格納
する。 [数式5] 線の太さ=INT(最大線太さ×文書間の文書類似度/
最大類似度+0.5)
においては、CPU111は、上述の文書類似度取得処
理により取得された文書類似度をもとに、グラフ中の各
文書間の線の太さを数式5により算出し、文書類似度グ
ラフ値格納エリア1143に文書の対に対応させて格納
する。 [数式5] 線の太さ=INT(最大線太さ×文書間の文書類似度/
最大類似度+0.5)
【0076】ただしINTは引数を越えない最大整数を
求める関数であり、最大線太さは、表示装置において表
示されるグラフの予め決められた最大の線の太さであ
る。コンピュータ内では線の太さは正の整数によってド
ット単位で表されるので、本実施形態においては上記の
式により整数として求めることとしてある。上記数式5
において最大類似度とは、前記文書類似度取得処理にお
いて取得された文書類似度の最大値である。従って、上
述の数式5により求められる線分の太さは、文書類似度
とほぼ比例したものとなる。
求める関数であり、最大線太さは、表示装置において表
示されるグラフの予め決められた最大の線の太さであ
る。コンピュータ内では線の太さは正の整数によってド
ット単位で表されるので、本実施形態においては上記の
式により整数として求めることとしてある。上記数式5
において最大類似度とは、前記文書類似度取得処理にお
いて取得された文書類似度の最大値である。従って、上
述の数式5により求められる線分の太さは、文書類似度
とほぼ比例したものとなる。
【0077】そして、表示装置14に、文書格納エリア
1141に格納された文書名の文書についての文書類似
度表示グラフを表示する。この文書類似度表示グラフ
は、文書格納エリア1141に格納される文書名を1つ
の仮想円周上に等間隔に配置し、且つ各文書間に、それ
らの文書間の文書類似度をもとに上記数式5から求めら
れた太さの線分を亘して表示するものである。尚、上記
数式5により求められた線分の太さが負数となった場合
には線分を破線とし、破線の太さを上記数式5により求
めた線分の太さの絶対値として表示する。
1141に格納された文書名の文書についての文書類似
度表示グラフを表示する。この文書類似度表示グラフ
は、文書格納エリア1141に格納される文書名を1つ
の仮想円周上に等間隔に配置し、且つ各文書間に、それ
らの文書間の文書類似度をもとに上記数式5から求めら
れた太さの線分を亘して表示するものである。尚、上記
数式5により求められた線分の太さが負数となった場合
には線分を破線とし、破線の太さを上記数式5により求
めた線分の太さの絶対値として表示する。
【0078】本実施形態の文書類似度表示グラフでは、
文書類似度の大きい文書どうしほどその文書名が段階的
に太い線で結ばれて表示され、文書全ての相互の文書類
似度の大小が一見して把握可能となる。
文書類似度の大きい文書どうしほどその文書名が段階的
に太い線で結ばれて表示され、文書全ての相互の文書類
似度の大小が一見して把握可能となる。
【0079】また、表示装置14には、文書類似度表示
グラフとともに、文書類似度バーを表示する。この文書
類似度バーは、途中に文書類似度を示す目盛りが付され
ている垂直バーとこの垂直バーに重なって表示される選
択ポインタよりなっている。選択ポインタは、表示画面
上でマウスポインタによりドラッグして文書類似度バー
上を移動させることができるようになっている。CPU
111は、選択ポインタが移動されると、この選択ポイ
ンタの新たな位置の文書類似度を取得して文書類似度し
きい値格納エリア1144に格納し、この文書類似度以
上の文書類似度を表す線分のみを表示した文書類似度表
示グラフを新たに表示する。上記文書類似度しきい値格
納エリア1144に格納される初期値は−1となってお
り、文書類似度算出処理後の最初の表示においては、全
ての線分を表示するようになっている。
グラフとともに、文書類似度バーを表示する。この文書
類似度バーは、途中に文書類似度を示す目盛りが付され
ている垂直バーとこの垂直バーに重なって表示される選
択ポインタよりなっている。選択ポインタは、表示画面
上でマウスポインタによりドラッグして文書類似度バー
上を移動させることができるようになっている。CPU
111は、選択ポインタが移動されると、この選択ポイ
ンタの新たな位置の文書類似度を取得して文書類似度し
きい値格納エリア1144に格納し、この文書類似度以
上の文書類似度を表す線分のみを表示した文書類似度表
示グラフを新たに表示する。上記文書類似度しきい値格
納エリア1144に格納される初期値は−1となってお
り、文書類似度算出処理後の最初の表示においては、全
ての線分を表示するようになっている。
【0080】この様に、本実施形態では、複数のユーザ
ーや文書全ての相互間の嗜好類似度や文書類似度につい
て一括して表示したグラフにより、複数のユーザーや文
書全ての相互間の類似の大小を一見して把握することが
できる。本実施形態では、ユーザー間の嗜好類似度や文
書間の文書類似度が線分の太さにより表示され、嗜好類
似度や文書類似度の大小を容易に視覚的に把握すること
ができる。本実施形態では、表示装置に表示される嗜好
類似度バーや文書類似度バーの選択ポインタによってし
きい値を変更し、所望の値以上の嗜好類似度や文書類似
度を示す線分のみを表示させることができ、ユーザーや
文書の分類、選択等が容易である。本実施形態では、嗜
好類似度表示グラフや文書類似度表示グラフを表示させ
た状態のまましきい値を変更して嗜好類似度表示グラフ
や文書類似度表示グラフを再表示させることができ、一
層ユーザーや文書の分類、選択等が容易である。
ーや文書全ての相互間の嗜好類似度や文書類似度につい
て一括して表示したグラフにより、複数のユーザーや文
書全ての相互間の類似の大小を一見して把握することが
できる。本実施形態では、ユーザー間の嗜好類似度や文
書間の文書類似度が線分の太さにより表示され、嗜好類
似度や文書類似度の大小を容易に視覚的に把握すること
ができる。本実施形態では、表示装置に表示される嗜好
類似度バーや文書類似度バーの選択ポインタによってし
きい値を変更し、所望の値以上の嗜好類似度や文書類似
度を示す線分のみを表示させることができ、ユーザーや
文書の分類、選択等が容易である。本実施形態では、嗜
好類似度表示グラフや文書類似度表示グラフを表示させ
た状態のまましきい値を変更して嗜好類似度表示グラフ
や文書類似度表示グラフを再表示させることができ、一
層ユーザーや文書の分類、選択等が容易である。
【0081】尚、本発明は、上述の実施形態に限定され
るものではなく、本発明の趣旨を逸脱しない限りにおい
て適宜変更が可能である。上述の各実施形態においては
文書処理装置としてコンピュータを用いているが、コン
ピュータに限定されるものではなく、ワードプロセッサ
等であってもよい。 上述の第1の実施形態においてG
P行列は、各文書における処理重要語句の出現頻度(行
列Ga)とメンバー毎の過去の文書処理回数(行列G
b)、および各メンバーの重要度(行列Gc)とから取
得されているが、各文書における処理重要語句の出現頻
度(行列Ga)とメンバー毎の過去の文書処理回数(行
列Gb)のみにより取得されてもよい。また、例えば、
各文書の処理時間や、他の文書作成に引用された件数、
リンク付けされている数等も加味して取得されてもよ
い。更に、GP行列を上述の実施形態と同様に行列Ga
〜行列Gc等の行列の掛け合わせから取得する場合にお
いて、行列Ga〜行列Gc等の各行列の要素はそれぞれ
処理重要語句の文書中の出現頻度や、メンバーが各文書
を処理した回数を反映した数値となっていればよく、直
接出現頻度や処理回数そのものを表していなくてもよ
い。
るものではなく、本発明の趣旨を逸脱しない限りにおい
て適宜変更が可能である。上述の各実施形態においては
文書処理装置としてコンピュータを用いているが、コン
ピュータに限定されるものではなく、ワードプロセッサ
等であってもよい。 上述の第1の実施形態においてG
P行列は、各文書における処理重要語句の出現頻度(行
列Ga)とメンバー毎の過去の文書処理回数(行列G
b)、および各メンバーの重要度(行列Gc)とから取
得されているが、各文書における処理重要語句の出現頻
度(行列Ga)とメンバー毎の過去の文書処理回数(行
列Gb)のみにより取得されてもよい。また、例えば、
各文書の処理時間や、他の文書作成に引用された件数、
リンク付けされている数等も加味して取得されてもよ
い。更に、GP行列を上述の実施形態と同様に行列Ga
〜行列Gc等の行列の掛け合わせから取得する場合にお
いて、行列Ga〜行列Gc等の各行列の要素はそれぞれ
処理重要語句の文書中の出現頻度や、メンバーが各文書
を処理した回数を反映した数値となっていればよく、直
接出現頻度や処理回数そのものを表していなくてもよ
い。
【0081】上述の各実施形態においては行列Ga〜G
cは過去の文書処理内容から取得されているが、ユーザ
ーが取得して行列データベース168に直接入力しても
よい。 上述の各実施形態においては行列Ga〜Gcは
所定期間毎に書き換えられているが、文書処理を行う毎
に、または所定回数の文書処理を行う毎等に書き換えて
もよい。第1の実施形態においてGPベクトルを表示装
置に表示するGPベクトル表示手段を備え、ユーザーや
ユーザーメンバーの嗜好を視覚的に把握できるようにし
てもよい。この場合、GPベクトルを行列データベース
または専用のGPベクトルデータベースに経時順に格納
しておき、経時変化も把握できるようにしてもよい。
cは過去の文書処理内容から取得されているが、ユーザ
ーが取得して行列データベース168に直接入力しても
よい。 上述の各実施形態においては行列Ga〜Gcは
所定期間毎に書き換えられているが、文書処理を行う毎
に、または所定回数の文書処理を行う毎等に書き換えて
もよい。第1の実施形態においてGPベクトルを表示装
置に表示するGPベクトル表示手段を備え、ユーザーや
ユーザーメンバーの嗜好を視覚的に把握できるようにし
てもよい。この場合、GPベクトルを行列データベース
または専用のGPベクトルデータベースに経時順に格納
しておき、経時変化も把握できるようにしてもよい。
【0082】説明した各実施形態では処理重要語句や処
理重要度を取得する手法として図4のフローチャートに
従った方法を1例にして説明したが、本発明でこの方法
に限られるものではなく、文書中から処理重要語句を抽
出する方法や、処理重要度の決定方法等については、公
知の各種方法により置き換えることが可能である。更
に、第1の実施形態において、文書嗜好ベクトルの類似
度の算出方法については、数式1により類似度を算出す
ることとしたが、この数式に限定されるものではなく、
文書嗜好ベクトル相互間の類似関係を表すことが可能で
あれば他の数式により類似度を算出することも可能であ
る。第1の実施形態において算出した類似度の表示は、
類似度の操作者からの入力により類似閾値を取得し、当
該類似閾値よりも高い類似度を備えた対象文書のみを表
示させたり、類似度の高いうちから10個の文書のみを
表示させたりすることもできる。また、類似度の高い順
ではなく、あいうえお順等に表示された対象文書名とと
もに表示してもよい。更に、類似度表示は、操作者から
の命令のあったときのみに表示させるようにしたり、表
示装置には表示させずに印刷させることとしてもよい。
理重要度を取得する手法として図4のフローチャートに
従った方法を1例にして説明したが、本発明でこの方法
に限られるものではなく、文書中から処理重要語句を抽
出する方法や、処理重要度の決定方法等については、公
知の各種方法により置き換えることが可能である。更
に、第1の実施形態において、文書嗜好ベクトルの類似
度の算出方法については、数式1により類似度を算出す
ることとしたが、この数式に限定されるものではなく、
文書嗜好ベクトル相互間の類似関係を表すことが可能で
あれば他の数式により類似度を算出することも可能であ
る。第1の実施形態において算出した類似度の表示は、
類似度の操作者からの入力により類似閾値を取得し、当
該類似閾値よりも高い類似度を備えた対象文書のみを表
示させたり、類似度の高いうちから10個の文書のみを
表示させたりすることもできる。また、類似度の高い順
ではなく、あいうえお順等に表示された対象文書名とと
もに表示してもよい。更に、類似度表示は、操作者から
の命令のあったときのみに表示させるようにしたり、表
示装置には表示させずに印刷させることとしてもよい。
【0083】説明した各実施形態は日本語で作成された
文書に限られるものではなく、あらゆる言語で作成され
た文書を対象とすることが可能である。その場合、対象
となる文書が作成された言語用の形態素解析アルゴリズ
ム等を使用するといった、本発明の構成には影響のない
部分を変更するだけでよい。
文書に限られるものではなく、あらゆる言語で作成され
た文書を対象とすることが可能である。その場合、対象
となる文書が作成された言語用の形態素解析アルゴリズ
ム等を使用するといった、本発明の構成には影響のない
部分を変更するだけでよい。
【0084】なお、以上の各実施形態において説明し
た、各装置、各部、各動作、各処理等に対しては、それ
らを含む上位概念としての各手段(〜手段)により、実
施形態を構成することが可能である。例えば、「文書デ
ータベース164から、各処理文書の処理回数を取得し
(ステップ14)」との記載に対して文書の処理回数を
記憶する処理回数データベースを文書データベース16
4とは別途に構成したり、「処理回数取得手段」を構成
したり、「抽出した候補語(句)の処理文書での出現頻
度、評価関数から、各候補語(句)の処理重要度f
(x)を取得する(ステップ123)との記載に対し
て、「処理重要語句取得手段」を構成するようにしても
よい。同様に、その他各種動作に対して「〜(動作)手
段」等の上位概念で実施形態を構成するようにしてもよ
い。
た、各装置、各部、各動作、各処理等に対しては、それ
らを含む上位概念としての各手段(〜手段)により、実
施形態を構成することが可能である。例えば、「文書デ
ータベース164から、各処理文書の処理回数を取得し
(ステップ14)」との記載に対して文書の処理回数を
記憶する処理回数データベースを文書データベース16
4とは別途に構成したり、「処理回数取得手段」を構成
したり、「抽出した候補語(句)の処理文書での出現頻
度、評価関数から、各候補語(句)の処理重要度f
(x)を取得する(ステップ123)との記載に対し
て、「処理重要語句取得手段」を構成するようにしても
よい。同様に、その他各種動作に対して「〜(動作)手
段」等の上位概念で実施形態を構成するようにしてもよ
い。
【0085】上述の第2の実施形態においては、1つ1
つの文書及び一人一人のユーザーそれぞれどうしについ
ての類似の大小を表示したが、複数よりなる文書やユー
ザーどうしについての類似の大小を取得し表示してもよ
い。尚、対象が複数よりなるユーザーである場合、その
嗜好ベクトルは、第1の実施形態のGPベクトルとする
ことができる。また、類似の大小を取得する対象はこれ
らに限られるものではなく、類似の大小を数値化するこ
とのできるものであればよく、データベースやエージェ
ント、マルチメディアコンテンツ、及びこれらの群等と
することもできる。更に、特徴度は数値を用いて表され
ればよく、嗜好ベクトルや文書ベクトル等のベクトルの
他、スカラー量等とすることができる。
つの文書及び一人一人のユーザーそれぞれどうしについ
ての類似の大小を表示したが、複数よりなる文書やユー
ザーどうしについての類似の大小を取得し表示してもよ
い。尚、対象が複数よりなるユーザーである場合、その
嗜好ベクトルは、第1の実施形態のGPベクトルとする
ことができる。また、類似の大小を取得する対象はこれ
らに限られるものではなく、類似の大小を数値化するこ
とのできるものであればよく、データベースやエージェ
ント、マルチメディアコンテンツ、及びこれらの群等と
することもできる。更に、特徴度は数値を用いて表され
ればよく、嗜好ベクトルや文書ベクトル等のベクトルの
他、スカラー量等とすることができる。
【0086】第2の実施形態においては、嗜好類似度や
文書類似度は、数式2や数式4により算出することとし
たが、これらの数式に限定されるものではなく、嗜好ベ
クトル相互間の類似関係や文書ベクトル相互間の類似関
係を表すことが可能であれば他の数式により算出するこ
とも可能である。また、第2の実施形態では行列Ga、
行列Gb、行列Gcを掛け合わせたGP行列から各ユー
ザー毎の嗜好ベクトルを取得したが、行列Gaと行列G
bのみを掛け合わせた嗜好行列H=Ga・Gbから同様
に各ユーザーの嗜好ベクトルを取得してもよい。尚、G
P行列は嗜好行列Hに各ユーザーの重要度に基づき各要
素をユーザー毎にスカラー倍したものなので、嗜好行列
Hから取得した嗜好ベクトルにより数式2に基づいて類
似度を算出した場合にも、上記第2の実施形態と同一の
値の類似度が算出される。ユーザー毎の嗜好ベクトルの
各要素に同一の文書ベクトルの各要素を掛けた嗜好文書
ベクトルを取得し、嗜好文書ベクトルをもとに嗜好類似
度を算出することもできる。文書ベクトルの各要素に特
定のユーザーの嗜好ベクトルの各要素を掛けた嗜好文書
ベクトルを取得し、各文書の嗜好文書ベクトルをもと
に、前記特定のユーザーの嗜好を加味した場合の文書ベ
クトルの文書類似度を算出することとしてもよい。
文書類似度は、数式2や数式4により算出することとし
たが、これらの数式に限定されるものではなく、嗜好ベ
クトル相互間の類似関係や文書ベクトル相互間の類似関
係を表すことが可能であれば他の数式により算出するこ
とも可能である。また、第2の実施形態では行列Ga、
行列Gb、行列Gcを掛け合わせたGP行列から各ユー
ザー毎の嗜好ベクトルを取得したが、行列Gaと行列G
bのみを掛け合わせた嗜好行列H=Ga・Gbから同様
に各ユーザーの嗜好ベクトルを取得してもよい。尚、G
P行列は嗜好行列Hに各ユーザーの重要度に基づき各要
素をユーザー毎にスカラー倍したものなので、嗜好行列
Hから取得した嗜好ベクトルにより数式2に基づいて類
似度を算出した場合にも、上記第2の実施形態と同一の
値の類似度が算出される。ユーザー毎の嗜好ベクトルの
各要素に同一の文書ベクトルの各要素を掛けた嗜好文書
ベクトルを取得し、嗜好文書ベクトルをもとに嗜好類似
度を算出することもできる。文書ベクトルの各要素に特
定のユーザーの嗜好ベクトルの各要素を掛けた嗜好文書
ベクトルを取得し、各文書の嗜好文書ベクトルをもと
に、前記特定のユーザーの嗜好を加味した場合の文書ベ
クトルの文書類似度を算出することとしてもよい。
【0087】第2の実施形態において、嗜好類似度表示
グラフや文書類似度表示グラフの線分の太さの算出方法
については、数式3や数式5により算出することとした
が、これらの数式に限定されるものではなく、嗜好類似
度や文書類似度の大小関係を表すことが可能であれば他
の数式により線分の太さを算出することも可能である。
例えば、次の数式6や数式7により求めることとしても
よい。尚、数式6及び数式7において類似度とはユーザ
ー間の嗜好類似度、又は文書間の文書類似度をいうもの
とする。 [数式6] 線の太さ=INT(最大線太さ×|類似度|+0.5) [数式7] 線の太さ=INT(最大線太さ×(類似度+1)/2+
1) 尚、数式7は、全ての線の太さが正の値として求めら
れ、正負の値により表示を異ならせる必要がなくなる点
で優れている。
グラフや文書類似度表示グラフの線分の太さの算出方法
については、数式3や数式5により算出することとした
が、これらの数式に限定されるものではなく、嗜好類似
度や文書類似度の大小関係を表すことが可能であれば他
の数式により線分の太さを算出することも可能である。
例えば、次の数式6や数式7により求めることとしても
よい。尚、数式6及び数式7において類似度とはユーザ
ー間の嗜好類似度、又は文書間の文書類似度をいうもの
とする。 [数式6] 線の太さ=INT(最大線太さ×|類似度|+0.5) [数式7] 線の太さ=INT(最大線太さ×(類似度+1)/2+
1) 尚、数式7は、全ての線の太さが正の値として求めら
れ、正負の値により表示を異ならせる必要がなくなる点
で優れている。
【0088】第2の実施形態においては、嗜好類似範囲
取得手段や文書類似範囲取得手段は表示装置に表示され
る嗜好類似度バーや文書類似度バーの選択ポインタの位
置により、表示される線分の類似度の範囲の下限を取得
したが、これに限られるものではなく、例えば、キーボ
ード等からの入力により類似度の範囲を直接数値として
取得するようにしてもよい。また、類似度の範囲の下限
ではなく上限や範囲全体を取得するものとしたり、嗜好
類似度や文書類似度ではなく線分の最大太さ等を指定す
るようにしてもよい。第2の実施形態においては、嗜好
類似範囲取得手段や文書類似範囲取得手段は嗜好類似度
表示グラフや文書類似度表示グラフの表示時に、表示さ
れる線分の類似度の範囲を取得したが、これに限られる
ものではなく、例えば、嗜好類似範囲や文書類似範囲は
嗜好類似度表示グラフや文書類似度表示グラフの表示前
のみまたは表示前と表示中の両方において、表示される
線分の類似度の範囲を取得するものとしてもよい。
取得手段や文書類似範囲取得手段は表示装置に表示され
る嗜好類似度バーや文書類似度バーの選択ポインタの位
置により、表示される線分の類似度の範囲の下限を取得
したが、これに限られるものではなく、例えば、キーボ
ード等からの入力により類似度の範囲を直接数値として
取得するようにしてもよい。また、類似度の範囲の下限
ではなく上限や範囲全体を取得するものとしたり、嗜好
類似度や文書類似度ではなく線分の最大太さ等を指定す
るようにしてもよい。第2の実施形態においては、嗜好
類似範囲取得手段や文書類似範囲取得手段は嗜好類似度
表示グラフや文書類似度表示グラフの表示時に、表示さ
れる線分の類似度の範囲を取得したが、これに限られる
ものではなく、例えば、嗜好類似範囲や文書類似範囲は
嗜好類似度表示グラフや文書類似度表示グラフの表示前
のみまたは表示前と表示中の両方において、表示される
線分の類似度の範囲を取得するものとしてもよい。
【0089】上述の第2の実施形態においては嗜好類似
度表示グラフや文書類似度表示グラフは表示装置14に
画面表示されるが、この画面表示に代えてまたは画面表
示とともに印刷装置15により印刷されるようにしても
よい。上述の第2の実施形態においては嗜好類似度や文
書類似度の大小は対象を円周上に配置しその対象間を結
ぶ線分により類似度を表現するグラフにより表されてい
るが、本発明による特徴類似度の大小の表示は、これに
限られるものではなく、例えば、特徴類似度の近いもの
どうしの距離が近くなるように対象名を配置して表示す
るもの等とすることができる。
度表示グラフや文書類似度表示グラフは表示装置14に
画面表示されるが、この画面表示に代えてまたは画面表
示とともに印刷装置15により印刷されるようにしても
よい。上述の第2の実施形態においては嗜好類似度や文
書類似度の大小は対象を円周上に配置しその対象間を結
ぶ線分により類似度を表現するグラフにより表されてい
るが、本発明による特徴類似度の大小の表示は、これに
限られるものではなく、例えば、特徴類似度の近いもの
どうしの距離が近くなるように対象名を配置して表示す
るもの等とすることができる。
【0090】上述の第2の実施形態においては嗜好類似
度や文書類似度の大小は線分の太さにより把握可能に表
されたが、これに限られるものではなく、例えば、色の
濃さ等の差異により表現してもよい。上述の第2の実施
形態においては嗜好類似度や文書類似度の正負は線分の
種類により区別されているが、これに限られるものでは
なく、例えば色分け等により区別してもよい。
度や文書類似度の大小は線分の太さにより把握可能に表
されたが、これに限られるものではなく、例えば、色の
濃さ等の差異により表現してもよい。上述の第2の実施
形態においては嗜好類似度や文書類似度の正負は線分の
種類により区別されているが、これに限られるものでは
なく、例えば色分け等により区別してもよい。
【0091】
【発明の効果】以上説明したように、請求項1、請求項
2及び請求項5に記載の発明によれば、複数の対象全て
の相互間の類似度の大小を容易に把握でき、容易且つ適
切に対象の分類や検索を行うことができる。
2及び請求項5に記載の発明によれば、複数の対象全て
の相互間の類似度の大小を容易に把握でき、容易且つ適
切に対象の分類や検索を行うことができる。
【0092】請求項3及び請求項4に記載の発明によれ
ば、文書処理装置において、容易かつ適切に文書やユー
ザーの分類、検索、配信等の処理を行うことができ、人
材の発掘や再配置、ワーク・グループやワークフローの
再構築を容易に適切に行うことが可能になる。
ば、文書処理装置において、容易かつ適切に文書やユー
ザーの分類、検索、配信等の処理を行うことができ、人
材の発掘や再配置、ワーク・グループやワークフローの
再構築を容易に適切に行うことが可能になる。
【0093】請求項6から請求項16記載の発明によれ
ば、嗜好文書ベクトル取得手段により文書ベクトルをユ
ーザーの嗜好を加味した嗜好文書ベクトルにシフトさ
せ、この嗜好文書ベクトルに対する類似度を取得するこ
とにより、ユーザーの興味や注目度、目的等の嗜好に対
する文書の類似度が取得でき、この類似度に基づいて、
容易に適切に分類や検索、配信等の文書処理を行うこと
が可能である。
ば、嗜好文書ベクトル取得手段により文書ベクトルをユ
ーザーの嗜好を加味した嗜好文書ベクトルにシフトさ
せ、この嗜好文書ベクトルに対する類似度を取得するこ
とにより、ユーザーの興味や注目度、目的等の嗜好に対
する文書の類似度が取得でき、この類似度に基づいて、
容易に適切に分類や検索、配信等の文書処理を行うこと
が可能である。
【図1】本発明の文書処理装置の第1の実施形態であ
り、本発明の文書処理プログラムが記憶された記憶媒体
の第1の実施形態の該プログラムが読み取られたコンピ
ュータの構成を表したブロック図である。
り、本発明の文書処理プログラムが記憶された記憶媒体
の第1の実施形態の該プログラムが読み取られたコンピ
ュータの構成を表したブロック図である。
【図2】図1の実施形態における行列Ga,Gb,Gc
を示す説明図である。
を示す説明図である。
【図3】図1の実施形態による行列Ga,Gb書き換え
処理の動作を表したフローチャートである。
処理の動作を表したフローチャートである。
【図4】図1の実施形態による処理重要語句・処理重要
度取得処理の動作を表したフローチャートである。
度取得処理の動作を表したフローチャートである。
【図5】図1の実施形態による嗜好文書ベクトル取得処
理の動作を示すフローチャートである。
理の動作を示すフローチャートである。
【図6】図1の実施形態におけるGP行列からGPベク
トルを算出する行程を概念的に説明する説明図である。
トルを算出する行程を概念的に説明する説明図である。
【図7】図1の実施形態における文書ベクトルを嗜好文
書ベクトルにシフトさせた状態を概念的に説明する説明
図である。
書ベクトルにシフトさせた状態を概念的に説明する説明
図である。
【図8】図1の実施形態による類似度算出処理の動作を
示すフローチャートである。
示すフローチャートである。
【図9】請求項6に記載した発明のクレーム対応図であ
る。
る。
【図10】請求項8に記載した発明のクレーム対応図で
ある。
ある。
【図11】請求項10に記載した発明のクレーム対応図
である。
である。
【図12】請求項11に記載した発明のクレーム対応図
である。
である。
【図13】請求項13に記載した発明のクレーム対応図
である。
である。
【図14】請求項15に記載した発明のクレーム対応図
である。
である。
【図15】請求項16に記載した発明のクレーム対応図
である。
である。
【図16】本発明の文書処理装置の第2の実施形態であ
り、本発明の文書処理プログラムが記憶された記憶媒体
の第2の実施形態の該プログラムが読み取られたコンピ
ュータの構成を表したブロック図である。
り、本発明の文書処理プログラムが記憶された記憶媒体
の第2の実施形態の該プログラムが読み取られたコンピ
ュータの構成を表したブロック図である。
【図17】図16の実施形態による嗜好度取得処理の動
作を示すフローチャートである。
作を示すフローチャートである。
【図18】図16の実施形態における嗜好行列Hから嗜
好ベクトルを算出する過程を概念的に説明する説明図で
ある。
好ベクトルを算出する過程を概念的に説明する説明図で
ある。
【図19】図16の実施形態において表示される嗜好類
似度表示グラフ及び嗜好類似度バーの一例であり、
(a)は嗜好類似度バーの選択ポインタが垂直バーの嗜
好類似度−1の位置に配置されている場合を示し、
(b)は嗜好類似度バーの選択ポインタが垂直バーの嗜
好類似度0.50の位置に配置されている場合を示す図
である。
似度表示グラフ及び嗜好類似度バーの一例であり、
(a)は嗜好類似度バーの選択ポインタが垂直バーの嗜
好類似度−1の位置に配置されている場合を示し、
(b)は嗜好類似度バーの選択ポインタが垂直バーの嗜
好類似度0.50の位置に配置されている場合を示す図
である。
11 制御部 112 ROM 113 RAM 1131 対象文書格納エリア 1132 キーワード格納エリア 1134 文書ベクトル格納エリア 1135 行列格納エリア 1136 嗜好文書ベクトル格納エリア 1137 類似度格納エリア 1141 文書格納エリア 1142 文書類似度格納エリア 1143 文書類似度グラフ値格納エリア 1144 文書類似度しきい値格納エリア 1145 ユーザー格納エリア 1146 嗜好ベクトル格納エリア 1147 嗜好類似度格納エリア 1148 嗜好類似度グラフ値格納エリア 1149 嗜好類似度しきい値格納エリア 12 キーボード 13 マウス 14 表示装置 15 印刷装置 16 記憶装置 161 仮名漢字変換辞書 162 プログラム格納部 164 文書データベース 165 重要語データベース 166 文書ベクトルデータベース 167 嗜好文書ベクトルデータベース 168 行列データベース 169 嗜好ベクトルデータベース 17 記憶媒体駆動装置 18 通信制御装置 19 入出力I/F 101 嗜好ベクトル取得手段 102 文書取得手段 103 文書ベクトル取得手段 104 シフト手段 105 GP行列取得手段 106 類似度算出手段 201 嗜好ベクトル取得機能 202 文書取得機能 203 文書ベクトル取得機能 204 シフト機能 205 GP行列取得機能 206 類似度算出機能 301 特徴度取得手段 302 特徴類似度取得手段 303 特徴類似度表示手段 304 特徴類似範囲取得手段 401 特徴度取得機能 402 特徴類似度取得機能 403 特徴類似度表示機能 404 特徴類似範囲取得機能
───────────────────────────────────────────────────── フロントページの続き (72)発明者 野村 直之 徳島県徳島市沖浜東3丁目46番地 株式会 社ジャストシステム内 Fターム(参考) 5B075 ND03 NK02 PQ14 PQ36 PR06 PR08 QS01
Claims (16)
- 【請求項1】 複数の対象それぞれについて、その特徴
の程度を表す特徴度を取得する特徴度取得手段と、 前記特徴度取得手段により取得された前記特徴度をもと
に、複数の前記対象相互間の特徴類似度を取得する特徴
類似度取得手段と、 複数の前記対象と前記対象間を亘る線分とを表示し、且
つ前記線分の表示状態によりそれらの対称間の特徴類似
度の大小を視覚的に把握可能に表す記特徴類似度取得手
段とを備えることを特徴とする類似度表示装置。 - 【請求項2】 前記特徴類似度の範囲を取得する特徴類
似範囲取得手段を備え、 前記特徴類似度表示手段は、前記特徴類似範囲取得手段
により取得された前記範囲のみの線分を表示することを
特徴とする請求項1に記載の類似度表示装置。 - 【請求項3】 文書処理装置に用いられ、 前記対象がユーザーであり、 前記特徴度が前記ユーザーそれぞれの嗜好を表す複数の
キーワードに対する重要度を要素値とする嗜好ベクトル
であることを特徴とする請求項1または2に記載の類似
度表示装置。 - 【請求項4】 文書処理装置に用いられ、 前記対象が文書であり、 前記特徴度が前記文書を特徴付ける文書ベクトルである
ことを特徴とする請求項1または2に記載の類似度表示
装置。 - 【請求項5】 複数の対象それぞれについて、その特徴
を表す特徴度を取得する特徴度取得機能と、 前記特徴度取得機能により取得された前記特徴度をもと
に、複数の前記対象相互間の特徴類似度を取得する特徴
類似度取得機能と、 複数の前記対象と前記対象間を亘る線分とを表示し、且
つ前記線分の表示状態によりそれらの対称間の特徴類似
度の大小を視覚的に把握可能に表す記特徴類似度取得機
能とをコンピュータに実現させるためのコンピュータ読
み取り可能な類似度表示プログラムが記憶された記憶媒
体。 - 【請求項6】 ユーザーの嗜好を表す複数のキーワード
に対する重要度を要素値とする嗜好ベクトルを取得する
嗜好ベクトル取得手段と、 文書を取得する文書取得手段と、 前記文書取得手段により取得された文書を特徴付ける文
書ベクトルを取得する文書ベクトル取得手段と、 前記文書ベクトル取得手段により取得された前記文書ベ
クトルを前記嗜好ベクトルによりシフトさせるシフト手
段とを具備することを特徴とする文書処理装置。 - 【請求項7】 前記嗜好ベクトル取得手段は、前記ユー
ザーが作成した文書又はアクセスした文書に対する複数
の文書ベクトルから前記嗜好ベクトルを作成することを
特徴とする請求項6に記載の文書処理装置。 - 【請求項8】 複数のユーザーと、複数の前記ユーザー
それぞれの嗜好を表す複数のキーワードとの一方を行、
他方を列とし、前記各ユーザーに対する前記各キーワー
ドの重要度を要素値とするGP行列を取得するGP行列
取得手段を備え、 前記嗜好ベクトル取得手段は、前記GP行列により前記
嗜好ベクトルを取得することを特徴とする請求項6また
は請求項7に記載の文書処理装置。 - 【請求項9】 前記GP行列取得手段は、 ユーザーが過去に処理した文書と該文書のキーワードと
のうちの一方を行、他方を列とし、前記文書におけるキ
ーワードの重要度を要素値とする文書−キーワード行列
と、 ユーザーが過去に処理した文書とユーザーとのうちの一
方を行、他方を列とし、各ユーザーの前記文書の処理回
数を要素とする文書−ユーザー行列と、からGP行列を
取得することを特徴とする請求項8に記載の文書処理装
置。 - 【請求項10】 所定の文書の文書ベクトルを嗜好ベク
トルによりシフトさせた嗜好文書ベクトルと、他の文書
の文書ベクトルから、前記所定の文書と前記他の文書と
の類似度を算出する類似度算出手段を具備することを特
徴とする請求項6から請求項9のうちのいずれか1の請
求項に記載の文書処理装置。 - 【請求項11】 ユーザーの嗜好を表す複数のキーワー
ドに対する重要度を要素値とする嗜好ベクトルを取得す
る嗜好ベクトル取得機能と、 文書を取得する文書取得機能と、 前記文書取得機能により取得された文書を特徴付ける文
書ベクトルを取得する文書ベクトル取得機能と、 前記文書ベクトル取得機能により取得された前記文書ベ
クトルを前記嗜好ベクトルによりシフトさせるシフト機
能とをコンピュータに実現させるためのコンピュータ読
み取り可能な文書処理プログラムが記憶された記憶媒
体。 - 【請求項12】 前記嗜好ベクトル取得機能は、前記ユ
ーザーが作成した文書又はアクセスした文書に対する複
数の文書ベクトルから前記嗜好ベクトルを作成すること
を特徴とする請求項11に記載の文書処理プログラムが
記憶された記憶媒体。 - 【請求項13】 複数のユーザーと、複数の前記ユーザ
ーそれぞれの嗜好を表す複数のキーワードとの一方を
行、他方を列とし、前記各ユーザーに対する前記各キー
ワードの重要度を要素値とするGP行列を取得するGP
行列取得機能を備え、 前記嗜好ベクトル取得機能は、前記GP行列により前記
嗜好ベクトルを取得することを特徴とする請求項11ま
たは請求項12に記載の文書処理プログラムが記憶され
た記憶媒体。 - 【請求項14】 前記GP行列取得機能は、 ユーザーが過去に処理した文書と該文書のキーワードと
のうちの一方を行、他方を列とし、前記文書におけるキ
ーワードの重要度を要素値とする文書−キーワード行列
と、 ユーザーが過去に処理した文書とユーザーとのうちの一
方を行、他方を列とし、各ユーザーの前記文書の処理回
数を要素とする文書−ユーザー行列と、からGP行列を
取得することを特徴とする請求項13に記載の文書処理
プログラムが記憶された記憶媒体。 - 【請求項15】 所定の文書の文書ベクトルを嗜好ベク
トルによりシフトさせた嗜好文書ベクトルと、他の文書
の文書ベクトルから、前記所定の文書と前記他の文書と
の類似度を算出する類似度算出機能を具備することを特
徴とする請求項6から請求項9のうちのいずれか1の請
求項に記載の文書処理プログラムが記憶された記憶媒
体。 - 【請求項16】 ユーザーの嗜好を表す複数のキーワー
ドに対する重要度を要素値とする嗜好ベクトルと、文書
とを取得し、 前記文書を特徴付ける文書ベクトルを取得し、 前記文書ベクトルを前記嗜好ベクトルによりシフトさせ
ることを特徴とする文書処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10376853A JP2000194723A (ja) | 1998-12-25 | 1998-12-25 | 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10376853A JP2000194723A (ja) | 1998-12-25 | 1998-12-25 | 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000194723A true JP2000194723A (ja) | 2000-07-14 |
Family
ID=18507841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10376853A Pending JP2000194723A (ja) | 1998-12-25 | 1998-12-25 | 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000194723A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6704905B2 (en) | 2000-12-28 | 2004-03-09 | Matsushita Electric Industrial Co., Ltd. | Text classifying parameter generator and a text classifier using the generated parameter |
JP2006209332A (ja) * | 2005-01-26 | 2006-08-10 | Nippon Telegr & Teleph Corp <Ntt> | 価値観推定方法および装置並びにそのプログラム |
CN100397332C (zh) * | 2002-03-01 | 2008-06-25 | 惠普开发有限公司 | 文档分类方法和设备 |
-
1998
- 1998-12-25 JP JP10376853A patent/JP2000194723A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6704905B2 (en) | 2000-12-28 | 2004-03-09 | Matsushita Electric Industrial Co., Ltd. | Text classifying parameter generator and a text classifier using the generated parameter |
CN100397332C (zh) * | 2002-03-01 | 2008-06-25 | 惠普开发有限公司 | 文档分类方法和设备 |
JP2006209332A (ja) * | 2005-01-26 | 2006-08-10 | Nippon Telegr & Teleph Corp <Ntt> | 価値観推定方法および装置並びにそのプログラム |
JP4541911B2 (ja) * | 2005-01-26 | 2010-09-08 | 日本電信電話株式会社 | 価値観推定装置およびそのプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gardener | Statistics for ecologists using R and Excel: data collection, exploration, analysis and presentation | |
Meyers et al. | Performing data analysis using IBM SPSS | |
Maindonald et al. | Data analysis and graphics using R: an example-based approach | |
JP2960340B2 (ja) | データ検索方法及び装置 | |
JP4890851B2 (ja) | 意味論的文書スマートネール | |
JP5083669B2 (ja) | 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム | |
WO2009104023A2 (en) | Term identification methods and apparatus | |
JPH1153394A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP4067603B2 (ja) | 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 | |
Rüdiger et al. | The explanatory power of citations: A new approach to unpacking impact in science | |
JPH1145289A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP4005672B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP2000194725A (ja) | 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体 | |
JP4021525B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
López-Escobedo et al. | Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution | |
JP2001084256A (ja) | データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
Ingwersen | The pragmatics of a diachronic journal impact factor | |
JP4030624B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 | |
JP2000194723A (ja) | 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP6303669B2 (ja) | 資料検索装置、資料検索システム、資料検索方法、及び、プログラム | |
JP4025391B2 (ja) | 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法 | |
JPH1153398A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP3154992B2 (ja) | 情報検索装置、及び情報検索プログラムが記憶された記憶媒体 | |
JP2000194724A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP4047417B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081021 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090317 |