JPH11203311A - 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 - Google Patents
関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体Info
- Publication number
- JPH11203311A JPH11203311A JP10005200A JP520098A JPH11203311A JP H11203311 A JPH11203311 A JP H11203311A JP 10005200 A JP10005200 A JP 10005200A JP 520098 A JP520098 A JP 520098A JP H11203311 A JPH11203311 A JP H11203311A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- relevance
- appearance
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 181
- 238000004364 calculation method Methods 0.000 claims abstract description 299
- 230000001419 dependent effect Effects 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims description 46
- 239000000284 extract Substances 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 abstract description 30
- 238000004458 analytical method Methods 0.000 abstract description 17
- 230000000877 morphologic effect Effects 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 262
- 238000010586 diagram Methods 0.000 description 49
- 238000012986 modification Methods 0.000 description 21
- 230000004048 modification Effects 0.000 description 21
- 230000008901 benefit Effects 0.000 description 15
- 230000011218 segmentation Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99939—Privileged access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
ることにより、形態素解析また構文解析の処理を施すこ
となく、利用者にとって分かり易く、かつ、精度を高く
して関連語を抽出する事ができるようにする。 【解決手段】 テキストデータ上において、指定された
単語の前に出現する前出現単語または指定された単語の
後に出現する後出現単語を抽出する前後出現単語抽出部
21と、頻度を計算しうる頻度計算部22と、出現確立
を計算しうる出現確立計算部23と、共起確立を計算す
る共起確立計算部24と、出現順序に依存する関連度を
計算する順序依存型単語関連度計算部25と、順序依存
型単語関連度計算部からの関連度情報に基づいて出現順
序に依存しない関連度を計算する順序無依存型単語関連
度計算部26と、順序無依存型単語関連度計算部にて計
算された関連度情報に基づいて、指定された単語に関連
する単語群をテキストデータから抽出する単語群抽出部
27とをそなえるように構成する。
Description
ら関連語の抽出に用いて好適な関連語抽出装置および関
連語抽出方法および関連語抽出プログラムが記録された
コンピュータ読取可能な記録媒体に関するものである。
際して、最もよく行なわれていることとして、人手で、
文書情報から関連語と判断し得るものを抜粋して、関連
語のリストを作成する手法が行なわれる他、人手で作っ
たシソーラスを利用して関連語のリストを作成する手法
も行なわれている。
て自動で抽出する方法では、以下に述べる関連語のリス
トを作成する手法が案出されている。その一の手法は、
関連語としての二つの単語において、その二つの単語
が、共起する頻度、すなわち二つの単語が共に文書情報
の中で出現する頻度を基本として関連語のリストを作成
するものである。共起と見做す範囲には、数単語以内
や、数十単語以内,1分内,1段落内などさまざまなも
のがある。
が高いものから関連語と判断する以外にも、以下に述べ
る手法がとられている。事前にキーワードである単語の
集合(単語群)を決めておき、その単語群に属する単語
間において、共起する頻度を集計することにより、関連
語のリストを作成する技術が案出されている。
(文書)に対して、形態素解析を行なうことで単語の品
詞を決め、機能語を取り除いたり或いは自立語のみにつ
いてだけ共起する頻度を集計することにより、関連語の
リストを作成する技術が案出されている。ドキュメント
中、指定する単語と共起する単語の頻度を基本として、
頻度の高い関連語と頻度の低い関連語のものを関連語の
リスト作成において除外することにより、関連語のリス
トを作成する技術が案出されている。
語間についてのみ共起する頻度を集計して、関連語のリ
ストを作成する技術が案出されている。共起する頻度を
そのまま関連語と判断する基準とする以外に、相互情報
量と呼ばれる値を使う技術(以下,「技術A」と言
う。)も案出されている。ここで、相互情報量(mutual
information,伝達情報量, transferred information)と
は、事象xの生起を知ることにより伝えられる情報量
と、他の事象yが生起したという条件下で事象xの生起
を知ることにより伝えられる条件付き情報量との差を言
い,数学的には、xi,yiの入力通報がxi,出力通報がyi
である事象の組をいう。ここで、p(xi,yi)を事象xiとyi
の生起する結合確率,p(xi|yi) を事象yiが生起したと
いう条件下で事象xiの生起する確率,p(yi|xi) を事象
xiが生起したという条件下で事象yiの生起する確率,p
(xi) を事象xiの生起する確率,p(yi) を事象yiの生起
確率とするとき、事象の組xi,yi に対する相互情報量
(伝達情報量)T(xi|yi) は、下記の数式(1)に示す
式で与えられる。
互情報量T(xi|yi) を算出することで、指定された単語
xiとそれに対するyiとの関連度を相互情報量により算出
し、その算出した値を用いて、関連語のリストを作成す
ることも考えられる。
語のリストを作成するものでは、手間がかかり作成コス
トが高いばかりでなく、新しい言葉に対応するためには
その都度作成しなければならないという課題がある。一
方、計算機を使う方法でも、事前にキーワードを決める
方法では事前にキーワードを決める作業が必要となると
いう課題がある。
取り出す方法では、形態素解析などの技術を使って品詞
の情報等を得ることが必要であるという課題がある。高
頻度である関連語と低頻度である関連語を除く方法で
は、頻度がいくつ以上のものを除外するか、いくつ以下
のものを除外するかを決定するのが容易ではないとうい
う課題がある。
行なうことによりその分だけ手間がかかるという課題が
ある。形態素解析や構文解析を前提とする場合には、そ
れらの性能も十分高くなくてはならず、また十分な性能
を得ようとすれば絶えず辞書や文法の整備が必要となる
という課題がある。
(xi| yi) の式を用いて関連語のリストを作成する技術
Aでは、事前に関連語検索の対象となる事項を予め決め
ておくことや、形態素解析の処理は必ずしも必要ではな
いが、単語の出現順序に依存しているため、出現順序に
依存した関連語のリストを作成するに留まり、利用者が
この相互情報量を作成した関連語のリストを理解するに
も分かり難いという課題がある。
されたもので、相互情報量を用いることにより、形態素
解析また構文解析の処理を施すことなく、利用者にとっ
て分かり易く、かつ、精度を高くして関連語を抽出でき
るようにした、関連語抽出装置および関連語抽出方法並
びに関連度抽出方法および関連語抽出プログラムが記録
されたコンピュータ読取可能な記録媒体を提供すること
を目的とする。
明の関連語抽出装置は、テキストデータ上において、指
定された単語の前に出現する前出現単語または指定され
た単語の後に出現する後出現単語を抽出する前後出現単
語抽出部と、指定された単語がテキストデータ上で出現
する頻度,前出現単語または後出現単語がテキストデー
タ上で出現する頻度および前後出現単語抽出部にて抽出
された前出現単語および後出現単語の頻度を計算しうる
頻度計算部と、頻度計算部からの指定された単語の頻度
情報および前出現単語および後出現単語のテキストデー
タ上での出現頻度情報に基づいて、指定された単語の出
現確率とともに前出現単語および後出現単語それぞれの
出現確率を計算しうる出現確率計算部と、頻度計算部か
らの、前後出現単語抽出部にて抽出された前出現単語お
よび後出現単語の頻度情報に基づいて、前出現単語およ
び後出現単語のそれぞれが指定された単語と共起する共
起確率を計算する共起確率計算部と、出現確率計算部か
らの各出現確率情報と、共起確率計算部からの各共起確
率情報とに基づいて、指定された単語に対する前出現単
語および後出現単語の、出現順序に依存する関連度を計
算する順序依存型単語関連度計算部と、順序依存型単語
関連度計算部からの関連度情報に基づいて、指定された
単語に対する前出現単語および後出現単語の、出現順序
に依存しない関連度を計算する順序無依存型単語関連度
計算部と、順序無依存型単語関連度計算部にて計算され
た関連度情報に基づいて、指定された単語に関連する単
語群をテキストデータから抽出する単語群抽出部とをそ
なえて構成されたことを特徴としている(請求項1)。
された単語に関する各種計算結果および抽出結果のうち
の少なくとも一つを記憶しておく記憶部をそなえて構成
されたことを特徴としている(請求項2)。または、本
発明の関連語抽出装置は、テキストデータについて単語
または形態素の単位に分割する単語分割部をそなえ、単
語分割部にて分割された結果を用いることにより、前後
出現単語抽出部および頻度計算部における処理を行なう
ように構成されたことを特徴としている(請求項3)。
抽出部から、指定された単語としての少なくとも2つの
単語それぞれに関連する単語群の抽出結果を用いること
により、少なくとも2つの単語間の類似度を計算する類
似度計算部をそなえて構成されたことを特徴としている
(請求項4)。あるいは、本発明の関連語抽出装置は、
単語群抽出部から、指定された単語としての少なくとも
2つの単語それぞれに関連する単語群の抽出結果を用い
ることにより、各単語の全てに関連する単語群を抽出す
る関連単語群抽出部をそなえて構成されたことを特徴と
している(請求項5)。
定された単語に対して同義と見做しうる単語を判定する
ための同義語辞書部をそなえ、同義語辞書部からの情報
に基づき指定された単語と同義と見做された単語につい
ては、指定された単語と一つにまとめるように構成され
たことを特徴としている(請求項6)。一方、上記の課
題を解決する本発明の関連語抽出方法は、ある単語に関
連する関連語としての単語群をテキストデータから抽出
する関連語抽出方法において、関連語を抽出すべき対象
となる単語を指定する対象単語指定ステップと、テキス
トデータ上において、指定された単語の前に出現する前
出現単語および後に出現する後出現単語を抽出する前後
出現単語抽出ステップと、前後出現単語抽出ステップに
て抽出された前出現単語および後出現単語のそれぞれ
が、対象単語指定ステップにて指定された単語と共起す
る共起確率を計算する共起確率計算ステップと、対象単
語指定ステップにて指定された単語の出現確率ととも
に、前後出現単語抽出ステップにて抽出された前出現単
語および後出現単語それぞれの出現確率を計算する出現
確率計算ステップと、共起確率計算ステップにて計算さ
れた各共起確率情報および出現確率計算ステップにて計
算された各出現確率情報に基づいて、指定された単語に
対する前出現単語および後出現単語の、出現順序に依存
する関連度を計算する順序依存型単語関連度計算ステッ
プと、順序依存型単語関連度計算ステップにて計算され
た関連度情報に基づいて、指定された単語に対する前出
現単語および後出現単語の、出現順序に依存しない関連
度を計算する順序無依存型単語関連度計算ステップと、
順序無依存型単語関連度計算ステップにて計算された関
連度情報に基づいて、指定された単語に関連する単語群
をテキストデータから抽出して出力する単語群抽出ステ
ップとをそなえて構成されたことを特徴としている(請
求項7)。
現単語抽出ステップにおける前出現単語および後出現単
語を抽出する前段または後段において、テキストデータ
について単語または形態素の単位に分割する単語分割ス
テップをそなえて構成されたことを特徴としている(請
求項8)。または、本発明の関連語抽出方法は、単語群
抽出ステップにて指定された単語としての少なくとも2
つの単語それぞれに関連する単語群を抽出した後に、抽
出された各単語に関連する単語群から、少なくとも2つ
の単語間の類似度を計算する類似度計算ステップをそな
えて構成されたことを特徴としている(請求項9)。
語群抽出ステップにて指定された単語としての少なくと
も2つの単語それぞれに関連する単語群を抽出した後
に、抽出された各単語に関連する単語群から、各単語全
てに関連する単語群を抽出する関連単語群抽出ステップ
をそなえて構成されたことを特徴としている(請求項1
0)。
象単語指定ステップにおいて指定された単語に対して同
義と見做しうる単語がある場合には、単語群抽出ステッ
プにおいて、同義と見做しうる単語に関連する単語群
と、指定された単語に関連する単語群とを一つにまとめ
て出力することを特徴としている(請求項11)。他
方、上記課題を解決する本発明の関連語抽出プログラム
が記録されたコンピュータ読み取り可能な記録媒体は、
ある単語に関連する関連語としての単語群をテキストデ
ータから抽出すべく、コンピュータに、関連語を抽出す
べき対象となる単語を指定する対象単語指定機能と、テ
キストデータ上において、指定された単語の前に出現す
る前出現単語および後に出現する後出現単語を抽出する
前後出現単語抽出機能と、前後出現単語抽出機能にて抽
出された前出現単語および後出現単語のそれぞれが、対
象単語指定機能にて指定された単語と共起する共起確率
を計算する共起確率計算機能と、対象単語指定機能にて
指定された単語の出現確率とともに、前後出現単語抽出
機能にて抽出された前出現単語および後出現単語それぞ
れの出現確率を計算する出現確率計算機能と、共起確率
計算機能にて計算された各共起確率情報および出現確率
計算機能にて計算された各出現確率情報に基づいて、指
定された単語に対する前出現単語および後出現単語の、
出現順序に依存する関連度を計算する順序依存型単語関
連度計算機能と、順序無依存型単語関連度計算機能にて
計算された関連度情報に基づいて、指定された単語に対
する前出現単語および後出現単語の、出現順序に依存し
ない関連度を計算する順序無依存型単語関連度計算機能
と、順序無依存型単語関連度計算機能にて計算された関
連度情報に基づいて、指定された単語に関連する単語群
をテキストデータから抽出して出力する単語群抽出機能
とを実現させるための関連語抽出プログラムが記録され
たことを特徴としている(請求項12)。
の形態の説明をする。 (1)実施の形態の説明 (a)ハードウェア構成の説明 図1は、本発明の一実施形態としての関連語抽出装置が
適用されるシステムを示す図であり、この図1に示すよ
うに、本システム(例えば汎用のコンピュータシステ
ム)1は、CPUや所要のメモリ等を内蔵する本体装置
1a,ディスプレイ1b,キーボード1c等を兼ね備え
て構成される。
記録している媒体,例えば,CD−ROMや、光磁気デ
ィスク(以下、「MO」と言う。)やフロッピーディス
ク(以下、「FD」と言う。)等1fから関連語抽出プ
ログラムをハードディスク(図示しない)等に格納し、
関連語抽出プログラムを実行する際には、関連語抽出プ
ログラムをメモリ(図示しない)に展開してCPU(図
示しない)とともに、ディスプレイ1b,キーボード1
c等の接続機器に制御を施すようになっている。
適用された汎用のコンピュータシステムの要部を示すブ
ロック図であり、この汎用のコンピュータシステム(以
下においては、単に汎用コンピュータあるいはコンピュ
ータと記す場合がある。)1は、CPU11,メモリ1
2,ハードディスク13,入力装置14,出力装置15
を要部として構成される。
イブ1dやFDドライブ1e等から記録媒体に記録され
ている関連語抽出プログラムを保持するものである。入
力装置14は、CPU11等にデータやプログラム等の
情報を入力するために用いる装置であり、キーボード1
cやマウス(図示しない)やCD−ROMドライブ1
d、FDドライブ1e等が該当する。
示情報や検索情報等を外部へ出力するものであり、ディ
スプレイ1b等が該当する。 (b)一実施形態の説明 図3は、本発明の一実施形態にかかる関連語抽出装置が
適用されたシステム(汎用コンピュータ)1のブロック
図であり、この図3に示すようにコンピュータ1は前後
出現単語抽出部21,頻度計算部22,共起確率計算部
24,出現確率計算部23,順序依存型単語関連度計算
部25,順序無依存型単語関連度計算部26,単語抽出
部27,単語分割部28,記憶部(図示しない)をそな
えて構成される。
タ上において、指定された単語の前に出現する前出現単
語または指定された単語の後に出現する後出現単語を抽
出するものである。ここで、指定された単語とは、テキ
ストデータ上の文書情報から関連語を抽出するときの基
になるキーワードである。なお、説明の便宜を考慮し
て、テキストデータに出現する単語の集合をW,テキス
トデータに含まれる全単語数をN,テキストデータに出
現する個々の単語をωi(ωi∈W,1≦i≦w),テ
キストデータに出現するすべての単語タイプ数wとす
る。
現する単語をωfi、キーワードの後に出現する単語をω
biと言う場合がある。頻度計算部22は、指定された単
語(以下、「キーワード」と言う。)がテキストデータ
上で出現する頻度,前出現単語または後出現単語がテキ
ストデータ上で出現する頻度および前後出現単語抽出部
21にて抽出された前出現単語および後出現単語の頻度
を計算しうるものである。ここで、頻度は、所定量の文
字情報からキーワードがいくつあるかを示す指標であ
り、例えば、1000単語から構成される英文にある英
単語XがM個(Mは自然数)あるなら数値Mが出現数を
示す指標となる。ここで、頻度の計算を行なう文書の範
囲は、装置の保守者や設計者等の設計や設定等に依存す
るようになっている。
i)は、以下の数式(2)に示すような関係が成り立つ。
らの指定された単語の頻度情報および前出現単語および
後出現単語のテキストデータ上での出現頻度情報に基づ
いて、指定された単語の出現確率とともに上記の前出現
単語および後出現単語それぞれの出現確率を計算しうる
ものである。テキストデータ中での単語ωi が出現する
確率P(ωi)は、以下の数式(3)に示すような関係が成
り立つ。
らの、前後出現単語抽出部21にて抽出された前出現単
語および後出現単語の頻度情報に基づいて、前出現単語
および後出現単語のそれぞれが指定された単語と共起す
る共起確率を計算するものである。なお、テキストデー
タ中で、単語ωi と単語ωj がこの順番で出現する確率
をP(ωi,ωj)と記す。
抽出部21にて抽出された単語それぞれについて頻度を
計算する。抜き出した単語の頻度情報をf(ωfi)=f(ωi,
ωk),f(ωbi)=f(ωi,ωk)とするとP(ωi,ωk)=f(ωi,
ωk)/N,P(ωi,ωk)=f(ωi,ωk)/Nと定義すること
ができる。ここで、例として、前出現単語として抽出さ
れた単語のリスト中に含まれていいる頻度数をf(ωfi)
としており、換言すると単語ωi と単語ωk とがこの順
番で出現する頻度f(ωi,ωk)であることを意味する。
確率計算部23からの各出現確率情報と、共起確率計算
部24からの各共起確率情報とに基づいて、指定された
単語に対する前出現単語および後出現単語の、出現順序
に依存する関連度を計算するものである。順序依存型単
語関連度は、以下の数式(4)に示す式で定義され、単
語ωi と単語ωj との単語関連率を次のように定義され
る。
タ)中でこの順番で単語ωiと単語ωjが出現する確率
を表わす。以下、順序依存型単語関連度A(ωi,ωj)をAi
j と示す場合がある。順序無依存型単語関連度計算部2
6は、順序依存型単語関連度計算部25からの関連度情
報に基づいて、指定された単語に対する前出現単語およ
び後出現単語の、出現順序に依存しない関連度を計算す
るものである。
は、以下の数式(5)に示すように定義される。
連度計算部26にて計算された関連度情報に基づいて、
指定された単語に関連する単語群をテキストデータから
抽出するものである。単語抽出部27は、関連度の高い
ものから上位の関連語を抜き出すようになっている。単
語分割部28は、テキストデータについて単語または形
態素の単位に分割するものである。
に関する各種計算結果および抽出結果のうちの少なくと
も一つを記憶しておくものである。記憶部は、頻度計算
部22で計算した頻度情報,前後出現単語抽出部21で
抜き出した単語の情報,共起確率計算部24で計算され
た共起確率の情報,単語出現確率計算部23にて計算さ
れた出現確率情報,順序依存型単語関連度計算部26に
て計算された関連度情報,順序無依存型単語関連度情報
計算部26にて計算された関連度情報,単語分割部28
にて単語または形態素の単位に分割されたテキストデー
タの情報を記憶するようになっている。
モリ12,HDD13,等とを具体的に関連付けて説明
すると、以下のようになる。単語分割部28としてのC
PU11は、テキストデータに含まれている文書情報に
対して単語または形態素の単位に分割するものである。
ここで、テキストデータは、FDやCD−ROM等の媒
体やハードディスク13に格納されているようになって
いるが、さらに、スキャナーからテキストデータを読み
込むようにしてもよい。以下、テキストデータが、ハー
ドディスク13に格納されている場合を前提にするが、
FDやCD−ROM等の媒体にテキストデータが格納さ
れている場合も同様であることを意味する。
析の処理を施すに際して、テキストデータの文書情報を
メモリ12に展開して単語または形態素の単位に分割す
るようになっており、形態素解析処理が行われて単語ま
たは形態素の単位に分割されたテキストデータの文書情
報は、記憶部としてのハードディスク13やメモリ12
に格納されるようになっている。
1は、図4に示すように文書内容のテキストデータを図
5に示すように単語あるいは形態素の単位に分割するよ
うになっている。以下、図4に示す新聞記事を文書内容
とするテキストデータを基に、説明する。前後出現単語
抽出部21としてのCPU11は、装置利用者によるキ
ーボード1c等の操作からキーワード(以下、場合によ
りキーワードを記す表示としてωkを記す場合があ
る。)ωk の情報を受け取ると、キーワードωk の前に
出現する前出現単語ωfiまたはキーワードωk の後に出
現する後出現単語ωbiを抽出するものである。
出現単語ωfi,後出現単語ωbiを抽出する際に、ハード
ディスク13に格納されている文書情報(テキストデー
タ)をメモリ12に展開して前出現単語ωfi, 後出現単
語ωbiを抽出するようになっている。この抽出した結果
は、メモリ12或いはハードディスク13に格納される
ようになっている。
すような単語あるいは形態素の単位に分割された内容の
文書情報であるテキストデータに対してキーワードωk
を「日光」として、前出現単語ωfi, 後出現単語ωbiを
抽出した情報を示す図であり、図6(a)はキーワード
ωk (「日光」)の前に出現する単語を抽出した情報を
示す図であり、図6(b)はキーワードωk (「日
光」)の後に出現する単語を抽出した情報を示す図であ
る。前後出現単語抽出部21としてのCPU11は、図
6(a),(b)に示すような抽出した単語あるいは形
態素をメモリ12上のテーブルに格納するようになって
いる。
ーワードをテキストデータ上で出現する頻度f(ωk),前
出現単語または後出現単語のテキストデータの文書情報
中に出現する頻度f(ωi)、前後出現単語抽出部にて抽出
された前出現単語および後出現単語の頻度f(ωfi),f(ω
bi) を計算するものである。例えば、頻度計算部22と
してのCPU11は、前出現単語ωfiの頻度f(ωfi) を
計算するに際して、図6(a)に示すような前出現単語
として抽出された単語のリスト内に出現している数を基
に算出するようになっている。
6に示すようなデータをメモリ12上のテーブルで整列
する等の処理を施してその単語の頻度を数えるようにな
っている。ここで、図7は、図5に示すような単語ある
いは形態素に分割された内容の文書情報であるテキスト
データ中の単語について算出した頻度数の例を示す図で
ある。
いは形態素に分割された内容の文書情報であるテキスト
データ中の全単語について算出した頻度数を提示する図
であり、この図8に示すような頻度数の数値を基に共起
する割合を考察すると、関連語とは直接的に結びつかな
い言葉、例えば「の」,「は」,「。」等の助詞や句読
点が高頻度で共起するものになっている。
fi),f(ωbi),f(ωi)のデータ情報を保持するようにメモ
リ12やハードディスク13を制御するようになってい
る。出現確率計算部23としてのCPU11は、頻度計
算部22からの指定された単語の頻度情報f(ωk)および
前出現単語および後出現単語のテキストデータ上での出
現頻度情報f(ωi)に基づいて、キーワードの出現確率と
ともに前出現単語および後出現単語それぞれの出現確率
を計算しうるものである。
行なうに際して、頻度計算部22で算出されたデータ情
報を利用するようになっている。それに対応する情報を
メモリに関連付けて処理作業を行なうようになってい
る。また、CPU11は、算出した出現確率の情報をメ
モリ12やハードディスク13に保持するようになって
いる。
は、頻度計算部22からの、前後出現単語抽出部にて抽
出された前出現単語および後出現単語の頻度情報に基づ
いて、前出現単語および後出現単語のそれぞれがキーワ
ードωk と共起する共起確率P(ωi,ωk),P(ωk,ωi)を
計算するようになっている。順序依存型単語関連度計算
部25としてのCPU11は、出現確率計算部23から
の各出現確率情報P(ωi),P(ωk)と、共起確率計算部2
4からの各共起確率情報P(ωi,ωk),P(ωk,ωi)とに基
づいて、上キーワードωk に対する前出現単語および後
出現単語の、出現順序に依存する関連度A(ωk,ωi),A
(ωi,ωk)を計算するものである。
A(ωk,ωi),A(ωi,ωk)を算出するに際して、その計算
に用いる情報P(ωi),P(ωk),P(ωi,ωk),P(ωk,ωi)
をハードディスク13からメモリ12に読みだすように
なっている。また、CPU11は、計算した関連度A(ω
k,ωi),A(ωi,ωk)をハードディスク13やメモリ12
に保持するようになっている。
に出現する単語ωfiとの関連度A(ωi,ωk)を提示する図
であり、一方図10は、キーワード「日光」の後に出現
する単語ωbiとの関連度A(ωk,ωi)を提示する図であ
る。これらの図9および図10に示すような関連度の情
報がメモリ12のテーブル上に言葉と数値とを対応して
格納すうようになっている。
のCPU11は、順序依存型単語関連度計算部25から
の関連度情報A(ωk,ωi),A(ωi,ωk)に基づいて、キー
ワードωk に対する前出現単語および後出現単語の、出
現順序に依存しない関連度r(ωi,ωk)を計算するもので
ある。CPU11は、関連度情報r(ωi,ωk)を算出する
に際して、計算に用いる情報A(ωk,ωi),A(ωi,ωk)を
メモリ11やハードディスク13から読みだして、演算
処理を行なうようになっている。
度計算部26としてのCPU11が、図9,図10に提
示されているデータを基に、出現順序に依存しない関連
度r(ωi,ωk)を提示する図である。CPU11は、この
図11に示すような関連度情報r(ωi,ωk)を言葉と数値
を対応付けてメモリ12のテーブル上に格納するように
なっている。
序無依存型単語関連度計算部26にて計算された関連度
情報r(ωi,ωk)に基づいて、キーワードωk に関連する
単語群を上テキストデータから抽出する。CPU11
は、テキストデータからキーワードωk に関連する単語
群を抽出するに際して、順序依存型単語関連度計算部2
6にて計算された結果を用いるようになっている。
うなときは、CPU11は、順序依存型単語関連度計算
部26にて計算された関連度情報r(ωi,ωk)を用いて、
この関連の度合いを示す数値により、数値の大きい単語
から順に出力するようになっている。具体的には、CP
U11は、図11に示すような順序に依存しない関連度
の中から上位5位までの出力する等行なうようになって
おり、CPU11が単語群を具体的に何語出力するかは
装置の設計者や保守者等による設計や操作に依存するよ
うなっている。以下、単語抽出部27としてのCPU1
1が、順序に依存する関連度情報r(ωi,ωk)から数値の
大きい上位10位までの単語或いは形態素を抽出して出
力することを前提に説明する。
は、抽出した単語群をメモリ12等にて保持するような
制御を行なうこともできるようになっており、以下、抽
出した単語のリストをメモリ12等で保持することを前
提に説明する。ここで、CPU11は、装置の利用者か
ら単語「日光」の関連語のリストを求める信号を受けた
場合には、メモリ12上のテーブル等に抽出された関連
語のリスト情報が存在するか否かを判断し、存在してい
る場合にはその情報を用いることで、関連語リストを出
力することができるようになっていることに対応する。
ィスプレイの画面に表示したり印字してプリントアウト
するような制御を行なうことができるものである。記憶
部としてのメモリ12やハードディスク13は、キーワ
ードωk に関する各種計算結果P(ωk),P(ωi,ωk),r
(ωi,ωk)等の計算結果や頻度情報f(ωk),f(ωfi) 等
の抽出した結果を記憶しておくものである。なお、以
下、場合により、メモリ12やハードディスク13等の
データ情報を記憶しておくものを記憶装置と言う場合が
ある。
関連語抽出装置が適用された汎用コンピュータ1では、
本体装置1a内へCD−ROM等のコンピュータ読み取
り可能な記録媒体から関連語抽出プログラムがコンピュ
ータ内にインストールされることで、動作し得る状態に
なる。ところで、関連語抽出プログラムは、汎用コンピ
ュータ1に、キーワードωkに関連する関連語としての
単語群をテキストデータから抽出すべく、対象単語指定
機能,頻度計算機能, 前後出現単語抽出機能,共起確率
計算機能,出現確率計算機能,順序依存型単語関連度計
算機能,順序無依存型単語関連度計算機能,単語群抽出
機能,単語分割機能を実行させるためのコンピュータ1
の処理に適した命令が順番付けられた列である。
においてテキストデータ中から関連語を抽出すべき対象
となるキーワードを指定する機能であり、単語分割機能
はコンピュータ1においてテキストデータ中の文書情報
を単語または形態素の単位に分割する機能であり、前後
出現単語抽出機能はコンピュータ1においてテキストデ
ータ内のキーワードωk の前に出現する前出現単語ωfi
またはキーワードωkの後に出現する後出現単語ωbiを
抽出する機能であり、頻度計算機能はコンピュータ1に
おいて頻度f(ωi),f(ωk)等を算出する機能である。
てキーワードωk の出現確率P(ωk)とともに前後出現単
語抽出機能にて抽出された前出現単語ωfiおよび後出現
単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計算す
る機能であり、共起確率計算機能はコンピュータ1にお
いて前後出現単語抽出機能にて抽出された前出現単語ω
fiおよび後出現単語ωbiのそれぞれがキーワードωk と
共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を計算す
る機能であり、順序依存型単語関連度計算機能はコンピ
ュータ1において共起確率計算機能にて計算された各共
起確率情報P(ωfi, ωk),P(ωk,ωbi) および出現確率
計算機能にて計算された各出現確率情報P(ωk),P( ωf
i),P(ωbi) に基づいて、キーワードωk に対する前出
現単語ωfiおよび後出現単語ωbiの出現順序に依存する
関連語度A(ωfi, ωk),A(ωk,ωbi) を計算する機能で
ある。
ュータ1において順序依存型単語関連度計算機能にて計
算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基づ
いて、キーワードに対する前出現単語ωfiおよび後出現
単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を計
算する機能である。単語群抽出機能はコンピュータ1に
おいて順序無依存型単語関連度計算機能にて計算された
関連度情報r(ωi,ωk)に基づいて、キーワードωk に関
連する単語群をテキストデータから抽出して出力する機
能である。
る動作とを関連付けて具体的な動作手順を図12〜15
に示すフローチャートを基に説明する。図12は、本発
明の一実施形態にかかる汎用コンピュータ1にて、CP
U11が関連語抽出プログラムを実行するときの処理の
流れを示すフローチャートでああり、この図12に示す
ように対象単語指定機能としてのCPU11は、メモリ
12に展開されている関連語抽出プログラムを実行する
ことで、先ず関連語を求めたい単語(キーワードωk)を
指定する(ステップS1)。
指定する際にコンピュータ1の利用者がキーボード1c
を操作すること等によりキーワードωk の情報信号を受
信し、キーワードωk を定める。例えば、図5に示すよ
うな単語あるいは形態素に分割された文書内容を含んだ
テキストデータから利用者にて単語「日光」の関連語を
抽出するに際は、装置の利用者がキーボード1cを操作
してCPU11へ単語「日光」の情報を通知すると、C
PU11は、キーワードを単語「日光」と定める。換言
すると、CPU11は、対象単語指定ステップとして、
関連語を抽出すべき対象となるキーワードを指定する。
る関連語抽出処理を実行した場合には関連語のデータが
記憶装置に格納されていることから単語「日光」の関連
語のデータが記憶装置に存在するか否かを判断する(ス
テップS2)。すなわち、CPU11は、メモリ11や
ハードディスク13に抽出を試みる単語「日光」に対す
る関連語のデータが格納されているか否かを判断するた
めに、メモリ12上のテーブルに格納されているデータ
を展開して、該当するものか否かのデータ処理を行な
う。
する関連語のデータが記憶装置に存在する場合には、そ
の関連語のデータを出力する(ステップS9)。CPU
11は、関連度情報r(ωi,ωk)の値の大きいものから順
に出力し、例えば、ディスプレイ1bの画像に関連語の
リストを表示するための画像表示信号をディスプレイ1
bに送信したり、プリンタから印字したものを出力する
ような制御を施し得る(ステップS9)。
示すような順序に依存しない関連度と単語を対応付けて
出力する。一方、CPU11は、記憶装置にキーワード
ωk の関連語のデータに存在しない場合には、単語「日
光」と共起する単語の関連率(関連度情報A(ωi,ωk))
が記憶装置に存在するか否か判断する(ステップS
3)。
関連率が存在しない場合、CPU11は、共起確率計算
部24としてのCPU11から共起する単語のリストと
共起する単語それぞれに関する共起確率P(ωfi, ωk),
P(ωk,ωbi) を得る(ステップS4)とともに、共起す
る単語のリストを基に、それぞれの単語の出現確率P(ω
fi),P(ωbi) を出現確率計算部23から受け取る(ステ
ップS5)。
してのCPU11は、共起する単語のリストを基に、そ
れぞれの単語について単語関連率(関連度情報A(ωi,ω
k),A(ωk,ωi)) を計算する(ステップS6)。ここ
で、CPU11は、前記した図9,図10に示すような
関連度情報A(ωi,ωk),A(ωk,ωi)を算出し、算出した
結果をメモリ12のテーブル上に関連度と単語あるいは
形態素を対応づけて保持するような制御をメモリ12に
行っている。
語関連度計算ステップとして、共起確率情報および出現
確率情報に基づいて、キーワードに対する前出現言単語
および後出現単語の、出現順序に依存する関連度を計算
する。順序無依存型単語関連度計算機能としてのCPU
11は、共起する単語のリストとそれぞれの単語の関連
度情報A(ωi,ωk),A(ωk,ωi)から単語関連度r(ωi,ω
k)を計算する(ステップS7)。
関連語の情報が格納されていない場合においても、順序
無依存型単語関連度計算機能としてのCPU11が図1
0,図11に示すような順序に依存する関連度情報A(ω
i,ωk),A(ωk,ωi)から図11に示すような単語関連度
r(ωi,ωk)を算出する。換言すると、CPU11は、順
序無依存型単語関連度計算ステップとして、順序依存型
単語関連度計算ステップにて計算された関連度情報A(ω
i,ωk),A(ωk,ωi)に基づいて、キーワードに対する前
出現単語および後出現単語の、出現順序に依存しない関
連度r(ωi,ωk)を計算する。
は、単語関連度r(ωi,ωk)を基に関連語を選択して出力
する(ステップS8)。ここで、CPU11は、図11
に示すような算出された順序に依存しない関連度情報r
(ωi,ωk)から、上位10の単語あるいは形態素を出力
する。換言すると、CPU11は、単語群抽出ステップ
として、順序無依存型単語関連度計算ステップにて計算
された関連度情報に基づいて、キーワードに関連する単
語群をテキストデータから抽出して出力する。
のCPU11のプログラムを実行することによる処理の
流れを示すフローチャートであり、この図13に示すよ
うに共起確率計算機能としてのCPU11は、単語「日
光」の共起確率P(ωi,ωk),P(ωk,ωi)を得ようとする
に際して、先ず求める共起確率P(ωi,ωk),P(ωk,ωi)
が記憶装置に存在するか否かを判断する(ステップS1
0)。
記憶装置に求める共起確率P(ωi,ωk),P(ωk,ωi)が格
納されている場合には、その共起確率P(ωi,ωk),P(ω
k,ωi)をその単語のリストと共に、順序依存型単語関連
度計算機能としてのCPU11で計算できるように出力
する(ステップS11)。ここで、順序依存型単語関連
度計算機能機能としてのCPU11が、共起確率計算機
能としてのCPU11が出力する(ステップS11)共
起確率情報P(ωi,ωk),P(ωk,ωi)を順序に依存する関
連度情報A(ωi,ωk),A(ωk,ωi)を計算する際に用いる
(ステップS6)。
1は、記憶装置に求める共起確率P(ωi,ωk),P(ωk,ω
i)が格納(存在)しない場合には、前後出現単語抽出部
21から単語「日光」とともに出現する図6に示すよう
な前出現単語ωfi, 後出現単語ωbiのリストとその頻度
f(ωk),f(ωfi),f(ωbi) のデータを受け取る(ステッ
プS12)。
21から得た関連語として抽出された単語ωfi, ωbiの
頻度情報f(ωfi),f(ωbi) 等を基に、共起確率P(ωi,ω
k),P(ωk,ωi)を計算し、出力する(ステップS13,
ステップS4)。換言すると、CPU11は、共起確率
計算ステップとして、前出現単語および後出現単語のそ
れぞれが、対象単語指定ステップにて指定されたキーワ
ードと共起する共起確率を計算する。
してのCPU11が、共起確率計算機能としてのCPU
11が出力する(ステップS13)共起確率情報P(ωi,
ωk),P(ωk,ωi)を順序に依存する関連度情報A(ωi,ω
k),A(ωk,ωi)を計算する際に用いる(ステップS
6)。他方、図14は、前後出現単語抽出部21として
のCPU11が関連語抽出プログラムを実行する際の処
理の流れを示すフローチャートであり、この図14に示
すように、前後出現単語抽出部21としてのCPU11
は、単語「日光」の前後に出現する図6(a),(b)
に示すような単語ωfi, ωbiをテキストデータから抜き
出す(ステップS20)。
抽出ステップとして、テキストデータ上においてキーワ
ードの前に出現する前出現単語および後に出現する後出
現単語を抽出する。そして、CPU11は、テキストか
ら抽出した単語ωk,ωfi, ωbiのついての頻度情報f(ω
fi),f(ωbi) を頻度計算部22から受け取り(ステップ
S21)、キーワードωk の前後に出現する図6
(a),(b)に示すような単語ωfi, ωbiのリストと
頻度計算部22から受け取った頻度情報f(ωfi),f(ωb
i) を出力する(ステップS22)。
11は、前後出現単語抽出部21が出力した単語ωfi,
ωbiのリストと頻度情報f(ωfi),f(ωbi) (ステップS
22)を基に、共起確率P(ωi,ωk),P(ωk,ωi)を計算
する(ステップS13)。また、図15は頻度計算部2
2としてのCPU11が関連語抽出プログラムを実行す
る際の処理の流れを示すフローチャートであり、この図
15に示すように、頻度計算機能としてのCPU11
は、出現確率計算部23からの指示か否かを判断し(ス
テップS30)、出現確率計算部23からの指示である
場合は、キーワードωk の頻度情報f(ωk)が記憶装置に
格納されているか否かを判断する(ステップS31)。
ない場合、頻度計算機能としてのCPU11は、単語分
割機能としてのCPU11にて単語あるいは形態素の多
単位に分割された情報を受け取り(ステップS32)、
テキストデータ中にキーワードωk の出現頻度(回数)
f(ωk)を計算して(ステップS33)、出力する(ステ
ップS34)。
は、図4に示すような単語或いは形態素に分かち書きに
より記載されていない文書を内容とするテキストデータ
を図5に示すように単語あるいは形態素の単位に分割す
る。換言すると、CPU11は、単語分割ステップとし
て、前後出現単語抽出ステップにおける前出現単語およ
び後出現単語を抽出する前において、テキストデータに
ついて単語または形態素の単位に分割する。
算機能としてのCPU11は、前後出現単語抽出機能と
してのCPU11にて抽出された前出現単語ωfi, 後出
現単語ωbiのテキストデータ中の出現頻度数をも算出す
る。換言すると、CPU11は、出現確率計算ステップ
として、対象単語指定ステップにて指定されたキーワー
ドの出現確率とともに、前後出現単語抽出ステップにて
抽出された前出現単語および後出現単語それぞれの出現
確率を計算する。
として、頻度計算機能としてのCPU11が出力した頻
度情報f(ωk),f(ωi)を基に、出現確率P(ωk),P(ωi)
を計算する。出現確率計算部23からの指示ではない場
合、頻度計算部22としてのCPU11は、前後出現単
語抽出部21からの指示か否かを判断する(ステップS
35)。
示である場合、頻度計算部22としてのCPU11は、
前後出現単語抽出部21から渡されたテキストデータを
単語分割機能としてのCPU11を経由して、単語に分
割したデータを得て、その中に含まれる単語の頻度を数
えて(ステップS36)、集計した単語の頻度を出現確
率計算部23へ出力する(ステップS37)。
が、前後出現単語抽出部21からの指示ではないと判断
した場合には、その信号をエラーとする。ところで、出
現確率計算部23としてのCPU11の処理の流れ( 図
示しない) は、関連語抽出プログラムを実行することに
より、求める出現確率P(ωi)等の情報が記憶装置に格納
されているか否か判断し、記憶装置に格納されていない
場合には、頻度計算部22からf(ωfi),f(ωbi),f(ωk)
等の単語の頻度情報をうけて出現確率P(bi),P(ωk)を計
算して、その計算結果P(bi),P(ωk)を出力する。
の確率情報P(bi),P(ωk)が格納されている場合は、出現
確率計算部23としてのCPU11は、共起確率計算部
24へ出力する。別言すると、汎用コンピュータ1は、
対象単語指定ステップ,前後出現単語抽出ステップ,共
起確率計算ステップ,出現確率計算ステップ,順序依存
型単語関連度計算ステップ,順序無依存型単語関連度計
算ステップ,単語群抽出ステップ,単語分割ステップを
実行することで、テキストデータから関連語を抽出す
る。
連語抽出装置としての汎用コンピュータ1によれば、C
PU11が前出現単語に対する順序に依存する単語関連
度A(ωi,ωk)を2乗した値と後出現単語に対する順序に
依存する単語関連度A(ωk,ωi)を2乗した値との和算し
た値を平方根する演算処理により算出された値を用い
て、キーワードの前出現/後出現に依存しない利用者に
とって分かり易く、かつ、精度を高くして関連語を抽出
できる。
抽出装置としての汎用コンピュータ1によれば、汎用コ
ンピュータ1が、単語分割部28をそなえて構成されて
いることで、単語毎に区切られていないテキスト(例え
ば、日本語や中国語で書かれた文書)を単語あるいは形
態素毎に分けて処理する(単語抽出ステップ)ことがで
きるので、予め単語の品詞情報をそなえていなくとも日
本語等で記載された文書からの関連語抽出も容易に作成
することができる。
語抽出装置としての汎用コンピュータ1によれば、汎用
コンピュータ1が、ハードディスク13等の記憶部をそ
なえて構成されているので、頻度計算部22,順序依存
型単語関連度計算部25,等の各処理により算出された
情報が保持されることで、関連語抽出に伴う処理を早め
ると共に単語の出現順序に依存しない関連語のリストを
作成することができる。
用コンピュータ1によれば、関連語抽出プログラムとし
て、コンピュータ1に対象単語指定機能,前後出現単語
抽出機能,共起確率計算機能,出現確率計算機能,順序
依存型単語関連度計算機能,順序無依存型単語関連度計
算機能,単語群抽出機能を実行することにおいても、C
PU11が前出現単語に対する順序に依存する単語関連
度A(ωi,ωk)を2乗した値と後出現単語に対する順序に
依存する単語関連度A(ωk,ωi)を2乗した値との和算し
た値を平方根する演算処理により算出された値を用いる
ことで、キーワードの前出現/後出現に依存しない利用
者にとって分かり易く、かつ、精度を高くして関連語を
抽出できる。
コンピュータ1によれば、関連語抽出プログラムとし
て、コンピュータ1に、単語分割機能を実行させること
でも、単語毎に区切られていないテキスト(例えば、日
本語や中国語で書かれた文書)を単語あるいは形態素毎
に分けて処理することができるので、日本語等で記載さ
れた文書からの関連語抽出も容易に作成することができ
る。
連語抽出装置が適用された汎用コンピュータ1xのブロ
ック図であり、この図16に示すように本発明の一実施
形態の第1変形例にかかるコンピュータ1xは、頻度計
算部22,前後出現単語抽出部21,共起確率計算部2
4,出現確率計算部23,順序依存型単語関連度計算部
25,順序無依存型単語関連度計算部26,単語群抽出
部(図示しない),単語分割部(図示しない),記憶部
(図示しない),類似度計算度部29をそなえて構成さ
れる。
図2に示すコンピュータ1と同様のハードウェア構成を
有するものである。なお、(b)において用いた符号と
同じものについては同様の動作を行なうため、その説明
は省略する。類似度計算部29は、単語群抽出部にてキ
ーワードとしての少なくとも2つの単語それぞれに関連
する単語群の抽出結果を用いることにより、少なくとも
2つの単語間の類似度を計算するものである。
合を前提に説明をするが、以下の記載において3つ以上
の単語間の類似度を計算する場合も同様であることを意
味する。なお、前後出現単語抽出部21はテキストデー
タ上において、指定された単語の前に出現する前出現単
語または指定された単語の後に出現する後出現単語を抽
出するものであり、出現確率計算部23は頻度計算部2
2からの指定された単語の頻度情報および前出現単語お
よび後出現単語のテキストデータ上での出現頻度情報に
基づいて指定された単語の出現確率とともに上記の前出
現単語および後出現単語それぞれの出現確率を計算しう
るものである。
の前後出現単語抽出部21にて抽出された前出現単語お
よび後出現単語の頻度情報に基づいて、前出現単語およ
び後出現単語のそれぞれがキーワードと共起する共起確
率を計算するものであり、順序依存型単語関連度計算部
25は出現確率計算部23からの各出現確率情報と、共
起確率計算部24からの各共起確率情報とに基づいて指
定された単語に対する前出現単語および後出現単語の出
現順序に依存する関連度を計算するものである。
序依存型単語関連度計算部25からの関連度情報に基づ
いて、指定された単語に対する前出現単語および後出現
単語の、出現順序に依存しない関連度を計算するもので
ある。単語群抽出部(図示しない)は、順序無依存型単
語関連度計算部26にて計算された関連度情報に基づい
て、指定された単語に関連する単語群をテキストデータ
から抽出するものであり、記憶部(図示しない)は指定
された単語に関する各種計算結果および抽出結果のうち
の少なくとも一つを記憶しておくものであり、単語分割
部(図示しない)は、テキストデータについて単語また
は形態素の単位に分割するものである。
モリ12,HDD13等とを具体的に関連付けて説明す
ると、以下のようになる。類似度計算部29としてのC
PU11は、単語群抽出部から、2つのキーワードそれ
ぞれに関連する単語群の抽出結果を用いることにより、
単語間の類似度を計算するものである。
11が、3つの単語「 自動車」 ,「車」 ,「 航空機」 に
ついて、それらの類似度を計算し、類似度の判定ができ
ることを基に説明する。なお、前記(b)に述べたよう
に、CPU11は頻度計算部22,前後出現単語抽出部
21,共起確率計算部24,出現確率計算部23,順序
依存型単語関連度計算部25,順序無依存型単語関連度
計算部26,単語群抽出部,単語分割部として構成され
ているとともに、メモリ12やハードディスク13は記
憶部として構成されている。
語関連度情報r(ωi,ωk)を基に単語群抽出部がテキスト
データから関連語を抜き出したリストを示す図であり、
図17は単語「 自動車」 の関連語リストを示す図であ
り、図18は単語「 車」 の関連語リストを示す図であ
り、図19は単語「 航空機」 の関連語リストを示す図で
ある。
図17〜19に示すような関連語のリストを用いること
により、単語「 自動車」 ,「 車」 ,「 航空機」 の類似度
を計算するようになっている。具体的には、類似度計算
部29としてのCPU11は、図17〜19に示すよう
にリストアップされた関連語の内積和の演算処理を行な
うようになっている。
11は、単語「 自動車」 ,「 車」 の類似度を算出するに
際して、図17に示す単語「 自動車」 の関連語リスト中
の関連語「MOSS」と図18に示す単語「 車」 の関連
語リスト中の関連語「はしご」の内積の演算処理を行な
うようになっている。すなわち、類似度計算部29とし
てのCPU11は、各関連語を関連度情報r(ωi,ωk)を
大きさとするベクトル(vector)と見做して、各関連語の
内積値を和算する演算処理を行なうようなっている。内
積値を和算した数値が、単語間の類似度を示すものであ
る。
処理に際しては、ベクトルの方向が同じ(θ=0°)と
見做すとともに、異なる関連語同士の内積演算処理にに
際しては、ベクトルの方向が直交(θ=90°)と見做
して計算するようになっている。CPU11は、単語「
自動車」 の関連語リスト中の関連語「MOSS」と単語
「 車」 の関連語リスト中の関連語「はしご」とが互いに
異なる関連語であることから、内積値を0と計算するよ
うになっている。
11は、単語「 自動車」 ,「 車」 の類似度を計算すると
きに図17に示す単語「 自動車」 の関連度リストと図1
8に示す単語「 車」 の関連度リストとから共通の関連語
の関連度を用いて、例えば共通の関連語「 BMW」 の関
連度「 12.4」 と関連度「 12.0」 とを用いて、そ
の二つの関連度を積算した値「 148.8」 と他の共通
の関連語の関連度の内積値との和算値により類似度を算
出するようになっている。
車」 の類似度と単語「 自動車」 ,「 航空機」 の類似度と
を示す図であり、この図20に示すように単語「 自動
車」 と単語「 車」 との類似度「 2839.4」 と単語「
自動車」 と単語「 航空機」 との類似度「 814.4」 と
から、単語「 自動車」 は単語「 航空機」 より単語「 車」
に類似することがわかるようになっている。
第1変形例にかかる汎用コンピュータ1xでは、本体装
置1a内へCD−ROM等のコンピュータ読み取り可能
な記録媒体から関連語抽出プログラムがコンピュータ内
にインストールされることで、動作し得る状態になる。
ところで、関連語抽出プログラムは、汎用コンピュータ
1xに、キーワードに関連する関連語としての単語群を
テキストデータから抽出すべく、対象単語指定機能,頻
度計算機能, 前後出現単語抽出機能,共起確率計算機
能,出現確率計算機能,順序依存型単語関連度計算機
能,順序無依存型単語関連度計算機能,単語群抽出機
能,単語分割機能,類似度計算機能を実行させるための
コンピュータ1xの処理に適した命令が順番付けられた
列である。
いて単語群抽出機能から2つキーワードそれぞれに関連
する単語群の抽出結果を用いることにより、2つの単語
間の類似度を計算する機能である。なお、対象単語指定
機能はコンピュータ1xにおいてテキストデータ中から
関連語を抽出すべき対象となるキーワードを指定する機
能であり、単語分割機能はコンピュータ1xにおいてテ
キストデータ中の文書情報を単語または形態素の単位に
分割する機能であり、前後出現単語抽出機能はコンピュ
ータ1xにおいてテキストデータ内のキーワードωk の
前に出現する前出現単語ωfiまたはキーワードωk の後
に出現する後出現単語ωbiを抽出する機能であり、頻度
計算機能はコンピュータ1xにおいて頻度f(ωi),f( ω
k)等を算出する機能である。
いてキーワードωk の出現確率P(ωk)とともに前後出現
単語抽出機能にて抽出された前出現単語ωfi および後
出現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計
算する機能であり、共起確率計算機能はコンピュータ1
xにおいて前後出現単語抽出機能にて抽出された前出現
単語ωfiおよび後出現単語ωbiのそれぞれがキーワード
ωk と共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を
計算する機能であり、順序依存型単語関連度計算機能は
コンピュータ1xにおいて共起確率計算機能にて計算さ
れた各共起確率情報P(ωfi, ωk),P(ωk,ωbi) および
出現確率計算機能にて計算された各出現確率情報P(ω
k),P(ωfi),P(ωbi) に基づいて、キーワードωk に対
する前出現単語ωfiおよび後出現単語ωbiの出現順序に
依存する関連語度A(ωfi, ωk),A(ωk,ωbi) を計算す
る機能である。
ュータ1xにおいて順序依存型単語関連度計算機能にて
計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基
づいて、キーワードに対する前出現単語ωfiおよび後出
現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を
計算する機能である。単語群抽出機能はコンピュータ1
xにおいて順序無依存型単語関連度計算機能にて計算さ
れた関連度情報r(ωi,ωk)に基づいて、キーワードωk
に関連する単語群をテキストデータから抽出して出力す
る機能である。
れる動作とを関連付けて具体的な動作手順を説明すると
類似度計算機能としてCPU11は、図17〜19に示
すような順序無依存型単語関連度計算機能にて計算され
た単語「 自動車」 ,「 車」 ,「 航空機」 の関連度r(ωi,
ωk)を基に類似を計算する。具体的には、類似度計機能
としてCPU11は、図17〜19に示すようにリスト
アップされた関連語の内積和の演算処理を行なう。
U11は、各関連語を関連度情報r(ωi,ωk)を大きさと
するベクトル(vector)と見做して、各関連語の内積値を
和算する演算処理を行なう。CPU11は、同じ関連語
同士の内積演算処理に際しては、ベクトルの方向が同じ
(θ=0°)と見做すとともに、異なる関連語同士の内
積演算処理にに際しては、ベクトルの方向が直交(θ=
90°)と見做して計算して、例えば、図17に示す単
語「 自動車」 の関連語リスト中の関連語「MOSS」と
図18に示す単語「 車」 の関連語リスト中の関連語「は
しご」とが互いに異なる関連語であることから、内積値
を0と計算するようになっている。
は、単語「 自動車」 ,「 車」 の類似度を計算するときに
図17に示す単語「 自動車」 の関連度リストと図18に
示す単語「 車」 の関連度リストとから共通の関連語の関
連度を用いて、例えば共通の関連語「 BMW」 の関連度
「 12.4」 と関連度「 12.0」 とを用いて、その二
つの関連度を積算した値「 148.8」 と他の共通の関
連語の関連度の内積値との和算演算を行ない図20に示
すように単語「 自動車」 と単語「 車」 との類似度「 28
39.4」 と単語「 自動車」 と単語「 航空機」 との類似
度「 814.4」 とを算出する。
度計算ステップとして、単語群抽出ステップにて指定さ
れたキーワードとしての3つの単語「 自動車」 ,「 車」
,「航空機」 それぞれに関連する単語群を抽出した後
に、抽出された各単語「 自動車」 ,「 車」 ,「 航空機」
に関連する単語群から、2つの単語「 自動車」 ,「 車」
間と単語「 自動車」 ,「 航空機」 間の類似度を計算す
る。
頻度計算機能, 前後出現単語抽出機能,共起確率計算機
能,出現確率計算機能,順序依存型単語関連度計算機
能,順序無依存型単語関連度計算機能,単語群抽出機
能,単語分割機能として図12〜15に示すような動作
を行なう。上記を別言すると、汎用コンピュータ1x
は、対象単語指定ステップ,前後出現単語抽出ステッ
プ,共起確率計算ステップ,出現確率計算ステップ,順
序依存型単語関連度計算ステップ,順序無依存型単語関
連度計算ステップ,単語群抽出ステップ,単語分割ステ
ップ,類似度計算ステップを実行することで、テキスト
データから関連語を抽出する。
例にかかる関連語抽出装置が適用された汎用コンピュー
タ1xによれば、前記(b)に述べたものの他に、CP
U11が前出現単語に対する順序に依存する単語関連度
A(ωi,ωk)を2乗した値と後出現単語に対する順序に依
存する単語関連度A(ωk,ωi)を2乗した値との和算した
値を平方根する演算処理により算出された値を基に、単
語「 自動車」 ,「 車」,「 航空機」 の類似度をシソーラ
スや他の知識ベースを用いることなく、単語「自動車」
が単語「 航空機」 より単語「 車」 に類似することを判別
することができるとともに新たに用いられるようになっ
た単語等に対しても、類似度を算出することができる
(類似度計算ステップ)。
連語抽出装置が適用された汎用コンピュータ1yのブロ
ック図であり、この図21に示すように本発明の一実施
形態の第2変形例にかかるコンピュータ1yは、頻度計
算部22,前後出現単語抽出部21,共起確率計算部2
4,出現確率計算部23,順序依存型単語関連度計算部
25,順序無依存型単語関連度計算部26,単語群抽出
部(図示しない),単語分割部(図示しない),記憶部
(図示しない),関連単語群抽出部30をそなえて構成
される。
図2に示すコンピュータ1と同様のハードウェア構成を
有するものである。なお、(b)において用いた符号と
同じものについては同様の動作を行なうため、その説明
は省略する。関連単語群抽出部30は、単語群抽出部か
らキーワードとしての少なくとも2つの単語それぞれに
関連する単語群の抽出結果を用いることにより、各単語
の全てに関連する単語群を抽出するものである。
語の関連単語群を抽出する場合について説明するが、3
つ以上の単語の関連単語群を抽出する場合においても同
じであることを意味する。なお、前後出現単語抽出部2
1はテキストデータ上において、指定された単語の前に
出現する前出現単語または指定された単語の後に出現す
る後出現単語を抽出するものであり、出現確率計算部2
3は頻度計算部22からの指定された単語の頻度情報お
よび前出現単語および後出現単語のテキストデータ上で
の出現頻度情報に基づいて指定された単語の出現確率と
ともに上記の前出現単語および後出現単語それぞれの出
現確率を計算しうるものである。
の前後出現単語抽出部21にて抽出された前出現単語お
よび後出現単語の頻度情報に基づいて、前出現単語およ
び後出現単語のそれぞれがキーワードと共起する共起確
率を計算するものであり、順序依存型単語関連度計算部
25は出現確率計算部23からの各出現確率情報と、共
起確率計算部24からの各共起確率情報とに基づいて指
定された単語に対する前出現単語および後出現単語の出
現順序に依存する関連度を計算するものである。
序依存型単語関連度計算部25からの関連度情報に基づ
いて、指定された単語に対する前出現単語および後出現
単語の、出現順序に依存しない関連度を計算するもので
ある。単語群抽出部(図示しない)は、順序無依存型単
語関連度計算部26にて計算された関連度情報に基づい
て、指定された単語に関連する単語群をテキストデータ
から抽出するものであり、記憶部(図示しない)は指定
された単語に関する各種計算結果および抽出結果のうち
の少なくとも一つを記憶しておくものであり、単語分割
部(図示しない)は、テキストデータについて単語また
は形態素の単位に分割するものである。
モリ12,HDD13等とを具体的に関連付けて説明す
ると、以下のようになる。関連単語群抽出部30として
のCPU11は、単語群抽出部から、2つのキーワード
それぞれについて関連する単語群の抽出結果を用いるこ
とにより、2つの単語の全てについて関連する単語群を
抽出するものである。
PU11が、単語「エジプト」と単語「大統領」との関
連単語群を抽出する場合を前提として説明をする。な
お、前記(b)に述べたように、CPU11は頻度計算
部22,前後出現単語抽出部21,共起確率計算部2
4,出現確率計算部23,順序依存型単語関連度計算部
25,順序無依存型単語関連度計算部26,単語群抽出
部,単語分割部として構成されているとともに、メモリ
12やハードディスク13は記憶部として構成されてい
る。
情報r(ωi,ωk)を基に単語群抽出部がテキストデータか
ら関連語を抜き出したリストを示す図であり、図22は
単語「 エジプト」 の関連語リストを示す図であり、図2
3は単語「 大統領」 の関連語リストを示す図である。関
連単語群抽出部30としてのCPU11は、図22,2
3に示すような各単語「 エジプト」 ,「 大統領」 の関連
語のリストを用いることにより、2つの単語「 エジプ
ト」 ,「 大統領」 に関連する単語群を抽出するようにな
っている。
のCPU11は、図22,23に示すような各単語「 エ
ジプト」 ,「 大統領」 の関連語のリストから共通の単語
或いは形態素を抽出することにより、2つの単語「 エジ
プト」 ,「 大統領」 に関連する単語群を抽出するように
なっている。ここで、図24は、2つの単語「 エジプ
ト」 ,「 大統領」 に関連する単語群のリストを示す図で
あり、この図22に示すように単語「 エジプト」 の関連
語リストと図23に示すように単語「 大統領」 の関連語
リストとから共通の関連語、例えば関連語「ムバラク」
等が抽出されて関連語のリストが作成されるようになっ
ている。
関連語抽出装置が適用された汎用コンピュータ1yで
は、本体装置1a内へCD−ROM等のコンピュータ読
み取り可能な記録媒体から関連語抽出プログラムがコン
ピュータ1y内にインストールされることで、動作し得
る状態になる。ところで、関連語抽出プログラムは、汎
用コンピュータ1yに、キーワードに関連する関連語と
しての単語群をテキストデータから抽出すべく、対象単
語指定機能,頻度計算機能, 前後出現単語抽出機能,共
起確率計算機能,出現確率計算機能,順序依存型単語関
連度計算機能,順序無依存型単語関連度計算機能,単語
群抽出機能,単語分割機能,関連単語群抽出機能を実行
させるためのコンピュータ1yの処理に適した命令が順
番付けられた列である。
に単語群抽出機能からの2つの単語「 エジプト」 ,「 大
統領」 それぞれに関連する単語群の抽出結果を用いるこ
とにより、2つの単語「 エジプト」 ,「 大統領」 に関連
する単語群を抽出する機能である。なお、対象単語指定
機能はコンピュータ1yにおいてテキストデータ中から
関連語を抽出すべき対象となるキーワードを指定する機
能であり、単語分割機能はコンピュータ1yにおいてテ
キストデータ中の文書情報を単語または形態素の単位に
分割する機能であり、前後出現単語抽出機能はコンピュ
ータ1yにおいてテキストデータ内のキーワードωk の
前に出現する前出現単語ωfiまたはキーワードωk の後
に出現する後出現単語ωbiを抽出する機能であり、頻度
計算機能はコンピュータ1yにおいて頻度f(ωi),f(ω
k)等を算出する機能である。
いてキーワードωk の出現確率P(ωk)とともに前後出現
単語抽出機能にて抽出された前出現単語ωfiおよび後出
現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計算
する機能であり、共起確率計算機能はコンピュータ1y
において前後出現単語抽出機能にて抽出された前出現単
語ωfiおよび後出現単語ωbiのそれぞれがキーワードω
k と共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を計
算する機能であり、順序依存型単語関連度計算機能はコ
ンピュータ1yにおいて共起確率計算機能にて計算され
た各共起確率情報P(ωfi, ωk),P(ωk,ωbi) および出
現確率計算機能にて計算された各出現確率情報P(ωk),
P(ωfi),P(ωbi) に基づいて、キーワードωk に対する
前出現単語ωfiおよび後出現単語ωbiの出現順序に依存
する関連語度A(ωfi, ωk),A(ωk,ωbi) を計算する機
能である。
ュータ1yにおいて順序依存型単語関連度計算機能にて
計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基
づいて、キーワードに対する前出現単語ωfiおよび後出
現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を
計算する機能である。単語群抽出機能はコンピュータ1
yにおいて順序無依存型単語関連度計算機能にて計算さ
れた関連度情報r(ωi,ωk)に基づいて、キーワードωk
に関連する単語群をテキストデータから抽出して出力す
る機能である。
れる動作とを関連付けて具体的な動作手順を説明すると
類似度計算機能として、CPU11は、図22,23に
示すような各単語「 エジプト」 ,「 大統領」 の関連語の
リストを用いることにより、2つの単語「 エジプト」 ,
「 大統領」 に関連する単語群を抽出する。具体的には、
関連単語群抽出部30としてのCPU11は、図22,
23に示すような各単語「 エジプト」 ,「 大統領」 の関
連語のリストから共通の単語或いは形態素を抽出するこ
とにより、2つの単語「 エジプト」 ,「 大統領」 に関連
する単語群、例えば関連語「ムバラク」を抽出して、図
24に示すような2つの単語「 エジプト」 ,「 大統領」
に関連する単語群のリストを作成する。
テップとして、単語群抽出ステップにて2つの単語「 エ
ジプト」 ,「 大統領」 それぞれに関連する単語群(図2
2,23)から、2つの単語「 エジプト」 ,「 大統領」
に関連する単語群を抽出する。なお、CPU11は、対
象単語指定機能,頻度計算機能, 前後出現単語抽出機
能,共起確率計算機能,出現確率計算機能,順序依存型
単語関連度計算機能,順序無依存型単語関連度計算機
能,単語群抽出機能,単語分割機能として図12〜15
に示すような動作を行なう。
は、対象単語指定ステップ,前後出現単語抽出ステッ
プ,共起確率計算ステップ,出現確率計算ステップ,順
序依存型単語関連度計算ステップ,順序無依存型単語関
連度計算ステップ,単語群抽出ステップ,単語分割ステ
ップ,関連単語群抽出ステップを実行することで、テキ
ストデータから関連語を抽出する。
例にかかる関連語抽出装置が適用された汎用コンピュー
タ1yによれば、前記(b)に述べたものの他に、CP
U11が前出現単語に対する順序に依存する単語関連度
A(ωi,ωk)を2乗した値と後出現単語に対する順序に依
存する単語関連度A(ωk,ωi)を2乗した値との和算した
値を平方根する演算処理により算出された値を基に、単
語「 エジプト」 ,「 大統領」 それぞれに関連する単語群
(図22,23)のリストを作成することができる他、
具体的に文書の内容を見ずしてエジプトの大統領に関す
る情報を得ることができて、二つの単語「 エジプト」 ,
「 大統領」 に関連する単語を見ることで、その二つの単
語「 エジプト」 ,「 大統領」 の関係や付随する知識が分
かり易くなる。
連語抽出装置が適用された汎用コンピュータ1zのブロ
ック図であり、この図25に示すように本発明の一実施
形態の第3変形例にかかるコンピュータ1zは、頻度計
算部22,前後出現単語抽出部21,共起確率計算部2
4,出現確率計算部23,順序依存型単語関連度計算部
25,順序無依存型単語関連度計算部26,単語群抽出
部(図示しない),単語分割部(図示しない),記憶部
(図示しない),同義語辞書部31をそなえて構成され
る。
図2に示すコンピュータ1と同様のハードウェア構成を
有するものである。なお、(b)において用いた符号と
同じものについては同様の動作を行なうため、その説明
は省略する。同義語辞書部31は、キーワードωk に対
して同義と見做しうる単語(以下同義語に記号ωksを記
す場合がある)ωksを判定するものである。
対して他の1つの単語を同義語とみなす場合について説
明するが、2つ以上の単語を同義語とみなす場合におい
ても同じであることを意味する。また、順序依存型単語
関連度計算部25がキーワードωk に対する関連度A(ω
k,ωi),A(ωi,ωk)を計算する他、キーワードωk の1
つの同義語の関連度A(ωks, ωi),A(ωi,ωks) を計算
することにより、単語群抽出部27にてキーワードωk
とキーワードωk の1つの同義語ωksとの2つの関連語
リストが作成される場合について説明する。
データ上において、指定された単語の前に出現する前出
現単語または指定された単語の後に出現する後出現単語
を抽出するものであり、出現確率計算部23は頻度計算
部22からの指定された単語の頻度情報および前出現単
語および後出現単語のテキストデータ上での出現頻度情
報に基づいて指定された単語の出現確率とともに上記の
前出現単語および後出現単語それぞれの出現確率を計算
しうるものである。
の前後出現単語抽出部21にて抽出された前出現単語お
よび後出現単語の頻度情報に基づいて、前出現単語およ
び後出現単語のそれぞれがキーワードと共起する共起確
率を計算するものであり、順序依存型単語関連度計算部
25は出現確率計算部23からの各出現確率情報と、共
起確率計算部24からの各共起確率情報とに基づいて指
定された単語に対する前出現単語および後出現単語の出
現順序に依存する関連度を計算するものである。
序依存型単語関連度計算部25からの関連度情報に基づ
いて、指定された単語に対する前出現単語および後出現
単語の、出現順序に依存しない関連度を計算するもので
ある。単語群抽出部(図示しない)は、順序無依存型単
語関連度計算部26にて計算された関連度情報に基づい
て、指定された単語に関連する単語群をテキストデータ
から抽出するものであり、記憶部(図示しない)は指定
された単語等に関する各種計算結果および抽出結果のう
ちの少なくとも一つを記憶しておくものであり、単語分
割部(図示しない)は、テキストデータについて単語ま
たは形態素の単位に分割するものである。
ーワードωk )の同義語に対しても指定された単語(キ
ーワードωk )と同じ処理を施すことができるようにな
っている。例えば、順序依存型単語関連度計算部25は
キーワードωk の同義語ωksの関連度A(ωks, ωi),A(
ωi,ωks) 計算するようになっており、また、頻度計算
部22は同義語ωksの出現頻度f(ωks) 等を算出するよ
うになっており、前後出現単語抽出部21は同義語ωks
の前に出現する前出現単語や後に出現する後出現単語を
テキストデータから抽出するようになっており、単語群
抽出部27は順序無依存型単語関連度計算部26にて算
出された関連度r(ωi,ωks) を基に同義語ωksの関連語
をテキストデータから抽出するようになっている。
モリ12,HDD13等とを具体的に関連付けて説明す
ると、以下のようになる。同義語辞書部31としてのC
PU11は、キーワードωk に対して同義と見做しうる
単語ωksを判定するものである。CPU11は、キーワ
ードωk に対して同義と見做しうる単語ωksを判定する
際に、ハードディスク13等の記憶装置やFD等の記録
媒体に格納されている同義語の辞書データを参照して同
義語を検出するようになっている。
11が、キーワード「北朝鮮」に対して単語「朝鮮人民
民主主義共和国」を同義語とみなした場合を前提に以下
説明する。なお、前記(b)に述べたように、CPU1
1は頻度計算部22,前後出現単語抽出部21,共起確
率計算部24,出現確率計算部23,順序依存型単語関
連度計算部25,順序無依存型単語関連度計算部26,
単語群抽出部,単語分割部として構成されているととも
に、メモリ12やハードディスク13は記憶部として構
成されている。
情報r(ωi,ωk)を基に単語群抽出部がテキストデータか
ら関連語を抜き出したリストを示す図であり、図26は
単語「 北朝鮮」 の関連語リストを示す図であり、図27
は単語「 朝鮮人民民主主義共和国」 の関連語リストを示
す図である。ここで、単語群抽出部27としてのCPU
11は、図26,27に示すキーワード「 北朝鮮」 ,同
義語「 朝鮮人民民主主義共和国」 の関連語リストから順
序無依存型単語関連度計算部26にて算出された関連度
の高い関連語を抽出して、図28に示すようなキーワー
ド「 北朝鮮」 の関連語のリストを出力するようになって
いる。
のCPU11は、図26,27に示す関連語リスト情報
を用いて、キーワード「 北朝鮮」 の関連語リスト中に無
い関連語が同義語「 朝鮮人民民主主義共和国」 の関連語
のリストに有る場合は、その同義語の関連語リスト中の
関連語をキーワード「 北朝鮮」 の関連語として出力する
ようになっている。例えば、単語群抽出部27としての
CPU11は、図28に示すように、単語「国旗」は図
26の関連語リストの上位には無いが図27の関連語リ
ストの上位に有ることから、単語「国旗」をキーワード
「 北朝鮮」 の関連語として出力するようになっている。
第3変形例にかかる関連語抽出装置が適用された汎用コ
ンピュータ1zでは、本体装置1a内へCD−ROM等
のコンピュータ読み取り可能な記録媒体から関連語抽出
プログラムがコンピュータ1z内にインストールされる
ことで、動作し得る状態になる。ところで、関連語抽出
プログラムは、汎用コンピュータ1zに、キーワードに
関連する関連語としての単語群をテキストデータから抽
出すべく、対象単語指定機能,頻度計算機能, 前後出現
単語抽出機能,共起確率計算機能,出現確率計算機能,
順序依存型単語関連度計算機能,順序無依存型単語関連
度計算機能,単語群抽出機能,単語分割機能,関連単語
群抽出機能,同義語辞書機能を実行させるためのコンピ
ュータ1zの処理に適した命令が順番付けられた列であ
る。
いてキーワード「北朝鮮」に対して同義と見做しうる単
語を判定する機能である。なお、対象単語指定機能はコ
ンピュータ1zにおいてテキストデータ中から関連語を
抽出すべき対象となるキーワードを指定する機能であ
り、単語分割機能はコンピュータ1zにおいてテキスト
データ中の文書情報を単語または形態素の単位に分割す
る機能であり、前後出現単語抽出機能はコンピュータ1
zにおいてテキストデータ内のキーワードωk の前に出
現する前出現単語ωfiまたはキーワードωk の後に出現
する後出現単語ωbiを抽出する機能であり、頻度計算機
能はコンピュータ1zにおいて頻度f(ωi),f(ωk)等を
算出する機能である。
いてキーワードωk の出現確率P(ωk)とともに前後出現
単語抽出機能にて抽出された前出現単語ωfiおよび後出
現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計算
する機能であり、共起確率計算機能はコンピュータ1z
において前後出現単語抽出機能にて抽出された前出現単
語ωfiおよび後出現単語ωbiのそれぞれがキーワードω
k と共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を計
算する機能であり、順序依存型単語関連度計算機能はコ
ンピュータ1zにおいて共起確率計算機能にて計算され
た各共起確率情報P(ωfi, ωk),P(ωk,ωbi) および出
現確率計算機能にて計算された各出現確率情報P(ωk),
P(ωfi),P(ωbi) に基づいて、キーワードωk に対する
前出現単語ωfiおよび後出現単語ωbiの出現順序に依存
する関連語度A(ωfi, ωk),A(ωk,ωbi) を計算する機
能である。
ュータ1zにおいて順序依存型単語関連度計算機能にて
計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基
づいて、キーワードに対する前出現単語ωfiおよび後出
現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を
計算する機能である。単語群抽出機能はコンピュータ1
zにおいて順序無依存型単語関連度計算機能にて計算さ
れた関連度情報r(ωi,ωk)に基づいて、キーワードωk
に関連する単語群をテキストデータから抽出して出力す
る機能である。
れる動作とを関連付けて具体的な動作手順を説明する
と、同義語辞書機能として、CPU11は、図26,2
7に示すキーワード「 北朝鮮」 ,同義語「 朝鮮人民民主
主義共和国」 の関連語リストから順序無依存型単語関連
度計算部26にて算出された関連度の高い関連語を抽出
して、図28に示すようなキーワード「 北朝鮮」 の関連
語のリストを出力するようになっている。
CPU11は、図26,27に示す関連語リスト情報を
用いて、キーワード「 北朝鮮」 の関連語リスト中に無い
関連語が同義語「 朝鮮人民民主主義共和国」 の関連語の
リストに有る場合は、その同義語の関連語リスト中の関
連語をキーワード「 北朝鮮」 の関連語として出力する。
1は、図28に示すように、単語「国旗」は図26の関
連語リストの上位には無いが図27の関連語リストの上
位に有ることから、単語「国旗」をキーワード「 北朝
鮮」 の関連語として出力する。換言すると、CPU11
は、対象単語指定ステップにおいて、指定されたキーワ
ード「 北朝鮮」 に対して単語「 朝鮮人民民主主義共和
国」 を同義語と見做して、単語群抽出ステップにおいて
同義語「 朝鮮人民民主主義共和国」 に関連する単語群
と、キーワード「 北朝鮮」 に関連する単語群を一つにま
とめて出力する。
頻度計算機能, 前後出現単語抽出機能,共起確率計算機
能,出現確率計算機能,順序依存型単語関連度計算機
能,順序無依存型単語関連度計算機能,単語群抽出機
能,単語分割機能として図12〜15に示すような動作
をキーワード「 北朝鮮」 と場合により同義語「 朝鮮人民
民主主義共和国」 にも行なう。
は、対象単語指定ステップ,前後出現単語抽出ステッ
プ,共起確率計算ステップ,出現確率計算ステップ,順
序依存型単語関連度計算ステップ,順序無依存型単語関
連度計算ステップ,単語群抽出ステップ,単語分割ステ
ップ,同義語に関連する単語群とキーワードに関連する
単語群とを一つにまとめて出力することを実行すること
で、テキストデータから関連語を抽出する。
例にかかる関連語抽出装置が適用された汎用コンピュー
タ1zによれば、前記(b)に述べたものの他に、CP
U11が前出現単語に対する順序に依存する単語関連度
A(ωi,ωk)を2乗した値と後出現単語に対する順序に依
存する単語関連度A(ωk,ωi)を2乗した値との和算した
値を平方根する演算処理により算出された値を基に、単
語「 北朝鮮」 ,「 朝鮮人民民主主義共和国」 それぞれに
関連する単語群(図26,27)のリストを作成しつ
つ、キーワード「 北朝鮮」 に関連する単語群を一つにま
とめた関連語のリストを出力することができるととも
に、関連語の自動抽出を行なうときに問題となる異表記
を含む同義語間の問題を解決することもできる。 (c)その他 (c1)他の一実施形態の説明 図29は、本発明の他の一実施形態にかかる関連語抽出
装置が適用された汎用コンピュータ1−1のブロック図
であり、この図29に示すようにコンピュータ1−1は
前後出現単語抽出部21,頻度計算部22,共起確率計
算部24,出現確率計算部23,順序依存型単語関連度
計算部25,順序無依存型単語関連度計算部26,単語
抽出部27,記憶部(図示しない)をそなえて構成され
る。
は図2に示すコンピュータ1と同様のハードウェア構成
を有するものである。なお、本発明の他の一実施形態に
かかる関連語抽出装置が適用された汎用コンピュータ1
−1は、前記(b)で述べた一実施形態にかかる汎用コ
ンピュータ1とは、単語分割部を備えて構成されていな
い点を異にする。
トデータ上において、指定された単語の前に出現する前
出現単語または指定された単語の後に出現する後出現単
語を抽出するものであり、出現確率計算部23は頻度計
算部22からの指定された単語の頻度情報および前出現
単語および後出現単語のテキストデータ上での出現頻度
情報に基づいて指定された単語の出現確率とともに上記
の前出現単語および後出現単語それぞれの出現確率を計
算しうるものである。
の前後出現単語抽出部21にて抽出された前出現単語お
よび後出現単語の頻度情報に基づいて、前出現単語およ
び後出現単語のそれぞれがキーワードと共起する共起確
率を計算するものであり、順序依存型単語関連度計算部
25は出現確率計算部23からの各出現確率情報と、共
起確率計算部24からの各共起確率情報とに基づいて指
定された単語に対する前出現単語および後出現単語の出
現順序に依存する関連度を計算するものである。
序依存型単語関連度計算部25からの関連度情報に基づ
いて、指定された単語に対する前出現単語および後出現
単語の、出現順序に依存しない関連度を計算するもので
ある。単語群抽出部(図示しない)は、順序無依存型単
語関連度計算部26にて計算された関連度情報に基づい
て、指定された単語に関連する単語群をテキストデータ
から抽出するものであり、記憶部(図示しない)は、指
定された単語に関する各種計算結果および抽出結果のう
ちの少なくとも一つを記憶しておくものである。
モリ12,HDD13等とを具体的に関連付けて説明す
ると、CPU11は頻度計算部22,前後出現単語抽出
部21,共起確率計算部24,出現確率計算部23,順
序依存型単語関連度計算部25,順序無依存型単語関連
度計算部26,単語群抽出部27として構成されている
とともに、メモリ12やハードディスク13は記憶部と
して構成されている。
態の関連語抽出装置が適用された汎用コンピュータ1−
1では、本体装置1a内へCD−ROM等のコンピュー
タ読み取り可能な記録媒体から関連語抽出プログラムが
コンピュータ内にインストールされることで、動作し得
る状態になる。ところで、関連語抽出プログラムは、汎
用コンピュータ1−1に、キーワードに関連する関連語
としての単語群をテキストデータから抽出すべく、対象
単語指定機能,頻度計算機能, 前後出現単語抽出機能,
共起確率計算機能,出現確率計算機能,順序依存型単語
関連度計算機能,順序無依存型単語関連度計算機能,単
語群抽出機能,類似度計算機能を実行させるためのコン
ピュータ1−1の処理に適した命令が順番付けられた列
である。
−1においてテキストデータ中から関連語を抽出すべき
対象となるキーワードを指定する機能であり、前後出現
単語抽出機能はコンピュータ1−1においてテキストデ
ータ内のキーワードωk の前に出現する前出現単語ωfi
またはキーワードωk の後に出現する後出現単語ωbiを
抽出する機能であり、頻度計算機能はコンピュータ1−
1において頻度f(ωi),f(ωk)等を算出する機能であ
る。
おいてキーワードωk の出現確率P(ωk)とともに前後出
現単語抽出機能にて抽出された前出現単語ωfiおよび後
出現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計
算する機能であり、共起確率計算機能はコンピュータ1
−1において前後出現単語抽出機能にて抽出された前出
現単語ωfiおよび後出現単語ωbiのそれぞれがキーワー
ドωk と共起する共起確率P(ωfi, ωk),P(ωk,ωbi)
を計算する機能であり、順序依存型単語関連度計算機能
はコンピュータ1−1において共起確率計算機能にて計
算された各共起確率情報P(ωfi, ωk),P(ωk,ωbi) お
よび出現確率計算機能にて計算された各出現確率情報P
(ωk),P(ωfi),P(ωbi) に基づいて、キーワードωk
に対する前出現単語ωfiおよび後出現単語ωbiの出現順
序に依存する関連語度A(ωfi, ωk),A(ωk,ωbi) を計
算する機能である。
ュータ1−1において順序依存型単語関連度計算機能に
て計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に
基づいて、キーワードに対する前出現単語ωfiおよび後
出現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)
を計算する機能である。単語群抽出機能はコンピュータ
1−1において順序無依存型単語関連度計算機能にて計
算された関連度情報r(ωi,ωk)に基づいて、キーワード
ωk に関連する単語群をテキストデータから抽出して出
力する機能である。
能,頻度計算機能, 前後出現単語抽出機能,共起確率計
算機能,出現確率計算機能,順序依存型単語関連度計算
機能,順序無依存型単語関連度計算機能,単語群抽出機
能として図12〜14,30に示すような動作を行な
う。ここで、図30は、頻度計算部22としてのCPU
11が関連語抽出プログラムを実行する際の処理の流れ
を示すフローチャートであり、この図30に示すよう
に、頻度計算機能としてCPU11は、出現確率計算部
23からの指示か否かを判断し(ステップS40)、出
現確率計算部23からの指示である場合は、キーワード
ωk の頻度情報f(ωk)が記憶装置に格納されているか否
かを判断する(ステップS41)。
ない場合、頻度計算機能としてのCPU11は、テキス
トデータ中にキーワードωk の出現頻度(回数)f(ωk)
を計算して(ステップS42)、出力する(ステップS
43)。他方、図30には示していないが、頻度計算機
能としてのCPU11は、前後出現単語抽出機能として
のCPU11にて抽出された前出現単語ωfi, 後出現単
語ωbiのテキストデータ中の出現頻度数をも算出する。
として、頻度計算機能としてのCPU11が出力した頻
度情報f(ωk),f(ωi)を基に、出現確率P(ωk),P(ωi)
を計算する。ところで、出現確率計算部23からの指示
ではない場合、頻度計算部22としてのCPU11は、
前後出現単語抽出部21からの指示か否かを判断する
(ステップS44)。
示である場合、頻度計算部22としてのCPU11は、
前後出現単語抽出部21から渡されたテキストデータを
用いて、その中に含まれる単語の頻度を数えて(ステッ
プS45)、集計した単語の頻度を出現確率計算部23
へ出力する(ステップS46)。また、頻度計算部22
としてのCPU11が、前後出現単語抽出部21からの
指示ではないと判断した場合には、その信号をエラーと
する。
PU11の処理の流れ( 図示しない) は、関連語抽出プ
ログラムを実行することにより、求める出現確率P(ωi)
等の情報が記憶装置に格納されているか否か判断し、記
憶装置に格納されていない場合には、頻度計算部22か
らf(ωfi),f(ωbi),f(ωk)等の単語の頻度情報をうけて
出現確率P(bi),P(ωk)を計算して、その計算結果P(bi),
P(ωk)を出力する。一方、記憶装置に求める出現確率P
(ωi)等の確率情報P(bi),P(ωk)が格納されている場合
は、出現確率計算部23としてのCPU11は、共起確
率計算部24へ出力する。
対象単語指定ステップ,前後出現単語抽出ステップ,共
起確率計算ステップ,出現確率計算ステップ,順序依存
型単語関連度計算ステップ,順序無依存型単語関連度計
算ステップ,単語群抽出ステップを実行することで、テ
キストデータから関連語を抽出する。このように本発明
の他の一実施形態にかかる関連語抽出装置としての汎用
コンピュータ1−1によれば、CPU11が前出現単語
に対する順序に依存する単語関連度A(ωi,ωk)を2乗し
た値と後出現単語に対する順序に依存する単語関連度A
(ωk,ωi)を2乗した値との和算した値を平方根する演
算処理により算出された値を用いて、英語,独語,仏語
等により分かち書きされている文書情報に関して、キー
ワードの前出現/後出現に依存しない利用者にとって分
かり易く、かつ、精度を高くして関連語を抽出できる。
関連語抽出装置が適用された汎用コンピュータ1−1に
よれば、ハードディスク13等の記憶部をそなえて構成
されているので、頻度計算部22,順序依存型単語関連
度計算部25等における各処理により算出された情報が
保持されることで、関連語抽出に伴う処理を早めると共
に単語の出現順序に依存しない関連語のリストを作成す
ることができる。
汎用コンピュータ1−1によれば、関連語抽出プログラ
ムを基にコンピュータ1−1が、対象単語指定機能,前
後出現単語抽出機能,共起確率計算機能,出現確率計算
機能,順序依存型単語関連度計算機能,順序無依存型単
語関連度計算機能,単語群抽出機能を実行することにお
いても、CPU11が前出現単語に対する順序に依存す
る単語関連度A(ωi,ωk)を2乗した値と後出現単語に対
する順序に依存する単語関連度A(ωk,ωi)を2乗した値
との和算した値を平方根する演算処理により算出された
値を用いて、英語,独語,仏語等により分かち書きされ
ている文書情報に関して、キーワードの前出現/後出現
に依存しない利用者にとって分かり易く、かつ、精度を
高くして関連語を抽出できる。 (c2)その他のハードウェア構成の説明 上記(b)〜(c1)では、汎用コンピュータ1,1
x,1y,1z,1−1のように装置が単体として構成
されている場合を前提として説明をしたが、二つ以上の
装置により大量の文書データから関連語を抽出すること
もできる。
非汎用のコンピュータからキーワードを通信回線(イン
ターネット、パソコン通信等)を介して大型のホストコ
ンピュータへ送信し、大型のホストコンピュータがデー
タベース等に格納してある大量の文書データから関連語
を抽出して、抽出した関連語を通信回線を介してキーワ
ードを送信した汎用或いは非汎用のコンピュータに送る
ことによっても前記(b)〜(c1)と同じ動作や作用
を得ることができる。
1が順序依存型単語関連度計算部25にて利用される場
合について説明したが、他の頻度計算部22,前後出現
単語抽出部21等が参照することとしても、前記(c
3)同様に一つにまとめて関連語のリストを抽出するこ
とができ得る。また、同義語辞書部31の他、シソーラ
スや対訳辞書等を用いても前記同様のことが実現するこ
とができる。
似度計算部29,関連単語群出部30等が単語群抽出部
27にて抽出された関連語リストを基に、類似度を算出
したり、二つ以上の単語の関連語のリストを作成するよ
うになっているが、類似度計算部29,関連単語群出部
30等が、順序依存型単語関連度計算部26にて算出さ
れた関連度r(ωi,ωk)を基に、類似度を算出したり、二
つ以上の単語の関連語のリストを作成するような構成に
してもよく、この場合においても、前記と同様に、新語
に対しても類似度の判定を行なうことができ、また、二
つの単語に関連する単語を見ることで二つの単語の関係
や付随する知識を理解し易くなる。
(5)を基にして順序に依存しない関連度r(ωi,ωk)を
算出して関連語を抽出する要旨を逸脱しない範囲で様々
な形態において実施を行なうことができ得る。 (d)順序依存型単語関連度計算部 上記(b)〜(c2)とは異なり、単語群抽出部27が
順序依存型単語関連度計算部25にて算出された関連度
A(ωi,ωk)或いは関連度A(ωk,ωi)の情報を基に関連語
をテキストデータから抽出するように用いる場合には、
関連語抽出装置は、キーワードと関連語の出現順序に依
存するが関連語のリストを作成することができる。
2等の各部は、前記上記(b)〜(c2)に述べたとこ
とと同様である。
出装置によれば(請求項1)、単語群抽出部が、順序無
依存型単語関連度計算部にて計算された情報r(ωi,ωk)
を用いることにより、形態素解析また構文解析の処理を
施すことなく、利用者にとって分かり易く、かつ、精度
を高くして関連語を抽出できる利点がある。
装置によれば、記憶部が、頻度計算部,順序依存型単語
関連度計算部等の各処理により算出された情報を保持す
ることで、関連語抽出に伴う処理を早めると共に単語の
出現順序に依存しない関連語のリストを作成することが
できる利点がある。さらに、本発明の請求項3記載の関
連語抽出装置によれば、単語分割部が、単語毎に区切ら
れていないテキスト(例えば、日本語や中国語で書かれ
た文書)を単語あるいは形態素毎に分ける処理を行なう
ので、予め単語品詞情報をそなえていなくとも日本語等
で記載された文書からの関連語抽出も容易に作成するこ
とができる利点がある。
装置によれば、類似度計算部が、順序無依存型単語関連
度計算部にて計算された情報r(ωi,ωk)を基に、2つ以
上の単語の類似度を算出することができる利点があると
ともに、新語に対しても類似度を判定することができる
利点もある。または、本発明の請求項5記載の関連語抽
出装置によれば、関連単語群抽出部が、順序無依存型単
語関連度計算部にて計算された情報r(ωi,ωk)を基に、
少なくとも2つ以上の単語に関連する単語群を一つにま
とめて出力することができる利点があるとともに、少な
くとも2つ以上の単語に関連する単語を理解する際に、
少なくとも2つ以上の単語間の関係や、付随する知識が
分かり易くなる利点がある。
装置によれば、同義語辞書部をそなえて構成されること
で、同義語辞書部からの情報に基づき指定された単語と
同義と見做された単語については、指定された単語と一
つにまとめて出力するので、関連語の出現する位置がキ
ーワードの前後に関わらず、大量の文書データから有益
の関連語データを抽出することができる利点があるとと
もに、関連語を自動抽出するときに問題となる異表記を
含む同義語の問題を解決することができ、例えば,単語
「富士通」「Fujitsu」のように異なる表記でテキスト
データ中に出現しても同一のものとして関連語を抽出し
たい場合に有益である利点がある。
7)によれば、対象単語指定ステップ,前後出現単語抽
出ステップ,共起確率計算ステップ,出現確率計算ステ
ップ,順序依存型単語関連度計算ステップ,順序無依存
型単語関連度計算ステップ,単語群抽出ステップを実行
することで、単語群抽出ステップが、順序無依存型単語
関連度計算ステップにて計算された情報r(ωi,ωk)を用
いることにより、形態素解析また構文解析の処理を施す
ことなく、利用者にとって分かり易く、かつ、精度を高
くして関連語を抽出できる利点がある。
出方法によれば、単語分割ステップが、単語毎に区切ら
れていないテキスト(例えば、日本語や中国語で書かれ
た文書)を単語あるいは形態素毎に分ける処理を行なう
ので、日本語等で記載された文書からの関連語抽出も容
易に作成することができる利点がある。または、本発明
の請求項9記載の関連語抽出方法によれば、類似度計算
ステップが、順序無依存型単語関連度計算ステップにて
計算された情報r(ωi,ωk)を基に作成した関連語のリス
トを用いて、少なくとも2つ以上の単語間の類似度を算
出するので、新語に対しても類似度を判定することがで
きる利点もある。
抽出方法によれば、関連単語群抽出ステップが、順序無
依存型単語関連度計算ステップにて計算された情報r(ω
i,ωk)を基に作成した関連語のリストを用いて、少なく
とも2つ以上の単語に関連する単語群を一つにまとめて
出力するので、少なくとも2つ以上の単語に関連する単
語を理解する際に、少なくとも2つ以上の単語間の関係
や、付随する知識が分かり易くなる利点がある。
出方法によれば、対象単語指定ステップにおいて指定さ
れた単語に対して同義と見做しうる単語がある場合に
は、単語群抽出ステップにおいて、同義と見做しうる単
語に関連する単語群と、指定された単語に関連する単語
群を一つにまとめて出力することから、関連語の出現す
る位置がキーワードの前後に関わらず、大量の文書デー
タから有益の関連語データを抽出することができる利点
があるとともに、関連語を自動抽出するときに問題とな
る異表記を含む同義語の問題を解決することができ、例
えば,単語「富士通」「Fujitsu 」のように異なる表記
でテキストデータ中に出現しても同一のものとして関連
語を抽出したい場合に有益である利点がある。
記録されたコンピュータ読取可能な記録媒体(請求項1
2)によれば、コンピュータが、関連語語抽出プログラ
ムを基に、対象単語指定機能,前後出現単語抽出機能,
共起確率計算機能,出現確率計算機能,順序依存型単語
関連度計算機能,順序無依存型単語関連度計算機能,単
語群抽出機能を実行することにより、形態素解析また構
文解析の処理を施すことなく、利用者にとって分かり易
く、かつ、精度を高くして関連語を抽出できる利点があ
る。
適用されるシステムを示す図である。
適用されるシステムの要部を示すブロック図である。
適用されたシステムのブロック図である。
を示す図である。
の単位に分割された一テキストデータを示す図である。
態にかかる前後出現単語抽出部にて抽出された単語の一
例を示す図である。
出された頻度情報の一例を示す図である。
出された頻度情報の一例を示す図である。
連度計算部にて計算された関連度情報の一例を示す図で
ある。
関連度計算部にて計算された関連度情報の一例を示す図
である。
語関連度計算部にて計算された関連度情報の一例を示す
図である。
て、CPUが関連語抽出プログラムを実行するときの処
理の流れを示すフローチャートである。
て、共起確率計算機能としてのCPUが関連語抽出プロ
グラムを実行するときの処理の流れを示すフローチャー
トである。
て、前後出現単語抽出部としてのCPUが関連語抽出プ
ログラムを実行するときの処理の流れを示すフローチャ
ートである。
て、頻度計算部としてCPUが関連語抽出プログラムを
実行するときの処理の流れを示すフローチャートであ
る。
連語抽出装置が適用された汎用コンピュータのブロック
図である。
語群抽出部にて単語「自動車」に関して抽出された関連
語リストを示す図である。
語群抽出部にて単語「車」に関して抽出された関連語リ
ストを示す図である。
語群抽出部にて単語「航空機」に関して抽出された関連
語リストを示す図である。
似度計算部にて算出された単語「自動車」 ,「 車」 の類
似度と単語「 自動車」 ,「 航空機」 の類似度とを示す図
である。
連語抽出装置が適用された汎用コンピュータのブロック
図である。
語群抽出部にて単語「エジプト」に関して抽出された関
連語リストを示す図である。
語群抽出部にて単語「大統領」に関して抽出された関連
語リストを示す図である。
連単語群抽出部にて抽出された2つの単語「 エジプト」
,「 大統領」 に関連する単語群のリストを示す図であ
る。
連語抽出装置が適用された汎用コンピュータのブロック
図である。
語群抽出部にて単語「北朝鮮」に関して抽出された関連
語リストを示す図である。
語群抽出部にて単語「朝鮮人民民主主義共和国」に関し
て抽出された関連語リストを示す図である。
語群抽出部にて単語「北朝鮮」,「朝鮮人民民主主義共
和国」に関して抽出された関連語リストを示す図であ
る。
装置が適用された汎用コンピュータのブロック図であ
る。
ュータにて、頻度計算部としてCPUが関連語抽出プロ
グラムを実行するときの処理の流れを示すフローチャー
トである。
Claims (12)
- 【請求項1】 テキストデータ上において、指定された
単語の前に出現する前出現単語または上記指定された単
語の後に出現する後出現単語を抽出する前後出現単語抽
出部と、 上記指定された単語がテキストデータ上で出現する頻
度,上記の前出現単語または後出現単語がテキストデー
タ上で出現する頻度および該前後出現単語抽出部にて抽
出された上記の前出現単語および後出現単語の頻度を計
算しうる頻度計算部と、 該頻度計算部からの上記指定された単語の頻度情報およ
び上記の前出現単語および後出現単語のテキストデータ
上での出現頻度情報に基づいて、上記指定された単語の
出現確率とともに上記の前出現単語および後出現単語そ
れぞれの出現確率を計算しうる出現確率計算部と、 該頻度計算部からの、該前後出現単語抽出部にて抽出さ
れた上記の前出現単語および後出現単語の頻度情報に基
づいて、上記の前出現単語および後出現単語のそれぞれ
が上記指定された単語と共起する共起確率を計算する共
起確率計算部と、 該出現確率計算部からの各出現確率情報と、該共起確率
計算部からの各共起確率情報とに基づいて、上記の指定
された単語に対する前出現単語および後出現単語の、出
現順序に依存する関連度を計算する順序依存型単語関連
度計算部と、 該順序依存型単語関連度計算部からの関連度情報に基づ
いて、上記の指定された単語に対する前出現単語および
後出現単語の、出現順序に依存しない関連度を計算する
順序無依存型単語関連度計算部と、 該順序無依存型単語関連度計算部にて計算された関連度
情報に基づいて、上記指定された単語に関連する単語群
を上記テキストデータから抽出する単語群抽出部とをそ
なえて構成されたことを特徴とする、関連語抽出装置。 - 【請求項2】 上記指定された単語に関する各種計算結
果および抽出結果のうちの少なくとも一つを記憶してお
く記憶部をそなえて構成されたことを特徴とする、請求
項1記載の関連語抽出装置。 - 【請求項3】 上記テキストデータについて単語または
形態素の単位に分割する単語分割部をそなえ、該単語分
割部にて分割された結果を用いることにより、上記の前
後出現単語抽出部および頻度計算部における処理を行な
うように構成されたことを特徴とする、請求項1記載の
関連語抽出装置。 - 【請求項4】 該単語群抽出部から、上記指定された単
語としての少なくとも2つの単語それぞれに関連する単
語群の抽出結果を用いることにより、上記少なくとも2
つの単語間の類似度を計算する類似度計算部をそなえて
構成されたことを特徴とする、請求項1記載の関連語抽
出装置。 - 【請求項5】 該単語群抽出部から、上記指定された単
語としての少なくとも2つの単語それぞれに関連する単
語群の抽出結果を用いることにより、上記各単語の全て
に関連する単語群を抽出する関連単語群抽出部をそなえ
て構成されたことを特徴とする、請求項1記載の関連語
抽出装置。 - 【請求項6】 上記指定された単語に対して同義と見做
しうる単語を判定するための同義語辞書部をそなえ、該
同義語辞書部からの情報に基づき上記指定された単語と
同義と見做された単語については、上記指定された単語
と一つにまとめるように構成されたことを特徴とする、
請求項1記載の関連語抽出装置。 - 【請求項7】 ある単語に関連する関連語としての単語
群をテキストデータから抽出する関連語抽出方法におい
て、 上記関連語を抽出すべき対象となる単語を指定する対象
単語指定ステップと、 テキストデータ上において、指定された単語の前に出現
する前出現単語および後に出現する後出現単語を抽出す
る前後出現単語抽出ステップと、 該前後出現単語抽出ステップにて抽出された前出現単語
および後出現単語のそれぞれが、該対象単語指定ステッ
プにて指定された単語と共起する共起確率を計算する共
起確率計算ステップと、 該対象単語指定ステップにて指定された単語の出現確率
とともに、該前後出現単語抽出ステップにて抽出された
前出現単語および後出現単語それぞれの出現確率を計算
する出現確率計算ステップと、 上記の共起確率計算ステップにて計算された各共起確率
情報および出現確率計算ステップにて計算された各出現
確率情報に基づいて、上記の指定された単語に対する前
出現単語および後出現単語の、出現順序に依存する関連
度を計算する順序依存型単語関連度計算ステップと、 該順序依存型単語関連度計算ステップにて計算された関
連度情報に基づいて、上記の指定された単語に対する前
出現単語および後出現単語の、出現順序に依存しない関
連度を計算する順序無依存型単語関連度計算ステップ
と、 該順序無依存型単語関連度計算ステップにて計算された
関連度情報に基づいて、上記指定された単語に関連する
単語群を上記テキストデータから抽出して出力する単語
群抽出ステップとをそなえて構成されたことを特徴とす
る、関連語抽出方法。 - 【請求項8】 該前後出現単語抽出ステップにおける上
記の前出現単語および後出現単語を抽出する前段または
後段において、上記テキストデータについて単語または
形態素の単位に分割する単語分割ステップをそなえて構
成されたことを特徴とする、請求項7記載の関連語抽出
方法。 - 【請求項9】 該単語群抽出ステップにて上記指定され
た単語としての少なくとも2つの単語それぞれに関連す
る単語群を抽出した後に、抽出された上記各単語に関連
する単語群から、上記少なくとも2つの単語間の類似度
を計算する類似度計算ステップをそなえて構成されたこ
とを特徴とする、請求項7記載の関連語抽出方法。 - 【請求項10】 該単語群抽出ステップにて上記指定さ
れた単語としての少なくとも2つの単語それぞれに関連
する単語群を抽出した後に、抽出された上記各単語に関
連する単語群から、上記各単語全てに関連する単語群を
抽出する関連単語群抽出ステップをそなえて構成された
ことを特徴とする、請求項7記載の関連語抽出方法 - 【請求項11】 該対象単語指定ステップにおいて指定
された単語に対して同義と見做しうる単語がある場合に
は、該単語群抽出ステップにおいて、上記同義と見做し
うる単語に関連する単語群と、上記指定された単語に関
連する単語群とを一つにまとめて出力することを特徴と
する、請求項7記載の関連語抽出方法。 - 【請求項12】 ある単語に関連する関連語としての単
語群をテキストデータから抽出すべく、 コンピュータに、 上記関連語を抽出すべき対象となる単語を指定する対象
単語指定機能と、 テキストデータ上において、指定された単語の前に出現
する前出現単語および後に出現する後出現単語を抽出す
る前後出現単語抽出機能と、 該前後出現単語抽出機能にて抽出された前出現単語およ
び後出現単語のそれぞれが、該対象単語指定機能にて指
定された単語と共起する共起確率を計算する共起確率計
算機能と、 該対象単語指定機能にて指定された単語の出現確率とと
もに、該前後出現単語抽出機能にて抽出された前出現単
語および後出現単語それぞれの出現確率を計算する出現
確率計算機能と、 上記の共起確率計算機能にて計算された各共起確率情報
および出現確率計算機能にて計算された各出現確率情報
に基づいて、上記の指定された単語に対する前出現単語
および後出現単語の、出現順序に依存する関連度を計算
する順序依存型単語関連度計算機能と、 該順序無依存型単語関連度計算機能にて計算された関連
度情報に基づいて、上記指定された単語に対する前出現
単語および後出現単語の、出現順序に依存しない関連度
を計算する順序無依存型単語関連度計算機能と、 該順序無依存型単語関連度計算機能にて計算された関連
度情報に基づいて、上記指定された単語に関連する単語
群を上記テキストデータから抽出して出力する単語群抽
出機能とを実現させるための関連語抽出プログラムが記
録されたことを特徴とする、関連語抽出プログラムが記
録されたコンピュータ読取可能な記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP520098A JP3598211B2 (ja) | 1998-01-13 | 1998-01-13 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
US09/132,140 US6178420B1 (en) | 1998-01-13 | 1998-08-10 | Related term extraction apparatus, related term extraction method, and a computer-readable recording medium having a related term extraction program recorded thereon |
CN98120857A CN1101032C (zh) | 1998-01-13 | 1998-09-30 | 相关词抽取设备和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP520098A JP3598211B2 (ja) | 1998-01-13 | 1998-01-13 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11203311A true JPH11203311A (ja) | 1999-07-30 |
JP3598211B2 JP3598211B2 (ja) | 2004-12-08 |
Family
ID=11604567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP520098A Expired - Fee Related JP3598211B2 (ja) | 1998-01-13 | 1998-01-13 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6178420B1 (ja) |
JP (1) | JP3598211B2 (ja) |
CN (1) | CN1101032C (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003046765A1 (fr) * | 2001-11-30 | 2003-06-05 | Mitsubishi Space Software Co., Ltd. | Procede d'extraction automatique de mot associe |
JP2003208444A (ja) * | 2002-01-15 | 2003-07-25 | Minolta Co Ltd | ファイル検索プログラムおよび該プログラムを記録する記録媒体 |
JP2006285418A (ja) * | 2005-03-31 | 2006-10-19 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2009122942A (ja) * | 2007-11-14 | 2009-06-04 | Nippon Telegr & Teleph Corp <Ntt> | 文書間距離計算装置およびプログラム |
JP2009187305A (ja) * | 2008-02-06 | 2009-08-20 | Gunma Univ | 情報検索システム及び情報検索装置 |
JP2009265736A (ja) * | 2008-04-22 | 2009-11-12 | Sharp Corp | 電子機器、その制御方法およびコンピュータプログラム |
JP2010039552A (ja) * | 2008-07-31 | 2010-02-18 | Nippon Telegr & Teleph Corp <Ntt> | 重要度取得装置および方法、ならびに、枠情報作成装置および方法 |
JP2013242621A (ja) * | 2012-05-17 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索用関連語発見装置及び方法及びプログラム |
JP2015088067A (ja) * | 2013-10-31 | 2015-05-07 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
Families Citing this family (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594634B1 (en) * | 1998-09-14 | 2003-07-15 | Medtronic Physio-Control Corp. | Method and apparatus for reporting emergency incidents |
US7966234B1 (en) | 1999-05-17 | 2011-06-21 | Jpmorgan Chase Bank. N.A. | Structured finance performance analytics system |
US7392210B1 (en) | 2000-04-07 | 2008-06-24 | Jpmorgan Chase Bank, N.A. | Workflow management system and method |
US7249095B2 (en) | 2000-06-07 | 2007-07-24 | The Chase Manhattan Bank, N.A. | System and method for executing deposit transactions over the internet |
US7392212B2 (en) * | 2000-09-28 | 2008-06-24 | Jpmorgan Chase Bank, N.A. | User-interactive financial vehicle performance prediction, trading and training system and methods |
US7313541B2 (en) | 2000-11-03 | 2007-12-25 | Jpmorgan Chase Bank, N.A. | System and method for estimating conduit liquidity requirements in asset backed commercial paper |
US7596526B2 (en) * | 2001-04-16 | 2009-09-29 | Jpmorgan Chase Bank, N.A. | System and method for managing a series of overnight financing trades |
US7269546B2 (en) * | 2001-05-09 | 2007-09-11 | International Business Machines Corporation | System and method of finding documents related to other documents and of finding related words in response to a query to refine a search |
US7107261B2 (en) * | 2002-05-22 | 2006-09-12 | International Business Machines Corporation | Search engine providing match and alternative answer |
US9710852B1 (en) | 2002-05-30 | 2017-07-18 | Consumerinfo.Com, Inc. | Credit report timeline user interface |
US9400589B1 (en) | 2002-05-30 | 2016-07-26 | Consumerinfo.Com, Inc. | Circular rotational interface for display of consumer credit information |
US8224723B2 (en) | 2002-05-31 | 2012-07-17 | Jpmorgan Chase Bank, N.A. | Account opening system, method and computer program product |
JP4452012B2 (ja) * | 2002-07-04 | 2010-04-21 | ヒューレット・パッカード・カンパニー | 文書の特有性評価方法 |
US20040044961A1 (en) * | 2002-08-28 | 2004-03-04 | Leonid Pesenson | Method and system for transformation of an extensible markup language document |
US20050044033A1 (en) * | 2003-01-10 | 2005-02-24 | Gelson Andrew F. | Like-kind exchange method |
US7634435B2 (en) * | 2003-05-13 | 2009-12-15 | Jp Morgan Chase Bank | Diversified fixed income product and method for creating and marketing same |
JP2004348241A (ja) * | 2003-05-20 | 2004-12-09 | Hitachi Ltd | 情報提供方法、サーバ及びプログラム |
US7770184B2 (en) * | 2003-06-06 | 2010-08-03 | Jp Morgan Chase Bank | Integrated trading platform architecture |
US20050027666A1 (en) * | 2003-07-15 | 2005-02-03 | Vente, Inc | Interactive online research system and method |
US20050015324A1 (en) * | 2003-07-15 | 2005-01-20 | Jacob Mathews | Systems and methods for trading financial instruments across different types of trading platforms |
US7970688B2 (en) * | 2003-07-29 | 2011-06-28 | Jp Morgan Chase Bank | Method for pricing a trade |
US20050060256A1 (en) * | 2003-09-12 | 2005-03-17 | Andrew Peterson | Foreign exchange trading interface |
US7593876B2 (en) * | 2003-10-15 | 2009-09-22 | Jp Morgan Chase Bank | System and method for processing partially unstructured data |
US7725487B2 (en) * | 2003-12-01 | 2010-05-25 | National Institute Of Information And Communications Technology | Content synchronization system and method of similar web pages |
US8423447B2 (en) * | 2004-03-31 | 2013-04-16 | Jp Morgan Chase Bank | System and method for allocating nominal and cash amounts to trades in a netted trade |
US20050222937A1 (en) * | 2004-03-31 | 2005-10-06 | Coad Edward J | Automated customer exchange |
US20050251478A1 (en) * | 2004-05-04 | 2005-11-10 | Aura Yanavi | Investment and method for hedging operational risk associated with business events of another |
WO2006012487A1 (en) * | 2004-07-22 | 2006-02-02 | Genometric Systems Llc | Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units |
US7693770B2 (en) * | 2004-08-06 | 2010-04-06 | Jp Morgan Chase & Co. | Method and system for creating and marketing employee stock option mirror image warrants |
US20090132428A1 (en) * | 2004-11-15 | 2009-05-21 | Stephen Jeffrey Wolf | Method for creating and marketing a modifiable debt product |
US20090164384A1 (en) * | 2005-02-09 | 2009-06-25 | Hellen Patrick J | Investment structure and method for reducing risk associated with withdrawals from an investment |
US8688569B1 (en) | 2005-03-23 | 2014-04-01 | Jpmorgan Chase Bank, N.A. | System and method for post closing and custody services |
US20090187512A1 (en) * | 2005-05-31 | 2009-07-23 | Jp Morgan Chase Bank | Asset-backed investment instrument and related methods |
US7822682B2 (en) * | 2005-06-08 | 2010-10-26 | Jpmorgan Chase Bank, N.A. | System and method for enhancing supply chain transactions |
US20110035306A1 (en) * | 2005-06-20 | 2011-02-10 | Jpmorgan Chase Bank, N.A. | System and method for buying and selling securities |
JP2007072646A (ja) * | 2005-09-06 | 2007-03-22 | Internatl Business Mach Corp <Ibm> | 検索装置、検索方法およびプログラム |
US7567928B1 (en) | 2005-09-12 | 2009-07-28 | Jpmorgan Chase Bank, N.A. | Total fair value swap |
US7818238B1 (en) | 2005-10-11 | 2010-10-19 | Jpmorgan Chase Bank, N.A. | Upside forward with early funding provision |
US8280794B1 (en) | 2006-02-03 | 2012-10-02 | Jpmorgan Chase Bank, National Association | Price earnings derivative financial product |
US7620578B1 (en) | 2006-05-01 | 2009-11-17 | Jpmorgan Chase Bank, N.A. | Volatility derivative financial product |
US7647268B1 (en) | 2006-05-04 | 2010-01-12 | Jpmorgan Chase Bank, N.A. | System and method for implementing a recurrent bidding process |
US9811868B1 (en) | 2006-08-29 | 2017-11-07 | Jpmorgan Chase Bank, N.A. | Systems and methods for integrating a deal process |
US7827096B1 (en) | 2006-11-03 | 2010-11-02 | Jp Morgan Chase Bank, N.A. | Special maturity ASR recalculated timing |
JP4367495B2 (ja) * | 2007-02-15 | 2009-11-18 | ブラザー工業株式会社 | 画像形成装置 |
US8127986B1 (en) | 2007-12-14 | 2012-03-06 | Consumerinfo.Com, Inc. | Card registry systems and methods |
US9990674B1 (en) | 2007-12-14 | 2018-06-05 | Consumerinfo.Com, Inc. | Card registry systems and methods |
US8280886B2 (en) * | 2008-02-13 | 2012-10-02 | Fujitsu Limited | Determining candidate terms related to terms of a query |
US20090241165A1 (en) * | 2008-03-19 | 2009-09-24 | Verizon Business Network Service, Inc. | Compliance policy management systems and methods |
US8312033B1 (en) | 2008-06-26 | 2012-11-13 | Experian Marketing Solutions, Inc. | Systems and methods for providing an integrated identifier |
US9256904B1 (en) | 2008-08-14 | 2016-02-09 | Experian Information Solutions, Inc. | Multi-bureau credit file freeze and unfreeze |
US8060424B2 (en) | 2008-11-05 | 2011-11-15 | Consumerinfo.Com, Inc. | On-line method and system for monitoring and reporting unused available credit |
US20110055113A1 (en) * | 2009-08-28 | 2011-03-03 | Conor Cunningham | Method and system for managing spread orders |
US8738514B2 (en) * | 2010-02-18 | 2014-05-27 | Jpmorgan Chase Bank, N.A. | System and method for providing borrow coverage services to short sell securities |
US20110208670A1 (en) * | 2010-02-19 | 2011-08-25 | Jpmorgan Chase Bank, N.A. | Execution Optimizer |
US8352354B2 (en) * | 2010-02-23 | 2013-01-08 | Jpmorgan Chase Bank, N.A. | System and method for optimizing order execution |
US8161073B2 (en) | 2010-05-05 | 2012-04-17 | Holovisions, LLC | Context-driven search |
US9665854B1 (en) | 2011-06-16 | 2017-05-30 | Consumerinfo.Com, Inc. | Authentication alerts |
US9483606B1 (en) | 2011-07-08 | 2016-11-01 | Consumerinfo.Com, Inc. | Lifescore |
US9106691B1 (en) | 2011-09-16 | 2015-08-11 | Consumerinfo.Com, Inc. | Systems and methods of identity protection and management |
US8738516B1 (en) | 2011-10-13 | 2014-05-27 | Consumerinfo.Com, Inc. | Debt services candidate locator |
US9853959B1 (en) | 2012-05-07 | 2017-12-26 | Consumerinfo.Com, Inc. | Storage and maintenance of personal data |
US9654541B1 (en) | 2012-11-12 | 2017-05-16 | Consumerinfo.Com, Inc. | Aggregating user web browsing data |
US9916621B1 (en) | 2012-11-30 | 2018-03-13 | Consumerinfo.Com, Inc. | Presentation of credit score factors |
US10255598B1 (en) | 2012-12-06 | 2019-04-09 | Consumerinfo.Com, Inc. | Credit card account data extraction |
US9870589B1 (en) | 2013-03-14 | 2018-01-16 | Consumerinfo.Com, Inc. | Credit utilization tracking and reporting |
US9406085B1 (en) | 2013-03-14 | 2016-08-02 | Consumerinfo.Com, Inc. | System and methods for credit dispute processing, resolution, and reporting |
US10102570B1 (en) | 2013-03-14 | 2018-10-16 | Consumerinfo.Com, Inc. | Account vulnerability alerts |
US10685398B1 (en) | 2013-04-23 | 2020-06-16 | Consumerinfo.Com, Inc. | Presenting credit score information |
BR112016002281A2 (pt) * | 2013-08-09 | 2017-08-01 | Behavioral Recognition Sys Inc | segurança de informação cognitiva usando um sistema de reconhecimento de comportamento |
US9443268B1 (en) | 2013-08-16 | 2016-09-13 | Consumerinfo.Com, Inc. | Bill payment and reporting |
US10325314B1 (en) | 2013-11-15 | 2019-06-18 | Consumerinfo.Com, Inc. | Payment reporting systems |
US9477737B1 (en) | 2013-11-20 | 2016-10-25 | Consumerinfo.Com, Inc. | Systems and user interfaces for dynamic access of multiple remote databases and synchronization of data based on user rules |
USD759690S1 (en) | 2014-03-25 | 2016-06-21 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
USD759689S1 (en) | 2014-03-25 | 2016-06-21 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
USD760256S1 (en) | 2014-03-25 | 2016-06-28 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
US9892457B1 (en) | 2014-04-16 | 2018-02-13 | Consumerinfo.Com, Inc. | Providing credit data in search results |
US11188864B2 (en) * | 2016-06-27 | 2021-11-30 | International Business Machines Corporation | Calculating an expertise score from aggregated employee data |
CN106339369B (zh) * | 2016-08-30 | 2019-06-04 | 广东医科大学 | 一种资料集的同义词识别方法及系统 |
US10460035B1 (en) * | 2016-12-26 | 2019-10-29 | Cerner Innovation, Inc. | Determining adequacy of documentation using perplexity and probabilistic coherence |
US10880313B2 (en) | 2018-09-05 | 2020-12-29 | Consumerinfo.Com, Inc. | Database platform for realtime updating of user data from third party sources |
US11315179B1 (en) | 2018-11-16 | 2022-04-26 | Consumerinfo.Com, Inc. | Methods and apparatuses for customized card recommendations |
US11238656B1 (en) | 2019-02-22 | 2022-02-01 | Consumerinfo.Com, Inc. | System and method for an augmented reality experience via an artificial intelligence bot |
US11941065B1 (en) | 2019-09-13 | 2024-03-26 | Experian Information Solutions, Inc. | Single identifier platform for storing entity data |
CN113139106B (zh) * | 2021-05-07 | 2022-03-15 | 杭州世平信息科技有限公司 | 一种保密检查的事件审核方法和装置 |
US20240037126A1 (en) * | 2022-07-27 | 2024-02-01 | Gong.Io Ltd. | System and method for rapid initialization and transfer of topic models by a multi-stage approach |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282367A (ja) * | 1992-03-30 | 1993-10-29 | Nippon Telegr & Teleph Corp <Ntt> | 関連キーワード自動生成装置 |
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
JPH08161343A (ja) * | 1994-12-01 | 1996-06-21 | Fuji Xerox Co Ltd | 関連語辞書作成装置 |
JPH0944523A (ja) * | 1995-07-27 | 1997-02-14 | Fuji Xerox Co Ltd | 関連語提示装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5245337A (en) * | 1991-05-29 | 1993-09-14 | Triada, Ltd. | Data compression with pipeline processors having separate memories |
US5586219A (en) * | 1994-09-30 | 1996-12-17 | Yufik; Yan M. | Probabilistic resource allocation system with self-adaptive capability |
US6044351A (en) * | 1997-12-18 | 2000-03-28 | Jones; Annie M. W. | Minimum income probability distribution predictor for health care facilities |
-
1998
- 1998-01-13 JP JP520098A patent/JP3598211B2/ja not_active Expired - Fee Related
- 1998-08-10 US US09/132,140 patent/US6178420B1/en not_active Expired - Lifetime
- 1998-09-30 CN CN98120857A patent/CN1101032C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282367A (ja) * | 1992-03-30 | 1993-10-29 | Nippon Telegr & Teleph Corp <Ntt> | 関連キーワード自動生成装置 |
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
JPH08161343A (ja) * | 1994-12-01 | 1996-06-21 | Fuji Xerox Co Ltd | 関連語辞書作成装置 |
JPH0944523A (ja) * | 1995-07-27 | 1997-02-14 | Fuji Xerox Co Ltd | 関連語提示装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003046765A1 (fr) * | 2001-11-30 | 2003-06-05 | Mitsubishi Space Software Co., Ltd. | Procede d'extraction automatique de mot associe |
JP2003167894A (ja) * | 2001-11-30 | 2003-06-13 | Mitsubishi Space Software Kk | 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム |
JP2003208444A (ja) * | 2002-01-15 | 2003-07-25 | Minolta Co Ltd | ファイル検索プログラムおよび該プログラムを記録する記録媒体 |
JP2006285418A (ja) * | 2005-03-31 | 2006-10-19 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2009122942A (ja) * | 2007-11-14 | 2009-06-04 | Nippon Telegr & Teleph Corp <Ntt> | 文書間距離計算装置およびプログラム |
JP2009187305A (ja) * | 2008-02-06 | 2009-08-20 | Gunma Univ | 情報検索システム及び情報検索装置 |
JP2009265736A (ja) * | 2008-04-22 | 2009-11-12 | Sharp Corp | 電子機器、その制御方法およびコンピュータプログラム |
JP2010039552A (ja) * | 2008-07-31 | 2010-02-18 | Nippon Telegr & Teleph Corp <Ntt> | 重要度取得装置および方法、ならびに、枠情報作成装置および方法 |
JP2013242621A (ja) * | 2012-05-17 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索用関連語発見装置及び方法及びプログラム |
JP2015088067A (ja) * | 2013-10-31 | 2015-05-07 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US6178420B1 (en) | 2001-01-23 |
JP3598211B2 (ja) | 2004-12-08 |
CN1101032C (zh) | 2003-02-05 |
CN1223410A (zh) | 1999-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3598211B2 (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
US6602300B2 (en) | Apparatus and method for retrieving data from a document database | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP2003223437A (ja) | 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム | |
JP2005352888A (ja) | 表記揺れ対応辞書作成システム | |
JP2002197104A (ja) | 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体 | |
WO2010061733A1 (ja) | 誤訳の検出を支援する装置及び方法 | |
WO2019200699A1 (zh) | 政务系统发文方法、装置、计算机设备及存储介质 | |
JP4935243B2 (ja) | 検索プログラム、情報検索装置及び情報検索方法 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
WO2015162464A1 (en) | Method and system for generating a definition of a word from multiple sources | |
JP2000132560A (ja) | 中国語テレテキスト処理方法及び装置 | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP2000163441A (ja) | 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム | |
CN115438048A (zh) | 表搜索方法、装置、设备及存储介质 | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP2010170303A (ja) | 機械翻訳装置及びプログラム | |
JP2621999B2 (ja) | 文書処理装置 | |
JPH08115330A (ja) | 類似文書検索方法および装置 | |
JP7326637B2 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム | |
JP4054353B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP2003308319A (ja) | 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040913 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100917 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100917 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110917 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120917 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120917 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |