JP2002245070A - データ表示方法及び装置並びにその処理プログラムを記憶した媒体 - Google Patents
データ表示方法及び装置並びにその処理プログラムを記憶した媒体Info
- Publication number
- JP2002245070A JP2002245070A JP2001042690A JP2001042690A JP2002245070A JP 2002245070 A JP2002245070 A JP 2002245070A JP 2001042690 A JP2001042690 A JP 2001042690A JP 2001042690 A JP2001042690 A JP 2001042690A JP 2002245070 A JP2002245070 A JP 2002245070A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- occurrence
- text mining
- definition information
- mining method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 52
- 238000005065 mining Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 20
- 230000007717 exclusion Effects 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 235000013305 food Nutrition 0.000 abstract description 6
- 208000024891 symptom Diseases 0.000 abstract description 5
- 208000015181 infectious disease Diseases 0.000 description 16
- 241000588724 Escherichia coli Species 0.000 description 15
- 230000001717 pathogenic effect Effects 0.000 description 15
- 206010016952 Food poisoning Diseases 0.000 description 14
- 208000019331 Foodborne disease Diseases 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 239000000470 constituent Substances 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 7
- 150000001875 compounds Chemical class 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 208000003322 Coinfection Diseases 0.000 description 1
- 206010012735 Diarrhoea Diseases 0.000 description 1
- 208000032843 Hemorrhage Diseases 0.000 description 1
- 208000034158 bleeding Diseases 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
する頻度の高い語句を抽出するだけでは、どの構成要素
に対しても同じような語句が抽出されることとなり、
『7月』の「患者」、「症状」、『8月』の「検査」、「食品」
等、他の構成要素の共起語句にほとんど出現しない語句
の存在が埋もれてしまい、構成要素間の相違点をユーザ
に適切に提示することができない。 【解決手段】各分析条件に合致する文書における複数の
語句の出現回数を算出して、前記算出された結果に基づ
いて前記語句を表示する。 【効果】複数の文書の内容を好適にユーザが分析するこ
とが可能となる。
Description
書のデータベースを対象として、指定された文書集合に
関する各種データを取得して表示するデータ表示方法お
よび装置に係る。
ンピュータ等の普及により、これらによって作成される
電子化情報は増大してきている。また、WWW(World Wid
e Web)や電子メール、電子ニュース等から入手可能な
電子化情報も急速に増加している。そのため、これらの
電子化情報の内容を分析し、有効に活用することが企業
における重要な課題となっている。
わち文章形式で記述されていることが多い。このような
テキスト情報、例えば自由回答形式のアンケート等は、
機械的に分析することが困難なため、従来人手による分
析が行われてきた。この人手による分析処理には以下の
ような問題がある。(1)処理対象文書を全て読まなけ
ればならず、文書が増加した場合には実用的ではない。
(2)主観的判断に基づき分析が行われるため、ユーザ
の知識や熟練度によって結果が異なる。このような、人
手による分析を支援する技術としてテキストマイニング
へのニーズが高まっている。テキストマイニングの処理
手順については、「テキストマイニング―膨大な文書デ
ータの自動分析による知識発見―」(那須川 他、情報
処理学会誌、Vol.40、No.4、pp.358-364)や「単語の連
想関係によるテキストマイニング」(渡部 他、情報処
理学会研究会情報学基礎55-8、pp.57-64)に具体的に記
載されている。以下、これを従来技術1と呼ぶ。テキス
トマイニングは、予め登録されたテキスト情報を対象と
して、処理対象情報に含まれる語句の共起関係や出現傾
向等から新たな知識を発見するものである。具体的に
は、処理対象文書集合に対して、分析を行う視点である
分析軸を設定し、分析軸の構成要素に対応付けて文書集
合の特徴を表す語句を取得する。ここで、「分析軸の構
成要素に対応付けて語句を取得する」とは、例えば「分析
軸の構成要素と予め定められた範囲内で共起する語句を
取得する」ことである。この語句を参照することによ
り、ユーザは文書集合の傾向をつかむことが可能とな
る。例えば、「O157」に関する新聞記事集合を、掲載
月を分析軸として分析する場合の例を図2に示す。すな
わち、「掲載月が『7月』である記事」、「掲載月が
『8月』である記事」、・・・といった条件を分析条件と
する。掲載月を分析軸として分析することにより、分析
軸の構成要素である『7月』と対応付けて「感染、患
者、症状、入院、…」、『8月』と対応付けて「衝撃、
給食、入院、集団感染、…」、『9月』と対応付けて
「売上、マイナス、食料品、生鮮、…」といった語句が
取得される。この語句を参照することにより、ユーザは
『7月』には「O157に感染した患者が入院」、『8
月』には「給食でO157に集団感染が発生」、『9
月』には「O157の影響で生鮮食品などの売上げが低
下」した話題が文書集合に存在するという傾向を把握す
ることが可能となる。
図に従来技術1の処理手順の例を示す。まずステップ3
00で、テキストマイニングの処理対象となる文書集合
を限定する。アンケートのように予めある観点に基づい
て集められた文書データベースの場合にはそのまま処理
対象文書集合として設定したり、新聞記事のように、政
治や経済、スポーツ等の多様な観点が含まれる文書デー
タベースの場合にはユーザの分析目的に応じて全文検索
等を行い、文書集合を限定する。全文検索とは、登録時
に処理対象文書中のテキスト全体を計算機システムに入
力してデータベース化し、検索時には該当データベース
中からユーザの指定した文字列を含む全ての文書を探し
出す技術である。全文検索については、「カギを握るイ
ンデクス処理 高速全文検索技術の現状と将来」(真
島、日経バイト、OCTOBER 1996、pp.158-167)に詳細に
記載されている。以下、これを従来技術2と呼ぶ。次に
ステップ301で、ステップ300で設定した処理対象
文書集合から内容を特徴付ける語句(以下、特徴語句)
を抽出する。この特徴語句は辞書を参照して抽出しても
よいし、統計情報を用いて抽出してもよい。ここで、抽
出される特徴語句は単語に限るものではない。例えば、
辞書に2つ以上の単語からなる複合語などの語句(「病
原性大腸菌」のような語句)が登録されている場合など
には、このステップで抽出される特徴語句は2つ以上の
単語からなる語句であっても構わない。逆に、抽出され
る特徴語句は単語に限るものとしてもよい。そしてステ
ップ302で、分析を行う視点である分析軸を設定す
る。ここでは文書の書誌情報として付与されている日付
や年齢、性別等を分析軸として設定したり、指定された
語句を分析軸の構成要素として設定する。例えば、アン
ケートから年齢による意識の違いを知りたい場合には、
ここで年齢を分析軸として設定する。この場合、「20」や
「30」等の年齢を表す数値が分析軸の構成要素となる。最
後にステップ303で、ステップ302で設定した分析
軸の構成要素について、ステップ304の処理を繰り返
す。ステップ304では、ステップ301で抽出した特
徴語句の中から、分析軸の該当構成要素と関連の深い語
句、例えば予め定められた範囲内で共起する語句(以
下、共起語句)を取得する。予め定められた範囲内とし
ては、同一文書内、同一段落内、同一文章内またはm語
以内、n文字以内(m、nは整数)等を用いる。以上の
ように、従来技術1では、分析軸の構成要素に対応付け
て語句を取得することにより、ユーザが文書集合の傾向
を把握することを支援している。このように従来技術1
では、分析軸の構成要素に対応付けて、自動的に処理対
象文書集合を特徴付ける語句を取得しているため、ユー
ザの負担の軽減、ユーザによる分析結果の相違の低減が
図れる。
1によると、分析軸の構成要素に対応付けて、自動的に
処理対象文書集合を特徴付ける語句を取得しており、ユ
ーザの負担を軽減し、ユーザの知識や熟練度による分析
結果の相違を低減することが可能となる。
がある。図4の分析例に示すように、単純に分析軸の各
々の構成要素と共起する頻度の高い語句を抽出するだけ
では、「病原性大腸菌」、「食中毒」、「感染」、「集団」等、
どの構成要素に対しても同じような語句(イタリック書
体で表したもの)が抽出されることとなり、『7月』の
「患者」、「症状」、『8月』の「検査」、「食品」等、他の構
成要素の共起語句にほとんど出現しない語句の存在が埋
もれてしまい、構成要素間の相違点をユーザに適切に提
示することができない。こうした問題に対し、本発明で
は、複数の文書の内容を好適にユーザが分析することが
可能となるデータ表示方法および装置を提供することに
ある。
以下のように解決する。
語句の出現回数を算出し、前記算出された結果に基づい
て前記語句を表示することを特徴とするデータ表示方法
である。
成要素に対応付けて、自動的に処理対象文書集合を特徴
付ける語句を取得しており、ユーザの負担を軽減し、ユ
ーザの知識や熟練度による分析結果の相違を低減するこ
とが可能となる。
がある。図4の分析例に示すように、単純に分析軸の各
々の構成要素と共起する頻度の高い語句を抽出するだけ
では、「病原性大腸菌」、「食中毒」、「感染」、「集団」等、
どの構成要素に対しても同じような語句(イタリック書
体で表したもの)が抽出されることとなり、『7月』の
「患者」、「症状」、『8月』の「検査」、「食品」等、他の構
成要素の共起語句にほとんど出現しない語句の存在が埋
もれてしまい、構成要素間の相違点をユーザに適切に提
示することができない。
題を改善することを目的とする。すなわち、本発明の目
的は、分析軸の各々の構成要素と共起する語句の類似点
及び相違点を明確化することが可能なテキストマイニン
グ機能を提供することにより、ユーザが文書集合の傾向
を適切に分析することが可能となる文書処理システムを
提供することにある。上記課題を改善するために、本発
明では、以下の処理ステップを有する。すなわち、予め
登録された文書の集合を対象として、その全体または一
部分を取り出した処理対象文書集合に特徴的に出現する
語句を抽出する特徴語句抽出ステップと、指定された要
素を含む定義情報を設定する定義情報設定ステップと、
前記特徴語句抽出ステップで抽出した語句の中から前記
定義情報に含まれる各々の要素と予め定められた範囲内
で共起する共起語句を取得する共起語句取得ステップを
有するテキストマイニング方法であって、前記定義情報
に含まれる各々の要素間で共起語句を比較し、前記定義
情報に含まれる要素の多くと関わる共起語句を多重共起
語句として取得し、各々の要素の共起語句から多重共起
語句を排除した要素共起語句を作成する多重共起語句抽
出ステップを有するようにしている。
説明する。テキストマイニング実行指示が入力された場
合には、テキストマイニングの処理対象となる文書集合
から内容を特徴付ける語句、すなわち特徴語句を抽出
し、その中から指定された分析軸の構成要素と関連の深
い語句、例えば予め定められた範囲内で共起する共起語
句を取得する。本処理内容は従来技術1と同様である。
その結果、図4に示すように分析軸の構成要素の各々に
対する共起語句を得ることができる。本発明ではさら
に、分析軸の構成要素間で共起語句を比較し、多くの構
成要素と関わる共起語句を多重共起語句として取得し、
各々の構成要素の共起語句から多重共起語句を排除した
要素共起語句を作成している。
する。まず、分析軸の構成要素の多くと関わる共起語句
を多重共起語句として取得する。図5に示す例では、
「病原性大腸菌」、「食中毒」、「感染」、「集団」、…がほと
んどの構成要素に対する共起語句として取得されてお
り、これらの語句を多重共起語句として取得する。本図
に示す例では多くの構成要素の共起語句となった語句を
単純に多重共起語句として取得しているが、共起語句の
順位や共起の強さに応じて重みを付けるようにしても良
い。ここで共起の強さとは、その語句の各構成要素との
共起回数や、他の構成要素との共起回数によって算出さ
れる値である。たとえば、他の構成要素にはほとんど共
起しないのに、該当構成要素と多数共起するような特徴
語句は、該当構成要素との共起の強さが大きくなる。次
に、これらの多重共起語句を各々の構成要素の共起語句
から排除した要素共起語句を作成する。図5に示す例で
は、多重共起語句(イタリック書体で表したもの)として
取得した「病原性大腸菌」、「食中毒」、「感染」、「集団」、
…を各々の構成要素の共起語句から排除し、残された語
句を要素共起語句とする。ユーザに結果を提示する際に
は、例えば図6に示すように、多重共起語句を分析軸の
構成要素の類似話題として、要素共起語句を各々の構成
要素における話題として提示することが考えられる。本
図において、重要度として表示している数値はどれだけ
多くの構成要素と関係が深いかを表す度合いである。以
上説明したように、本方式では、分析軸の構成要素間で
共起語句を比較し、多くの構成要素と関わる共起語句を
多重共起語句として取得するとともに、この多重共起語
句を各々の構成要素の共起語句から排除した要素共起語
句を作成している。こうすることにより、分析軸の各々
の構成要素の類似点を多重共起語句として、相違点を要
素共起語句として明確化することができるため、ユーザ
が文書集合の傾向を適切に分析することが可能な文書処
理システムを提供することが可能となる。
て説明する。テキストマイニング実行指示が入力された
場合には、まずステップ300で、テキストマイニング
の処理対象となる文書集合を設定する。次にステップ3
01で、ステップ300で設定した処理対象文書集合か
ら内容を特徴付ける語句、すなわち特徴語句を抽出す
る。そしてステップ302で、分析を行う視点である分
析軸を設定する。次にステップ303で、ステップ30
2で設定した分析軸の構成要素について、ステップ30
4の処理を繰り返す。ステップ304では、ステップ3
01で抽出した特徴語句の中から、分析軸の該当構成要
素と関連の深い語句、例えば予め定められた範囲内で共
起する共起語句を取得する。ステップ300からステッ
プ304の処理内容は従来技術1と同様である。その結
果、図4に示すように分析軸の構成要素の各々に対する
共起語句を得ることができる。本発明ではさらに、分析
軸の構成要素間で共起語句を比較し、多くの構成要素と
関わる共起語句を多重共起語句として取得し、各々の構
成要素の共起語句から多重共起語句を排除した要素共起
語句を作成している。本発明では、ステップ700で、
類似話題抽出指示が入力された場合には、ステップ70
1で、分析軸の構成要素の多くと関わる共起語句を多重
共起語句として取得する。図5に示す例では、「病原性
大腸菌」、「食中毒」、「感染」、「集団」、…がほとんどの
構成要素に対する共起語句として取得されており、これ
らの語句を多重共起語句として取得する。本図に示す例
では多くの構成要素の共起語句となった語句を単純に多
重共起語句として取得しているが、共起語句の順位や共
起の強さに応じて重みを付けるようにしても良い。次
に、これらの多重共起語句を各々の構成要素の共起語句
から排除した要素共起語句を作成する。図5に示す例で
は、多重共起語句(イタリック書体で表したもの)として
取得した「病原性大腸菌」、「食中毒」、「感染」、「集団」、
…を各々の構成要素の共起語句から排除し、残された語
句を要素共起語句とする。ユーザに結果を提示する際に
は、例えば図6に示すように、多重共起語句を分析軸の
構成要素の類似話題として、要素共起語句を各々の構成
要素における話題として提示することが考えられる。本
図において、重要度として表示している数値はどれだけ
多くの構成要素と関係が深いかを表す度合いである。ま
た、多重共起語句として取得する共起語句の制限をゆる
め、重要度の低い共起語句までを多重共起語句として抽
出すると、要素共起語句として各々の構成要素に固有な
共起語句を取得できるため、各々の構成要素に固有な話
題を提示することも可能である。以上説明したように、
本実施例に示す方法では、分析軸の構成要素間で共起語
句を比較し、多くの構成要素と関わる共起語句を多重共
起語句として取得するとともに、この多重共起語句を各
々の構成要素の共起語句から排除した要素共起語句を作
成している。こうすることにより、分析軸の各々の構成
要素の類似点を多重共起語句として、相違点を要素共起
語句として明確化することができるため、ユーザが文書
集合の傾向を適切に分析することが可能な文書処理シス
テムを提供することが可能となる。
明を適用した文書処理システムは、図1に示すように、
ディスプレイ100、キーボード101、中央演算処理
装置(CPU)102、フロッピディスクドライブ(F
DD)104、磁気ディスク装置106、主記憶装置1
08及びこれらを結ぶバス103から構成される。磁気
ディスク装置106は二次記憶装置の一つであり、テキ
ストファイル107が格納される。フロッピディスク1
05に格納されている情報は、FDD104によりアク
セスされる。FDD104や磁気ディスク装置106
は、通信回線(図1には示していない)等で接続された
他の装置と接続するような構成をとってもかまわない。
グラム109、処理対象文書集合設定プログラム11
0、検索プログラム111、特徴語句抽出プログラム1
12、分析軸設定プログラム113、共起語句取得プロ
グラム114、類似話題抽出プログラム115、多重共
起語句取得プログラム116、多重共起語句排除プログ
ラム117が格納されるとともにワークエリア118が
確保される。以上のプログラムは磁気ディスク装置10
6、フロッピディスク105等のコンピュータで読み書
きできる記憶媒体に格納することもできる。
て、図8を用いて説明する。システム制御プログラム1
09はキーボード101からのテキストマイニング実行
指示や、他のプログラムからの関数呼び出し等を受け起
動し、処理対象文書集合設定プログラム110、特徴語
句抽出プログラム112、分析軸設定プログラム11
3、共起語句取得プログラム114及び類似話題抽出プ
ログラム115の制御を行う。
テップ800で処理対象文書集合設定プログラム110
を起動し、テキストファイル107の中からテキストマ
イニングの処理対象となる文書集合を限定する。テキス
トファイル107がアンケートのように予めある観点に
基づいて集められた文書データベースの場合にはそのま
ま処理対象文書集合として設定したり、新聞記事のよう
に、政治や経済、スポーツ等の多様な観点が含まれる文
書データベースの場合にはユーザの分析目的に応じて全
文検索等を行い、文書集合を限定する。全文検索等を用
いて処理対象文書集合を設定する際には、処理対象文書
集合設定プログラム110は検索プログラム111を起
動し、指定された検索条件でテキストファイル107を
検索し、その検索結果集合を処理対象文書集合として設
定する。検索プログラム111には従来技術2で示した
ような既存の検索技術を用いる。次にステップ801で
特徴語句抽出プログラム112を起動し、ステップ80
0で設定した処理対象文書集合から内容を特徴付ける語
句である特徴語句を抽出する。この特徴語句は、辞書等
を参照して抽出してもよいし、統計情報を用いて抽出し
てもよい。さらには、同義語辞書等を用いて同じ意味を
持つ語句をまとめて、単一の語句に置き換えるような処
理を施してもよい。ここで、抽出される特徴語句は単語
に限るものではない。例えば、辞書に2つ以上の単語か
らなる複合語などの語句が登録されている場合などに
は、このステップで抽出される特徴語句は2つ以上の単
語からなる語句であっても構わない。逆に、抽出される
特徴語句は単語に限るものとしてもよい。
ム113を起動し、分析を行う視点である分析軸を設定
する。ここでは文書の書誌情報として付与されている日
付や年齢、性別等を分析軸として設定したり、指定され
た語句を分析軸の構成要素として設定する。例えば、ア
ンケートから年齢による意識の違いを知りたい場合に
は、ここで年齢を分析軸として設定する。この場合、「2
0」や「30」等の年齢を表す数値が分析軸の構成要素とな
る。そしてステップ803で共起語句取得プログラム1
14を起動し、ステップ802で設定した分析軸の構成
要素について、ステップ804の処理を繰り返す。ステ
ップ804では、ステップ801で抽出した特徴語句の
中から、分析軸の該当構成要素と関連の深い語句を取得
する。例えば、書誌情報として付与されている年齢や性
別等を分析軸の構成要素とする場合、該当する書誌情報
が付与されている文書から抽出された特徴語句を、その
書誌情報と関連の深い語句として取得する。例えば上述
のアンケートの例で、年齢を分析軸とした場合、年齢が
「20」と付与されている文書から抽出された特徴語句を、
「20」という構成要素と関連の深い語句として取得する。
また、指定された語句を分析軸の構成要素とする場合に
は、例えば予め定められた範囲内でその語句と共起する
共起語句を取得する。予め定められた範囲内としては、
同一文書内、同一段落内、同一文章内またはm語以内、
n文字以内(m、nは整数)等を用いることができる。
このステップ800からステップ804までの処理は従
来技術1と同様である。本実施例ではさらに、ステップ
805で類似話題抽出指示がキーボード101から入力
されたり、他のプログラムからの関数呼び出し等を受け
た場合には、ステップ806で類似話題抽出プログラム
115を起動し、類似話題抽出処理を行う。
似話題抽出処理の処理内容を図9に示す。類似話題抽出
プログラム115は、まずステップ900で、ステップ
801で取得した各特徴語句について、共起する分析軸
の構成要素の数に基づいて重要度を算出する。次にステ
ップ901で、ステップ900において算出した重要度
が所定の値を超える特徴語句を、多重共起語句として抽
出する。そしてステップ902で、多重共起語句排除プ
ログラム117を起動し、分析軸の構成要素について、
ステップ903の処理を繰り返す。ステップ903で
は、ステップ901で取得した多重共起語句を、該当構
成要素の共起語句から排除した要素共起語句を作成す
る。
沿って具体的に説明する。システム制御プログラム10
9は、まずステップ800で処理対象文書集合設定プロ
グラム110を起動し、テキストファイル107の中か
らテキストマイニングの処理対象となる文書集合を限定
する。テキストファイル107がアンケートのように予
めある観点に基づいて集められた文書データベースの場
合にはそのまま処理対象文書集合として設定したり、新
聞記事のように、政治や経済、スポーツ等の多様な観点
が含まれる文書データベースの場合にはユーザの分析目
的に応じて全文検索等を行い、文書集合を限定する。全
文検索等を用いて処理対象文書集合を設定する際には、
処理対象文書集合設定プログラム110は検索プログラ
ム111を起動し、指定された検索条件でテキストファ
イル107を検索し、その検索結果集合を処理対象文書
集合として設定する。検索プログラム111には従来技
術2で示したような既存の検索技術を用いる。図10に
新聞記事データベース中の「O157」関連記事をテキス
トマイニングする場合の例を示す。本図に示す例では、
テキストファイル107には新聞記事データベースが格
納されている。そこで、検索プログラム111を用いて
本データベースを新聞記事全文に「O157」を含むもの
に限定し、処理対象文書集合として文書0012、文書
0130、文書0293、文書0535、文書082
9、…を得る。ここで、処理対象文書が構造化文書であ
る場合には、任意の構造に「O157」を含むものに限定
するといった方法をとっても構わない。
ラム112を起動し、ステップ800で設定した処理対
象文書集合から内容を特徴付ける語句である特徴語句を
抽出する。この特徴語句は、辞書等を参照して抽出して
もよいし、統計情報を用いて抽出してもよい。さらに
は、同義語辞書等を用いて同じ意味を持つ語句をまとめ
て、単一の語句に置き換えるような処理を施してもよ
い。ここで、抽出される特徴語句は単語に限るものでは
ない。例えば、辞書に2つ以上の単語からなる複合語な
どの語句が登録されている場合などには、このステップ
で抽出される特徴語句は2つ以上の単語からなる語句で
あっても構わない。逆に、抽出される特徴語句は単語に
限るものとしてもよい。図10に示す例では、ステップ
800で設定した処理対象文書集合から特徴語句として
「小学校、集団、感染、病原性大腸菌、食中毒、患者、
腹痛、出血性、下痢、症状、入院、家庭、二次感染、ス
ーパー、生鮮食料品、売上、打撃、…」が抽出されてい
る。
ム113を起動し、分析を行う視点である分析軸を設定
する。ここでは文書の書誌情報として付与されている日
付や年齢、性別等を分析軸として設定したり、指定され
た語句を分析軸の構成要素として設定する。図10に示
す例では、新聞記事の書誌情報として付与されている掲
載月を分析軸として設定している。すなわち、「掲載月
が『7月』である記事」、「掲載月が『8月』である記
事」、・・・といった条件を分析条件とする。そしてステ
ップ803で共起語句取得プログラム114を起動し、
ステップ802で設定した分析軸の構成要素について、
ステップ804の処理を繰り返す。
出した特徴語句の中から、分析軸の該当構成要素と関連
の深い語句を取得する。図10の例では、新聞記事の書
誌情報である掲載月を分析軸として設定している。した
がって分析軸の構成要素である『7月』と関連の深い語
句として、掲載月が『7月』である新聞記事から抽出さ
れた「病原性大腸菌、食中毒、感染、対策、衛生、…」
が取得されている。このとき語句の一覧表示の方法とし
ては、掲載月が『7月』である新聞記事に出現する回数
の順にソートして、『7月』と関連の深い語句として表
示するなどが考えられる。また、全データベース内で出
現文書数が少ない語句ほど上位に表示されるようにソー
トするなどしても良い。すなわち、掲載月が『7月』の
新聞記事には「病原性大腸菌、食中毒、感染、対策、衛
生、…」といった語句が多く出現していたということを
意味している。同様に『8月』と関連の深い語句とし
て、掲載月が『8月』である新聞記事から抽出された
「病原性大腸菌、感染、食中毒、対策、集団、…」が取
得されている。また『9月』と関連の深い語句として、
掲載月が『9月』である新聞記事から抽出された「病原
性大腸菌、食中毒、対策、集団、感染、…」が取得され
ている。このステップ800からステップ804までの
処理は従来技術1と同様である。
似話題抽出指示がキーボード101から入力されたり、
他のプログラムからの関数呼び出し等を受けた場合に
は、ステップ806で類似話題抽出プログラム115を
起動し、類似話題抽出処理を行う。以下、この類似話題
抽出処理について図9に沿って具体的に説明する。類似
話題抽出プログラム115は、まずステップ900で、
ステップ801で取得した各特徴語句について、共起す
る分析軸の構成要素の数に基づいて重要度を算出する。
図10に示した例では、「病原性大腸菌」という特徴語句
は、6つの分析軸の構成要素のうち6つ全てに共起して
いることがわかる。そのため例えば、重要度を6/6=
100%と算出する。また例えば「集団食中毒」という特
徴語句は、6つの分析軸の構成要素のうち4つに共起し
ているため、重要度を4/6=67%と算出する。この
とき、各構成要素毎に出現回数の降順に各特徴語句をソ
ートして、所定の順位以降にソートされる特徴語句は、
その構成要素と共起しているものとしてカウントしない
などの方法を用いても良い。また、例えば掲載月が『7
月』である新聞記事に所定数以上出現していない特徴語
句は、『7月』と共起しているものとしてカウントしな
いなどの方法を用いても良い。
おいて算出した重要度が所定の閾値を超える特徴語句
を、多重共起語句として抽出する。図11に多重共起語
句取得の例を示す。本図に示す例は、図10で示した分
析軸の各構成要素と共起する特徴語句のうち共起回数の
上位10個の特徴語句から、多重共起語句を取得する例
である。前述の閾値として「50%」という値を設定し
ているものとする。例えば、「病原性大腸菌」、「食中
毒」、「感染」、「集団」といった語句は、『7月』から「1
2月」までの全ての構成要素と共起しているため重要度
が100%と算出され、所定の閾値を超えるので、多重
共起語句として取得されている。また「対策」という語句
は、6つの構成要素のうち「10月」を除く5つの構成要
素と共起しているため重要度が83%と算出され、所定
の閾値を超えるので、多重共起語句として取得されてい
る。そしてステップ902で、多重共起語句排除プログ
ラム117を起動し、分析軸の構成要素について、ステ
ップ903の処理を繰り返す。ステップ903では、ス
テップ901で取得した多重共起語句を、該当構成要素
の共起語句から排除した要素共起語句を作成する。図1
2に多重共起語句排除の例を示す。本図に示す例では、
多重共起語句(イタリック書体で表したもの)として取得
した「病原性大腸菌」、「食中毒」、「感染」、「集団」、…を
各々の構成要素の共起語句から排除し、要素共起語句を
作成する。
6に示すように、多重共起語句を分析軸の構成要素の類
似話題として、要素共起語句を各々の構成要素における
話題として提示することが考えられる。本図において、
重要度として表示している数値はどれだけ多くの構成要
素と関係が深いかを表す度合いである。また、多重共起
語句として取得する共起語句の制限をゆるめ、重要度の
低い共起語句までを多重共起語句として抽出すると、要
素共起語句として各々の構成要素に固有な共起語句を取
得できるため、各々の構成要素に固有な話題を提示する
ことも可能である。さらに、多重共起語句、要素共起語
句あるいは両者とも結果として表示することを、画面上
で選択できるようにすることも可能である。また、多重
共起語句として抽出する共起語句の重要度のしきい値を
画面上で指定できるようにすることも可能である。
説明である。以上説明したように、本実施例に示す方法
では、分析軸の構成要素間で共起語句を比較し、多くの
構成要素と関わる共起語句を多重共起語句として取得す
るとともに、この多重共起語句を各々の構成要素の共起
語句から排除した要素共起語句を作成している。こうす
ることにより、分析軸の各々の構成要素の類似点を多重
共起語句として、相違点を要素共起語句として明確化し
た分析結果を、ユーザに提示することが可能なテキスト
マイニング機能を実現することができる。この結果、ユ
ーザが文書集合の傾向を適切に分析できる文書処理シス
テムを提供することが可能となる。
集合を、単語を指定した全文検索を用いて限定する場合
を例として説明したが、データベースに格納されている
文書集合全体を処理対象文書集合としたり、文章や文書
を検索条件として用いて検索した結果を処理対象文書集
合とする場合についても同様の処理が可能である。ま
た、本実施例では、指定された書誌情報を分析軸として
テキストマイニングを行う場合を例として説明したが、
指定された語句を構成要素とする分析軸を用いてテキス
トマイニングを行う場合についても同様の処理が可能で
ある。この場合は、処理対象文書集合から抽出した特徴
語句を提示し、その中から構成要素を選択させたり、任
意の語句をキーボードから入力させたりすることにより
実現できる。また、分析軸の構成要素間で共起語句を比
較し、多くの構成要素と関係深い共起語句を多重共起語
句として取得するとともに、この多重共起語句を各々の
構成要素の共起語句から排除した要素共起語句を作成し
ている。この結果、分析軸の各々の構成要素の類似点を
多重共起語句として、相違点を要素共起語句として明確
化した分析結果を提示することができるテキストマイニ
ング機能を提供することが可能となり、ユーザが文書集
合の傾向を適切に分析することが可能な文書処理システ
ムを実現することができる。
適にユーザが分析すること可能になる。
図。
すPAD図。
容を示す図。
容を示す図。
102・・・CPU 、103・・・バス、104・・
・フロッピディスクドライバ、105・・・フロッピデ
ィスク、106・・・磁気ディスク装置、107・・・
テキストファイル、108・・・主記憶装置、109・
・・システム制御プログラム、110・・・処理対象文
書集合設定プログラム、111・・・検索プログラム、
112・・・特徴語句抽出プログラム、113・・・分
析軸設定プログラム、114・・・共起語句取得プログ
ラム、115・・・類似話題抽出プログラム、116・
・・多重共起語句取得プログラム、117・・・多重共
起語句排除プログラム、118・・・ワークエリア
Claims (19)
- 【請求項1】各分析条件に合致する文書における複数の
語句の出現回数を算出するステップと、前記算出された
結果に基づいて前記語句を表示するステップとを特徴と
するデータ表示方法。 - 【請求項2】前記各分析条件とは、前記文書に関連付け
られている情報であることを特徴とする請求項1記載の
データ表示方法。 - 【請求項3】前記語句を表示するステップは、前記分析
条件ごとに表示することを特徴とする請求項1記載のデ
ータ表示方法。 - 【請求項4】予め登録された文書の集合を対象として、
その全体または一部分を取り出した処理対象文書集合に
特徴的に出現する語句を抽出する特徴語句抽出ステップ
と、指定された要素を含む定義情報を設定する定義情報
設定ステップと、該特徴語句抽出ステップで抽出した語
句の中から該定義情報に含まれる各々の要素と関連する
度合いが高い関連語句を取得する関連語句取得ステップ
を有するテキストマイニング方法において、 該定義情報に含まれる各々の要素間で関連語句を比較
し、該定義情報に含まれる要素の多くと関連する関連語
句を多重関連語句として抽出する多重関連語句抽出ステ
ップを有することを特徴としたテキストマイニング方
法。 - 【請求項5】請求項4記載のテキストマイニング方法に
おいて、 前記定義情報に含まれる各々の要素と関連する度合いが
高い関連語句とは、該定義情報に含まれる各々の要素と
予め定められた範囲内で共起する共起語句であることと
し、 前記関連語句取得ステップは、前記特徴語句抽出ステッ
プで抽出した語句の中から該定義情報に含まれる各々の
要素と予め定められた範囲内で共起する共起語句を取得
する共起語句取得ステップであり、 前記多重関連語句抽出ステップは、該定義情報に含まれ
る各々の要素間で共起語句を比較し、該定義情報に含ま
れる要素の多くと関わる共起語句を多重共起語句として
抽出する多重共起語句抽出ステップであることを特徴と
したテキストマイニング方法。 - 【請求項6】請求項4記載のテキストマイニング方法に
おいて、 前記処理対象文書集合は、語句または文章または文書を
検索条件として用いて検索を行うことにより得られた文
書集合であることを特徴としたテキストマイニング方
法。 - 【請求項7】請求項4記載のテキストマイニング方法に
おいて、 前記多重関連語句抽出ステップは、前記定義情報に含ま
れる各々の要素間で関連語句を比較し、該定義情報に含
まれる要素の多くと関連する関連語句を多重関連語句と
して取得する多重関連語句取得ステップと、 該定義情報に含まれる各々の要素の関連語句から該多重
関連語句を排除した要素関連語句を作成する多重関連語
句排除ステップを有することを特徴としたテキストマイ
ニング方法。 - 【請求項8】請求項5記載のテキストマイニング方法に
おいて、 前記多重共起語句抽出ステップは、前記定義情報に含ま
れる各々の要素間で共起語句を比較し、該定義情報に含
まれる要素の多くと関わる共起語句を多重共起語句とし
て取得する多重共起語句取得ステップと、 該定義情報に含まれる各々の要素の共起語句から該多重
共起語句を排除した要素共起語句を作成する多重共起語
句排除ステップを有することを特徴としたテキストマイ
ニング方法。 - 【請求項9】請求項8記載のテキストマイニング方法に
おいて、 前記定義情報に含まれる要素の多くと関わる共起語句と
は、予め定められた数以上の要素の共起語句として抽出
された語句であることを特徴としたテキストマイニング
方法。 - 【請求項10】請求項8記載のテキストマイニング方法
において、 前記定義情報に含まれる要素の多くと関わる共起語句と
は、該共起語句の該定義情報に含まれる各々の要素との
共起の強さと共起する要素の数を基に算出した値が予め
定められた値以上となる語句であることを特徴としたテ
キストマイニング方法。 - 【請求項11】請求項9記載のテキストマイニング方法
において、 前記多重共起語句取得ステップは、予め定められた算出
式で前記多重共起語句の重要度を算出する重要度算出ス
テップを有することを特徴としたテキストマイニング方
法。 - 【請求項12】請求項10記載のテキストマイニング方
法において、 前記多重共起語句取得ステップは、予め定められた算出
式で前記多重共起語句の重要度を算出する重要度算出ス
テップを有することを特徴としたテキストマイニング方
法。 - 【請求項13】請求項11記載のテキストマイニング方
法において、 前記重要度は、前記多重共起語句が共起語句となった要
素の数を用いて予め定められた算出式で算出することを
特徴としたテキストマイニング方法。 - 【請求項14】請求項12記載のテキストマイニング方
法において、 前記重要度は、前記多重共起語句の前記定義情報に含ま
れる各々の要素との共起の強さと共起する要素の数を用
いて予め定められた算出式で算出することを特徴とした
テキストマイニング方法。 - 【請求項15】請求項7記載のテキストマイニング方法
において、 前記多重関連語句取得ステップで取得した多重関連語句
と、前記多重関連語句排除ステップで作成した要素関連
語句を提示する関連語句提示ステップを有することを特
徴としたテキストマイニング方法。 - 【請求項16】請求項8記載のテキストマイニング方法
において、 前記多重共起語句取得ステップで取得した多重共起語句
と、前記多重共起語句排除ステップで作成した要素共起
語句を提示する共起語句提示ステップを有することを特
徴としたテキストマイニング方法。 - 【請求項17】請求項11または請求項12記載のテキ
ストマイニング方法において、 前記多重共起語句取得ステップで取得した多重共起語句
及び重要度と、前記多重共起語句排除ステップで作成し
た要素共起語句を提示する共起語句提示ステップを有す
ることを特徴としたテキストマイニング方法。 - 【請求項18】予め登録された文書の集合を対象とし
て、その全体または一部分を取り出した処理対象文書集
合に特徴的に出現する語句を抽出する特徴語句抽出手段
と、指定された要素を含む定義情報を設定する定義情報
設定手段と、該特徴語句抽出手段で抽出した語句の中か
ら該定義情報に含まれる各々の要素と関連する度合いが
高い関連語句を取得する関連語句取得手段を備えるテキ
ストマイニング装置において、 該定義情報に含まれる各々の要素間で関連語句を比較
し、該定義情報に含まれる要素の多くと関連する関連語
句を多重関連語句として抽出する多重関連語句抽出手段
を備えることを特徴としたテキストマイニング装置。 - 【請求項19】予め登録された文書の集合を対象とし
て、その全体または一部分を取り出した処理対象文書集
合に特徴的に出現する語句を抽出する特徴語句抽出モジ
ュールと、指定された要素を含む定義情報を設定する定
義情報設定モジュールと、該特徴語句抽出モジュールで
抽出した語句の中から該定義情報に含まれる各々の要素
と関連する度合いが高い関連語句を取得する関連語句取
得モジュールを含むテキストマイニングシステムを構築
するためのプログラムを格納した記憶媒体において、 該定義情報に含まれる各々の要素間で関連語句を比較
し、該定義情報に含まれる要素の多くと関連する関連語
句を多重関連語句として抽出する多重関連語句抽出モジ
ュールを含むことを特徴とした記憶媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001042690A JP2002245070A (ja) | 2001-02-20 | 2001-02-20 | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 |
EP01113754A EP1233349A3 (en) | 2001-02-20 | 2001-06-05 | Data display method and apparatus for use in text mining |
CA002348420A CA2348420C (en) | 2001-02-20 | 2001-06-05 | Data display method and apparatus for use in text mining |
US09/874,005 US6738786B2 (en) | 2001-02-20 | 2001-06-06 | Data display method and apparatus for use in text mining |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001042690A JP2002245070A (ja) | 2001-02-20 | 2001-02-20 | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002245070A true JP2002245070A (ja) | 2002-08-30 |
JP2002245070A5 JP2002245070A5 (ja) | 2005-09-08 |
Family
ID=18904949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001042690A Pending JP2002245070A (ja) | 2001-02-20 | 2001-02-20 | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6738786B2 (ja) |
EP (1) | EP1233349A3 (ja) |
JP (1) | JP2002245070A (ja) |
CA (1) | CA2348420C (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009217367A (ja) * | 2008-03-07 | 2009-09-24 | Fujifilm Corp | 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム |
JP2010224823A (ja) * | 2009-03-23 | 2010-10-07 | Toshiba Corp | 共起表現抽出装置及び共起表現抽出方法 |
JP2012527701A (ja) * | 2009-05-22 | 2012-11-08 | マイクロソフト コーポレーション | 構造化されていないリソースからの句対のマイニング |
JP2015032166A (ja) * | 2013-08-02 | 2015-02-16 | エヌ・ティ・ティ・コムウェア株式会社 | 分類装置、分類方法、および分類プログラム |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4116329B2 (ja) * | 2002-05-27 | 2008-07-09 | 株式会社日立製作所 | 文書情報表示システム、文書情報表示方法及び文書検索方法 |
GB2390704A (en) | 2002-07-09 | 2004-01-14 | Canon Kk | Automatic summary generation and display |
GB2399427A (en) | 2003-03-12 | 2004-09-15 | Canon Kk | Apparatus for and method of summarising text |
US7613731B1 (en) * | 2003-06-11 | 2009-11-03 | Quantum Reader, Inc. | Method of analysis, abstraction, and delivery of electronic information |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7689433B2 (en) * | 2004-08-13 | 2010-03-30 | Accenture Global Services Gmbh | Active relationship management |
US20060074928A1 (en) * | 2004-09-28 | 2006-04-06 | Microsoft Corporation | Selection based container listing |
US8745054B1 (en) | 2005-11-30 | 2014-06-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for large volume text summary and visualization |
JP4761460B2 (ja) * | 2006-05-01 | 2011-08-31 | コニカミノルタビジネステクノロジーズ株式会社 | 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム |
US20080288488A1 (en) * | 2007-05-15 | 2008-11-20 | Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer | Method and system for determining trend potentials |
US8825693B2 (en) * | 2007-12-12 | 2014-09-02 | Trend Micro Incorporated | Conditional string search |
US8176419B2 (en) * | 2007-12-19 | 2012-05-08 | Microsoft Corporation | Self learning contextual spell corrector |
JPWO2009101954A1 (ja) * | 2008-02-15 | 2011-06-09 | 日本電気株式会社 | テキスト情報分析システム |
US8577884B2 (en) * | 2008-05-13 | 2013-11-05 | The Boeing Company | Automated analysis and summarization of comments in survey response data |
US20110044447A1 (en) * | 2009-08-21 | 2011-02-24 | Nexidia Inc. | Trend discovery in audio signals |
WO2011118428A1 (ja) * | 2010-03-26 | 2011-09-29 | 日本電気株式会社 | 要求獲得システム、要求獲得方法、及び要求獲得用プログラム |
US10733221B2 (en) * | 2016-03-30 | 2020-08-04 | Microsoft Technology Licensing, Llc | Scalable mining of trending insights from text |
CN108346474B (zh) * | 2018-03-14 | 2021-09-28 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
US12277389B2 (en) | 2021-05-10 | 2025-04-15 | International Business Machines Corporation | Text mining based on document structure information extraction |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69032712T2 (de) | 1989-06-14 | 1999-07-01 | Hitachi, Ltd., Tokio/Tokyo | Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung |
JP2987099B2 (ja) | 1996-03-27 | 1999-12-06 | 株式会社日立国際ビジネス | 文書作成支援システム及び用語辞書 |
US6038561A (en) * | 1996-10-15 | 2000-03-14 | Manning & Napier Information Services | Management and analysis of document information text |
WO1999005614A1 (en) * | 1997-07-23 | 1999-02-04 | Datops S.A. | Information mining tool |
US6006223A (en) * | 1997-08-12 | 1999-12-21 | International Business Machines Corporation | Mapping words, phrases using sequential-pattern to find user specific trends in a text database |
AU1108199A (en) * | 1997-10-22 | 1999-05-10 | Glaxo Group Limited | Computer thesaurus manager |
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
US6212532B1 (en) * | 1998-10-22 | 2001-04-03 | International Business Machines Corporation | Text categorization toolkit |
JP4025443B2 (ja) * | 1998-12-04 | 2007-12-19 | 富士通株式会社 | 文書データ提供装置及び文書データ提供方法 |
US6510406B1 (en) * | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6388592B1 (en) * | 2001-01-18 | 2002-05-14 | International Business Machines Corporation | Using simulated pseudo data to speed up statistical predictive modeling from massive data sets |
-
2001
- 2001-02-20 JP JP2001042690A patent/JP2002245070A/ja active Pending
- 2001-06-05 EP EP01113754A patent/EP1233349A3/en not_active Withdrawn
- 2001-06-05 CA CA002348420A patent/CA2348420C/en not_active Expired - Fee Related
- 2001-06-06 US US09/874,005 patent/US6738786B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009217367A (ja) * | 2008-03-07 | 2009-09-24 | Fujifilm Corp | 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム |
JP2010224823A (ja) * | 2009-03-23 | 2010-10-07 | Toshiba Corp | 共起表現抽出装置及び共起表現抽出方法 |
JP2012527701A (ja) * | 2009-05-22 | 2012-11-08 | マイクロソフト コーポレーション | 構造化されていないリソースからの句対のマイニング |
JP2015032166A (ja) * | 2013-08-02 | 2015-02-16 | エヌ・ティ・ティ・コムウェア株式会社 | 分類装置、分類方法、および分類プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20020116398A1 (en) | 2002-08-22 |
CA2348420A1 (en) | 2002-08-20 |
CA2348420C (en) | 2006-07-11 |
US6738786B2 (en) | 2004-05-18 |
EP1233349A3 (en) | 2004-10-13 |
EP1233349A2 (en) | 2002-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002245070A (ja) | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 | |
US8176418B2 (en) | System and method for document collection, grouping and summarization | |
US7340466B2 (en) | Topic identification and use thereof in information retrieval systems | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
US20080208840A1 (en) | Diverse Topic Phrase Extraction | |
US20100262603A1 (en) | Search engine methods and systems for displaying relevant topics | |
EP2159715A2 (en) | System and method for providing a topic-directed search | |
WO1999034307A1 (en) | Extraction server for unstructured documents | |
US6757676B1 (en) | Text mining method and apparatus allowing a user to analyze contents of a document set from plural analysis axes | |
KR20130076684A (ko) | 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템 | |
Ramani et al. | An explorative study on extractive text summarization through k-means, LSA, and TextRank | |
Guadie et al. | Amharic text summarization for news items posted on social media | |
Gupta | A survey of text summarizers for Indian Languages and comparison of their performance | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
KR20190102529A (ko) | 토픽을 이용한 타겟 분석 장치 및 방법 | |
Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
Prathyusha et al. | Normalization methods for multiple sources of data | |
JP2002183175A (ja) | テキストマイニング方法 | |
Lakshika et al. | Association rules for knowledge discovery from e-news articles: A review of apriori and fp-growth algorithms | |
BAZRFKAN et al. | Using machine learning methods to summarize persian texts | |
JP2006099753A (ja) | 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置 | |
US20230096564A1 (en) | Chunking execution system, chunking execution method, and information storage medium | |
Liu et al. | Cro: a system for online review structurization | |
JP2006293616A (ja) | 文書集約方法及び装置及びプログラム | |
CN102929889B (zh) | 一种完善社区网络的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050317 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050317 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081021 |