JP4865526B2 - データマイニングシステム、データマイニング方法及びデータ検索システム - Google Patents
データマイニングシステム、データマイニング方法及びデータ検索システム Download PDFInfo
- Publication number
- JP4865526B2 JP4865526B2 JP2006339566A JP2006339566A JP4865526B2 JP 4865526 B2 JP4865526 B2 JP 4865526B2 JP 2006339566 A JP2006339566 A JP 2006339566A JP 2006339566 A JP2006339566 A JP 2006339566A JP 4865526 B2 JP4865526 B2 JP 4865526B2
- Authority
- JP
- Japan
- Prior art keywords
- terms
- document
- information
- term
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
Claims (13)
- 文書中の図を画像処理して当該図中の用語と用語間の関係性についての情報を抽出する図情報抽出部と、
文書中のテキスト部分から用語と用語間の関係性についての情報を抽出するテキスト情報抽出部と、
図の画像、図の識別情報、及び前記図情報抽出部によって抽出された図中の用語及び用語間の関係性についての情報を相互に関連付けて記憶する記憶部とを有し、
前記図情報抽出部は、前記テキスト情報抽出部によって抽出された当該文書中の用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出して特定し、
前記テキスト情報抽出部は、前記図のタイトル、脚注、あるいは本文中から図の中身を表す用語を辞書、固有表現の認識手法、抽出パターン又は構文解析を用いて抽出し、前記抽出された用語を、図の上位概念を表す図タイトルと図の識別情報に関連付けて前記記憶部に記憶する
ことを特徴とするデータマイニングシステム。 - 請求項1記載のデータマイニングシステムにおいて、前記テキスト情報抽出部は、前記図を参照している文書中のパラグラフを検索する機能を有し、前記図情報抽出部は、前記テキスト情報抽出部によって検索された前記パラグラフから抽出された用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出することを特徴とするデータマイニングシステム。
- 請求項1記載のデータマイニングシステムにおいて、前記テキスト情報抽出部は、文書データベースから前記図が記載されている文書の関連文書及び/又は類似文書を検索する機能を有し、前記図情報抽出部は、前記テキスト情報抽出部によって検索された前記関連文書及び/又は類似文書から抽出された用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出することを特徴とするデータマイニングシステム。
- 請求項1記載のデータマイニングシステムにおいて、前記図情報抽出部は前記図を画像処理して図中の文字を抽出すると共に、隣接する文字間の距離を考慮して連続する複数の文字からなる用語を抽出し、用語間に配置された記号の形状から当該用語間の関係性を抽出することを特徴とするデータマイニングシステム。
- 図を含む文書を処理装置に入力する工程と、
前記処理装置において、文書中のテキスト部分から用語と用語間の関係性についての情報を抽出するテキスト処理工程と、
前記文書中の図を画像処理して図中の文字を抽出し、隣接する文字間の距離を考慮して連続する複数の文字からなる用語を抽出し、用語間に配置されている記号の形状から当該用語間の関係性を抽出する図処理工程と、
図の画像、図の識別情報、及び前記図処理工程によって抽出された図中の用語及び用語間の関係性についての情報を関連付けて出力する出力工程とを有し、
前記図処理工程では、前記テキスト処理工程で抽出された当該文書中の用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出して特定し、
前記テキスト処理工程では、前記図のタイトル、脚注、あるいは本文中から図の中身を表す用語を辞書、固有表現の認識手法、抽出パターン又は構文解析を用いて抽出し、
前記出力工程では、前記抽出された用語を、図の上位概念を表す図タイトルと図の識別情報に関連付けて出力する
ことを特徴とするデータマイニング方法。 - 請求項5記載のデータマイニング方法において、前記テキスト処理工程は、前記図を参照している文書中のパラグラフを検索し、前記パラグラフから用語及び用語間の関係性の情報を抽出する工程を有し、前記図処理工程は、前記パラグラフから抽出された用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出することを特徴とするデータマイニング方法。
- 請求項5記載のデータマイニング方法において、文書データベースから前記図が記載されている文書の関連文書及び/又は類似文書を検索する工程を有し、前記テキスト処理工程では検索された前記関連文書及び/又は類似文書中のテキスト部分から用語と用語間の関係性についての情報を抽出することを特徴とするデータマイニング方法。
- 文書中の図を画像処理して当該図中の用語と用語間の関係性についての情報を抽出する図情報抽出部と、
文書中のテキスト部分から用語と用語間の関係性についての情報を抽出するテキスト情報抽出部と、
図の画像、図の識別情報、及び前記図情報抽出部によって抽出された図中の用語及び用語間の関係性についての情報を相互に関連付けて記憶する記憶部と、
検索用語を入力する入力部と、
前記入力部に入力された検索用語と前記記憶部に図と関連付けられて格納された図中の用語との関連度を計算し、関連度に順位付けして出力する検索部と、
前記検索部から出力された図の画像を前記関連度の高い順に画像表示する表示部と
を有し、
前記図情報抽出部は、前記テキスト情報抽出部によって抽出された当該文書中の用語、あるいは用語及び用語間の関係性の情報を利用して、画像処理の精度が不十分なために特定できない用語及び/又は同じスペルで複数の意味がある語彙の曖昧性が残る用語を抽出して特定し、
前記テキスト情報抽出部は、前記図のタイトル、脚注、あるいは本文中から図の中身を表す用語を辞書、固有表現の認識手法、抽出パターン又は構文解析を用いて抽出し、前記抽出された用語を、図の上位概念を表す図タイトルと図の識別情報に関連付けて前記記憶部に記憶する
ことを特徴とする検索システム。 - 請求項8記載の検索システムにおいて、前記表示部に、前記検索部から出力された図の画像と共に、当該図に対する前記関連度のスコア及び当該図に関連付けられた用語を表示することを特徴とする検索システム。
- 請求項9記載の検索システムにおいて、前記記憶部には図と関連付けて当該図の名称が格納されており、前記表示部に、前記検索部から出力された図の画像と共に、当該図の名称を表示することを特徴とする検索システム。
- 請求項8記載の検索システムにおいて、前記記憶部には文書中のテキスト部分に含まれる用語及び用語間の関係性についての情報が格納され、前記検索部は文書中のテキスト部分に含まれる用語及び用語間の関係性と図中の用語及び用語間の関係性についての情報とを同等に扱って検索を実行することを特徴とする検索システム。
- 請求項8記載の検索システムにおいて、前記表示部に図の画像を選択可能に表示し、前記検索部は選択された図に関連付けられた用語を検索用語として検索を実行することを特徴とする検索システム。
- 請求項11記載の検索システムにおいて、前記表示部に図の画像を選択可能に表示し、前記検索部は選択された図に関連付けられた用語を検索用語として検索を実行することを特徴とする検索システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006339566A JP4865526B2 (ja) | 2006-12-18 | 2006-12-18 | データマイニングシステム、データマイニング方法及びデータ検索システム |
US12/000,841 US7853623B2 (en) | 2006-12-18 | 2007-12-18 | Data mining system, data mining method and data retrieval system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006339566A JP4865526B2 (ja) | 2006-12-18 | 2006-12-18 | データマイニングシステム、データマイニング方法及びデータ検索システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008152522A JP2008152522A (ja) | 2008-07-03 |
JP2008152522A5 JP2008152522A5 (ja) | 2009-10-08 |
JP4865526B2 true JP4865526B2 (ja) | 2012-02-01 |
Family
ID=39528783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006339566A Active JP4865526B2 (ja) | 2006-12-18 | 2006-12-18 | データマイニングシステム、データマイニング方法及びデータ検索システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7853623B2 (ja) |
JP (1) | JP4865526B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10984387B2 (en) | 2011-06-28 | 2021-04-20 | Microsoft Technology Licensing, Llc | Automatic task extraction and calendar entry |
US9208179B1 (en) * | 2012-05-25 | 2015-12-08 | Narus, Inc. | Comparing semi-structured data records |
US11250203B2 (en) * | 2013-08-12 | 2022-02-15 | Microsoft Technology Licensing, Llc | Browsing images via mined hyperlinked text snippets |
US10162882B2 (en) | 2014-07-14 | 2018-12-25 | Nternational Business Machines Corporation | Automatically linking text to concepts in a knowledge base |
US10437869B2 (en) | 2014-07-14 | 2019-10-08 | International Business Machines Corporation | Automatic new concept definition |
US10503761B2 (en) * | 2014-07-14 | 2019-12-10 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
US10025783B2 (en) * | 2015-01-30 | 2018-07-17 | Microsoft Technology Licensing, Llc | Identifying similar documents using graphs |
US10361981B2 (en) | 2015-05-15 | 2019-07-23 | Microsoft Technology Licensing, Llc | Automatic extraction of commitments and requests from communications and content |
US10843080B2 (en) * | 2016-02-24 | 2020-11-24 | Virginia Tech Intellectual Properties, Inc. | Automated program synthesis from natural language for domain specific computing applications |
JP7004350B1 (ja) | 2020-10-21 | 2022-01-21 | 国立大学法人信州大学 | 医療機器,素材等の開発支援システム,方法およびプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2695784B2 (ja) * | 1987-05-27 | 1998-01-14 | 株式会社日立製作所 | 文章を検索・表示する方法 |
JP2895184B2 (ja) * | 1990-08-22 | 1999-05-24 | 株式会社日立製作所 | 文書処理システム及び文書処理方法 |
JP3023461B2 (ja) * | 1993-06-18 | 2000-03-21 | シャープ株式会社 | 非コード化情報のデータベース化装置 |
US5450535A (en) * | 1993-09-24 | 1995-09-12 | At&T Corp. | Graphs employing clusters |
JP3720412B2 (ja) * | 1995-05-01 | 2005-11-30 | キヤノン株式会社 | 情報処理方法及び装置 |
JPH09185674A (ja) | 1995-12-28 | 1997-07-15 | Omron Corp | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
JP3694149B2 (ja) * | 1997-07-07 | 2005-09-14 | 株式会社リコー | 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6353840B2 (en) * | 1997-08-15 | 2002-03-05 | Ricoh Company, Ltd. | User-defined search template for extracting information from documents |
US6470277B1 (en) * | 1999-07-30 | 2002-10-22 | Agy Therapeutics, Inc. | Techniques for facilitating identification of candidate genes |
US6941317B1 (en) * | 1999-09-14 | 2005-09-06 | Eragen Biosciences, Inc. | Graphical user interface for display and analysis of biological sequence data |
CA2423965A1 (en) * | 2000-09-29 | 2002-04-04 | Gavagai Technology Incorporated | A method and system for adapting synonym resources to specific domains |
US20020091678A1 (en) * | 2001-01-05 | 2002-07-11 | Miller Nancy E. | Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium |
JP2002269573A (ja) * | 2001-03-08 | 2002-09-20 | Ricoh Co Ltd | 文書認識方法及びその装置並びに記録媒体 |
US7627588B1 (en) * | 2001-05-07 | 2009-12-01 | Ixreveal, Inc. | System and method for concept based analysis of unstructured data |
JP2003178263A (ja) | 2001-12-12 | 2003-06-27 | Canon Inc | 文字認識装置及び記録媒体 |
US20050240583A1 (en) * | 2004-01-21 | 2005-10-27 | Li Peter W | Literature pipeline |
JP4349183B2 (ja) * | 2004-04-01 | 2009-10-21 | 富士ゼロックス株式会社 | 画像処理装置および画像処理方法 |
US20060053175A1 (en) * | 2004-09-03 | 2006-03-09 | Biowisdom Limited | System and method for creating, editing, and utilizing one or more rules for multi-relational ontology creation and maintenance |
-
2006
- 2006-12-18 JP JP2006339566A patent/JP4865526B2/ja active Active
-
2007
- 2007-12-18 US US12/000,841 patent/US7853623B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080147622A1 (en) | 2008-06-19 |
JP2008152522A (ja) | 2008-07-03 |
US7853623B2 (en) | 2010-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4865526B2 (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
US10496928B2 (en) | Non-factoid question-answering system and method | |
US8589370B2 (en) | Acronym extraction | |
JP6022239B2 (ja) | データを処理するシステム及び方法 | |
US8375033B2 (en) | Information retrieval through identification of prominent notions | |
JP2010157178A (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
Piperski et al. | Big and diverse is beautiful: A large corpus of Russian to study linguistic variation | |
Ahmed et al. | Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness | |
Kuzey et al. | As time goes by: comprehensive tagging of textual phrases with temporal scopes | |
CN102214189A (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
Golik et al. | Improving term extraction with linguistic analysis in the biomedical domain. | |
Vilares et al. | Managing misspelled queries in IR applications | |
KR20130097475A (ko) | 의료 프로세스 모델링 및 검증 방법 | |
Ahmed et al. | Evaluation of n‐gram conflation approaches for Arabic text retrieval | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2009199280A (ja) | 部分構文木プロファイルを用いた類似性検索システム | |
Pembe et al. | A tree-based learning approach for document structure analysis and its application to web search | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
EP3203384A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
Saneifar et al. | From terminology extraction to terminology validation: an approach adapted to log files | |
Xu et al. | A machine learning approach to recognizing acronyms and their expansion | |
Saeed | Designing and Implementing Intelligent Textual Plagiarism Detection Models | |
US20240281489A1 (en) | System, method, and application for embedded internet searching and result display for personalized language and vocabulary learning | |
Cordova et al. | Processing Quechua and Guarani historical texts query expansion at character and word level for information retrieval | |
Malumba et al. | AfriWeb: a web search engine for a marginalized language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090810 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090810 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111108 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111110 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4865526 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |