JP4148247B2 - 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents
語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP4148247B2 JP4148247B2 JP2005194298A JP2005194298A JP4148247B2 JP 4148247 B2 JP4148247 B2 JP 4148247B2 JP 2005194298 A JP2005194298 A JP 2005194298A JP 2005194298 A JP2005194298 A JP 2005194298A JP 4148247 B2 JP4148247 B2 JP 4148247B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- text
- appearance
- vocabulary
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 17
- 238000000605 extraction Methods 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
テキスト検索手段が、外部から入力された特定の属性のキーワード例に基づいて、HTMLやXMLを含む電子テキストを蓄積するテキスト蓄積手段を検索し、該キーワード例を含むテキストを取得するテキスト検索ステップ(ステップ1)と、
キーワード位置特定手段が、検索されたテキストから、キーワード例の出現位置を特定するキーワード位置特定ステップ(ステップ2)と、
キーワード出現パターン抽出手段が、テキスト検索ステップにおいて取得されたテキストにおいて、キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出ステップ(ステップ3)と、
キーワード候補抽出手段が、キーワード例の各キーワードの出現位置及びキーワード例に共通の出現パターンに基づいてテキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出ステップ(ステップ4)と、
キーワード抽出手段が、キーワードの候補の各キーワードについて、テキスト検索ステップにおいて取得されたテキストの数N A 、該テキスト検索ステップにおいて取得されたテキストのうち該キーワード候補を含むテキストの数N A W 、テキスト蓄積手段に蓄積されているテキストの数N W から各キーワードの評価値(N A W /N A )×log(N A W /N W )を求め、該評価値が所定の閾値よりも高いキーワードをキーワードの候補から抽出するキーワード抽出ステップ(ステップ5)と、を行う。
HTMLやXMLを含む電子テキストを蓄積するテキスト蓄積手段2と、
外部から入力された特定の属性のキーワード例に基づいて、テキスト蓄積手段2を検索し、該キーワード例を含むテキストを取得するテキスト検索手段3と、
検索されたテキストから、キーワード例の出現位置を特定するキーワード位置特定手段4と、
テキスト検索手段3において取得されたテキストにおいて、キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出手段5と、
キーワード例の各キーワードの出現位置及びキーワード例に共通の出現パターンに基づいてテキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出手段6と、
キーワードの候補の各キーワードについて、テキスト検索手段において取得されたテキストの数N A 、該テキスト検索手段3において取得されたテキストのうち該キーワード候補を含むテキストの数N A W 、テキスト蓄積手段2に蓄積されているテキストの数N W から各キーワードの評価値(N A W /N A )×log(N A W /N W )を求め、該評価値が所定の閾値よりも高いキーワードをキーワードの候補から抽出するキーワード抽出手段7と、を有する。
「/HTML/BODY/tr/td」
が得られる。
「/HTML/BODY/」
が得られる。得られたキーワード例の出現位置は、キーワード候補抽出部6に転送される。
「<tr><td>ENTITY</td><td>」
が得られる。なお、出現パターン中の“ENTITY”の部分は、最終的に抽出したい語彙が含まれる部分である。
「,ENTITY,」
が得られる。得られたキーワード例の出現パターンは、キーワード候補抽出部6に転送される。なお、出現パターン中の“ENTITY”の部分は、最終的に抽出したい語彙が含まれる部分である。
・NAは、テキスト検索部3によって特定された解析対象テキストの数を示す。
・NA wは、テキスト検索部3によって特定された解析対象テキスト中で現在評価するキーワードを含む文書の数を示す。
・Nwは、文書集合全体中で現在評価するキーワードwを含む文書の数を示す。
2 テキスト蓄積手段、テキスト蓄積部
3 テキスト検索手段、テキスト検索部
4 キーワード位置特定手段、キーワード位置特定部
5 キーワード出現パターン抽出手段、キーワード出現パターン抽出部
6 キーワード候補抽出手段、キーワード候補抽出部
7 キーワード抽出手段、キーワード抽出部
10 語彙獲得装置
20 データ例入力装置
30 インターネット
40 記憶装置
Claims (4)
- 特定の属性のキーワード例を元にHTMLやXMLを含む電子テキストを解析し、語彙を獲得する装置における語彙獲得方法であって、
テキスト検索手段が、外部から入力された特定の属性のキーワード例に基づいて、前記HTMLやXMLを含む電子テキストを蓄積するテキスト蓄積手段を検索し、該キーワード例を含むテキストを取得するテキスト検索ステップと、
キーワード位置特定手段が、検索された前記テキストから、前記キーワード例の出現位置を特定するキーワード位置特定ステップと、
キーワード出現パターン抽出手段が、前記テキスト検索ステップにおいて取得されたテキストにおいて、前記キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出ステップと、
キーワード候補抽出手段が、前記キーワード例の各キーワードの出現位置及び前記キーワード例に共通の出現パターンに基づいて前記テキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出ステップと、
キーワード抽出手段が、前記キーワードの候補の各キーワードについて、前記テキスト検索ステップにおいて取得されたテキストの数N A 、該テキスト検索ステップにおいて取得されたテキストのうち該キーワード候補を含むテキストの数N A W 、前記テキスト蓄積手段に蓄積されているテキストの数N W から各キーワードの評価値(N A W /N A )×log(N A W /N W )を求め、該評価値が所定の閾値よりも高いキーワードを前記キーワードの候補から抽出するキーワード抽出ステップと、
を行うことを特徴とする語彙獲得方法。 - 特定の属性のキーワード例を元にHTMLやXMLを含む電子テキストを解析し、語彙を獲得する語彙獲得装置であって、
前記HTMLや前記XMLを含む電子テキストを蓄積するテキスト蓄積手段と、
外部から入力された特定の属性のキーワード例に基づいて、前記テキスト蓄積手段を検索し、該キーワード例を含むテキストを取得するテキスト検索手段と、
検索された前記テキストから、前記キーワード例の出現位置を特定するキーワード位置特定手段と、
前記テキスト検索手段において取得されたテキストにおいて、前記キーワード例の各キーワードの出現位置から一文字ずつ該テキストの先頭に向かって文字を取得し、取得した各文字同士を比較し、同じ文字であれば次の文字を取得し、比較を繰り返すことにより、該キーワード例に共通の出現パターンを特定するキーワード出現抽出手段と、
前記キーワード例の各キーワードの出現位置及び前記キーワード例に共通の出現パターンに基づいて前記テキストを解析し、キーワードの候補を該テキストから抽出するキーワード候補抽出手段と、
前記キーワードの候補の各キーワードについて、前記テキスト検索手段において取得されたテキストの数N A 、該テキスト検索手段において取得されたテキストのうち該キーワード候補を含むテキストの数N A W 、前記テキスト蓄積手段に蓄積されているテキストの数N W から各キーワードの評価値(N A W /N A )×log(N A W /N W )を求め、該評価値が所定の閾値よりも高いキーワードを前記キーワードの候補から抽出するキーワード抽出手段と、
を有することを特徴とする語彙獲得装置。 - 請求項2記載の語彙獲得装置を構成する各手段としてコンピュータを機能させるための語彙獲得プログラム。
- 請求項3記載の語彙獲得プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005194298A JP4148247B2 (ja) | 2005-07-01 | 2005-07-01 | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005194298A JP4148247B2 (ja) | 2005-07-01 | 2005-07-01 | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007011892A JP2007011892A (ja) | 2007-01-18 |
JP4148247B2 true JP4148247B2 (ja) | 2008-09-10 |
Family
ID=37750255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005194298A Active JP4148247B2 (ja) | 2005-07-01 | 2005-07-01 | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4148247B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4701292B2 (ja) | 2009-01-05 | 2011-06-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP5308918B2 (ja) * | 2009-05-29 | 2013-10-09 | 日本電信電話株式会社 | キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム |
KR101781597B1 (ko) * | 2016-01-15 | 2017-09-25 | 단국대학교 산학협력단 | 전자 출판물에 대한 정보를 생성하는 장치 및 방법 |
-
2005
- 2005-07-01 JP JP2005194298A patent/JP4148247B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007011892A (ja) | 2007-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
JP6176017B2 (ja) | 検索装置、検索方法、およびプログラム | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
KR101136037B1 (ko) | 문서의 색인화 및 검색을 위한 방법 및 장치 | |
KR20120064559A (ko) | 오픈 웹 질의응답을 위한 질문분석 장치 및 방법 | |
JP2009301140A (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
US20040010556A1 (en) | Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program | |
US20140358522A1 (en) | Information search apparatus and information search method | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
JP2008197952A (ja) | テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
Kaddu et al. | To extract informative content from online web pages by using hybrid approach | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
Adefowoke Ojokoh et al. | Automated document metadata extraction | |
Karunarathna et al. | Learning to use normalization techniques for preprocessing and classification of text documents | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
KR20200122089A (ko) | 지역 색인을 이용한 전자문서 검색 방법 및 장치 | |
Li et al. | Chinese frame identification using t-crf model | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP5252410B2 (ja) | 専門用語分類装置、専門用語分類方法、及びプログラム | |
JP4206266B2 (ja) | 全文検索装置、処理方法、処理プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080603 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080616 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4148247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120704 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130704 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |