JP4489034B2 - 構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム - Google Patents
構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム Download PDFInfo
- Publication number
- JP4489034B2 JP4489034B2 JP2006045808A JP2006045808A JP4489034B2 JP 4489034 B2 JP4489034 B2 JP 4489034B2 JP 2006045808 A JP2006045808 A JP 2006045808A JP 2006045808 A JP2006045808 A JP 2006045808A JP 4489034 B2 JP4489034 B2 JP 4489034B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- structured document
- frequency
- holding
- frequent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
102 構造化文書取得部
104 文字列抽出部
106 文字列頻度算出部
108 頻出文字列抽出部
110 構造ID特定部
112 構造ID頻度算出部
114 索引登録部
120 構造化文書DB
122 文字列頻度DB
124 構造ID頻度DB
126 索引DB
127 文書単位索引テーブル
128 文字列単位索引テーブル
130 検索条件取得部
132 キーワード文字列抽出部
134 検索部
136 構造化文書抽出部
138 構造化文書出力部
Claims (4)
- 木構造で表現される複数の構造化文書を保持する構造化文書保持手段と、
前記構造化文書保持手段が保持する前記構造化文書に含まれる文字列と、当該文字列の前記複数の構造化文書における出現頻度である文字列頻度とを対応付けて保持する文字列頻度保持手段と、
前記文字列頻度保持手段に保持されている前記文字列のうち、前記文字列頻度が予め設定された閾値以上の頻出文字列に対し、当該頻出文字列と、前記構造化文書の木構造において当該頻出文字列が現れる位置を示す構造IDとを索引キーとし、当該索引キーに対応付けて、当該索引キーにより特定されるべき文字列を識別するための索引情報を保持する索引情報保持手段と、
前記文字列頻度保持手段が保持する前記文字列うち、前記文字列頻度が予め定められた閾値以上である頻出文字列を抽出する頻出文字列抽出手段と、
前記頻出文字列抽出手段が抽出した前記頻出文字列の前記構造IDを特定する構造ID特定手段と
を備え、
前記構造ID特定手段は、前記頻出文字列のうち、予め定められた条件に適合する複数の構造IDに対し、当該複数の構造IDを含むグループを識別するグループ識別情報を付与し、
前記索引情報保持手段は、前記構造ID特定手段により特定された前記構造IDを前記索引キーとして保持し、前記グループに含まれる前記頻出文字列については、前記索引キーの前記構造IDとして前記グループ識別情報を保持することを特徴とする構造化文書処理装置。 - 前記文字列頻度保持手段が保持する前記文字列のうち、前記文字列頻度が予め定められた閾値以上である頻出文字列の構造IDと、当該構造IDに示される位置における文字列の出現頻度である構造ID頻度とを対応付けて保持する構造ID保持手段をさらに備え、
前記構造ID特定手段は、前記構造ID保持手段が保持する前記頻出文字列のうち対応付けられている前記構造ID頻度が予め定められた閾値以下となる複数の構造IDに対し、前記グループ識別情報を付与することを特徴とする請求項1に記載の構造化文書処理装置。 - コンピュータが、
構造化文書保持手段が、木構造で表現される複数の構造化文書を保持する構造化文書保持ステップと、
文字列頻度保持手段が、前記構造化文書保持手段が保持する前記構造化文書に含まれる文字列と、当該文字列の前記複数の構造化文書における出現頻度である文字列頻度とを対応付けて保持する文字列頻度保持ステップと、
索引情報保持手段が、前記文字列頻度保持手段に保持されている前記文字列のうち、前記文字列頻度が予め設定された閾値以上の頻出文字列に対し、当該頻出文字列と、前記構造化文書の木構造において当該頻出文字列が現れる位置を示す構造IDとを索引キーとし、当該索引キーに対応付けて、当該索引キーにより特定されるべき文字列を識別するための索引情報を登録する索引登録ステップと、
頻出文字列抽出手段が、前記文字列頻度保持手段が保持する前記文字列うち、前記文字列頻度が予め定められた閾値以上である頻出文字列を抽出する頻出文字列抽出ステップと、
構造ID特定手段が、前記頻出文字列抽出手段が抽出した前記頻出文字列の前記構造IDを特定する構造ID特定ステップと、
を実行し、
前記構造ID特定手段は、前記頻出文字列のうち、予め定められた条件に適合する複数の構造IDに対し、当該複数の構造IDを含むグループを識別するグループ識別情報を付与し、
前記索引情報保持手段は、前記構造ID特定手段により特定された前記構造IDを前記索引キーとして保持し、前記グループに含まれる前記頻出文字列については、前記索引キーの前記構造IDとして前記グループ識別情報を保持することを特徴とする構造化文書処理方法。 - コンピュータに、
構造化文書保持手段が、木構造で表現される複数の構造化文書を保持する構造化文書保持ステップと、
文字列頻度保持手段が、前記構造化文書保持手段が保持する前記構造化文書に含まれる文字列と、当該文字列の前記複数の構造化文書における出現頻度である文字列頻度とを対応付けて保持する文字列頻度保持ステップと、
索引情報保持手段が、前記文字列頻度保持手段に保持されている前記文字列のうち、前記文字列頻度が予め設定された閾値以上の頻出文字列に対し、当該頻出文字列と、前記構造化文書の木構造において当該頻出文字列が現れる位置を示す構造IDとを索引キーとし、当該索引キーに対応付けて、当該索引キーにより特定されるべき文字列を識別するための索引情報を登録する索引登録ステップと、
頻出文字列抽出手段が、前記文字列頻度保持手段が保持する前記文字列うち、前記文字列頻度が予め定められた閾値以上である頻出文字列を抽出する頻出文字列抽出ステップと、
構造ID特定手段が、前記頻出文字列抽出手段が抽出した前記頻出文字列の前記構造IDを特定する構造ID特定ステップと、
を実行させ、
前記構造ID特定手段は、前記頻出文字列のうち、予め定められた条件に適合する複数の構造IDに対し、当該複数の構造IDを含むグループを識別するグループ識別情報を付与し、
前記検索情報保持手段は、前記構造ID特定手段により特定された前記構造IDを前記索引キーとして保持し、前記グループに含まれる前記頻出文字列については、前記索引キーの前記構造IDとして前記グループ識別情報を保持するための構造化文書処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006045808A JP4489034B2 (ja) | 2006-02-22 | 2006-02-22 | 構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006045808A JP4489034B2 (ja) | 2006-02-22 | 2006-02-22 | 構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007226453A JP2007226453A (ja) | 2007-09-06 |
JP4489034B2 true JP4489034B2 (ja) | 2010-06-23 |
Family
ID=38548226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006045808A Expired - Fee Related JP4489034B2 (ja) | 2006-02-22 | 2006-02-22 | 構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4489034B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5971571B2 (ja) * | 2012-05-22 | 2016-08-17 | 株式会社東芝 | 構造文書管理システム、構造文書管理方法及びプログラム |
CN110688842B (zh) * | 2019-10-14 | 2023-06-09 | 鼎富智能科技有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
-
2006
- 2006-02-22 JP JP2006045808A patent/JP4489034B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007226453A (ja) | 2007-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3918531B2 (ja) | 類似文書検索方法およびシステム | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
US20080120280A1 (en) | Method, system and program for creating an index | |
US7822788B2 (en) | Method, apparatus, and computer program product for searching structured document | |
SE524595C2 (sv) | Förfarande och datorprogram för normalisering av stilkast | |
US20090019015A1 (en) | Mathematical expression structured language object search system and search method | |
JP4860416B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2005352888A (ja) | 表記揺れ対応辞書作成システム | |
US20100257177A1 (en) | Document rating calculation system, document rating calculation method and program | |
JP4427500B2 (ja) | 意味解析装置、意味解析方法および意味解析プログラム | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP4489034B2 (ja) | 構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム | |
US11301441B2 (en) | Information processing system and information processing method | |
JP3784060B2 (ja) | データベース検索システム、その検索方法及びプログラム | |
KR101802051B1 (ko) | 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템 | |
JP4439496B2 (ja) | 検索処理装置及びプログラム | |
JP5162215B2 (ja) | データ処理装置、データ処理方法、および、プログラム | |
JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP4160627B2 (ja) | 構造化文書管理システム及びプログラム | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP5903372B2 (ja) | キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム | |
JP5225022B2 (ja) | Xmlデータ検索方法及び装置及びプログラム | |
JP2008209996A (ja) | 検索索引作成装置・検索索引作成方法及び検索索引作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090728 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100302 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100330 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |