[go: up one dir, main page]

JPH11328218A - コンテンツ属性情報正規化方法、情報収集・サービス提供システム、属性情報設定装置並びにプログラム格納記録媒体 - Google Patents

コンテンツ属性情報正規化方法、情報収集・サービス提供システム、属性情報設定装置並びにプログラム格納記録媒体

Info

Publication number
JPH11328218A
JPH11328218A JP10146539A JP14653998A JPH11328218A JP H11328218 A JPH11328218 A JP H11328218A JP 10146539 A JP10146539 A JP 10146539A JP 14653998 A JP14653998 A JP 14653998A JP H11328218 A JPH11328218 A JP H11328218A
Authority
JP
Japan
Prior art keywords
attribute information
content
information
document
content attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10146539A
Other languages
English (en)
Other versions
JP4042830B2 (ja
Inventor
Tomoharu Hikita
智治 疋田
Masaaki Matsumoto
政昭 松本
Noriko Fujishiro
典子 藤代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP14653998A priority Critical patent/JP4042830B2/ja
Publication of JPH11328218A publication Critical patent/JPH11328218A/ja
Application granted granted Critical
Publication of JP4042830B2 publication Critical patent/JP4042830B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ネットワーク上に分散したコンテンツ情報を
収集し、検索サービス等に再利用するホスト装置におい
て、情報提供者の閲覧用文書の構造・形式に縛られるこ
となく、サービス提供用データベースの構築を可能とす
る。 【解決手段】 閲覧用情報と混在してコンテンツ属性情
報が含まれる文書ファイルからコンテンツ属性情報を抽
出する機能、該抽出したコンテンツ属性情報について、
属性構造の正規化処理を行う機能、該構造が正規化され
たコンテンツ属性情報について、文字表現形式の正規
化、数値表現の正規化処理を行う機能を設ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上に
分散したコンテンツ情報を自動収集し、検索サービス等
に再利用する技術に係り、詳しくは、複数のWebサイ
トから収集したコンテンツ情報を統合・整理し、検索サ
ービス等に必要な属性を抽出・正規化する方法、それを
適用した検索エンジンなどの情報収集・サービス提供シ
ステム、並びに、文書ファイルの作成・編集を支援する
属性情報設定装置、さらには、コンテンツ属性情報を正
規化するプログラムを格納した記録媒体に関する。
【0002】
【従来の技術】ネットワーク上に分散したコンテンツ情
報を自動収集して検索サービス等に再利用するための、
二、三の一般的な従来技術を以下に示す。
【0003】図24はコンテンツ属性情報を考慮しない
検索エンジンシステムを示す。図において、2400は
検索エンジン、2410はネットワーク、2420は該
ネットワーク上に分散配置されたWebサイト、243
0はユーザ端末である。Webサイト2420は、情報
提供者(IP)の用意した閲覧用文書ファイル(一般的
にはHTMLで記述)を保持している。検索エンジン2
400は、制御部2403の制御で、自動情報収集部2
401にてネットワーク2410上のWebサイト24
20を巡回して閲覧用文書ファイル(HTML文書)を
収集し、解析部2402にて、該文書ファイルを解析し
て、ページ単位で要約情報、キーワードインデックス等
を作成し、該ページ単位の情報をコンテンツデータベー
ス(コンテンツDB)2404に格納する。一方、検索
部2405では、ユーザ端末2430から検索要求があ
ると、コンテンツDB2404を検索し、検索結果をユ
ーザ端末2430へ返送する。ユーザ端末2430のユ
ーザは、該検索結果を元に、必要ならWebサイト24
20の文書ファイルを直接閲覧する。
【0004】図25に、該従来技術で対象とする文書フ
ァイル(HTML文書)の構造を示す。また、図26に
具体例として、HTML言語で記述された商品カタログ
の一例を示す。図25(a)や図26に示すように、対
象とする文書ファイル(HTML文書)には、複数のコ
ンテンツが格納されており、区切りが不明確、コンテン
ツの分野も不明確であり、また、コンテンツの属性情報
は文章の中に含まれている。解析部2402は、該文書
ファイルを自然言語解析などして必要情報を抽出する
が、低い精度でしか抽出できず、コンテンツDB240
4には各ページが雑多に格納されることになる。図25
(b)に示すように、文書はツリー構造で表すことがで
きるが、閲覧用の文書(HTML文書)は、閲覧スタイ
ル、もしくは文章の論理構造に基づき、構造化されてい
るため、サービス提供(検索サービス)に適した属性情
報をそこから抽出することは難しい。
【0005】図27は、コンテンツ属性情報が固定的な
自動収集分類システムを示す。図において、2700は
情報自動収集分類装置、2710はネットワーク、27
20は該ネットワーク上に分散配置されたWebサイ
ト、2730はユーザ端末である。本従来例では、We
bサイト2720に、文書本体(HTML文書)とは別
にコンテンツ属性情報を用意する。図28に、本従来技
術が対象とする文書の構成例を示す。なお、閲覧用文書
中の文字列をコンテンツ属性情報としてタグでマークア
ップして、閲覧用文書中にコンテンツ属性情報を含ませ
ることも可能である。
【0006】情報自動収集分類装置2700では、制御
部2704の制御下で、自動情報収集部2701にてネ
ットワーク2710上のWebサイト2720を巡回し
て該当ファイル(文書ファイル、属性情報ファイル)を
収集し、分離部2702にてコンテンツ属性情報を分離
し、属性抽出部2703にてコンテンツ属性情報を解釈
し、該コンテンツ属性情報をほぼそのままコンテンツD
B2705に格納する。サービス提供部2706の動作
は、図24の検索部2405と同様である。本従来例で
は、コンテンツ属性情報を閲覧情報とは別に用意するの
で、サービス提供に便利なような構造とすることができ
る。
【0007】図29は、コンテンツ属性情報を閲覧用タ
グ及び文字列と対応づける自動収集分類システムを示
す。図において、2900は情報自動収集分類装置、2
910はネットワーク、2920は該ネットワーク上に
分散配置されたWebサイト、2930はユーザ端末で
ある。本従来例は、図24の検索エンジンシステムと同
様にWebサイト2920には閲覧情報のみの文書ファ
イル(HTML文書)を用意するが、情報自動収集分類
装置2900内に、あらかじめ閲覧用文書ファイルの中
の閲覧用タグ、及び文字列とコンテンツ属性との対応ル
ール2904を保持しておき、これを参照して閲覧文書
からコンテンツ属性の抽出を可能にするものである。対
応ルール2904としては、例えば、「円」という文字
の前には必ず「価格」が出現するなどというルールを作
っておく。
【0008】情報自動収集分類装置2900では、制御
部2903の制御下で、自動情報収集部2901にてネ
ットワーク2910上のWebサイト2920を巡回し
て閲覧用文書ファイル(HTML文書)を収集し、属性
抽出部2902にて、文書ファイル中の文字列、及び閲
覧用の構造を表わすタグと属性との対応ルール2904
を参照して、コンテンツ属性情報を文書ファイル中から
抽出し、コンテンツDB2905に格納する。サービス
提供部2906の動作は、図24の検索部2405と基
本的に同様である。本従来例では、コンテンツ単位(例
えば、商品単位)で属性情報をコンテンツDB2905
に格納することができるため、コンテンツ分野指定検
索、属性検索、関連付け検索が可能である。
【0009】次に、属性情報設定装置について説明す
る。属性情報設定装置とは、テキスト情報中の文字列を
マークアップすることで、コンテンツ属性情報を設定す
る装置である。一般の構造化文書作成装置(例えば、S
GMLエディタと呼ばれるもの)も同等の機能を持って
いる。
【0010】図30は従来の属性情報設定装置のブロッ
ク図を示したもので、全体メニュー部3001、属性設
定部3002、属性削除部3003、属性範囲変更部3
005、ファイル入力部3006、ファイル出力部30
07、構造検証部3008等で構成される。ファイル入
力部3006から対象となる文書ファイルを入力し、全
体メニュー部3001のエディタ画面を見ながら、属性
設定部3002、属性削除部3003、属性変更部30
04、属性範囲変更部3005等の機能を利用してコン
テンツ属性情報の設定、削除、変更、範囲変更を実施
し、ファイル出力部3007から出力する。文書オブジ
ェクトは閲覧用タグとコンテンツ属性用タグを区別しな
いで管理し、構造検証部3008で検証する。
【0011】図31は、属性タグ付き文書(一般にはX
ML文書)の閲覧用文書構造とコンテンツ属性情報の概
念図である。図中、白丸が閲覧用タグ、黒丸がコンテン
ツ属性用タグを示している。従来の属性情報設定装置3
000の構造検証部3008では、閲覧用文書とコンテ
ンツ属性情報を同一に管理するため、例えば親子関係ま
でしか検証できない場合には、白丸と黒丸相互には文法
的な制限が存在せず、白丸同士黒丸同士には制限がある
場合でも、検証できない場合がある。したがって、制限
を緩くすることになってしまい、有効な文法検証ができ
ない。
【0012】
【発明が解決しようとする課題】上記従来技術におい
て、コンテンツ属性情報を考慮しない検索エンジンシス
テムには次のような問題がある。 (1) 文書内のコンテンツ(例えば、商品情報)の区切
りが不明で、ページ単位で分類、ページ単位でしか検索
できない。 (2) コンテンツの分野を指定できず、検索結果にノイ
ズが多い。例えば、「日本酒が買いたい」と考え、キー
ワード「日本酒」で検索すると、日本酒の通販だけでな
く、日本酒好きの人のウンチクなどまで検索されてしま
う。 (3) コンテンツの属性(たとえば、商品の価格、色な
ど)が認識できない。したがって、属性による検索はで
きない。例えば、「3000円以下の日本酒」という検
索は不可能である。また、情報の再利用が困難である。
即ち、属性を利用して他のDBと関連づけることができ
ない。
【0013】これに対して、コンテンツ属性情報が固定
的な自動収集分類システムでは、文書内あるいはその文
書とは別にコンテンツ属性情報が用意され、システムが
属性情報を取得できることから、コンテンツ単位での分
類が可能、コンテンツの分野を指定した検索が可能、コ
ンテンツの属性による検索が可能(例:「3000円以
下の日本酒」という検索が可能)、コンテンツの属性を
利用した他のデータとの関連付けが可能であり、コンテ
ンツ属性情報を考慮しない検索エンジンシステムの問題
点をほぼ解消している。
【0014】しかしながら、このコンテンツ属性情報が
固定的な自動収集分類システムでは、閲覧用の文書の構
造・表現形式とサービス提供に適した属性情報の構造・
形式は一般に一致しないため、次のような問題点があら
たに生じる。 (1) 閲覧用文書とは別にコンテンツ属性情報を用意す
る場合(いわゆるメタデータと呼ばれる情報)、文書フ
ァイルを直接閲覧した情報と、自動収集して得た情報が
一致しない別能性がある。特に、複数のコンテンツにつ
いて記述した文書ファイルの場合(商品カタログな
ど)、二重にその情報を記述することになり、その可能
性が高い。 (2) 閲覧用文書中の文字列をコンテンツ属性情報とし
てタグでマークアップする場合(これはXMLの一般的
な使い方)、文書ファイル中の文書構造・記述形式を制
限するか、逆にサービス提供の情報を文書ファイル中の
文書構造・記述形式と同一にしなくてはならない。特に
XMLをそのまま利用するだけでは、同一のコンテンツ
に対する属性の付与の仕方、属性の名称、記述形式等が
作成者によって異ったり、他のサービスへ適用するのに
適した属性が付与されている保証がない。即ち、複数の
計算機(サイト)から収集した文書を他のサービスの提
供を考慮した共通の構造形式(DBテーブル等)に格納
することができない。
【0015】一方、コンテンツ属性情報を閲覧用タグ、
及び文字列と対応づけるシステムでは、閲覧文書ファイ
ル内には閲覧情報のみ格納し、その中の閲覧用タグ、及
び文字列とコンテンツ属性との対応ルールをシステムが
あらかじめ保持しておき、これを参照して閲覧文書から
コンテンツ属性を抽出する。このため、対応ルールが正
しいという条件の元では、コンテンツ属性情報を考慮し
ない検索エンジンシステムの問題点は解決できる。ま
た、コンテンツ属性情報が固定的な自動収集分類システ
ムの上記(1)の問題も存在しない。しかしながら、閲
覧用文書が対応ルールに従わなくてはならない、という
制約が必要であり、その閲覧文書の構造に強い制約が生
じてしまう。商品カタログなどの場合には、消費者に対
しての表現の自由が制限されてしまい、大きな問題とな
る。これは、コンテンツ属性情報が固定的な自動収集分
類システムの上記(2)と同等の問題である。
【0016】次に、従来の属性情報設定装置には次のよ
うな問題がある。 (1) 一般ユーザが閲覧した際の結果は見ることができ
るが、自動収集・分類装置などが属性を抽出・正規化
(構造、値形式)処理を行った結果を見る機能は持って
いないので、データ作成者はデータがどのように利用さ
れるかを知ることができない。 (2) 閲覧用タグとコンテンツ属性用のタグを区別して
管理していないため、タグの構造検証が煩雑になる。図
31でも示したように、一般に閲覧用タグ同士、コンテ
ンツ属性用タグ同士の制限は比較的強いが、閲覧用タグ
とコンテンツ属性用タグの間には緩い制限しかないこと
が多い(たとえば、XML言語における適性形式として
の制限程度)。その場合、それぞれを区別して管理して
いないため、親子関係までしか検証できない構造検証部
では、全体の制限としては緩い制限にせざるをえず、有
効に機能しない。
【0017】本発明の目的は、上記従来技術の問題点を
解決して、ネットワーク上に分散したコンテンツ情報
を、単なる閲覧以外に自由に再利用可能とするサービス
を実現することにある。
【0018】より詳しくは、本発明の目的は、サービス
提供時の情報形式と情報提供者の用意した閲覧用文書の
構造形式とを自由に設定可能として、ネットワーク上に
分散したコンテンツ情報を自動収集し、情報提供者の閲
覧用文書の構造・形式に縛られることなく、サービス提
供用データベースの構築を可能とすることにある。
【0019】本発明の他の目的は、テキスト情報中の文
字列をマークアップすることで、コンテンツ属性情報を
設定する装置において、データ作成者がデータの利用結
果を確認でき、また、閲覧用文書構造とコンテンツ属性
情報構造のより厳しい文法検証等を可能とすることにあ
る。
【0020】
【課題を解決するための手段】上記目的を達成するため
に、請求項1の発明は、閲覧文書に合わせた構造・形式
を持つコンテンツ属性情報を、該閲覧文書に依らない構
造・形式に正規化する方法であって、閲覧用情報と混在
してコンテンツ属性情報が含まれる文書ファイルからコ
ンテンツ属性情報を抽出するステップと、前記抽出した
コンテンツ属性情報について、属性構造の正規化処理を
行うステップと、前記構造が正規化されたコンテンツ属
性情報について、文字表現形式の正規化、数値表現の正
規化処理を行うステップとを有することを特徴とする。
【0021】また、請求項2の発明は、上記請求項1記
載のコンテンツ属性情報正規化方法において、属性構造
の正規化処理では、コンテンツの展開、属性名の正規
化、属性の分割、他属性への正規化を行うことを特徴と
する。
【0022】また、請求項3の発明は、上記請求項1、
2記載のコンテンツ属性情報正規化方法において、正規
化処理の正規化ルールとして、分野非依存・属性非依存
ルール、分野依存・属性非依存ルール、分野非依存・属
性依存ルール、分野依存・属性依存ルールを備え、コン
テンツ分野と属性名で管理することを特徴とする。
【0023】請求項4の発明は、情報提供者のWebサ
イト、ホスト装置、ユーザ端末がネットワークを介して
接続された情報収集・サービス提供システムにおいて、
ホスト装置は、ネットワーク上に分散配置されたWeb
サイトの文書ファイルを自動収集する手段、該収集した
文書ファイルに閲覧用情報と混在して含まれているコン
テンツ属性情報を抽出する手段、該抽出したコンテンツ
属性情報を、サービス提供に適した構造・形式に正規化
する手段、該正規化されたコンテンツ属性情報を蓄積す
る手段と、該蓄積されたコンテンツ属性情報を使用し
て、ユーザ端末からの要求に対してサービスを行う手段
を有することを特徴とする。
【0024】請求項5の発明は、閲覧用文書中の文字列
をマークアップすることで、コンテンツ属性情報を設定
する属性情報設定装置において、コンテンツ属性情報を
抽出・正規化してプレビューする手段と、閲覧用タグと
コンテンツ属性用タグを別々に管理して、閲覧用情報と
コンテンツ属性情報を相互に無視して検証する手段を有
することを特徴とする。
【0025】請求項6の発明は、閲覧文書に合わせた構
造・形式を持つコンテンツ属性情報を、該閲覧文書に依
らない構造・形式に正規化するためのプログラムを記録
したコンピュータ読み取り可能な記録媒体であって、閲
覧用情報と混在してコンテンツ属性情報が含まれる文書
ファイルからコンテンツ属性情報を抽出する処理プロセ
スと、前記抽出したコンテンツ属性情報について、属性
構造の正規化処理を行うプロセスと、前記構造が正規化
されたコンテンツ属性情報について、文字表現形式の正
規化、数値表現の正規化処理を行う処理プロセスとを有
することを特徴とする。
【0026】
【発明の実施の形態】以下、本発明の一実施の形態につ
いて図面により説明する。図1は本発明を適用したシス
テムの一実施例として、ネットワーク上に分散したコン
テンツ情報を自動収集し、属性を抽出・正規化して検索
サービス等に再利用する情報収集・サービス提供システ
ムのブロック図を示したものである。図において、10
0は検索エンジンなどとなるホスト装置(ここでは、情
報自動収集分類装置と呼ぶ)、110はインタネットな
どのネットワーク、120はネットワーク上に分散配置
された情報提供者(IP)のWebサイト、130は情
報自動収集分類装置100を利用するユーザ端末であ
る。
【0027】Webサイト120は、コンテンツ属性情
報を含んだ閲覧用文書ファイル(例えば、XML文書)
を作成する属性情報設定装置125を具備する。この属
性情報設定装置125により、多様な構造をとりうる閲
覧用文書(一般にはHTML文書)にコンテンツ属性情
報を一元的に保持する形態で含ませることが可能にな
る。なお、属性情報設定装置125の本発明による構成
については後述する。
【0028】情報自動収集分類装置100は、ネットワ
ーク110上のWebサイト120を巡回し、コンテン
ツ属性情報が含まれた文書ファイル(例えばXML文
書)を自動収集する自動情報収集部101、該収集した
文書ファイルからコンテンツ属性情報を抽出する属性抽
出部102、該抽出したコンテンツ属性情報を、検索サ
ービス等の再利用のために構造変換、属性名・属性値形
式変換等の正規化を行う属性正規化部103、これら各
部を制御する制御部104、属性正規化部103で正規
化されたコンテンツ属性情報を、商品単位等のコンテン
ツ単位で格納するコンテンツデータベース(コンテンツ
DB)105、属性正規化部103での正規化処理のた
めのルールを、コンテンツ分野、属性名等で管理する正
規化ルール106、コンテンツDB105の内容を利用
して、ユーザにコンテンツ属性情報による検索サービス
などを提供するユーザサービス提供部108などで構成
される。なお、破線の対応ルール107はオプションを
示し、先の図29の対応ルール2904と同様に、閲覧
文書ファイル中の閲覧用タグ及び文字列とコンテンツ属
性との対応ルールを保持することで、属性抽出部102
は、閲覧情報のみの文書ファイル(一般にはHTML文
書)からもコンテンツ属性が抽出可能であることを示し
ている。
【0029】ユーザは、ユーザ端末130を利用して情
報自動収集分類装置100にアクセスして、分野指定検
索、関連付け検索などを行い、検索結果を元にWebサ
イト120の文書ファイルを直接閲覧する。
【0030】情報自動収集分類装置100の全体の処理
フローを図2及び図3に、また、ここで対象とする文書
の構造、その処理過程での遷移を図4に示す。以下、図
2乃至図4に従って、本発明によるコンテンツ属性情報
の抽出・正規化処理の一実施例について説明する。な
お、図2及び図3に示すフローチャートの各処理プロセ
スを記述したプログラムは、コンピュータが読み取り可
能な記録媒体、例えばフロッピーディスクやメモリカー
ド、CD−ROMなどに記録して提供することが可能で
ある。
【0031】本実施例で対象とする文書はXML文書と
する。XMLはタグを自由に定義可能な文書構造記述
(マークアップ)言語であり、このXMLで定義したコ
ンテンツ属性用タグを利用することで、コンテンツ属性
を自動的に抽出できる。また、閲覧時は使用しない属性
を含めることも可能である。
【0032】図1において、情報提供者(IP)は、属
性情報設定装置125を利用して、閲覧用文書(一般に
はHTMLで記述)中の文字列をタグでマークアップす
ることで、閲覧文書に合わせた構造・形式を持つコンテ
ンツ属性情報の含まれた文書ファイル(XML文書)を
作成し、Webサイト120に用意する。図4(a)は
HTML文書の構造、同図(b)はXML文書の構造を
示している。なお、Webサイト120の文書ファイル
は、はじめからXMLの形式で記述されたものでもよ
い。
【0033】情報自動収集分類装置100の自動情報収
集部101は、ネットワーク110上のWebサイト1
20を巡回して、文書ファイル(XML文書)を自動収
集し、該文書ファイルからIP単位の情報、ページ単位
の情報を抽出する(ステップ201〜203)。ここで
抽出される情報は、閲覧文書に合わせた構造・形式を持
つコンテンツ属性情報が閲覧用情報と混在して含まれた
XML文書そのままのものである(図4の(c))。
【0034】属性抽出部102は、自動情報収集部10
1で収集・抽出されたXML文書について、文字コード
を正規化した後(ステップ204)、コンテンツ属性情
報のみを抽出する(ステップ205)。ここで、文字コ
ードの正規化は、ネットワーク上の文書ファイルは様々
な文字コードで記述されることが多いので、これに対処
するためである。文書ファイルからのコンテンツ属性情
報のみの抽出は、例えば、タグを解釈するパーサ(SG
MLパーサ等)をコンテンツ属性情報用タグのみを解釈
するように動作させる(閲覧用のタグは無視)すること
で可能である。どのタグがコンテンツ属性情報用タグな
のかは、設定ファイルとして保持し、それを参照するよ
うにする。例えば、SGMLにおけるDTDのデフォル
ト属性として保持する。この場合、文書作成・編集用の
設定ファイルとして再利用が可能である。ここで抽出さ
れたコンテンツ属性情報は、閲覧文書に合わせた構造・
形式を持つ。図4(d)はこれを示している。
【0035】なお、この属性抽出部102では、閲覧用
タグ、及び文字列とコンテンツ属性との対応ルール10
8(例えば、「円」という文字の前には、必ず「価格」
が出現するなど)を保持しておけば、該ルール108を
参照して、閲覧文書からコンテンツ属性情報を抽出する
ことができる。
【0036】属性正規化部103は、正規化ルール10
4を参照して、属性抽出部102で抽出された閲覧文書
に合わせた構造・形式をもつコンテンツ属性情報を、検
索サービスなどのサービス提供に適した形式に正規化す
る。正規化ルール104には、分野非依存/属性非依存
ルール、分野依存/属性非依存ルール、分野非依存/属
性依存ルール、分野依存/属性依存ルールなどが存在
し、コンテンツ分野と属性名で管理している。
【0037】属性正規化部103では、まず、対象コン
テンツ(閲覧文書の構造と同形のコンテンツ属性情報)
の分野を、コンテンツ属性情報のカテゴリタグの値で認
識する(ステップ206)。これは、分野によって、コ
ンテンツDB105のスキーマが異なるため、はじめに
認識しておく必要があるためである。次に、当該対象コ
ンテンツ(コンテンツ属性情報)について、閲覧文書に
合わせた構造をサービス提供に適した構造に正規化し
(ステップ207)、更に、該構造が正規化されたコン
テンツ属性情報について、文字表現形式の正規化(ステ
ップ208)、数値表現の正規化(ステップ209)を
行う。図4(e)は正規化の概念を示す。最後に、この
正規化されたコンテンツ属性情報を、コンテンツDB1
05にコンテンツ単位で格納する(ステップ210)。
なお、文字表現形式の正規化と数値表現の正規化は、処
理順序が逆でもよい。また、例えば数値部分と単位部分
に分けるなど、属性構造の変換を伴う場合もある。
【0038】以下、属性構造の正規化、文字表現形式の
正規化及び数値表現正規化の処理について詳述する。
【0039】属性構造の正規化は、コンテンツ展開処
理、属性名の正規化、属性の分割、他属性への変換に大
別される。さらに、コンテンツ展開処理は二つに分けら
れる。ここでは、それらをコンテンツ展開処理(1)、
コンテンツ展開処理(2)と呼ぶことにする。
【0040】閲覧情報として一つのコンテンツの異形を
表すために、同一属性を複数持つ構造になっていること
があるが、サービス提供時には別コンテンツとして格納
してある方が便利な場合がある。このような場合、コン
テンツ展開処理(1)を適用し、別コンテンツとして展
開する。例えば、ある飲料商品が中身は同一で容量によ
り価格が変化するような場合には、閲覧文書上(商品カ
タログ)は同一商品の異形として表現してあり、再利用
して表現したコンテンツ属性情報も同じような形になっ
ている。サービス提供時にそれぞれの商品として扱う場
合が多く、その場合には、それらを展開する機能が必須
となる。図5に、コンテンツ展開処理(1)の概念図を
示す。なお、先の図4(e)のコンテンツ展開処理の例
は、このコンテンツ展開処理に対応する。
【0041】一方、閲覧情報として同一のジャンルのコ
ンテンツを一くくりの位置に記述することが多い。その
場合、コンテンツ展開処理(2)を適用して、一くくり
をオブジェクトと考え、そのオブジェクトに設定された
属性情報をその子オブジェクトのデフォルトの属性とし
展開する。例えば、ある飲料商品の一連の商品種がすべ
て吟醸という製品に属する場合、カタログ上では、吟醸
と大きく記述し、その後の商品はすべて暗黙の内に吟醸
であると書く場合がある。サービス提供時には、それぞ
れの商品として扱うため、各商品情報の属性に製法=吟
醸であると付加する必要がある。図6に、コンテンツ展
開処理(2)の概念図を示す。
【0042】属性名の正規化は、概念的に同一な属性の
項目名が異なる場合に行う。図7に、属性名の正規化の
一例を示す。逆に、属性の分割は、概念的に複数の属性
に分割した方が扱いやすい場合に行う。図8に、属性の
分割の一例を示す。
【0043】他属性への変換(正規化)は、単数、ある
いは複数の属性から別の単数、あるいは複数の属性へ変
換する処理である。例えば、日本酒度、酸度から呑み口
を計算し、図9のどの領域に入るかによって、呑み口を
判断する(不等式で計算)。
【0044】文字表現形式の正規化は、例えば、日本酒
製法を大吟醸、吟醸、普通の3種類に分類して、サービ
ス提供したい場合、閲覧用文書中の表現としては、「大
吟醸酒」でも、「大吟醸のお酒」でも大吟醸と正規化す
ることである(「大吟醸」という表現しか認めないと、
一般のお客様向けの商品カタログの表現が制限されるこ
とになる)。その他、コード体系の正規化などを行う。
この場合、論理式などの条件文が使用できる。
【0045】数値形式の正規化は、例えば図10の処理
手順で行う。閲覧文書上では、数値は全角/半角表現、
通常の数値/漢数字、カンマ区切り入り/なし、など表
現にばらつきがあるので、これらを正規化する(ステッ
プ1001)。単位付きの数値では、単位の表現の仕方
にばらつきがある。たとえば、価格の表現として¥10
00、1000円、1000yenなどが存在する。こ
れらを認識する(ステップ1002)。この認識した単
位系からサービス提供で用いる単位系に変換する(ステ
ップ1003)。また、複数の値や、範囲のある数値を
認識して変換する(ステップ1004)。たとえば、
「1000円以上2000円未満、及び3000円以上
4000円未満」といった情報を元にサービス提供に適
した形式に変換する。サービス提供上、二つの数値範囲
を一つのコンテンツで扱えれば、そのまま格納するし、
一つの数値範囲しかなければ、2つのコンテンツに展開
して格納することになる。
【0046】図11乃至図19に、本実施例によるコン
テンツ属性情報抽出・正規化の具体的処理例を示す。図
11は情報提供者が提供する文書ファイル(XML文
書)であり、閲覧用文書(HTML文書)中の文書列を
任意に定義されたタグでマークアップすることで、コン
テンツ属性情報が設定されている。図11において、太
字で示すタグ(例えば〈MEMO〉・・・〈/MEM
O〉)で囲まれた部分がコンテンツ属性情報である。
【0047】図12は、図11の文書ファイル(XML
文書)中からコンテンツ属性情報をそのまま抽出したデ
ータであり、コンテンツ属性情報は情報提供者の閲覧文
書に合わせた構造・形式のままである。この図12のコ
ンテンツ属性情報を木構造形式で表現したのが図13で
ある。図13から分かるように、これは必ずしも検索サ
ービス等の提供に適した構造・形式になっていない。
【0048】図14は、図12の対象コンテンツ(コン
テンツ属性情報)について、コンテンツ展開処理(2)
を適用した結果を示したものである。図15は、図14
の展開結果に対して、さらにコンテンツ展開処理(1)
を適用した結果を示したもので、結局、図12の対象コ
ンテンツは4つのコンテンツに展開されたことになる。
図16は、図15のコンテンツ展開処理結果について、
文字表現形式の正規化と数値形式の正規化を適用した結
果を示したものである。
【0049】図16の正規化ずみコンテンツ属性情報を
木構造形式で表現すると、図17及び図18のようにな
る。図13に比べて、一見して検索サービス等の提供に
適した構造・形式になっているのが分かる。
【0050】図19は、図16の正規化ずみコンテンツ
属性情報を表形式で表現したもので、図1のコンテンツ
DB105には、このような形式でコンテンツ属性情報
が格納される。このようにして、閲覧用文書(HTML
文書)の構造・形式に縛られることなく、検索サービス
提供用等のデータベース(関連データベース)を構築す
ることが可能になる。
【0051】次に、本発明による属性情報設定装置につ
いて説明する。図20は本発明による属性情報設定装置
の一実施例を示すブロック図である。本属性情報設定装
置2000の特徴は、図30に示した従来の装置に属性
抽出・正規化プレビュー部2008と複数のタグセット
を別に管理し検証する構造検証部2009を設けた点に
ある。属性抽出・正規化プレビュー部2008は、図1
の情報自動収集分類装置100内の属性抽出部102、
属性正規化部103などと基本的に同様の機能(同等か
その簡略版)であり、作成された文書ファイル(XML
文書)からコンテンツ属性情報の抽出・正規化を行いプ
レビューする。また、構造検証部2009は、複数のタ
グセットを閲覧用文書とコンテンツ属性情報とで別々に
管理し、相互に無視して構造を検証する。
【0052】該属性情報設定装置200は、図1のシス
テムで装置125で示したように、Webサイト120
に設置して使用する。この場合、属性情報の抽出・正規
化プレビュー部2008によれば、情報提供者(IP)
は、作成した文書ファイル(XML文書)について、情
報自動収集分類装置100で、コンテンツ属性情報がど
のように抽出・正規化されるか、プレビューして見るこ
とができ、より有効なコンテンツ属性情報の設定を行う
ことが可能となる。図21に、図11の文書ファイル
(XML文書)のエデイタ画面、図22に、これに対応
する属性抽出・正規化結果のプレビュー画面を示す。な
お、この例の属性抽出・正規化結果プレビュー部200
8は、単位変換機能を持たない簡略版であるため、容量
は「l」と「ml」表記が混在している。また、構造検
証部2009によれば、相互の制限が弱く同種のタグ間
での制限が強い複数のタグセットを扱う場合に、閲覧用
文書とコンテンツ属性情報それぞれのタグセットについ
て、例えば相互に無視して文法検証することで、より厳
しい文法検証を行うことが可能となる。図23に、構造
検証部2009による複数タグセットの管理・検証の概
念図を示す。
【0053】
【発明の効果】本発明を適用した情報収集・サービス提
供システムでは、検索エンジンなどのホスト装置に、再
利用する閲覧用文書ファイル中の属性情報の構造、属性
名、属性値形式等を変換する機能を持つことで、閲覧用
文書(たとえば商品カタログ)の表現の自由度を増すこ
とができる。逆に、すでに存在する閲覧用文書の構造・
形式に縛られること無く、サービス提供用のデータベー
スを構築することが可能になる。
【0054】また、テキスト情報中の文字列をマークア
ップすることで、コンテンツ属性情報を設定する装置
に、属性抽出・正規化プレビュー機能と複数のタグセッ
トを別々に管理し検証する機能を設けることにより、デ
ータ作成者が、ホスト装置が属性を抽出・正規化(構
造、値形式)処理を行った結果を見ることができ、より
有効な属性設定を行うことが可能、相互の制限が弱く同
種のタグ間の制限が強い複数のタグセットを扱う場合
に、それぞれのタグセットについて文法検証すること
で、より厳しい文法検証を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した情報収集・サービス提供シス
テムの一実施例のブロック図である。
【図2】図1の動作を説明するための全体的処理フロー
チャートの一部である。
【図3】図2の処理フローチャートの続きである。
【図4】本発明の対象とする文書の構造と処理過程の概
要を示す図である。
【図5】本発明による属性構造正規化のコンテンツ展開
処理(1)を説明する図である。
【図6】同じくコンテンツ展開処理(2)を説明する図
である。
【図7】属性名の正規化を説明する図である。
【図8】属性の分割を説明する図である。
【図9】他属性への正規化を説明する図である。
【図10】数値形式の正規化を説明するフローチャート
である。
【図11】本発明の対象とする文書ファイルの具体例で
ある。
【図12】図11の文書ファイルから抽出したコンテン
ツ属性情報である。
【図13】図12のコンテンツ属性情報を木構造形式で
表現した図である。
【図14】図11のコンテンツ属性情報にコンテンツ展
開処理(1)を適用した結果を示す図である。
【図15】図14のデータについて、さらにコンテンツ
展開処理(2)を適用した結果を示す図である。
【図16】図15のデータについて、文字表現形式と数
値形式の正規化を適用した結果を示す図である。
【図17】図16のデータを木構造形式で表現した一部
の図である。
【図18】図17の木構造形式表現の続きの図である。
【図19】図16のデータを表形式で表現した図であ
る。
【図20】本発明による属性情報設定装置の一実施例の
ブロック図である。
【図21】本属性情報設定装置での図11の文書ファイ
ルのエディタ画面を示す図である。
【図22】本属性情報設定装置での図19に対応するエ
ディタプレビュー結果を示す図である。
【図23】本発明による属性情報設定装置での複数タグ
セットの管理・検証を説明する図である。
【図24】従来のコンテンツ属性情報を考慮しない検索
エンジンシステムのブロック図である。
【図25】図24のシステムで対象とする文書の構造を
説明する図である。
【図26】図24のシステムが対象とする文書の具体例
を示す図である。
【図27】従来のコンテンツ属性情報が固定的な自動収
集分類システムのブロック図である。
【図28】図27のシステムが対象とする文書の構造を
説明する図である。
【図29】従来のコンテンツ属性情報を閲覧用タグ及び
文字列と対応づけるシステムのブロック図である。
【図30】従来の属性情報設定装置のブロック図であ
る。
【図31】従来の属性情報設定装置でのタグセットの管
理・検証を説明する図である。
【符号の説明】
100 情報自動収集分類装置(ホスト装置) 101 自動情報収集部 102 属性抽出部 103 属性正規化部 104 制御部 105 コンテンツデータベース 106 正規化ルール 107 対応ルール 108 サービス提供部 110 ネットワーク 120 Webサイト 130 ユーザ端末 120,2000 属性情報設定装置 2008 属性抽出・正規化プレビュー部 2009 構造検証部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 閲覧文書に合わせた構造・形式を持つコ
    ンテンツ属性情報を、該閲覧文書に依らない構造・形式
    に正規化する方法であって、 閲覧用情報と混在してコンテンツ属性情報が含まれる文
    書ファイルからコンテンツ属性情報を抽出するステップ
    と、 前記抽出したコンテンツ属性情報について、属性構造の
    正規化処理を行うステップと、 前記構造が正規化されたコンテンツ属性情報について、
    文字表現形式の正規化、数値表現の正規化処理を行うス
    テップと、を有することを特徴とするコンテンツ属性情
    報正規化方法。
  2. 【請求項2】 請求項1記載のコンテンツ属性情報正規
    化方法において、属性構造の正規化処理では、コンテン
    ツの展開、属性名の正規化、属性の分割、他属性への正
    規化を行うことを特徴とするコンテンツ属性情報正規化
    方法。
  3. 【請求項3】 請求項1、2記載のコンテンツ属性情報
    正規化方法において、正規化処理の正規化ルールとし
    て、分野非依存・属性非依存ルール、分野依存・属性非
    依存ルール、分野非依存・属性依存ルール、分野依存・
    属性依存ルールを備え、コンテンツ分野と属性名で管理
    することを特徴とするコンテンツ属性情報正規化方法。
  4. 【請求項4】 情報提供者のWebサイト、ホスト装
    置、ユーザ端末がネットワークを介して接続された情報
    収集・サービス提供システムにおいて、 ホスト装置は、ネットワーク上に分散配置されたWeb
    サイトの文書ファイルを自動収集する手段と、該収集し
    た文書ファイルに閲覧用情報と混在して含まれているコ
    ンテンツ属性情報を抽出する手段と、該抽出したコンテ
    ンツ属性情報を、サービス提供に適した構造・形式に正
    規化する手段と、該正規化されたコンテンツ属性情報を
    蓄積する手段と、該蓄積されたコンテンツ属性情報を使
    用して、ユーザ端末からの要求に対してサービスを行う
    手段を有することを特徴とする情報収集・サービス提供
    システム。
  5. 【請求項5】 閲覧用文書中の文字列をマークアップす
    ることで、コンテンツ属性情報を設定する装置におい
    て、コンテンツ属性情報を抽出・正規化してプレビュー
    する手段と、閲覧用タグとコンテンツ属性用タグを別々
    に管理して、閲覧用情報とコンテンツ属性情報を相互に
    無視して検証する手段を有することを特徴とする属性情
    報設定装置。
  6. 【請求項6】 閲覧文書に合わせた構造・形式を持つコ
    ンテンツ属性情報を、該閲覧文書に依らない構造・形式
    に正規化するためのプログラムを記録したコンピュータ
    読み取り可能な記録媒体であって、 閲覧用情報と混在してコンテンツ属性情報が含まれる文
    書ファイルからコンテンツ属性情報を抽出する処理プロ
    セスと、 前記抽出したコンテンツ属性情報について、属性構造の
    正規化処理を行うプロセスと、 前記構造が正規化されたコンテンツ属性情報について、
    文字表現形式の正規化、数値表現の正規化処理を行う処
    理プロセスと、を有することを特徴とするプログラム格
    納記録媒体。
JP14653998A 1998-05-12 1998-05-12 コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体 Expired - Fee Related JP4042830B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14653998A JP4042830B2 (ja) 1998-05-12 1998-05-12 コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14653998A JP4042830B2 (ja) 1998-05-12 1998-05-12 コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体

Publications (2)

Publication Number Publication Date
JPH11328218A true JPH11328218A (ja) 1999-11-30
JP4042830B2 JP4042830B2 (ja) 2008-02-06

Family

ID=15409946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14653998A Expired - Fee Related JP4042830B2 (ja) 1998-05-12 1998-05-12 コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体

Country Status (1)

Country Link
JP (1) JP4042830B2 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195400A (ja) * 2000-01-17 2001-07-19 Nippon Telegr & Teleph Corp <Ntt> 文書文脈構造化方法及び装置
JP2001229171A (ja) * 2000-02-15 2001-08-24 Jcb:Kk 商品検索システム
JP2001256240A (ja) * 2000-03-14 2001-09-21 Nec Software Kyushu Ltd 電子カタログ自動収集システム
JP2001265781A (ja) * 2000-03-17 2001-09-28 Nec Corp 電子ショップ用商品情報表示システム及び方法並びに記録媒体
JP2001304874A (ja) * 2000-04-21 2001-10-31 Equos Research Co Ltd サーバ通信型ナビゲーションシステムを構成する移動体装置及びサーバ装置並びに目的地情報データベースを記録した媒体及び目的地情報検索プログラムを記録した媒体
JP2001325290A (ja) * 2000-05-18 2001-11-22 Fujitsu Ltd 文書ファイル検索システム
JP2001331283A (ja) * 2000-05-19 2001-11-30 Seiko Epson Corp ネットワーク上のコンテンツを編集して印刷するネットワークプリンタ及びネットワーク上のコンテンツ印刷方法
JP2002092378A (ja) * 2000-09-19 2002-03-29 Sanyo Electric Co Ltd 発注処理方法、発注処理装置及び記録媒体
JP2002108879A (ja) * 2000-09-27 2002-04-12 Nec Corp 製品検索システムおよび製品検索方法
JP2002132645A (ja) * 2000-10-27 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法及び情報提供システム
JP2002318814A (ja) * 2001-04-19 2002-10-31 Tadashi Goino 商品検索方法、商品検索装置及びプログラム
WO2003014966A3 (en) * 2001-08-03 2003-10-30 Fujitsu Ltd An apparatus and method for extracting information from a formatted document
JP2005505080A (ja) * 2001-10-12 2005-02-17 コミサリア・ア・レネルジー・アトミーク マルチメディアデータベースを管理するための方法およびシステム
WO2006051968A1 (ja) * 2004-11-12 2006-05-18 Justsystems Corporation 電子商取引システム、電子商取引支援装置および電子商取引支援方法
WO2007055227A1 (ja) * 2005-11-14 2007-05-18 Pioneer Corporation 嗜好情報提供ユニット、コンテンツ情報出力装置、嗜好情報配信システム、及び、嗜好情報提供方法
JP2008027454A (ja) * 2000-03-21 2008-02-07 Quack.Com 電話による音声を用いてインターネットによる取引にアクセスし、これを処理し、実行するためのシステム及び方法
KR101199765B1 (ko) 2009-04-01 2012-11-09 주식회사 우듯 문서 검색 시스템 및 방법
JP2021504779A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書デジタル化における意味正規化のための方法、コンピュータ・プログラム及びシステム
US12056164B2 (en) 2018-10-23 2024-08-06 Yext, Inc. Knowledge search system

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195400A (ja) * 2000-01-17 2001-07-19 Nippon Telegr & Teleph Corp <Ntt> 文書文脈構造化方法及び装置
JP2001229171A (ja) * 2000-02-15 2001-08-24 Jcb:Kk 商品検索システム
JP2001256240A (ja) * 2000-03-14 2001-09-21 Nec Software Kyushu Ltd 電子カタログ自動収集システム
JP2001265781A (ja) * 2000-03-17 2001-09-28 Nec Corp 電子ショップ用商品情報表示システム及び方法並びに記録媒体
JP2008027454A (ja) * 2000-03-21 2008-02-07 Quack.Com 電話による音声を用いてインターネットによる取引にアクセスし、これを処理し、実行するためのシステム及び方法
JP2001304874A (ja) * 2000-04-21 2001-10-31 Equos Research Co Ltd サーバ通信型ナビゲーションシステムを構成する移動体装置及びサーバ装置並びに目的地情報データベースを記録した媒体及び目的地情報検索プログラムを記録した媒体
JP2001325290A (ja) * 2000-05-18 2001-11-22 Fujitsu Ltd 文書ファイル検索システム
JP2001331283A (ja) * 2000-05-19 2001-11-30 Seiko Epson Corp ネットワーク上のコンテンツを編集して印刷するネットワークプリンタ及びネットワーク上のコンテンツ印刷方法
JP2002092378A (ja) * 2000-09-19 2002-03-29 Sanyo Electric Co Ltd 発注処理方法、発注処理装置及び記録媒体
JP2002108879A (ja) * 2000-09-27 2002-04-12 Nec Corp 製品検索システムおよび製品検索方法
JP2002132645A (ja) * 2000-10-27 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法及び情報提供システム
JP2002318814A (ja) * 2001-04-19 2002-10-31 Tadashi Goino 商品検索方法、商品検索装置及びプログラム
WO2003014966A3 (en) * 2001-08-03 2003-10-30 Fujitsu Ltd An apparatus and method for extracting information from a formatted document
JP2005505080A (ja) * 2001-10-12 2005-02-17 コミサリア・ア・レネルジー・アトミーク マルチメディアデータベースを管理するための方法およびシステム
WO2006051968A1 (ja) * 2004-11-12 2006-05-18 Justsystems Corporation 電子商取引システム、電子商取引支援装置および電子商取引支援方法
US7949571B2 (en) 2004-11-12 2011-05-24 Justsystems Corporation Electronic commerce system, electronic commerce supporting device, and electronic commerce supporting method
WO2007055227A1 (ja) * 2005-11-14 2007-05-18 Pioneer Corporation 嗜好情報提供ユニット、コンテンツ情報出力装置、嗜好情報配信システム、及び、嗜好情報提供方法
KR101199765B1 (ko) 2009-04-01 2012-11-09 주식회사 우듯 문서 검색 시스템 및 방법
JP2021504779A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書デジタル化における意味正規化のための方法、コンピュータ・プログラム及びシステム
US12056164B2 (en) 2018-10-23 2024-08-06 Yext, Inc. Knowledge search system

Also Published As

Publication number Publication date
JP4042830B2 (ja) 2008-02-06

Similar Documents

Publication Publication Date Title
JP4042830B2 (ja) コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体
US7072983B1 (en) Scheme for systemically registering meta-data with respect to various types of data
US6889223B2 (en) Apparatus, method, and program for retrieving structured documents
CA2242158C (en) Method and apparatus for searching and displaying structured document
EP2041672B1 (en) Methods and apparatus for reusing data access and presentation elements
US20010047365A1 (en) System and method of packaging and unpackaging files into a markup language record for network search and archive services
US20030088643A1 (en) Method and computer system for isolating and interrelating components of an application
US20040172591A1 (en) Method and system for inferring a schema from a hierarchical data structure for use in a spreadsheet
JPH08241332A (ja) 全文登録語検索装置および方法
JP2002297602A (ja) 構造化文書検索方法および構造化文書検索装置および構造化文書管理装置およびプログラムおよび記録媒体
US20030074350A1 (en) Document sorting method based on link relation
JP2005190163A (ja) 構造化データ検索方法、構造化データ検索装置およびプログラム
US7073122B1 (en) Method and apparatus for extracting structured data from HTML pages
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
JP3746233B2 (ja) 知識分析システムおよび知識分析方法
US20110252313A1 (en) Document information selection method and computer program product
JP3914081B2 (ja) アクセス権限設定方法および構造化文書管理システム
CA2422490C (en) Method and apparatus for extracting structured data from html pages
JP3842576B2 (ja) 構造化文書編集方法及び構造化文書編集システム
JP2003288365A (ja) 付加情報管理方法及び付加情報管理システム
JP3543726B2 (ja) 書籍などの検索を支援する知識検索サービス方法および装置
JP2002342342A (ja) 文書管理方法及びその実施システム並びにその処理プログラムと記録媒体
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP2002297601A (ja) 構造化文書管理方法および構造化文書管理装置およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040518

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060731

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees