[go: up one dir, main page]

JP4042830B2 - Content attribute information normalization method, information collection / service provision system, and program storage recording medium - Google Patents

Content attribute information normalization method, information collection / service provision system, and program storage recording medium Download PDF

Info

Publication number
JP4042830B2
JP4042830B2 JP14653998A JP14653998A JP4042830B2 JP 4042830 B2 JP4042830 B2 JP 4042830B2 JP 14653998 A JP14653998 A JP 14653998A JP 14653998 A JP14653998 A JP 14653998A JP 4042830 B2 JP4042830 B2 JP 4042830B2
Authority
JP
Japan
Prior art keywords
content
attribute
document
attribute information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14653998A
Other languages
Japanese (ja)
Other versions
JPH11328218A (en
Inventor
智治 疋田
政昭 松本
典子 藤代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP14653998A priority Critical patent/JP4042830B2/en
Publication of JPH11328218A publication Critical patent/JPH11328218A/en
Application granted granted Critical
Publication of JP4042830B2 publication Critical patent/JP4042830B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワーク上に分散したコンテンツ情報を自動収集し、検索サービス等に再利用する技術に係り、詳しくは、複数のWebサイトから収集したコンテンツ情報を統合・整理し、検索サービス等に必要な属性を抽出・正規化する方法、それを適用した検索エンジンなどの情報収集・サービス提供システム、並びに、コンテンツ属性情報を正規化するプログラムを格納した記録媒体に関する。
【0002】
【従来の技術】
ネットワーク上に分散したコンテンツ情報を自動収集して検索サービス等に再利用するための、二、三の一般的な従来技術を以下に示す。
【0003】
図24はコンテンツ属性情報を考慮しない検索エンジンシステムを示す。図において、2400は検索エンジン、2410はネットワーク、2420は該ネットワーク上に分散配置されたWebサイト、2430はユーザ端末である。Webサイト2420は、情報提供者(IP)の用意した閲覧用文書ファイル(一般的にはHTMLで記述)を保持している。検索エンジン2400は、制御部2403の制御で、自動情報収集部2401にてネットワーク2410上のWebサイト2420を巡回して閲覧用文書ファイル(HTML文書)を収集し、解析部2402にて、該文書ファイルを解析して、ページ単位で要約情報、キーワードインデックス等を作成し、該ページ単位の情報をコンテンツデータベース(コンテンツDB)2404に格納する。一方、検索部2405では、ユーザ端末2430から検索要求があると、コンテンツDB2404を検索し、検索結果をユーザ端末2430へ返送する。ユーザ端末2430のユーザは、該検索結果を元に、必要ならWebサイト2420の文書ファイルを直接閲覧する。
【0004】
図25に、該従来技術で対象とする文書ファイル(HTML文書)の構造を示す。また、図26に具体例として、HTML言語で記述された商品カタログの一例を示す。図25(a)や図26に示すように、対象とする文書ファイル(HTML文書)には、複数のコンテンツが格納されており、区切りが不明確、コンテンツの分野も不明確であり、また、コンテンツの属性情報は文章の中に含まれている。解析部2402は、該文書ファイルを自然言語解析などして必要情報を抽出するが、低い精度でしか抽出できず、コンテンツDB2404には各ページが雑多に格納されることになる。図25(b)に示すように、文書はツリー構造で表すことができるが、閲覧用の文書(HTML文書)は、閲覧スタイル、もしくは文章の論理構造に基づき、構造化されているため、サービス提供(検索サービス)に適した属性情報をそこから抽出することは難しい。
【0005】
図27は、コンテンツ属性情報が固定的な自動収集分類システムを示す。図において、2700は情報自動収集分類装置、2710はネットワーク、2720は該ネットワーク上に分散配置されたWebサイト、2730はユーザ端末である。本従来例では、Webサイト2720に、文書本体(HTML文書)とは別にコンテンツ属性情報を用意する。図28に、本従来技術が対象とする文書の構成例を示す。なお、閲覧用文書中の文字列をコンテンツ属性情報としてタグでマークアップして、閲覧用文書中にコンテンツ属性情報を含ませることも可能である。
【0006】
情報自動収集分類装置2700では、制御部2704の制御下で、自動情報収集部2701にてネットワーク2710上のWebサイト2720を巡回して該当ファイル(文書ファイル、属性情報ファイル)を収集し、分離部2702にてコンテンツ属性情報を分離し、属性抽出部2703にてコンテンツ属性情報を解釈し、該コンテンツ属性情報をほぼそのままコンテンツDB2705に格納する。サービス提供部2706の動作は、図24の検索部2405と同様である。本従来例では、コンテンツ属性情報を閲覧情報とは別に用意するので、サービス提供に便利なような構造とすることができる。
【0007】
図29は、コンテンツ属性情報を閲覧用タグ及び文字列と対応づける自動収集分類システムを示す。図において、2900は情報自動収集分類装置、2910はネットワーク、2920は該ネットワーク上に分散配置されたWebサイト、2930はユーザ端末である。本従来例は、図24の検索エンジンシステムと同様にWebサイト2920には閲覧情報のみの文書ファイル(HTML文書)を用意するが、情報自動収集分類装置2900内に、あらかじめ閲覧用文書ファイルの中の閲覧用タグ、及び文字列とコンテンツ属性との対応ルール2904を保持しておき、これを参照して閲覧文書からコンテンツ属性の抽出を可能にするものである。対応ルール2904としては、例えば、「円」という文字の前には必ず「価格」が出現するなどというルールを作っておく。
【0008】
情報自動収集分類装置2900では、制御部2903の制御下で、自動情報収集部2901にてネットワーク2910上のWebサイト2920を巡回して閲覧用文書ファイル(HTML文書)を収集し、属性抽出部2902にて、文書ファイル中の文字列、及び閲覧用の構造を表わすタグと属性との対応ルール2904を参照して、コンテンツ属性情報を文書ファイル中から抽出し、コンテンツDB2905に格納する。サービス提供部2906の動作は、図24の検索部2405と基本的に同様である。本従来例では、コンテンツ単位(例えば、商品単位)で属性情報をコンテンツDB2905に格納することができるため、コンテンツ分野指定検索、属性検索、関連付け検索が可能である。
【0009】
次に、属性情報設定装置について説明する。属性情報設定装置とは、テキスト情報中の文字列をマークアップすることで、コンテンツ属性情報を設定する装置である。一般の構造化文書作成装置(例えば、SGMLエディタと呼ばれるもの)も同等の機能を持っている。
【0010】
図30は従来の属性情報設定装置のブロック図を示したもので、全体メニュー部3001、属性設定部3002、属性削除部3003、属性範囲変更部3005、ファイル入力部3006、ファイル出力部3007、構造検証部3008等で構成される。ファイル入力部3006から対象となる文書ファイルを入力し、全体メニュー部3001のエディタ画面を見ながら、属性設定部3002、属性削除部3003、属性変更部3004、属性範囲変更部3005等の機能を利用してコンテンツ属性情報の設定、削除、変更、範囲変更を実施し、ファイル出力部3007から出力する。文書オブジェクトは閲覧用タグとコンテンツ属性用タグを区別しないで管理し、構造検証部3008で検証する。
【0011】
図31は、属性タグ付き文書(一般にはXML文書)の閲覧用文書構造とコンテンツ属性情報の概念図である。図中、白丸が閲覧用タグ、黒丸がコンテンツ属性用タグを示している。従来の属性情報設定装置3000の構造検証部3008では、閲覧用文書とコンテンツ属性情報を同一に管理するため、例えば親子関係までしか検証できない場合には、白丸と黒丸相互には文法的な制限が存在せず、白丸同士黒丸同士には制限がある場合でも、検証できない場合がある。したがって、制限を緩くすることになってしまい、有効な文法検証ができない。
【0012】
【発明が解決しようとする課題】
上記従来技術において、コンテンツ属性情報を考慮しない検索エンジンシステムには次のような問題がある。
(1) 文書内のコンテンツ(例えば、商品情報)の区切りが不明で、ページ単位で分類、ページ単位でしか検索できない。
(2) コンテンツの分野を指定できず、検索結果にノイズが多い。例えば、「日本酒が買いたい」と考え、キーワード「日本酒」で検索すると、日本酒の通販だけでなく、日本酒好きの人のウンチクなどまで検索されてしまう。
(3) コンテンツの属性(たとえば、商品の価格、色など)が認識できない。したがって、属性による検索はできない。例えば、「3000円以下の日本酒」という検索は不可能である。また、情報の再利用が困難である。即ち、属性を利用して他のDBと関連づけることができない。
【0013】
これに対して、コンテンツ属性情報が固定的な自動収集分類システムでは、文書内あるいはその文書とは別にコンテンツ属性情報が用意され、システムが属性情報を取得できることから、コンテンツ単位での分類が可能、コンテンツの分野を指定した検索が可能、コンテンツの属性による検索が可能(例:「3000円以下の日本酒」という検索が可能)、コンテンツの属性を利用した他のデータとの関連付けが可能であり、コンテンツ属性情報を考慮しない検索エンジンシステムの問題点をほぼ解消している。
【0014】
しかしながら、このコンテンツ属性情報が固定的な自動収集分類システムでは、閲覧用の文書の構造・表現形式とサービス提供に適した属性情報の構造・形式は一般に一致しないため、次のような問題点があらたに生じる。
(1) 閲覧用文書とは別にコンテンツ属性情報を用意する場合(いわゆるメタデータと呼ばれる情報)、文書ファイルを直接閲覧した情報と、自動収集して得た情報が一致しない別能性がある。特に、複数のコンテンツについて記述した文書ファイルの場合(商品カタログなど)、二重にその情報を記述することになり、その可能性が高い。
(2) 閲覧用文書中の文字列をコンテンツ属性情報としてタグでマークアップする場合(これはXMLの一般的な使い方)、文書ファイル中の文書構造・記述形式を制限するか、逆にサービス提供の情報を文書ファイル中の文書構造・記述形式と同一にしなくてはならない。
特にXMLをそのまま利用するだけでは、同一のコンテンツに対する属性の付与の仕方、属性の名称、記述形式等が作成者によって異ったり、他のサービスへ適用するのに適した属性が付与されている保証がない。即ち、複数の計算機(サイト)から収集した文書を他のサービスの提供を考慮した共通の構造形式(DBテーブル等)に格納することができない。
【0015】
一方、コンテンツ属性情報を閲覧用タグ、及び文字列と対応づけるシステムでは、閲覧文書ファイル内には閲覧情報のみ格納し、その中の閲覧用タグ、及び文字列とコンテンツ属性との対応ルールをシステムがあらかじめ保持しておき、これを参照して閲覧文書からコンテンツ属性を抽出する。このため、対応ルールが正しいという条件の元では、コンテンツ属性情報を考慮しない検索エンジンシステムの問題点は解決できる。また、コンテンツ属性情報が固定的な自動収集分類システムの上記(1)の問題も存在しない。
しかしながら、閲覧用文書が対応ルールに従わなくてはならない、という制約が必要であり、その閲覧文書の構造に強い制約が生じてしまう。商品カタログなどの場合には、消費者に対しての表現の自由が制限されてしまい、大きな問題となる。これは、コンテンツ属性情報が固定的な自動収集分類システムの上記(2)と同等の問題である。
【0016】
次に、従来の属性情報設定装置には次のような問題がある。
(1) 一般ユーザが閲覧した際の結果は見ることができるが、自動収集・分類装置などが属性を抽出・正規化(構造、値形式)処理を行った結果を見る機能は持っていないので、データ作成者はデータがどのように利用されるかを知ることができない。
(2) 閲覧用タグとコンテンツ属性用のタグを区別して管理していないため、タグの構造検証が煩雑になる。図31でも示したように、一般に閲覧用タグ同士、コンテンツ属性用タグ同士の制限は比較的強いが、閲覧用タグとコンテンツ属性用タグの間には緩い制限しかないことが多い(たとえば、XML言語における適性形式としての制限程度)。その場合、それぞれを区別して管理していないため、親子関係までしか検証できない構造検証部では、全体の制限としては緩い制限にせざるをえず、有効に機能しない。
【0017】
本発明の目的は、上記従来技術の問題点を解決して、ネットワーク上に分散したコンテンツ情報を、単なる閲覧以外に自由に再利用可能とするサービスを実現することにある。
【0018】
より詳しくは、本発明の目的は、サービス提供時の情報形式と情報提供者の用意した閲覧用文書の構造形式とを自由に設定可能として、ネットワーク上に分散したコンテンツ情報を自動収集し、情報提供者の閲覧用文書の構造・形式に縛られることなく、サービス提供用データベースの構築を可能とすることにある。
【0019】
【課題を解決するための手段】
請求項1の発明は、情報提供者が提供する閲覧文書から、該閲覧文書の構造・形式に依らないサービス提供用のデータベースを構築するためのコンテンツ属性情報正規化方法であって、
情報提供者が提供する、閲覧文書中の文字列をタグでマークアップすることで、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報の含まれる文書ファイルを収集するステップと、
前記収集した文書ファイルについて、文字コードを正規化するステップと、
前記文字コードが正規化された文書ファイルから、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を抽出するステップと、
前記抽出された閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を、サービス提供に適した構造・形式に正規化するステップ(以下、属性正規化ステップ)と、
前記正規化されたコンテンツ属性情報をコンテンツデータベースにコンテンツ単位に格納するステップとを有し、
前記属性正規化ステップは、
前記抽出されたコンテンツ属性情報について、コンテンツの展開、属性名の正規化、属性の分割、他属性への変換を行って、閲覧文書に合わせた構造をサービス提供に適した構造に正規化するステップと、
前記構造が正規化されたコンテンツ属性情報について、文字表現形式の正規化、数値表現の正規化を行うステップとを含むことを特徴とする。
【0020】
また、請求項2の発明は、請求項1記載のコンテンツ属性情報正規化方法において、属性正規化処理の正規化ルールとして、分野非依存・属性非依存ルール、分野依存・属性非依存ルール、分野非依存・属性依存ルール、分野依存・属性依存ルールを備え、コンテンツ分野と属性名で管理することを特徴とする。
【0021】
請求項3の発明は、情報提供者のWebサイト、ホスト装置、ユーザ端末がネットワークを介して接続された情報収集・サービス提供システムにおいて、
ホスト装置は、
ネットワーク上に分散配置されたWebサイトの情報提供者が提供する、閲覧文書中の文字列をタグでマークアップすることで、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報の含まれる文書ファイルを収集する自動情報収集手段と、
前記収集した文書ファイルについて、文字コードを正規化し、該文字コードが正規化された文書ファイルから、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を抽出する属性抽出手段と、
前記抽出された閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を、サービス提供に適した構造・形式に正規化する属性正規化手段と、
前記正規化されたコンテンツ属性情報をコンテンツ単位に蓄積するコンテンツデータベースと、
前記コンテンツデータベースに蓄積されたコンテンツ属性情報を使用して、ユーザ端末からの要求に対してサービスを行うサービス提供手段とを備え、
前記属性正規化手段は、前記属性抽出手段で抽出されたコンテンツ属性情報について、コンテンツの展開、属性名の正規化、属性の分割、他属性への変換を行って、閲覧文書に合わせた構造をサービス提供に適した構造に正規化し、該構造が正規化されたコンテンツ属性情報について、文字表現形式の正規化、数値表現の正規化を行うことを特徴とする。
【0022】
請求項4の発明は、請求項3記載の情報収集・サービス提供システムにおいて、ホスト装置は、更に、正規化処理の正規化ルールとして、分野非依存・属性非依存ルール、分野依存・属性非依存ルール、分野非依存・属性依存ルール、分野依存・属性依存ルールを備え、コンテンツ分野と属性名で管理することを特徴とする。
【0023】
請求項5の発明は、情報提供者が提供する閲覧文書から、該閲覧文書の構造・形式に依らないサービス提供用のデータベースを構築するためのコンテンツ属性情報正規化プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
情報提供者が提供する、閲覧文書中の文字列をタグでマークアップすることで、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報の含まれる文書ファイルを収集する処理と、
前記収集した文書ファイルについて、文字コードを正規化する処理と、
前記文字コードが正規化された文書ファイルから、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を抽出する処理と、
前記抽出された閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を、サービス提供に適した構造・形式に正規化する処理(以下、属性正規化処理)と、
前記正規化されたコンテンツ属性情報をコンテンツデータベースにコンテンツ単位に格納する処理とを有し、
前記属性正規化処理は、
前記抽出されたコンテンツ属性情報について、コンテンツの展開、属性名の正規化、属性の分割、他属性への変換を行って、閲覧文書に合わせた構造をサービス提供に適した構造に正規化する処理と、
前記構造が正規化されたコンテンツ属性情報について、文字表現形式の正規化、数値表現の正規化を行う処理とを含み、
これら処理をコンピュータで実行するためのプログラムを記録したことを特徴とする。
【0024】
【発明の実施の形態】
以下、本発明の一実施の形態について図面により説明する。
図1は本発明を適用したシステムの一実施例として、ネットワーク上に分散したコンテンツ情報を自動収集し、属性を抽出・正規化して検索サービス等に再利用する情報収集・サービス提供システムのブロック図を示したものである。図において、100は検索エンジンなどとなるホスト装置(ここでは、情報自動収集分類装置と呼ぶ)、110はインタネットなどのネットワーク、120はネットワーク上に分散配置された情報提供者(IP)のWebサイト、130は情報自動収集分類装置100を利用するユーザ端末である。
【0025】
Webサイト120は、コンテンツ属性情報を含んだ閲覧用文書ファイル(例えば、XML文書)を作成する属性情報設定装置125を具備する。この属性情報設定装置125により、多様な構造をとりうる閲覧用文書(一般にはHTML文書)にコンテンツ属性情報を一元的に保持する形態で含ませることが可能になる。なお、属性情報設定装置125の構成については後述する。
【0026】
情報自動収集分類装置100は、ネットワーク110上のWebサイト120を巡回し、コンテンツ属性情報が含まれた文書ファイル(例えばXML文書)を自動収集する自動情報収集部101、該収集した文書ファイルからコンテンツ属性情報を抽出する属性抽出部102、該抽出したコンテンツ属性情報を、検索サービス等の再利用のために構造変換、属性名・属性値形式変換等の正規化を行う属性正規化部103、これら各部を制御する制御部104、属性正規化部103で正規化されたコンテンツ属性情報を、商品単位等のコンテンツ単位で格納するコンテンツデータベース(コンテンツDB)105、属性正規化部103での正規化処理のためのルールを、コンテンツ分野、属性名等で管理する正規化ルール106、コンテンツDB105の内容を利用して、ユーザにコンテンツ属性情報による検索サービスなどを提供するユーザサービス提供部108などで構成される。なお、破線の対応ルール107はオプションを示し、先の図29の対応ルール2904と同様に、閲覧文書ファイル中の閲覧用タグ及び文字列とコンテンツ属性との対応ルールを保持することで、属性抽出部102は、閲覧情報のみの文書ファイル(一般にはHTML文書)からもコンテンツ属性が抽出可能であることを示している。
【0027】
ユーザは、ユーザ端末130を利用して情報自動収集分類装置100にアクセスして、分野指定検索、関連付け検索などを行い、検索結果を元にWebサイト120の文書ファイルを直接閲覧する。
【0028】
情報自動収集分類装置100の全体の処理フローを図2及び図3に、また、ここで対象とする文書の構造、その処理過程での遷移を図4に示す。以下、図2乃至図4に従って、本発明によるコンテンツ属性情報の抽出・正規化処理の一実施例について説明する。なお、図2及び図3に示すフローチャートの各処理プロセスを記述したプログラムは、コンピュータが読み取り可能な記録媒体、例えばフロッピーディスクやメモリカード、CD−ROMなどに記録して提供することが可能である。
【0029】
本実施例で対象とする文書はXML文書とする。XMLはタグを自由に定義可能な文書構造記述(マークアップ)言語であり、このXMLで定義したコンテンツ属性用タグを利用することで、コンテンツ属性を自動的に抽出できる。また、閲覧時は使用しない属性を含めることも可能である。
【0030】
図1において、情報提供者(IP)は、属性情報設定装置125を利用して、閲覧用文書(一般にはHTMLで記述)中の文字列をタグでマークアップすることで、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報の含まれた文書ファイル(XML文書)を作成し、Webサイト120に用意する。図4(a)はHTML文書の構造、同図(b)はXML文書の構造を示している。なお、Webサイト120の文書ファイルは、はじめからXMLの形式で記述されたものでもよい。
【0031】
情報自動収集分類装置100の自動情報収集部101は、ネットワーク110上のWebサイト120を巡回して、文書ファイル(XML文書)を自動収集し、該文書ファイルからIP単位の情報、ページ単位の情報を抽出する(ステップ201〜203)。ここで抽出される情報は、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報が閲覧用情報と混在して含まれたXML文書そのままのものである(図4の(c))。
【0032】
属性抽出部102は、自動情報収集部101で収集・抽出されたXML文書について、文字コードを正規化した後(ステップ204)、コンテンツ属性情報のみを抽出する(ステップ205)。ここで、文字コードの正規化は、ネットワーク上の文書ファイルは様々な文字コードで記述されることが多いので、これに対処するためである。文書ファイルからのコンテンツ属性情報のみの抽出は、例えば、タグを解釈するパーサ(SGMLパーサ等)をコンテンツ属性情報用タグのみを解釈するように動作させる(閲覧用のタグは無視)することで可能である。どのタグがコンテンツ属性情報用タグなのかは、設定ファイルとして保持し、それを参照するようにする。例えば、SGMLにおけるDTDのデフォルト属性として保持する。この場合、文書作成・編集用の設定ファイルとして再利用が可能である。ここで抽出されたコンテンツ属性情報は、閲覧文書に合わせた構造・形式を持つ。図4(d)はこれを示している。
【0033】
なお、この属性抽出部102では、閲覧用タグ、及び文字列とコンテンツ属性との対応ルール108(例えば、「円」という文字の前には、必ず「価格」が出現するなど)を保持しておけば、該ルール108を参照して、閲覧文書からコンテンツ属性情報を抽出することができる。
【0034】
属性正規化部103は、正規化ルール104を参照して、属性抽出部102で抽出された閲覧文書に合わせた構造・形式をもつコンテンツ属性情報を、検索サービスなどのサービス提供に適した形式に正規化する。正規化ルール104には、分野非依存/属性非依存ルール、分野依存/属性非依存ルール、分野非依存/属性依存ルール、分野依存/属性依存ルールなどが存在し、コンテンツ分野と属性名で管理している。
【0035】
属性正規化部103では、まず、対象コンテンツ(閲覧文書の構造と同形のコンテンツ属性情報)の分野を、コンテンツ属性情報のカテゴリタグの値で認識する(ステップ206)。これは、分野によって、コンテンツDB105のスキーマが異なるため、はじめに認識しておく必要があるためである。次に、当該対象コンテンツ(コンテンツ属性情報)について、閲覧文書に合わせた構造をサービス提供に適した構造に正規化し(ステップ207)、更に、該構造が正規化されたコンテンツ属性情報について、文字表現形式の正規化(ステップ208)、数値表現の正規化(ステップ209)を行う。図4(e)は正規化の概念を示す。最後に、この正規化されたコンテンツ属性情報を、コンテンツDB105にコンテンツ単位で格納する(ステップ210)。なお、文字表現形式の正規化と数値表現の正規化は、処理順序が逆でもよい。また、例えば数値部分と単位部分に分けるなど、属性構造の変換を伴う場合もある。
【0036】
以下、属性構造の正規化、文字表現形式の正規化及び数値表現正規化の処理について詳述する。
【0037】
属性構造の正規化は、コンテンツ展開処理、属性名の正規化、属性の分割、他属性への変換に大別される。さらに、コンテンツ展開処理は二つに分けられる。ここでは、それらをコンテンツ展開処理(1)、コンテンツ展開処理(2)と呼ぶことにする。
【0038】
閲覧情報として一つのコンテンツの異形を表すために、同一属性を複数持つ構造になっていることがあるが、サービス提供時には別コンテンツとして格納してある方が便利な場合がある。このような場合、コンテンツ展開処理(1)を適用し、別コンテンツとして展開する。例えば、ある飲料商品が中身は同一で容量により価格が変化するような場合には、閲覧文書上(商品カタログ)は同一商品の異形として表現してあり、再利用して表現したコンテンツ属性情報も同じような形になっている。サービス提供時にそれぞれの商品として扱う場合が多く、その場合には、それらを展開する機能が必須となる。図5に、コンテンツ展開処理(1)の概念図を示す。なお、先の図4(e)のコンテンツ展開処理の例は、このコンテンツ展開処理に対応する。
【0039】
一方、閲覧情報として同一のジャンルのコンテンツを一くくりの位置に記述することが多い。その場合、コンテンツ展開処理(2)を適用して、一くくりをオブジェクトと考え、そのオブジェクトに設定された属性情報をその子オブジェクトのデフォルトの属性とし展開する。例えば、ある飲料商品の一連の商品種がすべて吟醸という製品に属する場合、カタログ上では、吟醸と大きく記述し、その後の商品はすべて暗黙の内に吟醸であると書く場合がある。サービス提供時には、それぞれの商品として扱うため、各商品情報の属性に製法=吟醸であると付加する必要がある。図6に、コンテンツ展開処理(2)の概念図を示す。
【0040】
属性名の正規化は、概念的に同一な属性の項目名が異なる場合に行う。図7に、属性名の正規化の一例を示す。逆に、属性の分割は、概念的に複数の属性に分割した方が扱いやすい場合に行う。図8に、属性の分割の一例を示す。
【0041】
他属性への変換(正規化)は、単数、あるいは複数の属性から別の単数、あるいは複数の属性へ変換する処理である。例えば、日本酒度、酸度から呑み口を計算し、図9のどの領域に入るかによって、呑み口を判断する(不等式で計算)。
【0042】
文字表現形式の正規化は、例えば、日本酒製法を大吟醸、吟醸、普通の3種類に分類して、サービス提供したい場合、閲覧用文書中の表現としては、「大吟醸酒」でも、「大吟醸のお酒」でも大吟醸と正規化することである(「大吟醸」という表現しか認めないと、一般のお客様向けの商品カタログの表現が制限されることになる)。その他、コード体系の正規化などを行う。この場合、論理式などの条件文が使用できる。
【0043】
数値形式の正規化は、例えば図10の処理手順で行う。閲覧文書上では、数値は全角/半角表現、通常の数値/漢数字、カンマ区切り入り/なし、など表現にばらつきがあるので、これらを正規化する(ステップ1001)。単位付きの数値では、単位の表現の仕方にばらつきがある。たとえば、価格の表現として¥1000、1000円、1000yenなどが存在する。これらを認識する(ステップ1002)。この認識した単位系からサービス提供で用いる単位系に変換する(ステップ1003)。また、複数の値や、範囲のある数値を認識して変換する(ステップ1004)。たとえば、「1000円以上2000円未満、及び3000円以上4000円未満」といった情報を元にサービス提供に適した形式に変換する。サービス提供上、二つの数値範囲を一つのコンテンツで扱えれば、そのまま格納するし、一つの数値範囲しかなければ、2つのコンテンツに展開して格納することになる。
【0044】
図11乃至図19に、本実施例によるコンテンツ属性情報抽出・正規化の具体的処理例を示す。
図11は情報提供者が提供する文書ファイル(XML文書)であり、閲覧用文書(HTML文書)中の文字列を任意に定義されたタグでマークアップすることで、コンテンツ属性情報が設定されている。図11において、太字で示すタグ(例えば〈MEMO〉・・・〈/MEMO〉)で囲まれた部分がコンテンツ属性情報である。
【0045】
図12は、図11の文書ファイル(XML文書)中からコンテンツ属性情報をそのまま抽出したデータであり、コンテンツ属性情報は情報提供者の閲覧文書に合わせた構造・形式のままである。この図12のコンテンツ属性情報を木構造形式で表現したのが図13である。図13から分かるように、これは必ずしも検索サービス等の提供に適した構造・形式になっていない。
【0046】
図14は、図12の対象コンテンツ(コンテンツ属性情報)について、コンテンツ展開処理(2)を適用した結果を示したものである。図15は、図14の展開結果に対して、さらにコンテンツ展開処理(1)を適用した結果を示したもので、結局、図12の対象コンテンツは4つのコンテンツに展開されたことになる。図16は、図15のコンテンツ展開処理結果について、文字表現形式の正規化と数値形式の正規化を適用した結果を示したものである。
【0047】
図16の正規化ずみコンテンツ属性情報を木構造形式で表現すると、図17及び図18のようになる。図13に比べて、一見して検索サービス等の提供に適した構造・形式になっているのが分かる。
【0048】
図19は、図16の正規化ずみコンテンツ属性情報を表形式で表現したもので、図1のコンテンツDB105には、このような形式でコンテンツ属性情報が格納される。このようにして、閲覧用文書(HTML文書)の構造・形式に縛られることなく、検索サービス提供用等のデータベース(関連データベース)を構築することが可能になる。
【0049】
次に、属性情報設定装置について説明する。
図20は属性情報設定装置の一実施例を示すブロック図である。本属性情報設定装置2000の特徴は、図30に示した従来の装置に属性抽出・正規化プレビュー部2008と複数のタグセットを別に管理し検証する構造検証部2009を設けた点にある。属性抽出・正規化プレビュー部2008は、図1の情報自動収集分類装置100内の属性抽出部102、属性正規化部103などと基本的に同様の機能(同等かその簡略版)であり、作成された文書ファイル(XML文書)からコンテンツ属性情報の抽出・正規化を行いプレビューする。また、構造検証部2009は、複数のタグセットを閲覧用文書とコンテンツ属性情報とで別々に管理し、相互に無視して構造を検証する。
【0050】
該属性情報設定装置200は、図1のシステムで装置125で示したように、Webサイト120に設置して使用する。この場合、属性情報の抽出・正規化プレビュー部2008によれば、情報提供者(IP)は、作成した文書ファイル(XML文書)について、情報自動収集分類装置100で、コンテンツ属性情報がどのように抽出・正規化されるか、プレビューして見ることができ、より有効なコンテンツ属性情報の設定を行うことが可能となる。図21に、図11の文書ファイル(XML文書)のエディタ画面、図22に、これに対応する属性抽出・正規化結果のプレビュー画面を示す。なお、この例の属性抽出・正規化結果プレビュー部2008は、単位変換機能を持たない簡略版であるため、容量は「l」と「ml」表記が混在している。また、構造検証部2009によれば、相互の制限が弱く同種のタグ間での制限が強い複数のタグセットを扱う場合に、閲覧用文書とコンテンツ属性情報それぞれのタグセットについて、例えば相互に無視して文法検証することで、より厳しい文法検証を行うことが可能となる。図23に、構造検証部2009による複数タグセットの管理・検証の概念図を示す。
【0051】
【発明の効果】
本発明を適用した情報収集・サービス提供システムでは、検索エンジンなどのホスト装置に、再利用する閲覧用文書ファイル中の属性情報の構造、属性名、属性値形式等を変換する機能を持つことで、閲覧用文書(たとえば商品カタログ)の表現の自由度を増すことができる。逆に、すでに存在する閲覧用文書の構造・形式に縛られること無く、サービス提供用のデータベースを構築することが可能になる。
【0052】
また、テキスト情報中の文字列をマークアップすることで、コンテンツ属性情報を設定する装置に、属性抽出・正規化プレビュー機能と複数のタグセットを別々に管理し検証する機能を設けることにより、データ作成者が、ホスト装置が属性を抽出・正規化(構造、値形式)処理を行った結果を見ることができ、より有効な属性設定を行うことが可能、相互の制限が弱く同種のタグ間の制限が強い複数のタグセットを扱う場合に、それぞれのタグセットについて文法検証することで、より厳しい文法検証を行うことが可能となる。
【図面の簡単な説明】
【図1】 本発明を適用した情報収集・サービス提供システムの一実施例のブロック図である。
【図2】 図1の動作を説明するための全体的処理フローチャートの一部である。
【図3】 図2の処理フローチャートの続きである。
【図4】 本発明の対象とする文書の構造と処理過程の概要を示す図である。
【図5】 本発明による属性構造正規化のコンテンツ展開処理(1)を説明する図である。
【図6】 同じくコンテンツ展開処理(2)を説明する図である。
【図7】 属性名の正規化を説明する図である。
【図8】 属性の分割を説明する図である。
【図9】 他属性への正規化を説明する図である。
【図10】 数値形式の正規化を説明するフローチャートである。
【図11】 本発明の対象とする文書ファイルの具体例である。
【図12】 図11の文書ファイルから抽出したコンテンツ属性情報である。
【図13】 図12のコンテンツ属性情報を木構造形式で表現した図である。
【図14】 図11のコンテンツ属性情報にコンテンツ展開処理(1)を適用した結果を示す図である。
【図15】 図14のデータについて、さらにコンテンツ展開処理(2)を適用した結果を示す図である。
【図16】 図15のデータについて、文字表現形式と数値形式の正規化を適用した結果を示す図である。
【図17】 図16のデータを木構造形式で表現した一部の図である。
【図18】 図17の木構造形式表現の続きの図である。
【図19】 図16のデータを表形式で表現した図である。
【図20】 本発明による属性情報設定装置の一実施例のブロック図である。
【図21】 本属性情報設定装置での図11の文書ファイルのエディタ画面を示す図である。
【図22】 本属性情報設定装置での図19に対応するエディタプレビュー結果を示す図である。
【図23】 本発明による属性情報設定装置での複数タグセットの管理・検証を説明する図である。
【図24】 従来のコンテンツ属性情報を考慮しない検索エンジンシステムのブロック図である。
【図25】 図24のシステムで対象とする文書の構造を説明する図である。
【図26】 図24のシステムが対象とする文書の具体例を示す図である。
【図27】 従来のコンテンツ属性情報が固定的な自動収集分類システムのブロック図である。
【図28】 図27のシステムが対象とする文書の構造を説明する図である。
【図29】 従来のコンテンツ属性情報を閲覧用タグ及び文字列と対応づけるシステムのブロック図である。
【図30】 従来の属性情報設定装置のブロック図である。
【図31】 従来の属性情報設定装置でのタグセットの管理・検証を説明する図である。
【符号の説明】
100 情報自動収集分類装置(ホスト装置)
101 自動情報収集部
102 属性抽出部
103 属性正規化部
104 制御部
105 コンテンツデータベース
106 正規化ルール
107 対応ルール
108 サービス提供部
110 ネットワーク
120 Webサイト
130 ユーザ端末
120,2000 属性情報設定装置
2008 属性抽出・正規化プレビュー部
2009 構造検証部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technology for automatically collecting content information distributed on a network and reusing it for a search service and the like. Specifically, it integrates and organizes content information collected from a plurality of websites and is necessary for a search service and the like. The present invention relates to a method for extracting / normalizing various attributes, an information collection / service providing system such as a search engine to which the method is applied, and a recording medium storing a program for normalizing content attribute information.
[0002]
[Prior art]
A few general prior arts for automatically collecting content information distributed on a network and reusing it for a search service and the like are shown below.
[0003]
FIG. 24 shows a search engine system that does not consider content attribute information. In the figure, reference numeral 2400 denotes a search engine, 2410 denotes a network, 2420 denotes a Web site distributed on the network, and 2430 denotes a user terminal. The Web site 2420 holds a browsing document file (generally described in HTML) prepared by an information provider (IP). Under the control of the control unit 2403, the search engine 2400 circulates the Web site 2420 on the network 2410 by the automatic information collection unit 2401 and collects a viewing document file (HTML document), and the analysis unit 2402 collects the document The file is analyzed to create summary information, keyword index, and the like for each page, and the information for each page is stored in the content database (content DB) 2404. On the other hand, when there is a search request from the user terminal 2430, the search unit 2405 searches the content DB 2404 and returns the search result to the user terminal 2430. The user of the user terminal 2430 directly browses the document file on the Web site 2420 if necessary based on the search result.
[0004]
FIG. 25 shows the structure of a document file (HTML document) targeted by the prior art. FIG. 26 shows an example of a product catalog described in HTML language as a specific example. As shown in FIG. 25A and FIG. 26, the target document file (HTML document) stores a plurality of contents, the delimiters are unclear, the content field is unclear, Content attribute information is included in the text. The analysis unit 2402 extracts necessary information by performing natural language analysis or the like on the document file. However, the analysis unit 2402 can extract the information only with low accuracy, and each page is miscellaneously stored in the content DB 2404. As shown in FIG. 25 (b), the document can be expressed in a tree structure. However, since the browsing document (HTML document) is structured based on the browsing style or the logical structure of the sentence, the service is used. It is difficult to extract attribute information suitable for provision (search service) from there.
[0005]
FIG. 27 shows an automatic collection and classification system with fixed content attribute information. In the figure, 2700 is an information automatic collection and classification apparatus, 2710 is a network, 2720 is a Web site distributed on the network, and 2730 is a user terminal. In this conventional example, content attribute information is prepared on the Web site 2720 separately from the document main body (HTML document). FIG. 28 shows a configuration example of a document targeted by the conventional technology. It is also possible to mark up a character string in the browsing document with a tag as content attribute information and include the content attribute information in the browsing document.
[0006]
In the automatic information collection and classification apparatus 2700, under the control of the control unit 2704, the automatic information collection unit 2701 circulates the website 2720 on the network 2710 to collect the corresponding file (document file, attribute information file), and the separation unit In 2702, the content attribute information is separated, the attribute extraction unit 2703 interprets the content attribute information, and the content attribute information is stored in the content DB 2705 almost as it is. The operation of the service providing unit 2706 is the same as that of the search unit 2405 in FIG. In this conventional example, the content attribute information is prepared separately from the browsing information, so that a structure that is convenient for service provision can be provided.
[0007]
FIG. 29 shows an automatic collection and classification system that associates content attribute information with browsing tags and character strings. In the figure, reference numeral 2900 denotes an automatic information collection and classification apparatus, 2910 denotes a network, 2920 denotes a Web site distributed on the network, and 2930 denotes a user terminal. In this conventional example, as in the search engine system of FIG. 24, a document file (HTML document) containing only browsing information is prepared on the Web site 2920. And a correspondence rule 2904 between the character string and the content attribute are stored, and the content attribute can be extracted from the browsed document with reference to this rule. As the correspondence rule 2904, for example, a rule that “price” always appears before the character “yen” is created.
[0008]
In the automatic information collection and classification apparatus 2900, under the control of the control unit 2903, the automatic information collection unit 2901 circulates the Web site 2920 on the network 2910 to collect browsing document files (HTML documents), and the attribute extraction unit 2902. The content attribute information is extracted from the document file with reference to the character string in the document file and the tag-attribute correspondence rule 2904 representing the browsing structure, and stored in the content DB 2905. The operation of the service providing unit 2906 is basically the same as that of the search unit 2405 in FIG. In this conventional example, attribute information can be stored in the content DB 2905 in content units (for example, product units), so content field designation search, attribute search, and association search are possible.
[0009]
Next, the attribute information setting device will be described. An attribute information setting device is a device that sets content attribute information by marking up a character string in text information. A general structured document creation apparatus (for example, an SGML editor) has an equivalent function.
[0010]
FIG. 30 shows a block diagram of a conventional attribute information setting apparatus, which shows an overall menu section 3001, an attribute setting section 3002, an attribute deletion section 3003, an attribute range changing section 3005, a file input section 3006, a file output section 3007, and a structure. The verification unit 3008 is configured. The target document file is input from the file input unit 3006, and functions such as the attribute setting unit 3002, the attribute deletion unit 3003, the attribute change unit 3004, and the attribute range change unit 3005 are used while viewing the editor screen of the overall menu unit 3001. Then, the content attribute information is set, deleted, changed, and changed in range, and output from the file output unit 3007. The document object is managed without distinguishing the browsing tag and the content attribute tag, and is verified by the structure verification unit 3008.
[0011]
FIG. 31 is a conceptual diagram of a browsing document structure and content attribute information of an attribute-tagged document (generally an XML document). In the figure, white circles indicate browsing tags and black circles indicate content attribute tags. Since the structure verification unit 3008 of the conventional attribute information setting apparatus 3000 manages the browsing document and the content attribute information in the same way, for example, when only the parent-child relationship can be verified, there is a grammatical restriction between the white circle and the black circle. Even if there is no limit between white circles and black circles, verification may not be possible. Therefore, the restriction is relaxed and effective grammar verification cannot be performed.
[0012]
[Problems to be solved by the invention]
In the above prior art, a search engine system that does not consider content attribute information has the following problems.
(1) The division of content (for example, product information) in a document is unknown, and can be classified by page and searched only by page.
(2) The content field cannot be specified, and the search results are noisy. For example, if you think “I want to buy sake” and search for the keyword “Sake”, I search for not only Japanese sake but also people who like sake.
(3) Content attributes (for example, product price, color, etc.) cannot be recognized. Therefore, search by attribute is not possible. For example, it is impossible to search for “Japanese sake under 3000 yen”. Also, it is difficult to reuse information. That is, it cannot be associated with other DBs using the attribute.
[0013]
In contrast, in an automatic collection and classification system in which content attribute information is fixed, content attribute information is prepared in the document or separately from the document, and the system can acquire attribute information, so classification by content unit is possible. You can search by specifying the content field, search by content attribute (eg, search for “Japanese sake under 3000 yen”), and link with other data using the content attribute. The problem of the search engine system that does not consider content attribute information is almost solved.
[0014]
However, in the automatic collection and classification system in which the content attribute information is fixed, the structure and expression format of the document for viewing and the structure and format of attribute information suitable for service provision generally do not match. It happens newly.
(1) When content attribute information is prepared separately from a browsing document (information called so-called metadata), there is a divergence in which information obtained by directly browsing a document file does not match information obtained by automatic collection. In particular, in the case of a document file describing a plurality of contents (such as a product catalog), the information is described twice, and the possibility is high.
(2) When a character string in a browsing document is marked up with a tag as content attribute information (this is a general usage of XML), the document structure / description format in the document file is restricted, or conversely provided. This information must be the same as the document structure / description format in the document file.
In particular, if XML is used as it is, the method of assigning attributes to the same content, the name of the attribute, the description format, etc. differ depending on the creator, or attributes suitable for application to other services are given. There is no guarantee. That is, documents collected from a plurality of computers (sites) cannot be stored in a common structure format (DB table or the like) in consideration of provision of other services.
[0015]
On the other hand, in a system for associating content attribute information with a browsing tag and a character string, only the browsing information is stored in the browsing document file, and the correspondence tag between the browsing tag and the character string and the content attribute is stored in the system. Is stored in advance, and the content attribute is extracted from the browsed document with reference to this. Therefore, the problem of the search engine system that does not consider the content attribute information can be solved under the condition that the correspondence rule is correct. Further, the problem (1) of the automatic collection and classification system in which the content attribute information is fixed does not exist.
However, the restriction that the browsing document must follow the corresponding rule is necessary, and a strong restriction occurs in the structure of the browsing document. In the case of a product catalog or the like, the freedom of expression for consumers is limited, which is a big problem. This is a problem equivalent to the above (2) of the automatic collection and classification system in which the content attribute information is fixed.
[0016]
Next, the conventional attribute information setting device has the following problems.
(1) Although the results of browsing by general users can be seen, the automatic collection / classification device does not have a function to view the results of attribute extraction / normalization (structure, value format) processing. , The data creator cannot know how the data is used.
(2) Since the browsing tag and the content attribute tag are not managed separately, the tag structure verification becomes complicated. As shown in FIG. 31, generally, the restrictions between the browsing tags and the content attribute tags are relatively strong, but there are often loose restrictions between the browsing tags and the content attribute tags (for example, XML). Limit as a form of aptitude in language). In that case, since each is not managed separately, the structure verification unit that can verify only the parent-child relationship must be a loose restriction as a whole, and does not function effectively.
[0017]
An object of the present invention is to solve the above-mentioned problems of the prior art and to realize a service that allows content information distributed on a network to be freely reused except for simple browsing.
[0018]
More specifically, the object of the present invention is to automatically set content information distributed on a network, by enabling the information format at the time of service provision and the structure format of the browsing document prepared by the information provider to be freely set. It is to be possible to construct a service providing database without being restricted by the structure and format of the browsing document of the provider.
[0019]
[Means for Solving the Problems]
The invention of claim 1 is a content attribute information normalization method for constructing a service providing database that does not depend on the structure / format of the browsed document from the browsed document provided by the information provider,
Provided by the information provider, By marking up the text in the document with tags, A step of collecting a document file including content attribute information having a structure / format adapted to a viewed document;
Normalizing character codes for the collected document files;
The character code was normalized From a document file, it has a structure and format that matches the viewed document. Extracting content attribute information;
Normalizing content attribute information having a structure / format adapted to the extracted browsing document into a structure / format suitable for service provision (hereinafter, attribute normalization step);
Storing the normalized content attribute information in a content database in units of content,
The attribute normalization step includes:
About the extracted content attribute information, content expansion, attribute name normalization, attribute division, and other attributes Do the conversion Normalizing the structure tailored to the viewed document into a structure suitable for service provision;
The content attribute information whose structure is normalized includes a step of normalizing a character expression format and a numerical expression.
[0020]
Further, the invention of claim 2 is the content attribute information normalization method according to claim 1, wherein the field normalization / attribute independent rule, field dependent / attribute independent rule, field Independent and attribute-dependent rules and field-dependent and attribute-dependent rules are provided, and managed by content fields and attribute names.
[0021]
The invention of claim 3 is an information collecting / service providing system in which an information provider's website, host device, and user terminal are connected via a network.
The host device
Provided by information providers of websites distributed on the network, By marking up the text in the document with tags, An automatic information collecting means for collecting a document file including content attribute information having a structure / format adapted to a browsing document;
For the collected document files, the character code is normalized, and the character code is normalized. From a document file, it has a structure and format that matches the viewed document. Attribute extraction means for extracting content attribute information;
Attribute normalization means for normalizing content attribute information having a structure / format adapted to the extracted browsing document into a structure / format suitable for service provision;
A content database that stores the normalized content attribute information in units of content;
Service providing means for performing a service in response to a request from a user terminal using content attribute information stored in the content database;
The attribute normalization means, for the content attribute information extracted by the attribute extraction means, content expansion, attribute name normalization, attribute division, to other attributes Do the conversion The structure according to the browsing document is normalized to a structure suitable for service provision, and the content attribute information in which the structure is normalized is normalized in a character expression format and in a numerical expression.
[0022]
According to a fourth aspect of the present invention, in the information collection / service providing system according to the third aspect, the host device further includes field-independent / attribute-independent rules, field-dependent / attribute-independent as normalization rules for normalization processing. It has rules, field-independent / attribute-dependent rules, field-dependent / attribute-dependent rules, and is managed by content field and attribute name.
[0023]
The invention of claim 5 is a computer-readable recording of a content attribute information normalization program for building a service providing database that does not depend on the structure and format of the browsed document from the browsed document provided by the information provider. A recording medium,
Provided by the information provider, By marking up the text in the document with tags, A process of collecting document files including content attribute information having a structure and format adapted to the viewed document;
Processing for normalizing the character code for the collected document files;
The character code was normalized From a document file, it has a structure and format that matches the viewed document. Processing to extract content attribute information;
Processing for normalizing content attribute information having a structure / format adapted to the extracted browsing document into a structure / format suitable for service provision (hereinafter, attribute normalization processing);
Storing the normalized content attribute information in a content database in units of content,
The attribute normalization process is:
About the extracted content attribute information, content expansion, attribute name normalization, attribute division, and other attributes Do the conversion , Normalizing the structure according to the viewed document into a structure suitable for service provision,
For content attribute information whose structure is normalized, including normalization of character expression format, normalization of numerical expression,
A program for executing these processes by a computer is recorded.
[0024]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram of an information collection / service providing system that automatically collects content information distributed on a network, extracts and normalizes attributes, and reuses the information as a search service as an embodiment of a system to which the present invention is applied. Is shown. In the figure, 100 is a host device (referred to as an automatic information collection / classification device here) serving as a search engine, 110 is a network such as the Internet, and 120 is an information provider (IP) website distributed over the network. , 130 is a user terminal that uses the automatic information collection and classification apparatus 100.
[0025]
The Web site 120 includes an attribute information setting device 125 that creates a browsing document file (for example, an XML document) including content attribute information. With this attribute information setting device 125, it is possible to include content attribute information in a centrally held form in a browsing document (generally an HTML document) that can have various structures. In addition, Configuration of attribute information setting device 125 Will be described later.
[0026]
The automatic information collection and classification apparatus 100 circulates the Web site 120 on the network 110 and automatically collects a document file (for example, an XML document) including content attribute information. Content is collected from the collected document file. An attribute extraction unit 102 that extracts attribute information, an attribute normalization unit 103 that normalizes the extracted content attribute information such as structure conversion and attribute name / attribute value format conversion for reuse of a search service, etc. A content database (content DB) 105 for storing content attribute information normalized by the control unit 104, each attribute normalization unit 103, and the content unit such as a product unit, and a normalization process by the attribute normalization unit 103 Rules for managing content rules by content field, attribute name, etc., content D Using the contents of 105, and the like the user service providing unit 108 for providing such search service by the content attribute information to the user. The broken line correspondence rule 107 indicates an option. Like the correspondence rule 2904 in FIG. 29, the correspondence rule between the browsing tag and the character string in the browsed document file and the content attribute is retained to extract the attribute. The part 102 indicates that the content attribute can be extracted from a document file (generally an HTML document) containing only browsing information.
[0027]
The user accesses the automatic information collection and classification apparatus 100 using the user terminal 130, performs a field designation search, an association search, and the like, and directly browses the document file on the website 120 based on the search result.
[0028]
2 and 3 show the entire processing flow of the automatic information collection and classification apparatus 100, and FIG. 4 shows the structure of the target document and the transition in the processing process. Hereinafter, an embodiment of content attribute information extraction / normalization processing according to the present invention will be described with reference to FIGS. 2 and FIG. 3 can be provided by being recorded on a computer-readable recording medium such as a floppy disk, a memory card, or a CD-ROM. .
[0029]
The target document in this embodiment is an XML document. XML is a document structure description (markup) language in which tags can be freely defined, and content attributes can be automatically extracted by using the content attribute tags defined in XML. It is also possible to include attributes that are not used during browsing.
[0030]
In FIG. 1, the information provider (IP) uses the attribute information setting device 125 to mark a character string in a browsing document (generally described in HTML) with a tag so as to match the browsing document. A document file (XML document) including content attribute information having a structure / format is created and prepared in the Web site 120. 4A shows the structure of the HTML document, and FIG. 4B shows the structure of the XML document. The document file of the website 120 may be described in the XML format from the beginning.
[0031]
The automatic information collection unit 101 of the automatic information collection and classification apparatus 100 circulates the Web site 120 on the network 110 to automatically collect document files (XML documents), and information in IP units and information in page units from the document files. Are extracted (steps 201 to 203). The information extracted here is an XML document as it is, in which content attribute information having a structure / format adapted to the browsing document is mixed with the browsing information (FIG. 4C).
[0032]
The attribute extraction unit 102 normalizes the character code of the XML document collected and extracted by the automatic information collection unit 101 (step 204), and then extracts only the content attribute information (step 205). Here, the normalization of the character code is to deal with this because document files on the network are often described in various character codes. Extraction of only content attribute information from a document file is possible, for example, by operating a parser (such as an SGML parser) that interprets tags so as to interpret only tags for content attribute information (ignoring browsing tags). It is. Which tag is a content attribute information tag is stored as a setting file and is referred to. For example, it is held as a default attribute of DTD in SGML. In this case, it can be reused as a setting file for document creation / editing. The content attribute information extracted here has a structure / format adapted to the browsed document. FIG. 4D shows this.
[0033]
The attribute extraction unit 102 holds the browsing tag and the correspondence rule 108 between the character string and the content attribute (for example, “price” always appears before the character “yen”). In this case, the content attribute information can be extracted from the browsed document with reference to the rule 108.
[0034]
The attribute normalization unit 103 refers to the normalization rule 104 and converts the content attribute information having a structure and format that matches the browsed document extracted by the attribute extraction unit 102 into a format suitable for providing a service such as a search service. Normalize. The normalization rule 104 includes a field-independent / attribute-independent rule, a field-dependent / attribute-independent rule, a field-independent / attribute-dependent rule, a field-dependent / attribute-dependent rule, and the like. is doing.
[0035]
The attribute normalization unit 103 first recognizes the field of the target content (content attribute information having the same shape as the structure of the viewed document) from the category tag value of the content attribute information (step 206). This is because the schema of the content DB 105 differs depending on the field, so it is necessary to recognize it first. Next, with respect to the target content (content attribute information), the structure according to the browsed document is normalized to a structure suitable for service provision (step 207), and the content attribute information with the normalized structure is further expressed in character representation. Format normalization (step 208) and numerical expression normalization (step 209) are performed. FIG. 4 (e) shows the concept of normalization. Finally, the normalized content attribute information is stored in the content DB 105 in units of content (step 210). The normalization of the character expression format and the normalization of the numerical expression may be performed in reverse order. In some cases, the attribute structure is converted, for example, divided into a numerical value portion and a unit portion.
[0036]
Hereinafter, the process of normalizing the attribute structure, normalizing the character expression format, and normalizing the numerical expression will be described in detail.
[0037]
The normalization of the attribute structure is roughly divided into content expansion processing, attribute name normalization, attribute division, and conversion to other attributes. Furthermore, the content development process is divided into two. Here, they are referred to as a content development process (1) and a content development process (2).
[0038]
In order to represent a variant of one content as browsing information, it may have a structure having a plurality of the same attributes, but it may be more convenient to store it as another content when providing a service. In such a case, the content development process (1) is applied and developed as another content. For example, if a beverage product has the same contents and the price changes depending on the capacity, the browsing document (product catalog) is expressed as a variant of the same product, and the content attribute information expressed by reuse is also included. It has the same shape. In many cases, each product is handled at the time of service provision, and in such a case, a function of developing them is essential. FIG. 5 shows a conceptual diagram of the content development process (1). Note that the example of the content development process in FIG. 4E corresponds to this content development process.
[0039]
On the other hand, content of the same genre is often described as a single piece of browsing information. In this case, the content expansion process (2) is applied to consider a group as an object, and attribute information set for the object is expanded as a default attribute of the child object. For example, when a series of product types of a beverage product all belong to the product “Ginjo”, it may be described in the catalog as “Ginjo”, and all subsequent products are implicitly written as “Ginjo”. When providing a service, since it is handled as each product, it is necessary to add that the manufacturing method = Ginjo to the attribute of each product information. FIG. 6 shows a conceptual diagram of the content development process (2).
[0040]
The attribute name normalization is performed when the item names of the same attribute are conceptually different. FIG. 7 shows an example of attribute name normalization. On the other hand, attribute division is performed when it is easier to conceptually divide into multiple attributes. FIG. 8 shows an example of attribute division.
[0041]
Conversion (normalization) to another attribute is a process of converting from a single attribute or a plurality of attributes to another single or a plurality of attributes. For example, the mouth of the sake is calculated from the sake degree and the acidity, and the mouth of the mouth is determined according to which region in FIG. 9 is entered (calculated by inequality).
[0042]
Normalization of the character expression format, for example, if you want to provide a service by classifying the sake production method into Daiginjo, Ginjo, and ordinary three types, the expression in the document for viewing is “Daiginjo Sake” Even “Ginjo no Sake” is to be normalized to Daiginjo (if only the expression “Daiginjo” is allowed, the expression of the product catalog for general customers will be restricted). In addition, the code system is normalized. In this case, a conditional statement such as a logical expression can be used.
[0043]
For example, normalization in the numerical format is performed by the processing procedure of FIG. On the browsed document, the numerical values vary in expression such as full-width / half-width representation, normal numerical values / Chinese numerals, comma-separated / none, and these are normalized (step 1001). In the numerical value with the unit, the way of expressing the unit varies. For example, there are \ 1000, 1000 yen, 1000 yen, etc. as price expressions. These are recognized (step 1002). The recognized unit system is converted to a unit system used for service provision (step 1003). Also, a plurality of values and numerical values with ranges are recognized and converted (step 1004). For example, based on information such as “1000 yen or more and less than 2000 yen and 3000 yen or more and less than 4000 yen”, it is converted into a format suitable for service provision. If two numerical ranges can be handled by one content for service provision, it is stored as it is, and if there is only one numerical range, it is expanded into two contents and stored.
[0044]
11 to 19 show specific processing examples of content attribute information extraction / normalization according to the present embodiment.
FIG. 11 shows a document file (XML document) provided by the information provider, which is included in the browsing document (HTML document). String The content attribute information is set by marking up with an arbitrarily defined tag. In FIG. 11, a portion surrounded by tags (for example, <MEMO>... </ MEMO>) shown in bold is content attribute information.
[0045]
FIG. 12 is data obtained by extracting the content attribute information from the document file (XML document) of FIG. 11 as it is, and the content attribute information remains in the structure and format according to the browsing document of the information provider. FIG. 13 represents the content attribute information of FIG. 12 in a tree structure format. As can be seen from FIG. 13, this is not necessarily a structure / format suitable for providing a search service or the like.
[0046]
FIG. 14 shows the result of applying the content development process (2) to the target content (content attribute information) of FIG. FIG. 15 shows a result of further applying the content development process (1) to the development result of FIG. 14. As a result, the target content of FIG. 12 is developed into four contents. FIG. 16 shows the result of applying the normalization of the character expression format and the normalization of the numerical format to the content development processing result of FIG.
[0047]
When the normalized content attribute information of FIG. 16 is expressed in a tree structure format, it is as shown in FIGS. Compared to FIG. 13, it can be seen that the structure and format are suitable for providing search services and the like.
[0048]
19 represents the normalized content attribute information of FIG. 16 in a table format, and the content DB 105 of FIG. 1 stores the content attribute information in such a format. In this way, a database (related database) for providing a search service or the like can be constructed without being restricted by the structure / format of the browsing document (HTML document).
[0049]
Next, the attribute information setting device will be described.
FIG. 20 is a block diagram showing an embodiment of the attribute information setting device. The feature of the attribute information setting device 2000 is that an attribute extraction / normalization preview unit 2008 and a structure verification unit 2009 for separately managing and verifying a plurality of tag sets are provided in the conventional device shown in FIG. The attribute extraction / normalization preview unit 2008 has basically the same function (equivalent or simplified version) as the attribute extraction unit 102, the attribute normalization unit 103, etc. in the automatic information collection and classification apparatus 100 of FIG. The content attribute information is extracted / normalized from the document file (XML document) and previewed. The structure verification unit 2009 separately manages a plurality of tag sets for the viewing document and the content attribute information, and verifies the structure by ignoring each other.
[0050]
The attribute information setting device 200 is installed and used in the Web site 120 as indicated by the device 125 in the system of FIG. In this case, according to the attribute information extraction / normalization preview unit 2008, the information provider (IP) uses the automatic information collection and classification apparatus 100 to determine how the content attribute information is generated for the created document file (XML document). It can be extracted / normalized or previewed, and more effective content attribute information can be set. FIG. 21 shows an editor screen of the document file (XML document) in FIG. 11, and FIG. 22 shows a corresponding attribute extraction / normalization result preview screen. Note that the attribute extraction / normalization result preview unit 2008 in this example is a simplified version that does not have a unit conversion function, and therefore, “l” and “ml” are mixed in capacity. Further, according to the structure verification unit 2009, when handling a plurality of tag sets whose mutual restrictions are weak and restrictions between the same type of tags are strong, for example, the tag sets of the viewing document and the content attribute information are mutually ignored. By performing grammar verification, it becomes possible to perform stricter grammar verification. FIG. 23 shows a conceptual diagram of management / verification of a plurality of tag sets by the structure verification unit 2009.
[0051]
【The invention's effect】
In the information collection / service provision system to which the present invention is applied, the host device such as a search engine has a function of converting the attribute information structure, attribute name, attribute value format, etc. in the document file for browsing to be reused. The degree of freedom of expression of the browsing document (for example, a product catalog) can be increased. On the contrary, it is possible to construct a service providing database without being bound by the structure and format of an existing browsing document.
[0052]
In addition, by marking up character strings in text information, the device for setting content attribute information is provided with an attribute extraction / normalization preview function and a function for separately managing and verifying a plurality of tag sets. The author can see the result of the host device extracting and normalizing (structure, value format) the attributes, making it possible to set more effective attributes. When handling a plurality of tag sets with strong restrictions, it is possible to perform stricter grammar verification by performing grammar verification on each tag set.
[Brief description of the drawings]
FIG. 1 is a block diagram of an embodiment of an information collection / service provision system to which the present invention is applied.
FIG. 2 is a part of an overall processing flowchart for explaining the operation of FIG. 1;
3 is a continuation of the process flowchart of FIG.
FIG. 4 is a diagram showing an outline of a document structure and processing process as a target of the present invention;
FIG. 5 is a view for explaining content development processing (1) for attribute structure normalization according to the present invention;
FIG. 6 is a diagram for explaining content development processing (2).
FIG. 7 is a diagram illustrating normalization of attribute names.
FIG. 8 is a diagram for explaining attribute division;
FIG. 9 is a diagram for explaining normalization to other attributes;
FIG. 10 is a flowchart for explaining normalization in a numerical format.
FIG. 11 is a specific example of a document file as a target of the present invention.
12 is content attribute information extracted from the document file of FIG.
13 is a diagram expressing the content attribute information of FIG. 12 in a tree structure format.
14 is a diagram illustrating a result of applying content development processing (1) to the content attribute information of FIG. 11. FIG.
FIG. 15 is a diagram illustrating a result of further applying content development processing (2) to the data in FIG. 14;
16 is a diagram illustrating a result of applying normalization in a character representation format and a numerical format to the data in FIG.
17 is a partial view of the data in FIG. 16 expressed in a tree structure format.
FIG. 18 is a continuation of the tree structure format representation of FIG.
FIG. 19 is a diagram representing the data of FIG. 16 in a table format.
FIG. 20 is a block diagram of an embodiment of an attribute information setting device according to the present invention.
FIG. 21 is a diagram showing an editor screen of the document file of FIG. 11 in the attribute information setting device.
22 is a diagram showing an editor preview result corresponding to FIG. 19 in the attribute information setting apparatus. FIG.
FIG. 23 is a diagram for explaining management / verification of a plurality of tag sets in the attribute information setting device according to the present invention.
FIG. 24 is a block diagram of a conventional search engine system that does not consider content attribute information.
FIG. 25 is a diagram for explaining the structure of a target document in the system of FIG. 24;
FIG. 26 is a diagram illustrating a specific example of a document targeted by the system of FIG. 24;
FIG. 27 is a block diagram of a conventional automatic collection and classification system with fixed content attribute information.
FIG. 28 is a diagram for explaining the structure of a document targeted by the system of FIG. 27;
FIG. 29 is a block diagram of a system for associating conventional content attribute information with a browsing tag and a character string.
FIG. 30 is a block diagram of a conventional attribute information setting device.
FIG. 31 is a diagram for explaining tag set management / verification in a conventional attribute information setting apparatus;
[Explanation of symbols]
100 Automatic information collection and classification device (host device)
101 Automatic information collection unit
102 Attribute extraction unit
103 Attribute normalization part
104 Control unit
105 Content database
106 Normalization rule
107 Applicable rules
108 Service provision department
110 network
120 Website
130 User terminal
120, 2000 Attribute information setting device
2008 Attribute extraction / normalization preview section
2009 Structure verification unit

Claims (5)

情報提供者が提供する閲覧文書から、該閲覧文書の構造・形式に依らないサービス提供用のデータベースを構築するためのコンテンツ属性情報正規化方法であって、
情報提供者が提供する、閲覧文書中の文字列をタグでマークアップすることで、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報の含まれる文書ファイルを収集するステップと、
前記収集した文書ファイルについて、文字コードを正規化するステップと、
前記文字コードが正規化された文書ファイルから、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を抽出するステップと、
前記抽出された閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を、サービス提供に適した構造・形式に正規化するステップ(以下、属性正規化ステップ)と、
前記正規化されたコンテンツ属性情報をコンテンツデータベースにコンテンツ単位に格納するステップとを有し、
前記属性正規化ステップは、
前記抽出されたコンテンツ属性情報について、コンテンツの展開、属性名の正規化、属性の分割、他属性への変換を行って、閲覧文書に合わせた構造をサービス提供に適した構造に正規化するステップと、
前記構造が正規化されたコンテンツ属性情報について、文字表現形式の正規化、数値表現の正規化を行うステップと、
を含むことを特徴とするコンテンツ属性情報正規化方法。
A content attribute information normalization method for constructing a service providing database that does not depend on the structure and format of the browse document from the browse document provided by the information provider,
Collecting a document file including content attribute information having a structure / format adapted to the viewed document by marking up a character string in the viewed document provided by the information provider with a tag ;
Normalizing character codes for the collected document files;
Extracting content attribute information having a structure / format adapted to a viewed document from a document file in which the character code is normalized;
Normalizing content attribute information having a structure / format adapted to the extracted browsing document into a structure / format suitable for service provision (hereinafter, attribute normalization step);
Storing the normalized content attribute information in a content database in units of content,
The attribute normalization step includes:
The extracted content attribute information is subjected to content expansion, attribute name normalization, attribute division, and conversion to other attributes to normalize the structure suitable for the service provision to a structure suitable for service provision When,
For the content attribute information whose structure is normalized, normalizing the character expression format, normalizing the numerical expression,
A content attribute information normalization method characterized by comprising:
請求項1記載のコンテンツ属性情報正規化方法において、属性正規化処理の正規化ルールとして、分野非依存・属性非依存ルール、分野依存・属性非依存ルール、分野非依存・属性依存ルール、分野依存・属性依存ルールを備え、コンテンツ分野と属性名で管理することを特徴とするコンテンツ属性情報正規化方法。  2. The content attribute information normalization method according to claim 1, wherein field normalization / attribute independent rules, field dependent / attribute independent rules, field independent / attribute dependent rules, field dependent are used as normalization rules for attribute normalization processing. A content attribute information normalization method comprising an attribute dependency rule and managed by a content field and an attribute name. 情報提供者のWebサイト、ホスト装置、ユーザ端末がネットワークを介して接続された情報収集・サービス提供システムにおいて、
ホスト装置は、
ネットワーク上に分散配置されたWebサイトの情報提供者が提供する、閲覧文書中の文字列をタグでマークアップすることで、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報の含まれる文書ファイルを収集する自動情報収集手段と、
前記収集した文書ファイルについて、文字コードを正規化し、該文字コードが正規化された文書ファイルから、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を抽出する属性抽出手段と、
前記抽出された閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を、サービス提供に適した構造・形式に正規化する属性正規化手段と、
前記正規化されたコンテンツ属性情報をコンテンツ単位に蓄積するコンテンツデータベースと、
前記コンテンツデータベースに蓄積されたコンテンツ属性情報を使用して、ユーザ端末からの要求に対してサービスを行うサービス提供手段とを備え、
前記属性正規化手段は、前記属性抽出手段で抽出されたコンテンツ属性情報について、コンテンツの展開、属性名の正規化、属性の分割、他属性への変換を行って、閲覧文書に合わせた構造をサービス提供に適した構造に正規化し、該構造が正規化されたコンテンツ属性情報について、文字表現形式の正規化、数値表現の正規化を行うことを特徴とする情報収集・サービス提供システム。
In an information gathering / service providing system in which an information provider's website, host device, and user terminal are connected via a network,
The host device
A document file that contains content attribute information that has a structure and format that matches the viewed document by marking up the character string in the browsed document with a tag provided by the information provider of the Web site distributed on the network Automatic information collection means for collecting
About the collected document file, an attribute extraction unit that normalizes a character code, and extracts content attribute information having a structure and a format that matches the viewed document from the document file in which the character code is normalized;
Attribute normalization means for normalizing content attribute information having a structure / format adapted to the extracted browsing document into a structure / format suitable for service provision;
A content database that stores the normalized content attribute information in units of content;
Service providing means for performing a service in response to a request from a user terminal using content attribute information stored in the content database;
The attribute normalization means performs content expansion, attribute name normalization, attribute division, and conversion to other attributes on the content attribute information extracted by the attribute extraction means, and creates a structure according to the viewed document. An information collection / service provision system characterized by normalizing to a structure suitable for service provision, and normalizing a character expression format and a numerical expression for content attribute information in which the structure is normalized.
請求項3記載の情報収集・サービス提供システムにおいて、ホスト装置は、更に、正規化処理の正規化ルールとして、分野非依存・属性非依存ルール、分野依存・属性非依存ルール、分野非依存・属性依存ルール、分野依存・属性依存ルールを備え、コンテンツ分野と属性名で管理することを特徴とする情報収集・サービス提供システム。  4. The information collection / service provision system according to claim 3, wherein the host device further includes a field-independent / attribute-independent rule, a field-dependent / attribute-independent rule, a field-independent / attribute as a normalization rule for normalization processing. An information collection / service provision system comprising dependency rules, field dependency / attribute dependency rules, and managed by content fields and attribute names. 情報提供者が提供する閲覧文書から、該閲覧文書の構造・形式に依らないサービス提供用のデータベースを構築するためのコンテンツ属性情報正規化プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
情報提供者が提供する、閲覧文書中の文字列をタグでマークアップすることで、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報の含まれる文書ファイルを収集する処理と、
前記収集した文書ファイルについて、文字コードを正規化する処理と、
前記文字コードが正規化された文書ファイルから、閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を抽出する処理と、
前記抽出された閲覧文書に合わせた構造・形式を持つコンテンツ属性情報を、サービス提供に適した構造・形式に正規化する処理(以下、属性正規化処理)と、
前記正規化されたコンテンツ属性情報をコンテンツデータベースにコンテンツ単位に格納する処理とを有し、
前記属性正規化処理は、
前記抽出されたコンテンツ属性情報について、コンテンツの展開、属性名の正規化、属性の分割、他属性への変換を行って、閲覧文書に合わせた構造をサービス提供に適した構造に正規化する処理と、
前記構造が正規化されたコンテンツ属性情報について、文字表現形式の正規化、数値表現の正規化を行う処理とを含み、
これら処理をコンピュータで実行するためのプログラムを記録したことを特徴とする記録媒体。
A computer-readable recording medium that records a content attribute information normalization program for constructing a database for providing a service independent of the structure and format of the browsed document from the browsed document provided by the information provider,
Processing to collect document files containing content attribute information with a structure and format that matches the viewed document by marking up the character string in the viewed document provided by the information provider with a tag ,
Processing for normalizing the character code for the collected document files;
Processing for extracting content attribute information having a structure / format adapted to the viewed document from a document file in which the character code is normalized;
A process of normalizing content attribute information having a structure / format adapted to the extracted browsing document into a structure / format suitable for service provision (hereinafter, attribute normalization process);
Storing the normalized content attribute information in a content database in units of content,
The attribute normalization process is:
The extracted content attribute information is subjected to content expansion, attribute name normalization, attribute division, and conversion to other attributes to normalize the structure according to the viewed document to a structure suitable for service provision When,
For content attribute information whose structure is normalized, including normalization of character expression format, normalization of numerical expression,
A recording medium on which a program for executing these processes by a computer is recorded.
JP14653998A 1998-05-12 1998-05-12 Content attribute information normalization method, information collection / service provision system, and program storage recording medium Expired - Fee Related JP4042830B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14653998A JP4042830B2 (en) 1998-05-12 1998-05-12 Content attribute information normalization method, information collection / service provision system, and program storage recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14653998A JP4042830B2 (en) 1998-05-12 1998-05-12 Content attribute information normalization method, information collection / service provision system, and program storage recording medium

Publications (2)

Publication Number Publication Date
JPH11328218A JPH11328218A (en) 1999-11-30
JP4042830B2 true JP4042830B2 (en) 2008-02-06

Family

ID=15409946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14653998A Expired - Fee Related JP4042830B2 (en) 1998-05-12 1998-05-12 Content attribute information normalization method, information collection / service provision system, and program storage recording medium

Country Status (1)

Country Link
JP (1) JP4042830B2 (en)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195400A (en) * 2000-01-17 2001-07-19 Nippon Telegr & Teleph Corp <Ntt> Method and device for structuralizing document context
JP2001229171A (en) * 2000-02-15 2001-08-24 Jcb:Kk Article retrieval system
JP3597104B2 (en) * 2000-03-14 2004-12-02 九州日本電気ソフトウェア株式会社 Electronic catalog automatic collection system
JP2001265781A (en) * 2000-03-17 2001-09-28 Nec Corp System and method for displaying article information for electronic shop and recording medium
US7974875B1 (en) * 2000-03-21 2011-07-05 Aol Inc. System and method for using voice over a telephone to access, process, and carry out transactions over the internet
JP4568953B2 (en) * 2000-04-21 2010-10-27 株式会社エクォス・リサーチ Server device for server communication type navigation system
JP3651768B2 (en) * 2000-05-18 2005-05-25 富士通株式会社 Document file search system
JP3444269B2 (en) * 2000-05-19 2003-09-08 セイコーエプソン株式会社 Network printer for editing and printing content on network and method for printing content on network
JP2002092378A (en) * 2000-09-19 2002-03-29 Sanyo Electric Co Ltd Order processing method, order processing device and recording medium
JP2002108879A (en) * 2000-09-27 2002-04-12 Nec Corp System and method for retrieving product
JP2002132645A (en) * 2000-10-27 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> Information providing method and information providing system
JP4579443B2 (en) * 2001-04-19 2010-11-10 正 五井野 Product search method, product search device, and program
CN1167027C (en) * 2001-08-03 2004-09-15 富士通株式会社 Device and method for extracting information in format document
FR2830957B1 (en) * 2001-10-12 2004-01-23 Commissariat Energie Atomique METHOD AND SYSTEM FOR MANAGING MULTIMEDIA DATABASES
JPWO2006051968A1 (en) * 2004-11-12 2008-05-29 株式会社ジャストシステム Electronic commerce system, electronic commerce support device, and electronic commerce support method
JP2009048220A (en) * 2005-11-14 2009-03-05 Pioneer Electronic Corp Preference information providing unit, content information output device, preference information delivery system, and preference information providing method
KR101199765B1 (en) 2009-04-01 2012-11-09 주식회사 우듯 System and method for searching document
US10963686B2 (en) * 2017-12-01 2021-03-30 International Business Machines Corporation Semantic normalization in document digitization
WO2020086722A1 (en) 2018-10-23 2020-04-30 Yext, Inc. Knowledge search system

Also Published As

Publication number Publication date
JPH11328218A (en) 1999-11-30

Similar Documents

Publication Publication Date Title
JP4042830B2 (en) Content attribute information normalization method, information collection / service provision system, and program storage recording medium
US7293018B2 (en) Apparatus, method, and program for retrieving structured documents
CA2242158C (en) Method and apparatus for searching and displaying structured document
US7072983B1 (en) Scheme for systemically registering meta-data with respect to various types of data
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
US20030088643A1 (en) Method and computer system for isolating and interrelating components of an application
US20010047365A1 (en) System and method of packaging and unpackaging files into a markup language record for network search and archive services
US20110185273A1 (en) System and method for extracting content elements from multiple Internet sources
US20060156220A1 (en) System and method for managing dynamic content assembly
US20090019015A1 (en) Mathematical expression structured language object search system and search method
JPH08241332A (en) Device and method for retrieving all-sentence registered word
JP3803961B2 (en) Database generation apparatus, database generation processing method, and database generation program
WO2004023341A1 (en) Search system, search server, client, search method, program, and recording medium
JP2008090404A (en) Document search apparatus, document search method, and document search program
JP3832693B2 (en) Structured document search and display method and apparatus
JP2010250439A (en) SEARCH SYSTEM, DATA GENERATION METHOD, PROGRAM, AND RECORDING MEDIUM CONTAINING THE PROGRAM
US20110252313A1 (en) Document information selection method and computer program product
JP3914081B2 (en) Access authority setting method and structured document management system
Liu et al. An XML-enabled data extraction toolkit for web sources
US20080015843A1 (en) Linguistic Image Label Incorporating Decision Relevant Perceptual, Semantic, and Relationships Data
JP3632643B2 (en) Structured document management device
JP3842576B2 (en) Structured document editing method and structured document editing system
JP2002297601A (en) Method and device for structured document management, and program
JP2003288365A (en) Additive information management method and additive information management system
Gottron Content extraction-identifying the main content in HTML documents.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040518

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060731

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees