JPH11203321A - メタ情報管理機能を備えた情報提供装置 - Google Patents
メタ情報管理機能を備えた情報提供装置Info
- Publication number
- JPH11203321A JPH11203321A JP10008416A JP841698A JPH11203321A JP H11203321 A JPH11203321 A JP H11203321A JP 10008416 A JP10008416 A JP 10008416A JP 841698 A JP841698 A JP 841698A JP H11203321 A JPH11203321 A JP H11203321A
- Authority
- JP
- Japan
- Prior art keywords
- information
- meta
- document
- collection
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
設けることにより、情報提供装置とネットワークヘの負
荷を軽減し、情報収集を高速化すること。 【解決手段】 ネットワーク4を介して情報提供装置1
と情報収集装置2とクライアント3が接続され、情報提
供装置1から情報収集装置2に対して、文書格納部1d
に格納された文書情報を提供する。情報提供装置1に
は、各文書の更新情報を生成するメタ情報管理部1a
と、更新情報を記録するメタ情報テーブル1bが設けら
れており、情報収集装置2が情報提供装置1に対して収
集要求を行うと、メタ情報管理部1aはメタ情報テーブ
ル1bを参照して収集する文書および/または収集対象
からはずす文書の一覧を生成し情報収集装置2に提供す
る。
Description
報の収集を効率化できるようにしたメタ情報管理機能を
備えた情報提供装置に関する。近年、World Wide Web
(以下、WWW)と呼ばれる分散ハイパー・テキスト・
システムが急速に普及し、非常に多くの情報がWWW上
で提供されるようになった。WWWは、情報を提供する
複数のWWWサーバと、情報にアクセスするためのブラ
ウザと呼ばれるクライアントから構成される。一つのW
WWサーバは、複数のWebページを管理し、Webペー
ジ間はリンクによって結ばれている。利用者はリンクを
たどりながら情報にアクセスする。WWWで提供される
情報を検索するためには、よく検索エンジンが利用され
る。検索エンジンは、Webロボットと呼ばれる情報収
集装置を用いて、WWWサーバが提供している情報を収
集して、それを元にインデックスを作成し、検索機能実
現している。
ジの情報を収集する場合、多くのWWWサーバが管理し
ているWebページを、リンクをたどりながら1つずつ
アクセスして情報を集めている。WWWサーバの情報
は、日々更新されていくため、検索のために必要となる
情報を集めるために、Webロボットは、定期的にWe
bサーバにアクセスする必要がある。従来は、内容が更
新されるかどうかに関わらず、すべてのWebページに
アクセスをして情報を収集していた。
bロボットは、情報を収集するたびに、WWWサーバが
管理する全Webページに順々にアクセスしていく。こ
のとき、WWWサーバが管理するWebページの数が多
くなると、Webロボットは、一つのWWWサーバに連
続してアクセスするため、WWWサーバに大きな負荷を
かけてしまう。同時に、Webロボットは、大量の情報
を収集するために、ネットワークのトラフイックを増大
させる原因となっている。また、WWWぺージの数が多
くなると、全Webページを一回りするのに膨大な時間
がかかるようになるため、検索エンジンに使われるデー
タの更新に遅延が発生してしまう。このため、検索エン
ジンによって、最新の情報を検索することができなくな
る。
たものであって、その目的とするところは、情報を提供
する装置において、文書の更新情報を管理するメタ情報
管理部を設けることにより、情報提供装置とネットワー
クヘの負荷を軽減し、情報収集を高速化することであ
る。
図である。同図において、1は情報提供装置、2は情報
収集装置、3はクライアントでありこれらはネットワー
ク4を介して接続されている。情報提供装置1におい
て、1aはメタ情報管理部、1bは文書の更新情報を記
録するメタ情報テーブルであり、メタ情報管理部1aは
文書格納部1dに格納される文書の更新情報を管理し、
情報収集装置2から情報収集要求があったとき、メタ情
報テーブル1bを参照して、収集文書一覧を生成し、情
報収集装置2に送出する。また、1cは情報収集装置名
が登録される情報収集テーブルであり、情報収集テーブ
ル1cに情報収集装置名が登録されていると、メタ情報
管理部1aはメタ情報テーブルに変更があった際に、上
記情報収集装置に対し、情報の収集を依頼する。
に、各文書の更新情報を管理するメタ情報管理部1a
と、メタ情報テーブル1bを設け、情報収集装置2が情
報を収集する際にこの情報を利用して、効率よく情報収
集を行うことを可能にしたので、情報収集装置2が、更
新されていない情報の情報収集を行うことがなくなり、
情報提供装置1やネットワーク4の負荷を軽減できる。
また、同時に情報収集の頻度を高めることができるた
め、検索エンジンは、より新しい情報を利用者に提供で
きるようになる。なお、メタ情報テーブル1bに記録す
る各文書の更新情報としては、文書の更新時刻、バージ
ョン情報、更新順を示すシリアル番号とすることができ
る。また、上記のように情報収集テーブル1cを設け、
メタ情報管理部1aはメタ情報テーブルに変更があった
際に、情報収集装置名が登録されている情報収集装置に
対し、情報の収集を依頼するようにすることにより、一
層効率的に情報収集を行うことができる。
明する。図2は、本発明の実施例のシステム構成図であ
る。同図において、11は本発明に係わるWWWサーバ
等の情報提供装置、12は前記したWebロボット等の
情報収集装置、13はクライアントであり、情報提供装
置11、情報収集装置12、クライアント13はネット
ワーク14を介して接続されている。情報提供装置11
は、文書格納部21、メタ情報管理部22、メタ情報テ
ーブル23aを備えたメタ情報格納部23、情報収集テ
ーブル24aを備えた情報収集装置格納部24、データ
送受信部25から構成される。メタ情報管理部22は、
定期的または文書が更新されたときに、文書格納部21
に保存されている文書にアクセスし、文書名と文書の更
新情報をメタ情報格納部23のメタ情報テーブル23a
に保存する。
23aの例を示す図である。図3は更新情報を日時とし
た場合で定期的にメタ情報テーブルを生成する場合の例
を示しており、同図に示すように、チェック日時毎に各
文書1,2,…の更新日時が確認され、各文書の更新日
時がメタ情報テーブルに書き込まれる。図4は更新情報
を各文書のバージョン情報とした場合で定期的にメタ情
報テーブルを生成する場合の例を示しており、同図に示
すように、チェック日時毎に各文書1,2,…のバージ
ョン情報が確認され、各文書のバージョン情報がメタ情
報テーブルに書き込まれる。図5は文書が更新されたと
きに生成されるメタ情報テーブルの例を示しており、同
図に示すように、更新日時順にシリアル番号が付されて
文書名と更新/削除/新規の別がメタ情報テーブルに書
き込まれる。
収集装置12やクライアントアプリケーション13と、
情報の送受信を行う。クライアントアプリケーション1
3から情報提供装置11に対して情報取得要求があった
場合、データ送受信部25は、該当する情報を文書格納
部21から取り出して送り返す。また、情報収集装置1
2が情報提供装置11に対して、前に収集を行った時刻
とともに収集要求を行うと、データ送受信部25はメタ
情報管理部22にその要求を伝える。メタ情報管理部2
2は、メタ情報テーブル23aから上記時刻以降に変更
があった文書を検索し、収集文書テーブルを生成する。
収集文書テーブルには、図6に示すように変更があった
文書、削除された文書、新しく生成された文書が登録さ
れる。データ送受信部25は作成された収集文書テーブ
ルを情報収集装置12に送り返す。情報収集格納部24
の情報収集テーブル24aには、図7に示すように情報
収集装置名が登録される。情報収集テーブル24aに情
報収集装置名が登録されていると、情報提供装置11
は、メタ情報テーブル23aに変更があった時点で、情
報収集テーブル24aに登録された情報収集装置に対し
て情報の収集を依頼する。
タ情報を利用して情報収集を行うときのフローチャート
である。図8において、情報収集装置12は、前の収集
を行った時刻Tとともに、情報提供装置11に対して収
集要求を行う(ステップS1)。データ送受信部25
は、要求を受け取ると、メタ情報管理部22にその要求
を伝える。メタ情報管理部22は、受け取った時刻T以
前の情報がメタ情報テーブル23a(図3参照)に残っ
ているかを調べ(ステップS2)、残っていない場合に
は、情報収集装置12に対して全文書を取得するように
返答する(ステップS3)。また、受け取った時刻T以
前の情報がメタ情報テーブル23aに残っている場合に
は、I=1に設定し(ステップS4)、図6に示した収
集文書テーブルを生成する(ステップS5)。
と、I≦Nであるかを調べ、I≦Nの場合には、メタ情
報テーブル23aを参照して文書Iが時刻Tから変更さ
れているかを調べる(ステップS7)。そして、文書I
が時刻Tから変更されていない場合にはI=I+1とし
(ステップS9)、ステップS6に戻る。また、文書I
が時刻Tから変更されている場合には、文書Iを収集文
書テーブルに追加し(ステップS8)、ステップS9に
いく。以上の処理をI≦Nの間行い、I>Nになると、
データ送受信部25は生成された収集文書テーブルを情
報収集装置12に送り返す(ステップS10)。情報収
集装置12は、情報提供装置11から送られてきた収集
文書テーブルに基づき必要な文書だけを取得する。図8
では、前記図3に示したメタ情報テーブル23aを利用
する場合について説明したが、図4のように各文書のバ
ージョン情報を利用する場合も同様な手順で収集文書テ
ーブルを生成することができる。
タ情報を利用して情報収集を行うときのフローチャート
である。図9において、情報収集装置12は、前の収集
を行ったシリアル番号Aとともに、情報提供装置11に
対して収集要求を行う(ステップS1)。データ送受信
部25は、要求を受け取ると、メタ情報管理部22にそ
の要求を伝える。メタ情報管理部22は、受け取ったシ
リアル番号A以前の情報がメタ情報テーブル23a(図
5参照)に残っているかを調べ(ステップS2)、残っ
ていない場合には、情報収集装置12に対して全文書を
取得するように返答する(ステップS3)。また、受け
取った時刻T以前の情報がメタ情報テーブル23aに残
っている場合には、I=1に設定し(ステップS4)、
図6に示した収集文書テーブルを生成する(ステップS
5)。
と、I≦Nであるかを調べ、I≦Nの場合には、メタ情
報テーブル23aを参照して文書Iがシリアル番号Aか
ら変更されているかを調べる(ステップS7)。そし
て、文書Iがシリアル番号Aから変更されていない場合
にはI=I+1とし(ステップS9)、ステップS6に
戻る。また、文書Iがシリアル番号Aから変更されてい
る場合には、文書Iを収集文書テーブルに追加し(ステ
ップS8)、ステップS9にいく。以上の処理をI≦N
の間行い、I>Nになると、データ送受信部25は生成
された収集文書テーブルを情報収集装置12に送り返す
(ステップS10)。情報収集装置12は、情報提供装
置11から送られてきた収集文書テーブルに基づき必要
な文書だけを取得する。
文書テーブルを送り返す際、収集文書テーブルを圧縮
し、圧縮データを情報収集装置12に送るようにしても
よい。これにより、伝送時間を短縮することができる。
また、上記収集文書テーブルを送り返す際、文書格納部
21に格納された文書自体を、収集文書テーブルととも
に情報収集装置12に送るようにしてもよい。
は、情報提供装置にメタ情報管理機能を設けたので、情
報収集装置は効率よく情報収集を行なうことが可能にな
り、情報提供装置にかかる負荷とネットワークの負荷を
軽減することができる。これによって、情報更新の回数
を増やす事ができ、より新しいデータの検索を行うこと
が可能となる。
る。
(1)を示す図である。
(2)を示す図である。
(3)を示す図である。
例を示す図である。
の一例を示す図である。
る。
る。
Claims (9)
- 【請求項1】 ネットワークを介して情報収集装置に接
続された情報提供装置において、 情報提供装置に、各文書の更新情報を生成するメタ情報
管理部と、更新情報を記録するメタ情報テーブルを設
け、 情報収集装置が情報提供装置に対して収集要求を行った
とき、上記メタ情報管理部はメタ情報テーブルを参照し
て収集する文書および/または収集対象からはずす文書
の一覧を生成し情報収集装置に提供することを特徴とす
る情報提供装置。 - 【請求項2】 メタ情報管理部はメタ情報テーブルを参
照し、情報収集装置に、収集する文書の一覧として、変
更した文書の一覧、新しく生成した文書の一覧を提供す
るとともに、収集対象からはずす文書の一覧として削除
する文書の一覧を提供することを特徴とする請求項1の
情報提供装置。 - 【請求項3】 各文書の更新情報として文書の更新時刻
をメタ情報テーブルに記録することを特徴とする請求項
1または請求項2の情報提供装置。 - 【請求項4】 各文書の更新情報として文書中に記述さ
れたバージョン情報をメタ情報テーブルに記録すること
を特徴とする請求項1または請求項2の情報提供装置。 - 【請求項5】 各文書の更新情報を、更新をチェックし
た時刻とともにメタ情報テーブルに記録し、 情報収集装置からの情報の収集要求に対し、情報収集装
置から前回の情報収集を要求した時刻を受け取り、その
時刻以降に更新された文書の一覧を提供することを特徴
とする請求項1,2,3または請求項4の情報提供装
置。 - 【請求項6】 各文書の更新情報を、シリアル番号とと
もにメタ情報テーブルに記録し、 情報収集装置から情報の収集要求に対し、情報収集装置
から前回の情報収集時のシリアル番号を受け取り、その
シリアル番号以降に更新された文書の一覧を情報収集装
置に提供することを特徴とする請求項1の情報提供装
置。 - 【請求項7】 情報提供装置が、情報収集装置の名前を
保存する情報収集テーブルを備え、メタ情報テーブルに
変更があった際に、情報収集装置に対し、情報の収集を
依頼することを特徴とする請求項1,2,3,4,5ま
たは請求項6の情報提供装置。 - 【請求項8】 情報提供装置が、収集する文書の一覧
を、圧縮してから情報収集装置に提供することを特徴と
する請求項1,2,3,4,5,6または請求項7の情
報提供装置。 - 【請求項9】 情報提供装置が、文書の一覧と同時に、
文書自体も情報収集装置に対して送信することを特徴と
する請求項1,2,3,4,5,6,7または請求項8
の情報提供装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10008416A JPH11203321A (ja) | 1998-01-20 | 1998-01-20 | メタ情報管理機能を備えた情報提供装置 |
US09/127,954 US6959299B2 (en) | 1998-01-20 | 1998-08-03 | Information presentation apparatus with meta-information management function |
US10/819,150 US20040193628A1 (en) | 1998-01-20 | 2004-04-07 | Information presentation apparatus with meta-information management function |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10008416A JPH11203321A (ja) | 1998-01-20 | 1998-01-20 | メタ情報管理機能を備えた情報提供装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11203321A true JPH11203321A (ja) | 1999-07-30 |
Family
ID=11692538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10008416A Pending JPH11203321A (ja) | 1998-01-20 | 1998-01-20 | メタ情報管理機能を備えた情報提供装置 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6959299B2 (ja) |
JP (1) | JPH11203321A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008065384A (ja) * | 2006-09-04 | 2008-03-21 | Sharp Corp | コンテンツ受信装置およびコンテンツ受信方法 |
WO2013140486A1 (ja) * | 2012-03-19 | 2013-09-26 | 富士通株式会社 | 情報処理装置、データ出力方法およびプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7593954B1 (en) * | 2000-11-15 | 2009-09-22 | Traction Software, Inc. | System and method for cross-referencing, searching and displaying entries in a document publishing system |
US7716632B2 (en) * | 2002-11-01 | 2010-05-11 | Vertafore, Inc. | Automated software robot generator |
JP4323853B2 (ja) * | 2003-04-11 | 2009-09-02 | キヤノン株式会社 | 更新通知装置及び方法、並びにプログラム及び記憶媒体 |
US20070156923A1 (en) * | 2005-12-29 | 2007-07-05 | Webex Communications, Inc. | Methods and apparatuses for tracking progress of an invited participant |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715443A (en) * | 1994-07-25 | 1998-02-03 | Apple Computer, Inc. | Method and apparatus for searching for information in a data processing system and for providing scheduled search reports in a summary format |
US5793966A (en) * | 1995-12-01 | 1998-08-11 | Vermeer Technologies, Inc. | Computer system and computer-implemented process for creation and maintenance of online services |
JP3584540B2 (ja) * | 1995-04-20 | 2004-11-04 | 富士ゼロックス株式会社 | 文書複写関係管理システム |
JPH09153050A (ja) * | 1995-11-29 | 1997-06-10 | Hitachi Ltd | 文書情報収集方法および文書情報収集装置 |
JP4025379B2 (ja) * | 1996-09-17 | 2007-12-19 | 株式会社ニューズウオッチ | 検索システム |
US6012083A (en) * | 1996-09-24 | 2000-01-04 | Ricoh Company Ltd. | Method and apparatus for document processing using agents to process transactions created based on document content |
US6055570A (en) * | 1997-04-03 | 2000-04-25 | Sun Microsystems, Inc. | Subscribed update monitors |
US5978828A (en) * | 1997-06-13 | 1999-11-02 | Intel Corporation | URL bookmark update notification of page content or location changes |
US6006217A (en) * | 1997-11-07 | 1999-12-21 | International Business Machines Corporation | Technique for providing enhanced relevance information for documents retrieved in a multi database search |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
-
1998
- 1998-01-20 JP JP10008416A patent/JPH11203321A/ja active Pending
- 1998-08-03 US US09/127,954 patent/US6959299B2/en not_active Expired - Fee Related
-
2004
- 2004-04-07 US US10/819,150 patent/US20040193628A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008065384A (ja) * | 2006-09-04 | 2008-03-21 | Sharp Corp | コンテンツ受信装置およびコンテンツ受信方法 |
WO2013140486A1 (ja) * | 2012-03-19 | 2013-09-26 | 富士通株式会社 | 情報処理装置、データ出力方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20040193628A1 (en) | 2004-09-30 |
US6959299B2 (en) | 2005-10-25 |
US20020023068A1 (en) | 2002-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2307859C (en) | Communication system and method | |
US6418453B1 (en) | Network repository service for efficient web crawling | |
US7933920B2 (en) | Database system and a method of data retrieval from the system | |
US6061686A (en) | Updating a copy of a remote document stored in a local computer system | |
US9229940B2 (en) | Method and apparatus for improving the integration between a search engine and one or more file servers | |
US6480853B1 (en) | Systems, methods and computer program products for performing internet searches utilizing bookmarks | |
US6105028A (en) | Method and apparatus for accessing copies of documents using a web browser request interceptor | |
US8090693B2 (en) | System, method, and article of manufacture for maintaining and accessing a whois database | |
US20030187957A1 (en) | Automatic data download system and method | |
EP1204040A2 (en) | Method for managing alterations of contents | |
JP3313604B2 (ja) | インターネットのホームページ管理システム | |
JPH09204442A (ja) | ドキュメントデータ検索システム | |
JPH11203321A (ja) | メタ情報管理機能を備えた情報提供装置 | |
JP3811615B2 (ja) | 情報配信システム、装置及び方法並びに記録媒体 | |
JP2001184355A (ja) | 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体 | |
US8364655B2 (en) | Hybrid off-peak and just-in-time integration | |
JP3506892B2 (ja) | グループ適応型情報検索装置 | |
JP4259858B2 (ja) | Wwwサイト履歴検索装置及び方法並びにプログラム | |
US20120079077A1 (en) | Just-in-time wrapper synchronization | |
US9686228B2 (en) | Integrated just-in-time synchronization | |
JP2001014208A (ja) | ハイパーリンク管理方法及びシステム装置並びにハイパーリンク管理プログラムを記録した記録媒体 | |
EP1205857A2 (en) | Apparatus for retrieving data | |
JPH1185789A (ja) | 分散検索装置 | |
JP2002024078A (ja) | イメージファイル管理サーバ | |
KR100583011B1 (ko) | 통신 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070510 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070605 |