JP2004318746A - Information collection system, information collection method and information collection program - Google Patents
Information collection system, information collection method and information collection program Download PDFInfo
- Publication number
- JP2004318746A JP2004318746A JP2003115226A JP2003115226A JP2004318746A JP 2004318746 A JP2004318746 A JP 2004318746A JP 2003115226 A JP2003115226 A JP 2003115226A JP 2003115226 A JP2003115226 A JP 2003115226A JP 2004318746 A JP2004318746 A JP 2004318746A
- Authority
- JP
- Japan
- Prior art keywords
- information
- data processing
- data
- page
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 201
- 238000012545 processing Methods 0.000 claims abstract description 742
- 230000008569 process Effects 0.000 claims abstract description 146
- 238000013480 data collection Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims description 54
- 238000001994 activation Methods 0.000 claims description 53
- 230000004913 activation Effects 0.000 claims description 49
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000003213 activating effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 238000007726 management method Methods 0.000 description 159
- 230000010365 information processing Effects 0.000 description 111
- 238000007405 data analysis Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 11
- 230000005856 abnormality Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、情報収集システム、情報収集方法、及び情報収集プログラムに関し、詳しくは、主にネットワークに公開された情報を収集するシステム等、及び、収集した情報をクライアント側の各種コンピュータ機器に提供するシステム等に関するものであり、特に、指定されたサイト内における多数の文書やデータの高速な取得を実現する情報収集システム等に関するものである。
【0002】
【従来の技術】
従来より、ネットワークに公開された情報を収集するシステムとしては、ロボット型サーチエンジンが知られている。このロボット型サーチエンジンでは、ロボットと呼ばれるプログラムがインターネットを巡回して、WWW(World Wide Web)ページのデータを自動収集している。
【0003】
従来のロボット型サーチエンジンは、主にインターネット全体を対象にしてWWWページのデータ収集をしており、特定のサイトだけを対象にしたWWWページのデータ収集ではなく、また、効率化に関しても、いかに大量のWWWページのデータを収集するかに主眼が置かれており、収集の速さを目的としたものではなかった。
【0004】
そのため、従来のロボット型サーチエンジンのシステムは、データ収集の対象がインターネット全体であるために、ロボットがインターネット全体を常に巡回しつづける構成となっており、該システム全体の制御を司るCPUや、該システムが利用するネットワークに高い負荷をかけてしまう、という問題があった。
【0005】
これに対し、複数のロボットを効率的に動作させ、各ロボットの同時稼動時間を短縮することで、CPUやネットワークの負荷を減らそうとするものもある(例えば特許文献1参照)。
【0006】
しかしながら、この特許文献1のシステムでは、複数のロボットをページ(コンテンツ)毎に分散して動作させる構成であり、CPUやネットワークの負荷軽減を実現するために、一度に大量のロボットが動作して多量のページを収集しないように各々のロボットが時間をおいて順番的に起動してしまうことから、情報収集時間自体が延長してしまう問題を有していた。
【0007】
また、従来のロボットは、仕様が公開されているために解読が容易なHTML(Hyper Text Markup Language)の巡回・取得に限られることが多く、複数の形式の情報収集を行うプログラムを作成すると構造が複雑になることなどから、昨今広く普及しているMacromedia(登録商標)社(http://www.macromedia.com/)のFlashに代表されるHTML以外のマルチメディアコンテンツに対応できないことが多い。
【0008】
また、従来のロボットは、サーチエンジンの一部であり、かつ、インデクサと呼ばれるWWWの全文検索用の専用プログラムと密な関係にある場合が多いため、WWW検索以外の機能への応用が難しい、という問題があった。
【0009】
また、WWWなどの普及に伴い、検索以外のさまざまなサービスのニーズがあるにもかかわらず、従来提供されているソフトウェアは、HTML単独の取得ツールやライブラリか、または上述のような応用プログラムとのセットである場合が多かった。
【0010】
【特許文献1】
特開2000−76264号公報
【0011】
【発明が解決しようとする課題】
本発明は、上述の問題点を解決すべく提案されたものであり、高速で質の高い情報収集のシステムを構築し、指定されたサイト内における情報を効率良く高速に収集する、情報収集システム、情報収集方法、及び情報収集プログラムを提供することを第一の目的とする。
【0012】
また、本発明は、情報収集に際してCPUやネットワーク等のハードウェア資源の負荷を軽減することが可能な、情報収集システム、情報収集方法、及び情報収集プログラムを提供することを第二の目的とする。
【0013】
また、本発明は、指定されたサイト内における情報収集後の情報提供に関するサービスの向上を実現した、情報収集システム、情報収集方法、及び情報収集プログラムを提供することを第三の目的とする。
【0014】
【課題を解決するための手段】
本発明の情報収集システムの第一の構成は、一のサイト内の一のページにそれぞれアクセスして、当該サイトを構成する複数のコンテンツについての各種データを収集し、処理するための複数のデータ処理手段と、データ処理手段を管理する管理手段と、を備えたデータ処理装置と、データ処理装置が最初にアクセスするためのサイトを示す情報が含まれた特定サイト情報と、当該サイト内の各コンテンツについての情報と、を少なくとも記憶するための記憶装置と、を有し、データ処理装置のデータ処理手段は、予め記憶装置に記憶された特定サイト情報に基づくページ、及び、該ページにリンクされたリンクページにアクセスするためのページアクセス手段と、アクセスしたページのヘッダ情報を取得するヘッダ情報取得手段と、アクセスしたページのコンテンツを取得するためのコンテンツ取得手段と、アクセスしたページにリンクされたリンクページの場所を示すリンク情報を取得するリンク情報取得手段と、取得した各情報に基づく所定の情報を記憶装置に登録する情報登録手段とを有し、データ処理装置の管理手段は、記憶装置に記憶された情報及びリンク情報取得手段で取得したリンク情報に基づいて、データ処理手段をn(nは1以上)個起動させる起動管理手段と、リンク情報取得手段で取得したリンク情報に基づいて、当該サイトに対するデータ収集を終了させる終了管理手段と、を備えたことを特徴とする。
【0015】
上記第一の構成を備えた情報収集システムにおいては、記憶装置に記憶された特定サイト情報に基づいて、起動管理手段によりデータ処理手段の起動が行われると、ページアクセス手段により一のページへのアクセス処理が行われ、続いてヘッダ情報取得手段による当該ページのヘッダ情報の取得処理、コンテンツ取得手段による当該ページのコンテンツの取得処理、リンク情報取得手段によるリンク情報の取得処理、が順次行われるとともに、取得した各情報に基づく所定の情報が情報登録手段により記憶装置に登録され、また、取得したリンク情報に基づいて、起動管理手段により1又は複数個のデータ処理手段の起動が行われることで、上述の各処理が同時並行的に、かつ繰り返し行われ、また、終了管理手段により当該サイトに対するデータ収集が終了させられる。
【0016】
従って、第一の構成によれば、予め設定されたサイト内の各種データを、各ページのリンク(或いは階層)関係に基づいて、高速に収集することが可能となる。
【0017】
本発明の情報収集システムの第二の構成は、上記第一の構成において、記憶装置には、特定サイト情報として、収集開始日時を示す収集開始情報が記憶され、データ処理装置の起動管理手段は、収集開始情報に基づいて、データ処理手段を起動させることを特徴とする。
【0018】
上記第二の構成においては、記憶装置に記憶された特定サイト情報に基づくページひいては当該サイト内の各ページへのアクセス(巡回)が定期的に行われ、これにより、当該サイトを構成する複数のページのコンテンツについての情報が定期的に収集されるので、ハードウェア資源(CPUやネットワーク等)の負荷を軽減しつつ、各種コンテンツについての更新や新規追加等の情報を定期的に得ることが可能となる。
【0019】
本発明の情報収集システムの第三の構成は、上記第一又は第二の構成において、記憶装置には、特定サイト情報として、当該一のサイト内の各ページの処理を行うデータ処理手段の最大同時併存数を示す併存数上限情報が記憶され、データ処理装置の起動管理手段は、併存数上限情報の最大同時併存数の範囲内で、データ処理手段を起動させることを特徴とする。
【0020】
上記第三の構成においては、併存数上限情報により、ページアクセス手段の最大同時起動数が制限され、かつ、ヘッダ情報取得手段やコンテンツ取得手段、リンク情報取得手段、情報登録手段、等の各手段の動作も制限されるので、ハードウェア資源(CPUやネットワーク等)に一時的な高負荷をかけることがなくなり、ハードウェア資源を効率的に使用することが可能となる。
【0021】
本発明の情報収集システムの第四の構成は、上記第一乃至第三のいずれか1の構成において、データ処理手段は、情報登録手段による記憶装置への登録が終了すると、処理が終了した旨を管理手段に通知し、管理手段は、該通知に基づいて、起動管理手段によるデータ処理手段の起動或いは終了管理手段によるデータ収集の終了の処理を行うことを特徴とする。
【0022】
上記第四の構成においては、管理手段は、データ処理手段の起動後にはいずれかのデータ処理手段からの処理通知通知を待機すれば良く、データ処理手段の状態を定期的に検出する必要が無くなるので、ハードウェア資源(CPU等)の負荷が軽減される。
【0023】
本発明の情報収集システムの第五の構成は、上記第一乃至第四のいずれか1の構成において、データ処理装置は、ヘッダ情報取得手段で取得したヘッダ情報に基づいて、コンテンツの変更の有無について判定する判定手段を有し、コンテンツ取得手段は、判定手段で変更無しと判定された場合には、アクセスしたページのコンテンツを取得しないことを特徴とする。
【0024】
上記第五の構成においては、コンテンツの変更有りと判定された場合にのみ、アクセスしたサイトのコンテンツが取得されるので、当該サイトを構成する複数のページの各種データの収集、処理の迅速な終了が可能となるとともに、ハードウェア資源(CPUやネットワーク等)の負荷が軽減される。
【0025】
本発明の情報収集システムの第六の構成は、上記第五の構成において、記憶装置は、ヘッダ情報取得手段で取得したヘッダ情報を記憶する記憶領域を備え、判定手段は、今回取得したヘッダ情報と記憶装置に記憶された前回取得分のヘッダ情報とを比較して、一致しない場合にはコンテンツの変更有りと判定することを特徴とする。
【0026】
上記第六の構成においては、ヘッダ情報が相互に一致する場合にはコンテンツの変更無しと判定され、コンテンツ取得手段やリンク情報取得手段による処理を省略することが可能となり、ハードウェア資源(CPUやネットワーク等)の負荷が軽減される。
【0027】
本発明の情報収集システムの第七の構成は、上記第一乃至第六のいずれか1の構成において、データ処理装置は、ヘッダ情報取得手段で取得したヘッダ情報に基づいて、当該ページが当該サイト内のページであるか否かについて判定するサイト判定手段を有し、コンテンツ取得手段は、サイト判定手段で当該サイト内のページではないと判定された場合には、アクセスしたページのコンテンツを取得しないことを特徴とする。
【0028】
上記第七の構成においては、データ処理手段で収集、処理する情報の無限連鎖により処理が終了しない事態が確実に防止され、当該サイトを構成する複数のページにおける各種データの収集、処理の迅速な終了が担保されるとともに、ハードウェア資源(CPUやネットワーク等)の負荷が軽減される。
【0029】
本発明の情報収集システムの第八の構成は、上記第一乃至第七のいずれか1の構成において、コンテンツ取得手段は、ページのコンテンツを解析するための解析プログラムを複数種類具備し、リンク情報取得手段は、当該ページのコンテンツの種類を示すコンテンツ種類情報が含まれたリンク情報を取得し、起動管理手段は、データ処理手段の起動にあたり、当該リンク情報を含めたデータ処理要求を出力し、起動したデータ処理手段におけるページアクセス手段のアクセスしたページに関して、コンテンツ取得手段は、当該データ処理要求に含まれたコンテンツ種類情報に対応する解析プログラムを用いてコンテンツを解析することを特徴とする。
【0030】
上記第八の構成においては、多様な種類のコンテンツを取得することが可能となる。
【0031】
本発明の情報収集システムの第九の構成は、上記第一乃至第八のいずれか1の構成において、ページアクセス手段は、ページにアクセスするための通信規約についてのプログラムを複数種類具備し、リンク情報取得手段は、コンテンツ取得手段で取得したコンテンツから、当該リンクページへのアクセス方法についての情報が含まれたリンク情報を取得し、起動管理手段は、データ処理手段の起動にあたり、当該リンク情報を含めたデータ処理要求を出力し、起動したデータ処理手段のページアクセス手段は、当該データ処理要求に含まれたアクセス方法に対応するプログラムを用いて当該リンクページにアクセスすることを特徴とする。
【0032】
上記第九の構成においては、アクセスするページに対して各種アクセス方法を用いてアクセスすることが出来るので、種々のサイトに対するアクセスが可能となる。
【0033】
本発明の情報収集システムの第十の構成は、上記第一乃至第九のいずれか1の構成において、記憶装置には、特定サイト情報として、当該一のサイトについての情報を欲する他のシステムについての連携システム名が記憶され、データ処理装置は、データ処理手段で収集、処理する各情報に関し、他のシステムに提供するための提供データを生成する提供データ生成手段と、生成した提供データを前記連携システム名に基づく他のシステムに送信する提供データ送信手段と、を備えたことを特徴とする。
【0034】
上記第十の構成においては、提供データ生成手段で生成された提供データが連携システム名に基づく他のシステムに送信されるので、当該他のシステムに対して種々の情報提供のサービスを行うことが可能となる。
【0035】
本発明の情報収集システムの第十一の構成は、上記第十の構成において、提供データ生成手段は、サイトに対するデータ収集の開始の際、当該サイト内の一のページについてのデータ処理手段による処理終了の際、及び、当該サイトに対するデータ収集の終了の際、の各々の時点で、それぞれ同一のデータフォーマットによる提供データを生成することを特徴とする。
【0036】
上記第十一の構成においては、提供データ生成手段で生成された提供データが上記各時点で同一のフォーマットで他のシステムに送信されるので、当該他のシステムでの提供データの受信及び解析処理を統一することが可能となり、当該他のシステムの開発効率を高めることが可能となる。
【0037】
本発明の情報収集システムの第十二の構成は、上記第十又は第十一の構成において、提供データ送信手段は、コンテンツ取得手段で取得したコンテンツを、連携システム名に基づく他のシステムに送信することを特徴とする。
【0038】
上記第十二の構成においては、コンテンツ取得手段で取得したコンテンツについて、記憶装置に記憶する処理を省くことが可能となり、記憶装置の記憶容量の節約及び負荷軽減が図られる。
【0039】
本発明の情報収集方法の主たる構成は、一のサイト内の一のページにそれぞれアクセスして、当該サイトを構成する複数のコンテンツについての各種データを収集し、処理するための複数のデータ処理手段と、データ処理手段を管理する管理手段と、を備えたデータ処理装置と、データ処理装置が最初にアクセスするためのサイトを示す情報が含まれた特定サイト情報と、当該サイト内の各コンテンツについての情報と、を少なくとも記憶するための記憶装置と、を用いた情報収集方法であって、データ処理装置のデータ処理手段は、予め記憶装置に記憶された特定サイト情報に基づくページ、及び、該ページにリンクされたリンクページにアクセスするページアクセス処理と、アクセスしたページのヘッダ情報を取得するヘッダ情報取得処理と、アクセスしたページのコンテンツを取得するためのコンテンツ取得処理と、アクセスしたページにリンクされたリンクページの場所を示すリンク情報を取得するリンク情報取得処理と、取得した各情報に基づく所定の情報を記憶装置に登録する情報登録処理と、を実行し、データ処理装置の管理手段は、記憶装置に記憶された情報及びリンク情報取得処理で取得したリンク情報に基づいて、データ処理手段をn(nは1以上)個起動させる起動処理と、リンク情報取得処理で取得したリンク情報に基づいて、当該サイトに対するデータ収集を終了させる終了処理と、を実行することを特徴とする。
【0040】
上記構成の情報収集方法においては、記憶装置に記憶された特定サイト情報に基づいて、起動処理によりデータ処理手段の起動が行われると、ページアクセス処理により一のページへのアクセスが行われ、続いてヘッダ情報取得処理による当該ページのヘッダ情報の取得、コンテンツ取得処理による当該ページのコンテンツの取得、リンク情報取得処理によるリンク情報の取得、が順次行われるとともに、取得した各情報に基づく所定の情報が情報登録処理により記憶装置に登録され、また、取得したリンク情報に基づいて、起動処理により1又は複数個のデータ処理手段の起動が行われることで、上述の各処理が同時並行的に、かつ繰り返し行われ、また、終了処理により当該サイトに対するデータ収集が終了させられる。
【0041】
従って、本発明の情報収集方法によれば、予め設定されたサイト内の各種データを、各ページのリンク(或いは階層)関係に基づいて、高速に収集することが可能となる。
【0042】
本発明の情報収集プログラムは、コンピュータを、一のサイト内の一のページにそれぞれアクセスして、当該サイトを構成する複数のコンテンツについての各種データを収集し、処理するための複数のデータ処理手段と、データ処理手段を管理する管理手段と、を備えたデータ処理装置と、データ処理装置が最初にアクセスするためのサイトを示す情報が含まれた特定サイト情報と、当該サイト内の各コンテンツについての情報と、を少なくとも記憶するための記憶装置と、して機能させるための情報収集プログラムであって、データ処理装置のデータ処理手段を、特定サイト情報に基づくページ、及び、該ページにリンクされたリンクページにアクセスするためのページアクセス手段、アクセスしたページのヘッダ情報を取得するヘッダ情報取得手段、アクセスしたページのコンテンツを取得するためのコンテンツ取得手段、アクセスしたページにリンクされたリンクページの場所を示すリンク情報を取得するリンク情報取得手段、取得した各情報に基づく所定の情報を記憶装置に登録する情報登録手段、として機能させるとともに、データ処理装置の管理手段を、記憶装置に記憶された情報及びリンク情報取得手段で取得したリンク情報に基づいて、データ処理手段をn(nは1以上)個起動させる起動管理手段、リンク情報取得手段で取得したリンク情報に基づいて、当該サイトに対するデータ収集を終了させる終了管理手段、として機能させるための情報収集プログラム、を要旨とする。
【0043】
本発明の情報収集プログラムによれば、記憶装置に記憶された特定サイト情報に基づいて、起動管理手段によりデータ処理手段の起動が行われると、ページアクセス手段により一のページへのアクセス処理が行われ、続いてヘッダ情報取得手段による当該ページのヘッダ情報の取得処理、コンテンツ取得手段による当該ページのコンテンツの取得処理、リンク情報取得手段によるリンク情報の取得処理、が順次行われるとともに、取得した各情報に基づく所定の情報が情報登録手段により記憶装置に登録され、また、取得したリンク情報に基づいて、起動管理手段により1又は複数個のデータ処理手段の起動が行われることで、上述の各処理が同時並行的に、かつ繰り返し行われ、また、終了管理手段により当該サイトに対するデータ収集が終了させられるように、コンピュータが機能する。
【0044】
従って、本発明の情報収集プログラムによれば、予め設定されたサイト内の各種データを、各ページのリンク(或いは階層)関係に基づいて高速に収集するように、コンピュータが機能する。
【0045】
【発明の実施の形態】
本発明の実施の形態を、図面を参照しながら詳細に説明する。
【0046】
図1及び図2に、本発明を適用した情報収集・提供システムの一実施形態の概略図を示す。本実施の形態では、1台のコンピュータ(例えばパーソナルコンピュータ)にソフトウェアプログラムをインストールすることにより、該コンピュータを情報収集・提供システムとして機能させた例について説明する。
【0047】
(情報収集・提供システム全体の概略)
実施の形態の情報収集・提供システム1は、インターネット等の各種通信ネットワーク(以下、単にネットワークという)を介して参照できる、階層(リンク)関係を有する情報群(サイト)に対して、該階層(リンク)関係に基づいてアクセスして、コンテンツ自体を含む各種情報を収集する機能と、収集した各種情報を他のコンピュータシステムに提供する機能とを備えたシステムであって、図1に示すように、ネットワーク100経由で参照できる各種データの収集及び提供を行うデータ処理装置10と、システム自体を管理する情報とデータ処理装置10が収集した情報とを記憶する記憶装置20と、を備えている。
【0048】
ここで、データ処理装置10の収集対象となる情報(データ)は、ネットワーク100で公開されうる全てのデータであり、web上のページ、コンテンツ、ファイル、等の種々の概念のものが含まれる。なお、後述のように、ローカルコンピュータ内のデータを収集対象とすることも可能である。
【0049】
また、データ処理装置10の収集対象となる情報(データ)の種類としては、文書データ,動画データ,データベースなどから動的に作成されるデータ(例えば、商品販売やネット予約等に関するデータなど)、ディレクトリツリー型ファイルシステムに記憶されている個々のファイル、ドメイン参加型ネットワークに属しているネットワーク機器そのもの、などの、各種のデータが含まれる。
【0050】
文書データの「文書」とは、HTMLで記述された文書やWWW公開文書、Macromedia (登録商標) Flashなどを含む、ネットワーク100で公開されうる文書全てを指す。同様に、動画データの「動画」についても、MMS(Microsoft(登録商標) Media Server)やRTSP(Real Time Streaming Protocol)などで公開されたストリーム配信されているデータ全てを指し、これには音声データなども含まれることは勿論である。
【0051】
同様に、「動的に作成される」データについても、CGIやPerlなどのコンピュータ言語を用いて、アクセスされる都度ページを作成するデータを含む、ネットワーク100で公開されうる動的データ全てを指す。
【0052】
同様に、「ディレクトリツリー型ファイルシステムの個々のファイル」についても、Microsoft(登録商標) 社のWord文書やExcel文書などを含む、ハードディスク装置等で記録されるファイル全てを指す。
【0053】
同様に、「ドメイン参加型ネットワークに属しているネットワーク機器」についても、パーソナルコンピュータやサーバコンピュータなどを含む、ドメインに参加できるネットワーク機器全てを指す。
【0054】
また、データ処理装置10のアクセス対象となる「情報群(サイト)」とは、例えば、1企業のWebサイト全て,1部署のイントラサイト全て,1台のファイルサーバに格納されているファイル全て,など、種々の形態のものが含まれる。
【0055】
また、情報群(サイト)につき「参照できる」とは、公開ファイル全てを複写(ダウンロード)できることは勿論、全ての複写は出来なくても、ファイル情報(後述のサイズや日時などのヘッダ情報)を取得出来れば良い。
【0056】
さらに、情報群の「階層(リンク)関係」とは、サイト内での階層関係のみならず、他のサイトへのリンク関係も含み、ディレクトリ階層や、HTMLのURLなど、あるデータが別のデータへ関係付けられているものを指す。
【0057】
また、「ディレクトリツリー型ファイルシステム」としては、MS−DOS(登録商標) やWindows(登録商標)などMicrosoft(登録商標) 社製のOSで利用されるFATや、NTFS,UNIX(登録商標) で利用されているUFSやSSFSなど、ディレクトリ(またはフォルダ)と呼ばれるものを持ち、階層構造を持つファイルシステム全てを指す。
【0058】
また、「ドメイン参加型ネットワーク」としては、インターネットドメイン,Microsoft(登録商標) 社のワークグループやActive Directory,Novell(登録商標) 社のeDirectoryなど、ネットワーク100に接続された複数の機器を、ある単位で管理し、その管理グループがサブグループを持つような、ネットワーク全てを指す。
【0059】
また、「ヘッダ情報」とは、主にHTTPにおいて本文の送信に先立って送信される各種データを指すが、HTTP以外でのプロトコルでも同様であり、本文(データ内容そのもの)以外の、名前,種別,サイズ,更新日時などの情報全てを指す。
【0060】
また、「コンテンツ」とは、主にWebサーバで公開されているテキストや画像などの文書の内容を指すが、Webサーバ以外のネットワーク100で公開されている文書の内容や、ローカルコンピュータ内の文書自体、また対象をネットワーク機器にした場合などは、そのネットワーク機器そのものの情報(稼動情報など)を指す。
【0061】
そして、この情報収集・提供システム1は、ローカルまたはネットワーク100を介して接続される他のシステムによってアクセスされるとともに、記憶装置20の参照情報記憶部22とデータ情報記憶部23に格納されたデータを、当該他のシステムに対して、後述するコンテンツボール30の形態で供給するようになっている。
【0062】
ここで、情報収集・提供システム1にアクセスしてくる他のシステムとしては、例えば、ネットワーク100の利用者に検索情報を提供する各種サーチエンジンのシステム,Webページや共有フォルダに格納されたファイルなどの新着情報の取得を目的とするコンピュータシステム,Webページのリンク切れ情報の取得を目的とするコンピュータシステム,等が挙げられる(以下、これらの他のシステムを「連携システム」と呼ぶ)。
【0063】
一般には、連携システムがサーチエンジンシステムの場合には、該連携システムは、ダウンロードしたコンテンツ(後述する一時ファイル)と、データ情報記憶部23又は後述するコンテンツボール30と、を参照して、何という言葉が入ったページがどのURLにあるか、についての情報を取得することになる。
【0064】
また、連携システムが新着情報の取得を目的とするコンピュータシステムの場合には、該連携システムは、データ情報記憶部23又は後述のコンテンツボール30を参照して、ある日付以降に更新されたデータの存在箇所(例えばURL)を取得することになる。
【0065】
さらには、連携システムがWebページのリンク切れ情報の取得を目的とするコンピュータシステムの場合には、該連携システムは、参照情報記憶部22又はコンテンツボール30を参照して、何のWebページがどのWebページにリンクされて、何のWebページが存在しないか、等の情報を取得することになる。
【0066】
なお、これら他の連携システムに対して情報収集・提供システム1が行うデータ提供の処理の詳細に関しては、図10乃至図12で後述する。
【0067】
図1に示すように、データ処理装置10は、システム管理部11、サイト管理部12、参照情報処理部13、データ処理部14、参照情報処理管理部15、データ処理管理部16、の6つの機能に大別され、本実施の形態では、これら各部11〜16につき1個のCPUが共通のハードウェア資源を使って所謂マルチタスク方式で行うようになっている。
【0068】
また、図示しないが、情報収集・提供システム1は、ネットワーク100に接続してデータの送受信を行う送受信手段としてのモデム等、データ入力や各種の設定を行う手段としてのキーボードやマウス等、及び、表示手段としてのディスプレイ装置(CRT或いはLCDなど)を有している。
【0069】
本実施の形態では1台のコンピュータを情報収集・提供システム1として機能させる場合について説明するが、本発明は、ハードウェア資源の配置等については特に限定されないものであり、例えばデータ処理装置10と記憶装置20とを別のコンピュータとする等、複数のコンピュータを用いて情報収集・提供システム1を構成することも可能である。
【0070】
(データ処理装置10の概略)
データ処理装置10は、設定されたサイトについての情報を提供するサーバにアクセスし、ネットワーク100に公開されている文書を収集してデータ情報記憶部23に記憶する。
【0071】
この情報収集・提供システム1では、システム管理者等の使用者がキーボード等での入力操作を行うことにより、データ処理装置10でアクセスするサイト(特定サイト)を複数設定することが可能となっており、図2に示すように、複数の参照情報処理部13と複数のデータ処理管理部16と複数のデータ処理部14とを並列処理することで、複数の特定サイトの情報収集を実施する。
【0072】
また、データ処理装置10は、一の特定サイトの情報を提供するサーバがドメイン毎に複数存在する場合に対しても、透過的に複数サーバにアクセスし、同一のサイト情報として記憶装置20のデータ情報記憶部23に情報を記憶するようになっており、この処理については後述する。
【0073】
なお、「透過的にアクセスする」とは、使用者から見ると複数サーバのそれぞれがあたかも同じプロトコルで情報を提供しているかのようにアクセスすることを言う。
【0074】
図1及び図2に示すように、データ処理装置10は、情報収集・提供システム1全体を統括するシステム管理部11と、複数の特定サイトに対する情報収集処理を管理するサイト管理部12と、一の特定サイトの情報収集についての処理を行う参照情報処理部13及びデータ処理管理部16と、一の特定サイト内の一のページの情報収集についての処理を行うデータ処理部14と、各参照情報処理部13を管理する参照情報処理管理部15と、を備えている。
【0075】
このデータ処理装置10では、図2に示すように、参照情報処理部13とデータ処理管理部16とデータ処理部14とが、それぞれ複数個併存可能とされる。具体的には、参照情報処理部13とデータ処理管理部16とは、それぞれ、同時にアクセスする特定サイトの数だけ存在し、データ処理部14は、同時にアクセスする特定サイト内のコンテンツの数だけ存在することになる。本実施の形態では、参照情報処理部13とデータ処理管理部16はそれぞれ最大で254個(すなわち254の特定サイトに同時アクセス可能)、データ処理部14は最大で254×10個が併存し、互いに並列して処理を行うようになされている。
【0076】
これにより、データ処理装置10では、最大で254の特定サイトに同時アクセス可能で、各特定サイト内で最大10のページに同時アクセス可能となっている。
【0077】
なお、参照情報処理部13及びデータ処理管理部16とデータ処理部14における最大同時アクセス上限数は特に限定されるものではなく、CPUの処理速度、メインメモリの容量、ネットワーク100の速度に応じて適宜設定することが可能であるが、一般にはそれぞれ10程度までであり、また、例えばCPUがインテル社のPentium(登録商標)3− 1.4GHzで、メインメモリ容量が256MBで、回線速度が1Mbpsの場合には、それぞれ、参照情報処理部13の最大同時アクセス上限数(すなわち同時にアクセスする特定サイトの上限数)を5程度、データ処理部14の最大同時アクセス上限数(すなわち一の特定サイト内で同時アクセスするページの上限数)を10程度、に設定することが好ましい。
【0078】
データ処理装置10内の各部11〜16は、1個のCPUによって実現可能であるが、それぞれ独立したソフトウェアプログラム(すなわち、システム管理プログラム,サイト管理プログラム,参照情報処理プログラム,データ処理プログラム,参照情報処理管理プログラム,データ処理管理プログラム)に基づいて動作するようになっている。
【0079】
ここで、上述のように、参照情報処理部13とデータ処理管理部16とはそれぞれ同時にアクセスする特定サイトの数だけ存在するため、参照情報処理プログラムとデータ処理管理プログラムは、同時にアクセスする特定サイトの数(この実施形態では最大で254個)だけ存在する。
【0080】
また、上述のように、データ処理部14は同時にアクセスするページの数だけ存在するため、データ処理プログラムも、同時にアクセスするページの数(この実施の形態では最大で254×10個)だけ存在する。
【0081】
また、各部11〜16におけるこれら各プログラムは、それぞれが連携するプログラムへの通知(呼び覚まし)機能を持っている。すなわち、処理が必要ないプログラムや他の連携するプログラムの処理を待っているプログラムは、CPUを使わない待機状態となり、連携している他のプログラムからの通知により待機状態が解除されるようになっている。
【0082】
(記憶装置20の概略)
一方、記憶装置20は、情報収集・提供システム1全体を管理するための管理情報を記憶するサイト情報記憶部21と、特定サイト内のリンク関係情報を記憶する参照情報記憶部22と、特定サイト内の情報を記憶するデータ情報記憶部23と、を備えている。これら記憶装置20の各記憶部21〜23は、十分なデータ記憶容量を有する例えば1台のハードディスク装置により実現可能である。
【0083】
ここで、サイト情報記憶部21は、図1に示すように、主としてサイト管理部12が参照するための情報を格納するものであり、記憶される情報としては、主として、アクセスすべき特定サイトに関する種々の情報である特定サイト情報が含まれる。ここで、特定サイト情報としては、例えば図9にそのデータテーブルを示すように、特定サイトの場所(URLなど)を示すサイト情報や、収集を開始する日時を示す収集開始情報や、特定サイトの情報を提供する(すなわち特定サイトの情報を欲している)連携システムについての連携システム名、特定サイトへの最大同時アクセス上限数、特定サイトにアクセスする際に用いられるアクセス方法についての情報、などが挙げられる。
【0084】
図9に示すように、サイト情報記憶部21では、アクセスすべき特定サイト毎に連番が付されるようになっており、各連番と、後述する参照情報記憶部22及びデータ情報記憶部23の「サイト」欄とが対応付けられる構成となっている。なお、図9ではサイト情報記憶部21に2つの特定サイトについての特定サイト情報が登録された例を示しているが、実際には多数の特定サイトについての登録が可能である。
【0085】
また、図示しないが、サイト情報記憶部21には、上述した特定サイト情報以外にも、システム全体を管理するための管理情報が記憶される。この管理情報としては、例えば、後述する参照情報処理部13の最大同時起動上限数(同時にアクセスする特定サイトの上限数)についての情報が含まれる。
【0086】
これらの情報については、使用者による操作入力部の操作に基づいて、データ処理装置10のシステム管理プログラムを起動させるとともに、不図示の表示部に図9のデータテーブルを表示させてサイト登録のための入力、設定等の各種操作を行なうことで、システム管理部11によってサイト情報記憶部21に記録されることになる。
【0087】
ここで、入力する「サイト情報」としては、データ処理装置10が最初にアクセスするためのサイト(場所)を示す情報であって、特定サイトがWeb上にある場合はURL(通常はトップページのURL)が用いられ、特定サイトと本システム1を同一のコンピュータ内に置いてデータを取得する場合には、ディレクトリ名(例えばc:¥data¥001.docや/data/001.txtなど)が用いられ、特定サイトがディレクトリツリー型の共有ファイルシステムの場合には、IPアドレスとディレクトリ名(例えば192.168.0.1/共有フォルダ/001.txtなど)が用いられ、特定サイトがドメイン参加型ネットワークの場合には、そのドメインを示す記述法が用いられることになる。以下は、説明の便宜のため、特定サイトがWeb上にあり、サイト情報としてトップページURLを用いた場合について説明する。
【0088】
また、「連番」については、個々のサイト登録の際に自動的に付されるようになっている。
【0089】
「連携システム名」は、一の特定サイトに対して1又は複数登録できるようになっている。ここで、一の特定サイトに対して複数の連携システム名を登録した場合には、情報収集・提供システム1のデータ処理装置10で収集、取得した情報が、登録された各連携システムに対して提供されることになるが、詳細は図10以下を参照して後述する。
【0090】
「最大同時アクセス上限数」は、一の特定サイト内におけるデータ処理部14の最大同時併存数を規定する数値が入力される。
【0091】
「収集開始日時」は、特定サイトの更新の頻度、或いは連携システムの稼働できる時間帯、等の事情に応じて、例えば「毎月1日0時0分」、「毎週日曜日23時30分」、「毎日6時0分」など、任意に設定されることになる。
【0092】
「アクセス方法」についての情報は、プロキシ情報、簡易認証(Basic認証)、フォーム認証(CGI認証)などの認証情報、等が入力されることになる。
【0093】
ここで、「プロキシ」とは、内部ネットワーク(この場合は情報収集・提供システム1)から外部ネットワーク(この場合は特定サイト)に接続する際、セキュリティ確保と高速アクセスを実現するために設置されるサーバまたはソフトウェアのことを指す。
【0094】
また、「簡易認証(Basic認証)」とは、ユーザ名(ID)とパスワードにより特定のデータへのアクセスに対し制限を設ける方式で、主にWeb上のディレクトリやファイルに対してのアクセス制限に使われるが、ここでは、ユーザ名(ID)とパスワードでアクセス制限を設ける方式全てを指す。
【0095】
さらに、「フォーム認証(CGI認証)」とは、主にHTTPクライアント側リダイレクトを使用して、認証されていない要求をHTMLフォームにリダイレクトするシステムのことを指すが、ここでは、データのネットワーク100上の場所(URLなど)にパラメータを付けてアクセスすることで、アクセス制限がかかっているデータにアクセス可能になる方式全てを指す。
【0096】
サイト情報記憶部21に登録された上述の各種情報については、データ処理装置10が特定サイトの情報収集を行う際に、データ処理装置10の各部によって適宜参照されることになるが、その詳細については後述する。
【0097】
参照情報記憶部22は、図1に示すように、主として参照情報処理部13が参照するための情報を格納するものであり、記憶される参照情報としては、例えば図9にそのデータテーブルを示すように、「サイト」の情報,「リンク情報」,「パラメータ」情報,「処理状態」情報、などが挙げられ、これらの情報については、情報収集処理の際にデータ処理部14によって記録・更新される。
【0098】
ここで、「サイト」の情報(数値)は、サイト情報記憶部21の上述した特定サイト情報及び後述するデータ情報記憶部23の「サイト」の情報に対応付けるためのものであり、図9では、参照情報記憶部22の情報として、サイト情報記憶部21の連番1(すなわち特定サイトの「http://abcd.co.jp/001.html」)に対応付けられたもののみを抽出して示している。
【0099】
また、「リンク情報」は、次に収集するコンテンツ(データ)やそのコンテンツ(データ)がどこに記述されているか、どういう風に記述されているか、などを示す情報であり、本実施の形態では、図9に示すように、リンク情報として、特定サイトの「リンク元」,「リンク先」,「行数」,「タグ名」、についての情報が含まれる。
【0100】
ここで、リンク元とは、該リンク情報が記述されているページのネットワーク100上の場所のことであり、該当するサイトのデータ情報記憶部23の「連番」の数値が記憶される。
【0101】
リンク先とは、該リンク情報により、リンク元のページからリンクされているコンテンツ(データ)やページのネットワーク100上の場所のことであり、該当するサイトのデータ情報記憶部23の「連番」の数値が記憶される。
【0102】
行数とは、該リンク情報が、リンク元コンテンツ(データ)の何行目に記述されているかを示すものであり、行番号が数値で記憶される。
【0103】
タグ名とは、該リンク情報がどのようにリンクされているかを示すものであり、HTMLの場合はHTMLタグ名(AタグのHREFであったり、IMGタグのSRCであったり、といった内容)が記憶される。
【0104】
さらに、「パラメータ」情報とは、データ処理装置10が特定サイト内のページ(リンク情報のリンク先で示されるページのコンテンツ(データ))にアクセスする際に使用するパラメータであり、例えばHTMLの場合はネームアンカー(URL flagment identifire)を記憶したり、CGIなどの動的プログラムの場合は、そのプログラムの引数を記憶したりする。
【0105】
また、「処理状態」情報は、データ処理装置10が一の特定サイトについての情報収集処理を全て完了したか否かを示すもので、全て完了した場合には例えば「処理済」のフラグで、未だ全て完了していない場合には例えば「未処理」のフラグで示される。
【0106】
なお、図9に示すように、参照情報記憶部22は、その記憶領域が、新参照情報の記憶領域と前参照情報のための領域とに分けられており、新参照情報の記憶領域がデータ処理装置10によるデータ取得の処理中に処理結果を書き込むための領域で、前参照情報の記憶領域が前回のデータ取得の処理結果を保存しておくための領域となっている。
【0107】
データ情報記憶部23は、主として、特定サイトの情報取得を行った結果について、データ処理部14が書き込み及び比較するための情報を格納するものであり、記憶される情報としては、例えば図9にそのデータテーブルを示すように、「サイト」,「連番」,「ネットワーク上の場所」,「階層数」,「種別」,「サイズ」,「更新日時」,「収集状態」,についての情報などが挙げられる。
【0108】
ここで、「サイト」の情報は、サイト情報記憶部21の特定サイト情報及び参照情報記憶部22のサイトの情報に対応付けるためのものであり、同様に、図9では、参照情報記憶部23の情報として、サイト情報記憶部21の連番1(すなわち特定サイトの「http://abcd.co.jp/001.html」)に対応付けられたもののみを抽出して示している。
【0109】
また、データ情報記憶部23における「連番」の情報(数値)は、特定サイトに存在するページ(通常はトップページ)及び当該ページにリンクするリンクページの数に基づく連番を示すものであり、この例では、図9に示すように、参照情報記憶部22のリンク元及びリンク先の情報と対応付けられている。そして、データ情報記憶部23では、サイト情報記憶部21に登録された特定サイトのページについての情報が「連番」1となり、特定ページからリンクされたリンク先のページに対して、順次、「連番」2,3,4・・・が付されて行くことになる。
【0110】
「ネットワーク上の場所」には、上述したサイト情報記憶部21の「サイト情報」と等価な情報が記憶され、この実施形態では、特定サイト及び特定サイトに直接或いは間接的にリンクされたリンクページについての場所を示す情報が記憶される。図9に示す例では、特定サイトに存在するトップページ及び当該トップページにリンクするページのネットワーク100上の場所(URL等)を示している。
【0111】
ここで、「特定サイトに直接或いは間接的にリンク」とは、サイト情報記憶部21に登録された特定サイト(トップページ等)に直接リンクされた(直接のリンク先となる)リンクページのみならず、特定サイトには直接リンクされていないが、特定サイトへのアクセスに基づいて最終的にはアクセスすることが出来る各種リンクページを含む意である。但し、この情報収集・提供システム1では、アクセスするサイトの無限連鎖により情報収集処理が終了しない事態を防止するため、アクセス対象とするリンクページを所定の範囲で制限しているが、このための構成については図7等を参照して後述する。
【0112】
「階層数」、「種別」、「サイズ」、「更新日時」には、それぞれ、データ処理装置10で収集したデータ(巡回した各ページ)についての、階層数、種別、更新日時を示す情報が記憶される。
【0113】
ここで、階層数の情報は、当該ページが、収集開始データ(図9ではトップページ「http://abcd.co.jp/001.html」)から数えて何番目に関連付けられたものかを示すものである。
【0114】
「収集状態」の情報は、データ処理装置10が当該一の特定サイトに存在するページについての情報収集処理を全て完了したか否かを示すもので、全て完了した場合には例えば「OK」のフラグで、未だ全て完了していない場合には例えば「未」のフラグで示される。この実施の形態では、一のサイトに関する各ページについての収集状態が全て「OK」になると、上述した参照情報記憶部22の当該サイトに関する処理状態情報が「未処理」から「処理済」に変わることになる。
【0115】
データ情報記憶部23のこれら各情報については、情報収集処理の際に、データ処理部14によって記録・更新される。
【0116】
なお、図9に示すように、データ情報記憶部23は、その記憶領域が、新データ情報の記憶領域と前データ情報の記憶領域とに分けられており、新データ情報の記憶領域がデータ処理装置10によるデータ取得の処理中に処理結果を書き込むための領域で、前データ情報の記憶領域が前回のデータ取得の処理結果を保存しておくための領域となっている。
【0117】
また、本実施の形態では、各ページにおけるデータの本文すなわちコンテンツ自体については、記憶装置20に記憶せずに、他の連携システムに一時ファイルとして提供するようになっているが、この処理については後述する。
【0118】
(データ処理装置10における各部の機能の概要)
次に、データ処理装置10の各部11〜16の有する機能について説明する。
【0119】
システム管理部11は、情報収集・提供システム1全体を管理するためのシステム管理プログラムに基づいて動作することで、以下のような機能を発揮する。すなわち、システム管理部11は、主電源投入時の起動処理、使用者の入力操作に基づいて行われる、サイト情報記憶部21の各情報(アクセスする特定サイトの、サイト情報(URLなど),収集開始日時,連携システム名,最大同時アクセス上限数,特定サイトへのアクセス方法、参照情報処理部13の最大同時起動上限数、など)の設定処理、使用者の入力操作に基づく起動・終了処理、特定サイトへの情報収集の開始・停止、等について管理する機能を担っている。
【0120】
なお、システム管理部11は、主として使用者の入力操作に基づいて動作するものであり、一旦起動してしまえば、使用者が入力操作を行うまでは待機状態となる。また、使用者の入力操作に当たっては、システム管理部11は、不図示の表示部の表示画面に入力項目等を表示する処理や、入力された情報に基づいて、サイト情報記憶部21内のデータについての、追加、変更、削除、等の処理を行う。
【0121】
サイト管理部12は、収集する複数のサイトを管理するためのサイト管理プログラムに基づいて、サイト情報記憶部21から特定サイトのサイト情報(URLなど)を参照する処理、情報収集開始の際に現在日時とサイト情報記憶部21の収集開始日時とを比較して、収集開始日時が到来すると、参照情報処理管理部15を介して参照情報処理部13を起動し、情報収集を開始する特定サイトのサイト情報(URLなど)を各参照情報処理部13に通知する処理を行う。
【0122】
なお、サイト情報記憶部21に登録された特定サイトの内の複数が同じ収集開始日時に設定された場合には、サイト管理部12は、該収集開始日時が到来すると、複数の参照情報処理部13を起動する処理を行うことになる。
【0123】
参照情報処理部13は、収集する一の特定サイトに関する全データを管理するための参照情報処理プログラムに基づいて動作することで、以下のような機能を発揮する。すなわち、参照情報処理部13は、一の特定サイトに関する参照情報記憶部22とデータ情報記憶部23内のデータを初期化する初期化機能や各データを整合させる整合機能、参照情報記憶部22から次に収集するデータについてのリンク情報を抽出してデータ処理管理部16にデータ処理要求として通知する機能、一の特定サイト内の全データを収集したかどうかを判断する機能を担っている。
【0124】
データ処理部14は、収集対象となる一のページ内の各種データ(ヘッダ情報やコンテンツ、など)の取得・解析等を実施するためのデータ処理プログラムに基づいて動作することで、当該一のページ内のデータを取得・解析する機能、及び、当該一のページ内のデータについての各種情報を記憶装置20の参照情報記憶部22とデータ情報記憶部23に登録する機能を担っている。
【0125】
なお、本実施の形態では、データ処理部14における特定サイト内のデータの取得機能については、アクセス対象をWebページとしているため、一のデータ処理部14が一のWebページだけを取得対象としており、例えば10個のWebページのデータを取得するには10個のデータ処理部14が動作することになる。これに対して、アクセス対象をファイルとする場合にも、同様に、一のデータ処理部14が一のファイルだけを取得対象とすることになる。
【0126】
データ処理部14は、このように一の特定サイトに対して複数(n個)併存するが、個々のデータ処理部14(14a,14b,・・・14n)には、図4に示すように、それぞれ、複数種類のプロトコル(通信手順)と、複数のデータ形式解析プログラムが実装されており、これにより種々のデータに対する取得及び解析が可能となっている。
【0127】
すなわち、データ処理部14の各機能に関しては、図4に示すように、データ取得部141とデータ解析部142とデータ登録部143とに大別されることになるが、これらの詳細については後述する。
【0128】
参照情報処理管理部15は、複数の参照情報処理部13を管理するための参照情報処理管理プログラムに基づいて動作することで、以下のような機能を発揮する。すなわち、参照情報処理管理部15は、サイト管理部12からのサイト処理要求を受信する機能、受信したサイト処理要求に基づいて1又は複数の参照情報処理部13を起動する機能、参照情報処理部13の起動後に、各特定サイトについて情報収集中か否かを判断する機能、を担っている(図2参照)。
【0129】
データ処理管理部16は、複数のデータ処理部14を管理するためのデータ処理管理プログラムに基づいて動作することで、以下のような機能を発揮する。すなわち、データ処理管理部16は、参照情報処理部13からのデータ処理要求を受信する機能、及び、受信したデータ処理要求に基づいて、記憶装置20のサイト情報記憶部21に登録した最大同時アクセス上限数(図9参照)内で、データ処理部14を起動する機能を担っている。
【0130】
次に、主に図3を参照して、データ処理管理部16と複数のデータ処理部14(14a,14b)とにおける通知(呼び覚まし)機能に関するデータ処理装置10の動作について説明する。ここで、図3には、データ処理管理部16と各データ処理部14との関係を、従来のシステムと対比して示している。
【0131】
なお、以下は、サイト情報記憶部21の最大同時アクセス上限数を「2」に設定した特定サイトにアクセスする場合、すなわち、ある特定サイトに対してアクセスできるデータ処理部14の最大値が「2」に設定された場合を想定して説明する。
【0132】
まず、データ処理管理部16は、設定された最大値2に従って、2つのデータ処理部(図3に示すデータ処理部14aとデータ処理部14b)を起動するように起動命令を出力するとともに、起動した各データ処理部14a,14bに対して、それぞれ未収集の異なるページのデータ(コンテンツ、ファイル等)にアクセスするように、データ処理要求を送信する。
【0133】
詳細には、情報収集・提供システム1においては、まず、サイト情報記憶部21のサイト情報のトップページURL(例えば図9の「http://abcd.co.jp/001.html」)にアクセスするように起動命令及びデータ処理要求が出されてデータ処理部14aが起動し、起動したデータ処理部14aが当該トップページに設定されたリンク先ページの情報(例えば「http://abcd.co.jp/002.html」)を取得すると、続いてこのリンク先ページのURLにアクセスするように起動命令及びデータ処理要求が出されることで、データ処理部14bが起動する。ここで、データ処理部14bもこのリンク先ページに設定されたさらなるリンク先ページの情報(例えば「http://abcd.co.jp/003.html」)を取得するが、特定サイトに対してアクセスできるデータ処理部14の最大値が「2」に設定されているので、次のデータ処理部14cが起動するのは、データ処理部14a又は14bによるデータ取得の処理が終了していずれかのデータ処理部が閉じた後になる。
【0134】
なお、データ処理装置10においては、起動した各データ処理部14a,14bが各ページのデータにアクセスするに先立って、参照情報処理部13が、それぞれのデータ処理部14a,14bが担当するデータについての処理状態を、予め「処理済」にするように、参照情報記憶部22内の処理状態情報を更新し、かつ、データ処理管理部16から各データ処理部14a,14bに対して、アクセスするページについての、ネットワーク上の場所(URL等)、アクセス方法、等について個別に通知される。
【0135】
ここで、参照情報記憶部22内の処理状態情報を予め「処理済」の状態にするのは、データ処理部14が処理中のときに、再び参照情報処理部13が同じページに対してデータ処理要求を行なわないようにするためである。換言すると、参照情報記憶部22内のこの処理状態情報は、参照情報処理部13がデータ処理部14にデータ処理要求を行なったか否か(要求済みか否か)を示すフラグとして機能していることになる。
【0136】
これにより、データ処理装置10においては、起動した各データ処理部14a,14bが、それぞれが同一サイト内の異なるページのデータにアクセスして(図2参照)、情報収集する処理を直ちに開始するが、一方で、データ処理管理部16は、各データ処理部14a,14bの情報収集処理開始を確認すると、待機状態となる。この際に、データ収集装置10では、データ処理管理部16の待機分だけCPUのハードウェア資源が有効利用できるので、各データ処理部14a,14bの処理速度を可及的に速くすることが可能となり、ネットワーク100に公開された情報を高速に収集することが可能となる。
【0137】
続いて、各データ処理部14a,14bは、それぞれ、アクセスしたページについて、コンテンツ自体以外の各種情報(例えば、コンテンツのサイズ、コンテンツの更新日時、など)を記憶装置20のデータ情報記憶部23に格納し、参照情報(どのページがどのページやコンテンツにリンクしているかというリンク情報、ページにアクセスするためのパラメータ、など)を記憶装置20の参照情報記憶部22に格納する処理を行なう。なお、各データ処理部14a,14bは、コンテンツ自体については、他の連携システム(例えばサーチエンジンのシステム)に一時ファイルの形で提供し、記憶装置20には記憶しない。また、ここで、他の連携システムが一時ファイルを無視した場合には、提供した一時ファイルが自動的に削除されることになる。このような処理を行うことにより、記憶装置20に記憶するデータの肥大化が防止され、記憶装置20の記憶容量の節約が図られる。
【0138】
そして、各データ処理部14a,14bは、アクセスしたページについての後述する各種処理が完了すると、データ処理管理部16に処理完了通知を送信する。
【0139】
図3の例では、データ処理部14aのアクセスしたページのコンテンツの方が情報量が少なかったため、先にデータ処理部14aが情報収集の処理を終え、データ処理管理部16に処理完了通知を送信した場合を示している。
【0140】
ここで、データ処理管理部16は、処理完了通知を受信すると、図3に示すように、待機状態を解除して、さらに同一サイト内の未処理のページの情報収集を行うためのデータ処理部14cを起動するように、データ処理部14に対して起動命令及びデータ処理要求を出力する。
【0141】
これにより、図3に示すように、データ処理部14では、データ処理部3が起動して、処理中のデータ処理部2と新たに起動したデータ処理部3とで相互に同一サイトの異なるページについての各種情報を収集する処理が並列して行われ、一方で、データ処理管理部16は、各データ処理部14b,14cの並列処理が行われるのを確認すると、再び待機状態となる。
【0142】
そして、この情報収集・提供システム1では、以下同様にして、いずれかのデータ処理部が処理を終えると、該データ処理部からデータ処理管理部16に処理完了通知が伝達され、データ処理管理部16からの命令に基づいて新たなデータ処理部が起動して他の未処理ページの情報を収集する処理が行われ、このような動作が繰り返されることで、データ処理部が1つしか存在しない状態を可及的に短くすることが可能となり、かつ、システム全体の処理能力を大幅に向上させることが可能となる。
【0143】
すなわち、従来のロボット型サーチエンジンのシステムでは、図3左側の従来システムの動作に示すように、サイトの情報を収集する各ロボット1,2,3・・・(各データ処理部14a,14b,14c,・・・に相当)の動作状態を、ロボット管理部(データ処理管理部16に相当)が定期的に検出し、判定する構成としていたため、検出時の直後にロボットの処理が終了した場合には次の検出時までに無駄な時間が生じ、また検出後の判定処理を行う必要から新たなロボットの起動に時間がかかり、一方で、検出の期間(周期)を短くするとシステム全体として処理が重くなる問題があった。
【0144】
これに対して、実施の形態の情報収集・提供システム1では、各データ処理部14(14a,14b,14c,・・)の動作状態をデータ処理管理部16が検出、判定する処理に代わって、処理を終えたデータ処理部14がデータ処理管理部16に対して、いわば自主的に処理完了を通知する信号を送信し、この信号を受信したデータ処理管理部16が直ちに次の新たなデータ処理部を起動するための命令を発するように、データ処理プログラムとデータ処理管理プログラムが構成されているので、各データ処理部14(14a,14b,14c,・・)が処理中(情報収集中)の間は、データ処理管理部16の行うべき処理は処理完了通知の受信を待つことのみとなり、CPUの能力を他の必要なプログラムに全て回すことが可能となり、従来の定期的に休眠・活動するシステムと比較して、処理能力を大幅に向上させることができ、ネットワーク100に公開された情報をより高速に収集することが可能となる。
【0145】
この情報収集・提供システム1では、階層(リンク)関係を持つが、HTMLやMacromedia(登録商標) Flash、ディレクトリツリー型ファイルシステムなどの、相互に異なる形式のコンテンツが混在した情報群(特定サイトの各ページ)に対して、同一のファイルシステムとなるようにデータを収集するようになっている。以下、このデータ収集のための処理について、図4を参照して説明する。
【0146】
図4に示すように、データ処理部14は、複数の異なるプロトコルによるサーバへのアクセスを透過的に行うためのデータ取得部141(141a,141b,141c,・・・,141n)と、複数の異なる形式のデータ内容を透過的に解析する、すなわち使用者から見ると同じ形式のデータとして見えるように解析するためのデータ解析部142(142a,142b,142c,・・・,142n)と、各データ解析部142と接続され、統一されたデータ形式で記憶装置20にデータを登録するデータ登録部143と、を備える。
【0147】
データ取得部141は、HTTPやMMS(Microsoft (登録商標) Media Server)、RTSP(Real Time Streaming Protocol)、SMB(Server Message Block)、WebDAV(Web−based Distributed Authoring and Versioning)など、相互に異なるアクセス方法(プロトコル)を要する各種サイトへのアクセスを可能とするために、これら各種のアクセス方法(プロトコル、通信規約)についてのプログラムを実装しており、図4に示すように、例えばデータ取得部141aがHTTPを使用するアクセスプログラム、データ取得部141bがMMSを使用するアクセスプログラム、データ取得部141cがRTSPを使用するアクセスプログラム、・・・のように割り当てられている。
【0148】
そして、データ処理管理部16からデータ取得部141にコンテンツ取得命令が送られると、データ取得部141は、コンテンツ情報から合致したプロトコルを選択し、そのプロトコルを用いてサイトにアクセスし、命令されたコンテンツを取得し、後述するコンテンツボール30(の大部分)を作成し、データ解析部142による解析のために、取得したデータを一時ファイルとして保存する。
【0149】
なお、一時ファイルの保存は、この実施の形態では記憶装置20の記憶容量の節約を図るため、不図示の連携システムのハードディスク内に行っているが、例えば記憶装置20の記憶容量に余裕があるような場合には、データ情報記憶部23等に一時ファイル記憶領域を設けて記憶装置20内に行うようにしても良い。
【0150】
データ解析部142は、HTMLやMacromedia(登録商標) Flash、SMIL(Synchronized Multimedia Integration Language)、Adobe(登録商標)社 (http://www.adobe.com/)PDF(Portable Document Format)、Windows Media(登録商標) 、Microsoft(登録商標) WordやExcelなど、異なる形式のコンテンツを解析するための各種プログラムを実装しており、図4に示すように、例えばデータ解析部142aがHTMLの解析プログラム、データ解析部142bがMacromedia(登録商標) Flashの解析プログラム、データ解析部142cがSMILの解析プログラム、データ解析部142dがPDFの解析プログラム、・・・のように割り当てられている。
【0151】
そして、データ解析部142は、データ取得部141で取得された一時ファイルから合致したコンテンツ解析プログラム(142a,142b,142c,・・・,142n)を選択し、その解析プログラムを起動してコンテンツ及びコンテンツ内のリンク情報を取得して、取得したコンテンツを統一されたデータ形式(後述するコンテンツボール30の不足箇所の補充と、参照情報記憶部22に相当するリンク情報)になるように変換する処理を行ない、解析・変換したデータ(コンテンツボール30とリンク情報)をデータ登録部143に転送する。これらの処理は、CPU内の作業領域である不図示のRAM内で行うことになる。一方、データ解析部142は、取得したコンテンツ自体については、連携システムの不図示のハードディスク内に一時ファイルとして保存する。
【0152】
データ登録部143は、データ解析部142から解析・変換済みのコンテンツボール30とリンク情報を受信すると、該コンテンツボール30からサイト情報とページ情報の内容を記憶装置20のデータ情報記憶部23に格納し、該リンク情報を記憶装置20の参照情報記憶部22に格納する処理を行なう。
【0153】
データ処理部14においては、このようにデータ取得部141とデータ解析部142とデータ登録部143とが、それぞれ定められたインタフェースを持っているので、例えばHTTPのサイト中にPDFによるコンテンツデータが参照可能に設けられている場合といった、種類の異なる組み合わせであっても(この場合はデータ取得部141aとデータ解析部142dとを使用することで)、情報収集の処理が可能となる。
【0154】
また、本実施の形態によれば、データ取得に使用するプロトコルやデータ形式が増えた場合であっても、それぞれのデータ取得部141とデータ解析部142を追加すれば良いので、これにより他のプログラムを変更することなくシステムが対応できる。
【0155】
次に、本実施の形態の情報収集・提供システム1全体の動作について、図5乃至図8を参照して詳細に説明する。
【0156】
なお、図5は、特定サイトに対する情報収集を行う場合の情報収集・提供システム1の動作の全体概要を示すフローチャートであり、主に情報収集を開始するまでの動作を説明するためのものである。また、図6は、情報収集・提供システム1における一の特定サイトに対する情報取得の実行動作の概要を説明するためのフローチャートであり、図5のステップS7から派生したルーチンの動作を示している。さらに、図7は、一の特定サイト内の一のページに対する情報取得の実行動作の詳細を説明するためのフローチャートであり、図6のステップS75から派生したルーチンの動作を示している。また、図8は、一の特定サイトに対する情報取得の実行動作の一例を、情報収集・提供システム1の記憶装置20に記憶される情報との関係で説明するための図である。
【0157】
情報収集・提供システム1では、サイト管理部12と参照情報処理管理部15とにより、一又は複数の特定サイトに対する情報取得が開始されることになり、以下、この処理について図5のフローチャートを参照して説明する。
【0158】
特定サイトの情報取得の実行に際して、情報収集・提供システム1では、まず、データ処理装置10のサイト管理部12が、CPUの内部クロックに基づいて現在時刻を取得し(ステップS1)、さらにサイト情報記憶部21の「サイト情報」と「収集開始日時」(図9参照)に登録されている、各特定サイトのURL等と情報収集開始時刻とを取得する(ステップS2)。
【0159】
続いて、サイト管理部12は、現在時刻と情報収集開始時刻が一致するものが有るか否かを判定し(ステップS3)、Noすなわち一致するものがないとの判定の場合には一定時間待機(ステップS5)した後にステップS1に戻り、Yesすなわちいずれかの特定サイトのうち、一致するものがあるとの判定の場合には、当該サイトについての情報収集を開始するため、参照情報処理管理部15に、当該特定サイトのサイト情報(URL等)を含めたサイト処理要求を通知する(ステップS4)。
【0160】
これにより、データ処理装置10では、参照情報処理管理部15が呼び覚まされるとともに、サイト管理部12が待機状態(ステップS5)になる。
【0161】
サイト処理要求を受信した参照情報処理管理部15は、サイト管理部12が取得したURLの特定サイト(すなわち情報収集を開始しようとしているサイト)について、既に巡回中か否か、すなわち当該特定サイトについての処理を担当している参照情報処理部13が既に存在するか否か、についてチェックし(ステップS6)、Noすなわち存在していないとの判定の場合にはステップS7に移行し、一方、Yesすなわち既に存在しているとの判定の場合には、該サイトに再度情報収集しに行く必要なしとして、サイト処理要求を破棄して、一定時間待機(ステップS5)した後にステップS1に戻り、再びサイト管理部12からサイト処理要求を受信するまで待機する。
【0162】
ステップS7で、参照情報処理管理部15は、参照情報処理部13に起動命令を出力して一の参照情報処理部13を起動して、起動した参照情報処理部13にサイトのURLを通知することで、情報収集及び連携システムへの情報提供を開始させるととともに、特定サイトについて処理中であることをCPUのRAM内に記憶する。
【0163】
なお、ステップS3の判定で現在時刻と情報収集開始時刻が一致する特定サイトが複数あり、かつ、ステップS6でいずれの特定サイトも巡回中でない、と判定された後のステップS7では、複数の参照情報処理部を起動するように参照情報処理管理部15から起動命令が出力され、該特定サイトの数に応じた複数の参照情報処理部13が起動することになる。
【0164】
また、ステップS7の情報収集及び連携システムへの情報提供の処理については、主に、記憶装置20のサイト情報記憶部21の情報に基づいて、参照情報処理部13とデータ処理管理部16とデータ処理部14とで行い、各処理にあたっては記憶装置20の参照情報記憶部22やデータ情報記憶部23に各種データを記録、更新等することになるが、この概要及び詳細については、図6以下を参照して後述する。
【0165】
ステップS7における情報収集及び連携システムへの情報提供の処理を終了する際には、参照情報処理部13がサイト処理参照情報処理管理部15に対して通知を行うようになっている(後述する図6のステップS81)。本実施の形態では、このように、参照情報処理部13の起動と終了(すなわち情報収集等の開始と終了)の際には参照情報処理管理部15と参照情報処理部13との間で通知を行うようにしているので、参照情報処理管理部15は、常に、どのサイトが現在処理中であるかについて示すデータをCPUのRAM内に記憶して、参照情報処理部13を管理することが可能となる。
【0166】
そして、ステップS7の情報収集の処理が終了すると、サイト管理部12及び参照情報処理管理部15は、使用者の操作入力に基づきシステム管理部11から通知される、システム全体の終了指示があるか否かについて判定し(ステップS8)、Noすなわち終了指示がない場合には一定時間待機(ステップS5)した後にステップS1に戻り、Yesすなわち終了指示がある場合には情報収集・提供システム1全体の処理を終了する。
【0167】
なお、ステップS5における一定時間の待機は、常に動作してCPUに負担をかけることを防ぐためのものであり、通常は1分間の待機を行なうようになっている。
【0168】
このように、実施の形態の情報収集・提供システム1によれば、データ処理装置10は、記憶装置20のサイト情報記憶部21に予め設定、記憶した情報収集開始時刻に基づいて管理され、指定された時刻が到来すれば(ステップS3でYes)、指定されたネットワーク上のサイトにアクセスして情報収集及び連携システムへの情報提供の処理を行う構成となっており、従来のロボット型エンジンのシステムのように常に巡回し続けるのではなく、特定サイトへの巡回が定期的に行われ、収集した情報が記憶装置20に登録されることになるので、CPUとネットワーク100の使用量を抑えることができるようになり、CPUやネットワーク100の負荷が低減する、という効果が得られる。
【0169】
また、この情報収集・提供システム1によれば、サイト管理部12は、定期的に記憶装置20から情報収集開始時刻を取得して(ステップS5,ステップS2)、現在時刻との比較を行い(ステップS3)、一致した場合には、参照情報処理管理部15に、対象となる特定サイトのサイト情報(URL等)を含むサイト処理要求を通知する(ステップS4)構成となっているので、常に動作する従来のサーチエンジンのシステムと比較して、CPUとネットワーク100の負荷が低減され、かつ、自動的に情報収集するため管理の手間が軽減する、という効果が得られる。
【0170】
(情報収集処理の概要)
次に、図6のフローチャートを参照して、図5のステップS7から派生したルーチン、すなわち、参照情報処理部13の起動後に行われる情報収集の実行処理の概要について説明する。
【0171】
この情報収集・提供システム1においては、データ処理装置10の参照情報処理部13と、データ処理管理部16と、データ処理部14とで、特定サイト内のデータ(ページ)についての多数の情報を取得する処理を行うようになっており、以下は図6を参照して説明する。
【0172】
まず、ステップS71において、データ処理装置10は、上述の参照情報処理管理部15からの起動命令に基づいて起動した参照情報処理部13が、参照情報処理管理部15から転送された特定サイトのURL等(すなわちサイト情報記憶部21のサイト情報)を取得する。なお、ステップS71では、データ処理装置10は、参照情報処理部13が当該特定サイトの処理を開始する旨についてのコンテンツボールを作成して連携システムに送信する処理を行った後にステップS72に移行することになるが、この処理については図11及び図12で後述する。
【0173】
次のステップS72で、データ処理装置10では、参照情報処理部13がデータ処理管理部16に対してデータ処理要求を送信することで、一のデータ処理管理部16が起動する(図2参照)。このデータ処理要求には、特定サイトのURL等(サイト情報記憶部21のサイト情報)及び当該特定サイトについての処理を開始すべき命令が含まれる。
【0174】
次のステップS73で、データ処理装置10は、前ステップで取得したサイト情報(URL等)に基づいて、データ処理管理部16が、サイト情報記憶部21から該特定サイトにおける最大同時アクセス上限数を取得する。すなわち、データ処理部14の起動にあたり、実際にデータ処理部14を起動するのは参照情報処理部13ではなくデータ処理管理部16であるため、ステップS72の処理主体はデータ処理管理部16となる。
【0175】
ここで、データ処理部14が大量に起動するとCPUや他のサーバ等に負荷をかけることになるため、データ処理管理部16は、このような負荷を回避するために、特定サイトの処理にあたり、最大同時アクセス上限数に基づいて、起動するデータ処理部14の数を以下のように管理する。
【0176】
次のステップS74で、データ処理装置10は、データ処理管理部16が、当該特定サイトに現在アクセスしているデータ処理部14の数をチェックして、アクセスしているデータ処理部14が該特定サイトにおける最大同時アクセス上限数(図9参照)に達しているか否かについて判定し、Noすなわち達していないとの判定の場合にはステップS75の処理を経てステップS76に移行し、Yesすなわち達しているとの判定の場合にはステップS76に移行する。通常、特定サイトへのデータ処理部14の最初の起動時には、このステップS74でNoの判定が出ることになる。
【0177】
ステップS75で、データ処理装置10は、データ処理管理部16によってデータ処理部14を起動させて、データ処理部14で特定サイトのデータを取得する処理を開始して、ステップS76に移行する。具体的には、ステップS75では、データ処理管理部16からデータ処理部14に対して、データ処理部を起動するように起動命令が出力されるとともに、参照情報処理部13から出されたデータ処理要求が、データ処理管理部16から、起動した一又は複数のデータ処理部14に対して引き渡される。
【0178】
より詳細には、特定サイトの処理開始時の最初のステップS75では、一のデータ処理部を起動するように起動命令が出力されるとともに、データ処理部14に引き渡されるデータ処理要求には、記憶装置20におけるサイト情報記憶部21のサイト情報(この例ではトップページURL)が含まれる。
【0179】
一方、特定サイトの処理の進行後の2度目以降のステップS75では、当該特定サイトにおけるリンクの数及び最大同時アクセス上限数に応じて、一又は複数のデータ処理部を起動するように起動命令が出力されるとともに、データ処理部14に引き渡されるデータ処理要求(後述するステップS80)には、記憶装置20におけるデータ情報記憶部23の新データ情報記憶領域内に記憶した「ネットワーク上の場所」の情報(図9参照)が含まれる。
【0180】
このようなステップS75の処理により、起動及びデータ処理要求を受信した各データ処理部14は、特定サイト内のいずれか一のページにアクセスすることになる。
【0181】
なお、このステップS75で起動したデータ処理部14が行う処理の詳細については、図7の派生ルーチン(ステップS7501乃至ステップS7511)で表されるが、これについては後述する。
【0182】
ステップS76で、データ処理管理部16は、後述するデータ処理部14からの終了通知を受信するまで(図3参照)、又は、次に参照情報処理部13からのデータ処理要求を受信するまで待機する待機状態となり、これらのいずれかを受信するとステップS74に戻る。
【0183】
すなわち、例えば図3に示すデータ処理管理部16の2回目の処理状態中の期間には、参照情報処理部13からのデータ処理要求及びデータ処理部14からの終了通知を受信する処理と、ステップS74及びステップS75の処理を行っていることになる。
【0184】
データ処理部14の起動後のステップS77で、データ処理装置10は、起動した各データ処理部14(14a〜14n)の中で、処理(すなわち情報収集処理と連携システムへの情報提供処理)が終了したものがあるか否かを、参照情報処理部13で判定して、処理が終了するものが現れるまでステップS77で待機し、Yesすなわち終了しているものありと判定した場合には、ステップS78に移行する。
【0185】
なお、ステップS77のこの判定は、データ処理管理部16に送信したデータ処理要求のプール数(すなわち起動待ちの数)の値に基づいて行う。このプール数は、ステップS72及び後述するステップS80で送信したデータ処理要求の合計数からステップS75で起動したデータ処理部14の合計数を減算することで求められ、プール数の範囲としては0〜最大同時アクセス上限数の間を推移することになる。
【0186】
詳細には、参照情報処理部13は、ステップS72及び後述するステップS80で、プール数の値に1を加えて記憶するとともに、ステップS75でデータ処理管理部16からデータ処理部14にn個の起動命令が出された際に、記憶した数値からnを減算して、減算値が記憶値より少なくなったときに、起動していたデータ処理部14のいずれかが終了したものと判定する。これは、データ処理部14(例えば14a)の処理が終了すると、データ処理管理部16が次のデータ処理部14(例えば14b)を起動することからである。
【0187】
なお、いずれかのデータ処理部14の情報収集処理が終了すると、記憶装置20の参照情報記憶部22及びデータ情報記憶部23には、処理したデータについての情報が登録されている(図7のステップS7507又はステップS7510)状態となっているが、これについては後述する。
【0188】
ステップS77でYesと判定された後のステップS78で、データ処理装置10は、参照情報処理部13が、記憶装置20の参照情報記憶部22における新参照情報の「処理状態」欄をチェックして、処理状態のフラグが「未」であるリンク先の情報に基づいて、データ情報記憶部23の新データ情報の連番を検索することで、当該特定サイトに関係する未処理(未収集)のデータの「ネットワーク上の場所」の情報を、データ情報記憶部23の新データ情報の記憶領域から取得して、ステップS79に移行する。ここで、当該特定サイトに関係する未処理(未収集)のデータとは、例えば、当該特定サイト内のページでデータ処理部14によるアクセスがまだなされていないページについての情報、或いは、データ処理部14がアクセスしたページからのリンクが張られた当該特定サイト外のページについてのリンク情報、などである。
【0189】
ステップS79で、データ処理装置10は、取得した未処理(未収集)の情報から、当該特定サイトに関係する全ての参照情報のデータ(ページ)を収集したか否かを参照情報処理部13で判定して、Noすなわち当該特定サイトに関係する未処理(未収集)のデータがまだ存在するとの判定の場合には、ステップS80に移行し、一方、Yesすなわち当該特定サイトに関係する全ての参照情報のデータを収集し終え、未処理(未収集)の情報が無くなった、と判定した場合には、ステップS81に移行する。なお、ステップS79において、参照情報処理部13は、記憶装置20における参照情報記憶部22の処理状態が全て「処理済」になっており(すなわち当該特定サイト内の全てのリンクページ等をデータ処理部14でアクセスした状態であること)、また、上述したデータ処理要求のプール数がゼロの状態であり(すなわちデータ処理部14の起動待ちが存在しないこと)、さらには、起動中のデータ処理部14が存在しないこと、を条件に、Yesの判定を行う。
【0190】
ステップS80で、データ処理装置10は、ステップS78で取得した「ネットワーク上の場所」の情報を含めたデータ処理要求を参照情報処理部13からデータ処理管理部16に送信する。この際に、参照情報処理部13は、当該未処理(未収集)のデータについての参照情報記憶部22の処理状態欄に予め「済」のフラグを立てておくようにする。
【0191】
かくして、ステップS80によるデータ処理要求を受信したデータ処理管理部16は、上述したステップS76の待機状態から脱してステップS74に移行して、ステップS74〜ステップS76の処理及び待機を繰り返し行う。一方、参照情報処理部13は、ステップS79で未処理(未収集)の情報が無くなったと判定されるまでは、ステップS77〜ステップS80の処理を繰り返し行う。このように、各処理が繰り返し行われることで、データ処理装置10では、一の特定サイトを構成する全てのページについてのデータの収集及び連携システムへの提供が行われることになる。
【0192】
なお、本実施形態では、特定サイト内のページ等にリンクされた特定サイト外のページ等については、そのデータを当該特定サイトに関するデータとして記憶装置20に記憶するが、情報取得処理が終了しない事態を防止するため、データ処理部14によるアクセスは行うが、コンテンツ等の取得、解析等は行わないようになっている。
【0193】
すなわち、図9の特定サイト「http://abcd.co.jp/001.html」の例で言えば、例えば該特定サイト内のあるページ「http://abcd.co.jp/002.html」に、全く別のサイトのページ「rtsp://hijk.co.jp/001.html」がリンクされていた場合でも、このぺージのデータを、特定サイト「http://abcd.co.jp/001.html」にリンクされたデータとして記憶装置20の参照情報記憶部22及びデータ情報記憶部23に記憶するが、データ処理部14では、「rtsp://hijk.co.jp/001.html」にアクセスはするが、該ページのコンテンツを取得することはなく、データ処理部14により特定サイト内の全てのページ等に対する情報取得が終了した時点で、一の特定サイトに関する情報収集が終了した(ステップS79でYes)と、参照情報処理部13により判定される。
【0194】
情報収集・提供システム1では、上述のような一連の動作が繰り返し行われることにより、最初に取得したデータから次にリンクされているデータを取得し、更に次にリンクされているデータを取得するという、特定サイトのいわば階層関係に基づいてデータを収集することで、特定サイト内のデータ全て、さらには当該特定サイトのページ等にリンクされた特定サイト外のデータの一部(すなわちヘッダ情報)を取得し、さらには取得した各種データを連携システムに提供することが可能になる。
【0195】
ステップS81で、データ処理装置10は、参照情報処理部13が参照情報処理管理部15に終了通知を行なうことで、ステップS7の派生ルーチン処理を終了する。ステップS81の終了通知が行なわれた後には、参照情報処理部13及びデータ処理管理部16は、処理を終了して、次に収集開始時刻(図9参照)が来て参照情報処理管理部15から起動命令が出力される(図5のステップS7)までは、或いは、参照情報処理部13からのデータ処理要求が出される(図6のステップS72)までは、待機状態となる。
【0196】
なお、ステップS81では、データ処理装置10は、参照情報処理部13が当該特定サイトのURLの処理を完了した旨についてのコンテンツボールを作成して連携システムに送信する処理を行った後にステップS8に移行することになるが、この処理については図11及び図12で後述する。
【0197】
このように、本実施形態のデータ処理装置10においては、データ処理管理部16は、当該データ処理管理部16の起動時にサイト情報記憶部21から該サイトにおける最大同時アクセス上限数を取得するとともに(ステップS73)、参照情報処理部13から受信したデータ処理要求(ステップS72,ステップS80)を一旦保持しつつ、現在アクセスしているデータ処理部14の数をチェックして(ステップS74)、最大同時アクセス上限数に達している場合にはデータ処理部14の終了、又は参照情報処理部13からのデータ処理要求の受信を待機し(ステップS76,図3参照)、一方、現在アクセスしているデータ処理部14の数が最大同時アクセス上限数に達していない場合には、データ処理部14を起動する(ステップS75)こととしているので、一の特定サイトの情報取得中におけるデータ処理部14の数がデータ処理管理部16によって管理され、予め設定められた一定数以上のデータ処理部14が起動する事態が回避されることになり、CPUやネットワーク100の負荷を軽減することが可能となる。
【0198】
また、このデータ処理装置10においては、一の特定サイトに対して複数のデータ処理部14が同時にデータを収集し、データ処理部14によるデータ収集中の間はデータ処理管理部16や参照情報処理部13がCPUを使わない待機状態(図3、ステップS76,ステップS77)となり、また、上述のように、データ処理部14が収集を終えたか否かをデータ処理管理部13やデータ処理管理部16等で定期チェックするのではなく、終了したデータ処理部14からデータ処理管理部16に終了の旨の信号を個別に送信することから、無駄な動作や無用な空き時間が無くなるとともに、CPUとネットワーク100の負荷を軽減しながらネットワーク100に公開された特定サイトの情報を高速に収集することが可能となる。
【0199】
(情報収集処理の詳細)
次に、図7のフローチャートを参照して、図6のステップS75の派生ルーチン、すなわち特定サイト内の一のページのデータについて、一のデータ処理部14が行う情報収集の処理の詳細について説明する。
【0200】
この情報収集・提供システム1において、データ処理部14は、その構成要素であるデータ取得部141と、データ解析部142と、データ登録部143とで、特定サイト内に存在する個々の情報を取得する処理を行なうようになっており、以下は図7を参照して説明する。
【0201】
データ処理部14のデータ取得部141は、上述のデータ処理管理部16からのデータ処理要求を受信し(ステップS7501)、このデータ処理要求に含まれるURLのプロトコル情報から、(図4の141a〜nで)対応可能か否かを判定し(ステップS7502)、Noすなわち対応不可能の場合はデータ処理管理部16に終了を通知(ステップS7512)して終了し、Yesすなわち対応可能の場合は、記憶装置20のサイト情報記憶部21から、該サイトへのアクセス方法についての情報(図9参照)を取得する(ステップS7503)。
【0202】
ステップS7503で取得するアクセス方法についての情報の具体例としては、上述のように、簡易認証(Basic認証)情報や、フォーム認証(CGI= Common Gateway Interface認証)情報や、プロキシ情報などが含まれる。
【0203】
ここで、簡易認証情報を取得した場合には、データ取得部141は、アクセスするURLが簡易認証のURLと一致すれば、簡易認証情報としてのIDとパスワードを当該特定サイトのURL(ページ)へのアクセス時に用いることになる。
【0204】
また、フォーム認証情報を取得した場合には、データ取得部141は、アクセスするURLがフォーム認証のURLと一致すれば、フォーム認証のパラメータをアクセス時に用いることになる。
【0205】
また、プロキシ情報情報を取得した場合には、データ取得部141は、プロキシを経由して当該特定サイトのURL(ページ)にアクセスすることになる。
【0206】
該サイトへのアクセス方法についての情報を取得したデータ処理部14のデータ取得部141は、次のステップS7504で、URLのプロトコル情報がHTTPであればHTTPで(すなわち図4のデータ取得部141aを用いて)、そうでなければそのプロトコルを用いてURLにアクセスして、該URLのヘッダ情報(名前,種別,サイズ,更新日時などの本文以外の情報)を取得して、ステップS6405に移行する。なお、URLのプロトコル情報とは、URLの先頭部分を指しており、URLの先頭部分が「http:」であればHTTPを用い、URLが「rtsp:」で始まっていればRTSPを用いることになる。
【0207】
ステップS7505で、データ処理部14のデータ取得部141は、ヘッダ情報を取得できたか否かについて判定し、Noすなわち取得できなかったと判定した場合にはデータ処理管理部16に終了(この場合はページ処理異常:「ERR」による終了)を通知して(ステップS7512)処理を終え、一方、Yesすなわち取得できたと判定した場合には、本文(コンテンツ)の情報を取得する必要があるか否かを判断すべく、ステップS7506に移行する。
【0208】
ステップS7506で、データ処理部14のデータ取得部141は、データ情報記憶部23の前データ情報の記憶領域を参照して、今回取得したヘッダ情報が前回に登録したヘッダ情報と一致するか否かについて判定し、Yesすなわち前回取得したヘッダ情報と一致するとの判定の場合には、名前,種別,サイズ,更新日時、等が同じであるため、本文(コンテンツ)についても変更なしとみなしてステップS7507に移行し、Noすなわち一致しないとの判定の場合には、本文(コンテンツ)についても変更されたもの(「UPDATE」)若しくは新規(「NEW」)に追加されたものであるとみなして、ステップS7508に移行する。
【0209】
なお、特定サイトについての初めてのアクセスの場合には、当該特定サイトに関してはデータ情報記憶部23の前データ情報及び新データ情報のいずれの記憶領域にもヘッダ情報が登録されていないため、ステップS7506ではNoの判定が出ることになる。
【0210】
ステップS7507で、データ処理部14は、データ取得部141からデータ登録部143にヘッダ情報を転送し、データ登録部143がこのヘッダ情報をデータ情報記憶部23の新データ情報の記憶領域に記憶するとともに、参照情報記憶部22の前参照情報の記憶領域に登録されたデータの内容をそのまま新参照情報の記憶領域に複写してステップS7512に移行し、ステップS7512でデータ処理管理部16に終了(この場合はページ処理済:「INFO」の更新されていないデータであることを示す「NONE」)を通知して処理を終わる。
【0211】
一方、ステップS7508で、データ処理部14は、ステップS7505で取得したヘッダ情報が外部サイトの情報であるか否かを判定して、Yesすなわち外部サイトの情報であるとの判定の場合にはコンテンツ取得の必要なしとしてステップS7511に移行し、一方、Noすなわち外部サイトの情報でないとの判定の場合にはコンテンツ取得の必要有りとしてステップS7509に移行する。
【0212】
ここで、ステップS7508における外部サイトの情報であるか否かの判定は、サイト情報記憶部21の「サイト情報」欄に登録された情報に基づいて行われ、具体的には、登録された情報がwebサイトならば、当該特定サイトのドメイン名(図9連番1の例では「abcd.co.jp」)が同一であるか否かが基準となる。なお、アクセス対象がディレクトリツリー型ファイルシステムの場合には、サイト情報記憶部21の「サイト情報」欄にはディレクトリ名が登録されることになるので、ステップS7508では、当該特定サイトのディレクトリ名が同一であるか否かが基準となる。
【0213】
ステップS7509で、データ処理部14は、データ取得部141で実際にコンテンツを取得し、その内容を一時ファイル(この例では連携システムのハードディスク)に保存して、ステップS7510に移行する。
【0214】
ステップS7510で、データ処理部14は、一時ファイルに保存したコンテンツをデータ解析部142で解析し、必要な情報を抽出する処理を行う。具体的には、データ解析部142は、コンテンツがHTMLであればHTMLで(すなわち図4のデータ解析部142aを用いて)、そうでなければその解析法を用いて一時ファイルにアクセスして、コンテンツを解析し、解析した内容をデータ登録部143にRAMを用いて転送し、ステップS7511に移行する。
【0215】
なお、ステップS7510における「必要な情報」とは、連携システムに送信する後述のコンテンツボール30(図12参照)を構成する情報と、参照情報記憶部22に記憶すべきリンク情報を構成する情報(この実施形態では、行数,タグ名)である。
【0216】
そして、RAMでコンテンツの解析内容を取得したデータ処理部14のデータ登録部143は、ステップS7511で、この解析内容から、ネットワーク上の場所,階層数,及びヘッダ情報を構成するサイズ,更新日時、などの情報をデータ情報記憶部23の新データ情報の記憶領域に登録するとともに、リンク情報、パラメータなどを参照情報記憶部22の新参照情報の記憶領域に登録してステップS7512に移行し、ステップS7512でデータ処理管理部16に終了通知(この場合はページ処理済:「INFO」の新規のデータであることを示す「NEW」または更新されたデータであることを示す「UPDATE」)を通知して、処理を終える。
【0217】
一方、ステップS7508でYesすなわち外部サイトの情報であると判定された後のステップS7511では、データ登録部143は、この場合にはコンテンツの解析内容が存在しないので、ヘッダ情報を構成するサイズ,更新日時、などの情報をデータ情報記憶部23の新データ情報の記憶領域に登録してステップS7512に移行し、ステップS7512でデータ処理管理部16に終了通知(この場合はページ処理済:「INFO」の新規のデータであることを示す「NEW」または更新されたデータであることを示す「UPDATE」)を通知して、処理を終える。
【0218】
このように、実施の形態の情報収集・提供システム1によれば、データ処理部14は、アクセスしたページのコンテンツ等の概要を示すヘッダ情報を取得して(ステップS7504)、前回に取得したヘッダ情報との比較を行い(ステップS7506)、前回と異なるヘッダ情報の場合には、外部サイトでないこと(ステップS7508でNo)を条件に該コンテンツの取得(ステップS7509)及び解析(ステップS7510)を行って記憶装置20に記憶し、一方、前回と同一のヘッダ情報の場合には該コンテンツの取得及び解析を行なわずに、以前に記憶したヘッダ情報とそのコンテンツに含まれるリンク情報を利用して記憶装置20に記憶する(ステップS7507)構成としたので、CPUとネットワーク100の使用量を抑えることができるようになり、CPUやネットワーク100の負荷が低減する、という効果が得られる。
【0219】
すなわち、実施の形態の情報収集・提供システム1によれば、データ処理装置10は、処理に時間及び負荷のかかるコンテンツの解析に先立って、当該コンテンツの固有情報であるヘッダ情報を取得する(ステップS7504)とともに、前回取得したヘッダ情報と比較(ステップS7506)しながら情報を収集管理して、記憶装置20に登録し(ステップS7507,ステップS7508〜7511)、前回の記憶装置20に登録されている内容よりも新しく更新された情報のみを対象にコンテンツを収集し(ステップS7509)、外部サイトのコンテンツや、前回の記憶装置20に登録されている内容から更新されていないコンテンツについては取得(解析)しない(ステップS7511,ステップS7507)ので、一の特定サイト内の情報を高速かつ低負荷で取得することができるようになり、ひいては複数の特定サイトを同時並行的に情報収集する場合のCPU及びネットワーク100の負担を著しく減少させ、各情報収集の処理を迅速に終了させることが可能となる。
【0220】
さらには、実施の形態の情報収集・提供システム1によれば、データ処理装置10のデータ処理部14は、特定サイトにつき収集を行うページのサイト情報(URL等)を受信し(ステップS7501)、アクセス方法の情報(簡易認証(Basic認証)情報、フォーム認証(CGI= Common Gateway Interface認証)情報、プロキシ情報、等)を記憶装置20のサイト情報記憶部21から取得する(ステップS7503)とともに、取得した該情報に基づいてURLにアクセスしてそのヘッダ情報を取得する(ステップS7504)ので、使用者は、システム管理プログラムを起動させてサイト情報記憶部21へ登録する情報の設定を一度行えば良く、各特定サイト毎に異なる複数のアクセス方法についての情報を毎回入力する必要がなくなるので、管理の手間が軽減する。
【0221】
次に、図8を参照して、上述した情報収集処理の実行にあたり、参照情報処理部13とデータ処理部14とが記憶装置20の参照情報記憶部22とデータ情報記憶部23とに対して行う処理等について説明する。
【0222】
図8に概略的に示すように、情報収集処理の実行にあたっては、参照情報処理部13及びデータ処理部14は、記憶装置20の参照情報記憶部22とデータ情報記憶部23を参照、更新しながら行うことになる。
【0223】
上述のように、参照情報記憶部22とデータ情報記憶部23は、それぞれ、データ処理装置10による処理結果の記憶領域が二重化された領域を備えており、一方が前回の情報取得処理の結果を保存する領域とされ、他方が次に情報取得処理を実行したときに新たに作成する新規の情報の記憶領域とされる。
【0224】
そして、データ処理装置10において、データ処理部14は、参照情報処理部13から指示されるURLにネットワーク100経由でアクセスし、該URLのヘッダ情報を取得してデータ情報記憶部23の「新データ情報の記録領域」に登録する(図7のステップS7504)とともに、データ情報記憶部23の「前データ情報の記憶領域」の該当ページにおけるヘッダ情報との比較を行う(図7のステップS7505)。
【0225】
なお、ヘッダ情報の比較に関しては、ここでは説明の便宜のため、更新日時を比較した例を挙げているが、他にも、種別、サイズなど、データ情報記憶部23に記憶している内容を同様に比較することになる。
【0226】
ここで、データ情報記憶部23の各記憶領域のヘッダ情報を比較した結果、両者が一致すれば(ステップS7506でYes)、データ処理部14は、参照情報記憶部22の「前参照情報の記憶領域」に記憶しているURLの情報を、参照情報記憶部22の「新参照情報の記憶領域」に、「未処理」として複写する(ステップS7507)。比較の結果、一致しない、またはデータ情報記憶部23の「前データ情報の記憶領域」に存在しないのであれば(ステップS7506でNo)、データ処理部14は、外部サイトでないこと(ステップS7508でNo)を条件にコンテンツを取得して、当該コンテンツを一時ファイルとして記憶し(ステップS7509)、コンテンツ内部に含まれるリンクURL情報を抽出して(ステップS7510)、参照情報記憶部22の「新参照情報の記憶領域」に「未処理」として登録する(ステップS7511)。
【0227】
このような処理を行うことで、前回取得してから変更のないURLのコンテンツを取得する時間と転送量を省き、CPUとネットワーク100の負荷を軽減しながらも高速に情報を取得することが可能となる。
【0228】
一方、データ収集の処理中には、参照情報処理部13は、参照情報記憶部22の新参照情報の記憶領域の処理状態が「未処理」であるところの「ネットワーク上の場所」の情報(図9参照)を、データ情報記憶部23の新データ情報の記憶領域から取得し続け(図6のステップS78)、「未処理」が存在すれば(ステップS79でYes)、データ処理部14を起動べくデータ処理管理部16にデータ処理要求を送信するとともに、参照情報記憶部22の処理状態情報を「処理済」に変更する(ステップS80)。
【0229】
図8には、ネットワーク100上のサーバ等の装置に特定サイトを含む3つのページ等(特定サイトとしてのデータ1、及びデータ1にリンクされたデータ2とデータ3)が存在し、前回(例えば1回目)の情報収集時にはデータ1からデータ2とデータ3に向けてリンクが張られていたが、今回(例えば2回目)の情報収集時には、新たにデータ2からデータ3に向けてのリンクが張られていた(すなわちデータ2が更新されており、更新日時は2003年1月1日)という事例を示している。
【0230】
また、図8では、情報収集・提供システム1で前回に収集した情報が、参照情報記憶部22の前参照情報の記憶領域及びデータ情報記憶部23の前データ情報の記憶領域に格納されており、今回に収集した情報が、参照情報記憶部22の新参照情報の記憶領域及びデータ情報記憶部23の新データ情報の記憶領域に記録される状態を概略的に示している。
【0231】
この事例では、データ1とデータ3については、前回と今回とで変更が無いために、図8に示すように、今回の情報収集の結果、データ情報記憶部23の新データ情報の記憶領域には、前データ情報の記憶領域と同じ情報が登録されるとともに、参照情報記憶部22の前参照情報の記憶領域から新参照情報の記憶領域に、データ1とデータ3の情報が複写される。
【0232】
詳細には、データ1とデータ3については、今回の情報収集時には、各データ1,3のヘッダ情報をデータ処理部14のデータ取得部141で収集し(図7のステップS7504)、データ情報記憶部23の「新データ情報の記憶領域」に各情報を登録するが、この際に、データ情報記憶部23の「前データ情報の記憶領域」に登録された各情報との比較を行い(ステップS7506)、比較の結果、前回と今回とで変更が無い(全ての内容が変わっていない)ことから、データ1とデータ3についてはデータ解析部142を用いた解析(ステップS7510)を行うことなく、参照情報記憶部22の「新参照情報の記憶領域」には「前参照情報の記憶領域」の情報がそのまま複写される(ステップS7507)ことになる。
【0233】
一方で、データ2については、前回と今回とでは、2003年1月1日にデータ3へのリンクが設定されている点で変更(更新)が有ったために、今回の情報収集時には、この更新日時と更新内容の情報を取得し、更新日時についてはデータ情報記憶部23の「新データ情報の記憶領域」に、更新内容については参照情報記憶部22の「前参照情報の記憶領域」に、それぞれ格納されることになる。
【0234】
詳細には、今回の情報収集時には、データ2のヘッダ情報をデータ処理部14のデータ取得部141で収集し、データ情報記憶部23の「新データ情報の記憶領域」に各情報を登録するが、この際に、データ情報記憶部23の「前データ情報の記憶領域」に登録された各情報との比較を行い(ステップS7506)、比較の結果、「更新日時」の日付が異なっていることから、データ2については取得(ステップS7509)及びデータ解析部142を用いた解析(ステップS7510)を行い、参照情報記憶部22の「新参照情報の記憶領域」に新たにデータ2からデータ3に向けての参照情報を新たに登録する(ステップS7511)。
【0235】
そして、データ処理部14で行うべき処理が全て終了し、かつ参照情報記憶部22の「新参照情報の記憶領域」内の全てが処理済になれば(この事例では図8に示す新参照情報の記憶領域の再下段の「未処理」が「処理済」に変更され、かつ各データ処理部14(14a〜c)の全ての処理が終了した時点で、特定サイト内にある多数の情報を全て取得したことになり、参照情報処理部13は終了する。
【0236】
次に、記憶装置20におけるサイト情報記憶部21と参照情報記憶部22とデータ情報記憶部23との関係を、図9に示す各データテーブルを参照してより具体的に説明する。なお、図9に示す参照情報記憶部22及びデータ情報記憶部23に登録された各データは、サイト情報記憶部21に登録された一の特定サイト「http://abcd.co.jp/0001.html」に関して対応付けられたデータのみを抽出して示している。
【0237】
図9に示すように、記憶装置20では、参照情報記憶部22の「サイト」欄にサイト情報記憶部21の「連番」の数値(図9では1)が登録されることで、参照情報記憶部22のデータがサイト情報記憶部21に登録された一の特定サイト「http://abcd.co.jp/0001.html」のデータに対応付けられており、同様に、データ情報記憶部23の「サイト」欄にサイト情報記憶部21の「連番」の数値(図9では1)が登録されることで、データ情報記憶部23のデータがサイト情報記憶部21の当該特定サイトのデータに対応付けられている。
【0238】
また、記憶装置20では、参照情報記憶部22の「リンク情報」の「リンク元」欄と「リンク先」欄にデータ情報記憶部23の「連番」の番号が登録されることで、参照情報記憶部22のデータがデータ情報記憶部23のデータに対応付けられている。
【0239】
さらに、この記憶装置20においては、参照情報記憶部22とデータ情報記憶部23とが、それぞれ二重化されており、具体的には、一方を前回の収集情報についての記憶領域、他方を最新の収集情報についての記憶領域として利用している。
【0240】
ここで、情報取得対象としての一の特定サイト「http://abcd.co.jp/0001.html」につき、1度目の情報収集処理ではトップページの0001.htmlとその下位ページの0002.htmlの2ページで構成されていたが、2度目の情報収集処理の時点では、0002.htmlに対してさらに下位となる0003.htmlのページが新規で追加されていた、という事例を想定して、各記憶部21〜23におけるデータの更新等の処理について説明する。
【0241】
まず、1度目の情報収集処理では、上述した図7のステップS7501のデータ処理要求により、「http://abcd.co.jp/0001.html」で示されるサイトを処理するように指示を受けたデータ処理部14(14aとする。)は、サイト情報記憶部21の「http://abcd.co.jp/0001.html」に関する各情報(図9の▲1▼の段の各データ)から、「アクセス方法」の情報(この事例ではプロキシ情報)を取得して(ステップS7503)、http://abcd.co.jp/0001.htmlにアクセスする。
【0242】
そして、http://abcd.co.jp/0001.htmlにアクセスしたデータ処理部14aは、まずhttp://abcd.co.jp/0001.htmlのヘッダ情報をデータ取得部141で取得する(ステップS7504)が、この場合には前回取得した情報がないため(ステップS7506でNo)、ステップS7509〜ステップS7512の処理を行う。
【0243】
具体的には、ステップS7509において、データ処理部14aは、データ取得部141でhttp://abcd.co.jp/0001.html(トップページ)内のコンテンツを取得し、後述するコンテンツボール30の大部分を作成し、データ解析部142による解析のために、取得したデータを一時ファイルとして保存する。また、次のステップS7510において、データ処理部14aは、データ解析部142でコンテンツの解析と必要な情報を抽出してコンテンツボール30の不足箇所の補充を行い、次のステップS7511では、データ登録部143が上述した各データを参照情報記憶部22とデータ情報記憶部23に新規登録するとともに、完成したコンテンツボール30をステップS7512で連携システムに提供する。
【0244】
すなわち、ステップS7511では、データ処理部14aは、前ステップで抽出した情報に基づいて、該ページ(0001.html)の階層数(この例では1),種別(この例ではHTML),サイズ(この例では1024(バイト)),更新日時(この例では2002年12月1日零時零分),等のデータを、データ情報記憶部23の新データ情報の記録領域(図9の▲5▼の段の該当する各欄)に記録するとともに、該ページ(0001.html)にリンクされたリンク先の情報があれば、該情報を参照情報記憶部22の新参照情報の記憶領域(図9の▲2▼の段の該当する各欄)に記録して行く。
【0245】
そして、ステップS7511において、データ処理部14aのデータ登録部143は、該ページ(0001.html)に関する各情報を参照情報記憶部22及びデータ情報記憶部23に記録すると、該ページについての全てのデータ収集を完了したものとして、データ情報記憶部23の新データ情報の記録領域(図9の▲5▼の段)の「収集状態」欄に、該ページのデータ収集が完了したことを示すフラグ(図9の「OK」)を記録して、データ処理管理部16に終了を通知し(ステップS7512)、この際にコンテンツボール30を連携システムに送信する。
【0246】
この事例では、データ処理部14aは、該ページ0001.htmlのコンテンツ解析時(ステップS7510)に、0001.htmlの本文(コンテンツ)に記述されているリンクページの「0002.html」を抽出することになるので、ステップS7511では、データ登録部143により、データ情報記憶部23の新参照情報の記憶領域に、0002.htmlについての記録欄(図9の▲6▼の段)を確保(新設)するとともに、確保(新設)した0002.htmlの「収集状態」欄に、当該ページのデータを未だ収集していない状態であることを示すフラグ(例えば「未」)を記録する。
【0247】
また、ステップS7510で0002.htmlを抽出したデータ処理部14aは、当該リンク元のサイト(この場合は「http://abcd.co.jp/0001.html」)に存在するリンク情報を記録するため、次のステップS7511では、データ登録部143により、参照情報記憶部22の新参照情報の記憶領域に確保された、0001.htmlから0002.htmlへリンクされていることを示す記録欄(図9の▲2▼の段)に、リンク情報(リンク元,リンク先,行数,タグ名)を記録するとともに、その「処理状態」欄に、特定コンテンツ(この場合は「http://abcd.co.jp/0002.html」のコンテンツ)の全部のデータを未だ収集していない状態であることを示す「未」のフラグを記録する。なお、図9の▲2▼の段に示す例は、http://abcd.co.jp/0001.htmlの本文の32行目に0002.htmlへリンクするためのリンク先情報があり、かつ、そのタグ名がAタグのHREFだった場合である。
【0248】
そして、情報収集・提供システム1では、データ処理部14aのこの記録処理に基づいて、参照情報記憶部22の「処理状態」欄を監視している参照情報処理部13が次のデータ処理部14(14b)を起動させるべく、「http://abcd.co.jp/0002.html」を含めたデータ処理要求をデータ処理管理部16に送信し(図6のステップS72)、データ処理管理部16から起動命令が出力される(ステップS75)。
【0249】
続いて、次に起動したデータ処理部14bは、起動命令に含まれる「http://abcd.co.jp/0002.html」に基づいて、当該ページへアクセスし、同様に、http://abcd.co.jp/0002.htmlのヘッダ情報をデータ取得部141で取得し(ステップS7504)、ここでも前回取得した情報がなく(ステップS7506でNo)、かつ外部サイトではないため(ステップS7508でNo)、上述と同様にステップS7509〜ステップS7512の処理を行う。
【0250】
すなわち、ステップS7509において、データ処理部14bは、データ取得部141でhttp://abcd.co.jp/0002.html内のコンテンツを取得し、後述するコンテンツボール30の大部分を作成し、データ解析部142による解析のために、取得したデータを一時ファイルとして保存する。また、次のステップS7510において、データ処理部14bは、データ解析部142でコンテンツの解析と必要な情報を抽出してコンテンツボール30の不足箇所の補充を行い、次のステップS7511では、データ登録部143が上述した各データを参照情報記憶部22とデータ情報記憶部23に新規登録するとともに、完成したコンテンツボール30をステップS7512で連携システムに提供する。
【0251】
すなわち、ステップS7511では、データ処理部14bは、前ステップで抽出した情報に基づいて、該ページ(0002.html)の階層数(この例では2),種別(この例ではHTML),サイズ(この例では1024(バイト)),更新日時(この例では2002年12月1日零時零分),等のデータを、データ情報記憶部23の新データ情報の記録領域(図9の▲6▼の段の該当する各欄)に記録するとともに、該ページ(0002.html)にリンクされたリンク先の情報があれば、該情報を参照情報記憶部22の新参照情報の記憶領域に記録して行く。
【0252】
なお、この事例では、当該1回目の情報収集(巡回)時点では0002.htmlにはリンク情報(0003.html)が存在しなかったため、この場合には、データ処理部14bのデータ登録部143は、ステップS7510では、データ情報記憶部23及び参照情報記憶部22に新しい欄を新設(確保)することなく、特定サイトの該ページ(0002.html)に関する各情報をデータ情報記憶部23の新データ情報の記録領域(図9の▲6▼の段)に記録すると、該ページについての全てのデータ収集を完了したものとして、この「収集状態」欄に、該ページのデータ収集が完了したことを示すフラグ(図9の「OK」)を記録するとともに、参照情報記憶部22の(図9の▲2▼の段)の「処理状態」欄の「未」フラグを、図9の「済」に変更する。この処理により、参照情報記憶部22の処理状態が全て「済」になり、該特定サイトの全てのページ(すなわちhttp://abcd.co.jp/にある各ページ)についてのデータ収集が完了したことが示されるので、この特定サイトの1度目の情報収集を完了させることが可能となる。
【0253】
すなわち、次のステップS7512でデータ処理部14bのデータ登録部143からデータ処理管理部16に処理の終了が通知されると、参照情報記憶部22の「処理状態」欄を監視している参照情報処理部13が「全ての参照情報のデータを収集した」(図6のステップS79でYes)と判定することで、この特定サイトの1度目の情報収集が終了する。
【0254】
なお、情報収集・提供システム1においては、当該特定サイトの次(2度目)の情報収集(巡回)の際には、データ処理部14の起動に先立って、参照情報記憶部22の「新」参照情報の記憶領域及びデータ情報記憶部23の「新」データ情報の記憶領域を、それぞれ「前」参照情報の記憶領域及び「前」データ情報の記憶領域として扱うとともに、新たに新参照情報の記憶領域及び新データ情報の記憶領域を確保するように、参照情報処理部13によって処理がなされる。
【0255】
次に、特定サイト「http://abcd.co.jp/0001.html」において新たなページ0003.htmlが追加された後にデータ処理装置10が行う2度目の情報収集の処理について説明する。
【0256】
2度目の情報収集処理においても、上述した図7のステップS7501のデータ処理要求により、「http://abcd.co.jp/0001.html」で示されるサイトを処理するように指示を受けたデータ処理部14(同様に14aとする。)は、上述と同様に、サイト情報記憶部21の「http://abcd.co.jp/0001.html」に関する各情報(図9の▲1▼の段の各データ)から、「アクセス方法」の情報(この事例ではプロキシ情報)を取得して(ステップS7503)、http://abcd.co.jp/0001.htmlにアクセスする。
【0257】
そして、http://abcd.co.jp/0001.htmlにアクセスしたデータ処理部14aは、同様に、まずhttp://abcd.co.jp/0001.htmlのヘッダ情報をデータ取得部141で取得する(ステップS7504)が、この事例では取得したヘッダ情報が前回の情報(すなわち図9の▲5▼の段の情報)と一致するため(ステップS7506でYes)、該トップページ(0001.html)のコンテンツ(リンク情報を含む)についても同一とみなして、今回はデータ登録部143でステップS7507の処理を行う。すなわち、ステップS7507で、データ処理部14aのデータ登録部143は、データ情報記憶部23の前データ情報の記録領域(図9の▲5▼及び▲6▼の段)の各欄のデータ(すなわちトップページ0001.html及びその下位ページ0002.htmlについてのデータ)を、新データ情報の記録領域(図9の▲7▼及び▲8▼の段)にとりあえず全部複写して、下位ページ0002.htmlについての「収集状態」欄だけ「未」のフラグを記録するとともに、参照情報記憶部22の前参照情報の記録領域(図9の▲2▼の段)の情報を新参照情報の記録領域(図9の▲3▼の段)に複写して、「処理状態」欄だけ「未」のフラグを記録する。
【0258】
なお、コンテンツボール30の作成については、データ取得部141及びデータ解析部142で作成・更新を行い、データ登録部143が参照情報記憶部22及びデータ情報記憶部23の記録情報を用いて最終的な更新を行う。これにより、ぺージ状態がNONE(更新なし)の前回と同一内容のコンテンツボール30が、連携システムに提供されることになる。
【0259】
そして、情報収集・提供システム1では、データ処理部14aの記録処理に基づいて、参照情報記憶部22の「処理状態」欄を監視している参照情報処理部13が次のデータ処理部14(14b)を起動させるべく、「http://abcd.co.jp/0002.html」を含めたデータ処理要求をデータ処理管理部16に送信し(図6のステップS72)、データ処理管理部16から起動命令が出力される(ステップS75)。
【0260】
続いて、次に起動したデータ処理部14bは、起動命令に含まれる「http://abcd.co.jp/0002.html」に基づいて、当該ページへアクセスし、http://abcd.co.jp/0002.htmlのヘッダ情報をデータ取得部141で取得して(ステップS7504)、取得したヘッダ情報を、前回取得したヘッダ情報(すなわち図9の▲6▼の段の情報)と比較する(ステップS7506)。
【0261】
この事例では、ページ0002.htmlのヘッダ情報の「サイズ」及び「更新日時」が前回と異なるため(ステップS7506でNo)、該ページ0002.htmlのコンテンツについても異なるものとみなし、ステップS7509〜ステップS7512の処理を行うことになる。
【0262】
すなわち、ステップS7509において、データ処理部14bは、データ取得部141でhttp://abcd.co.jp/0002.html内のコンテンツを取得し、後述するコンテンツボール30の大部分を作成し、データ解析部142による解析のために、取得したデータを一時ファイルとして保存する。また、次のステップS7510において、データ処理部14bは、データ解析部142でコンテンツの解析と必要な情報を抽出してコンテンツボール30の不足箇所の補充を行い、次のステップS7511では、データ登録部143が上述した各データを参照情報記憶部22とデータ情報記憶部23に新規登録するとともに、完成したコンテンツボール30をステップS7512で連携システムに提供する。
【0263】
すなわち、ステップS7511では、データ処理部14bは、前ステップで抽出した情報に基づいて、該ページ(0002.html)の階層数(この例では2),種別(この例ではHTML),サイズ(この例では2048(バイト)),更新日時(この例では2003年1月1日零時零分),等のデータを、データ情報記憶部23の新データ情報の記録領域(図9の▲8▼の段の該当する各欄)に記録するとともに、該ページ(0002.html)にリンクされたリンク先の情報があれば、該情報を参照情報記憶部22の新参照情報の記憶領域に記録して行く。
【0264】
そして、ステップS7511において、データ処理部14bのデータ登録部143は、該ページ(0002.html)に関する各情報を参照情報記憶部22及びデータ情報記憶部23に記録すると、該ページについての全てのデータ収集を完了したものとして、データ情報記憶部23の新データ情報の記録領域(図9の▲8▼の段)の「収集状態」欄に、該ページのデータ収集が完了したことを示すフラグ(図9の「OK」)を記録して、データ処理管理部16に終了を通知する(ステップS7512)。
【0265】
この事例では、当該2回目の情報収集(巡回)時点では、該ページ0002.htmlにさらなる下位ページhttp://abcd.co.jp/0003.htmlについてのリンク情報が存在しているため、データ処理部14bは、該ページ0002.htmlのコンテンツ解析時(ステップS7510)に、0002.htmlの本文(コンテンツ)に記述されているリンクページの「0003.html」を抽出することになるので、ステップS7511では、データ登録部143により、データ情報記憶部23の新参照情報の記憶領域に、0003.htmlについての記録欄(図9の▲9▼の段)を確保(新設)するとともに、確保(新設)した0003.htmlの「収集状態」欄に、当該ページのデータを未だ収集していない状態であることを示すフラグ「未」を記録する。
【0266】
また、ステップS7510で0003.htmlを抽出したデータ処理部14bは、当該リンク元のサイト(この場合は「http://abcd.co.jp/0002.html」)に存在するリンク情報を記録するため、次のステップS7511では、データ登録部143により、参照情報記憶部22の新参照情報の記憶領域に確保された、0002.htmlから0003.htmlへリンクされていることを示す記録欄(図9の▲4▼の段)に、リンク情報(リンク元,リンク先,行数,タグ名)を記録するとともに、その「処理状態」欄に、特定コンテンツ(この場合は下位ページ「http://abcd.co.jp/0003.html」のコンテンツ)の全部のデータを未だ収集していない状態であることを示す「未」のフラグを記録する。なお、図9の▲4▼の段に示す例は、http://abcd.co.jp/0002.htmlの本文の48行目に0003.htmlへリンクするためのリンク先情報があり、かつ、そのタグ名がAタグのHREFだった場合である。
【0267】
そして、情報収集・提供システム1では、データ処理部14bのこの記録処理に基づいて、参照情報記憶部22の「処理状態」欄を監視している参照情報処理部13が次のデータ処理部14(14c)を起動させるべく、「http://abcd.co.jp/0003.html」を含めたデータ処理要求をデータ処理管理部16に送信し(図6のステップS72)、データ処理管理部16から起動命令が出力される(ステップS75)。
【0268】
続いて、次に起動したデータ処理部14cは、起動命令に含まれる「http://abcd.co.jp/0003.html」に基づいて、当該ページへアクセスし、同様に、http://abcd.co.jp/0003.htmlのヘッダ情報をデータ取得部141で取得し(ステップS7504)、この場合は初めてのアクセスであり前回取得した情報がなく(ステップS7506でNo)、かつ外部サイトではないため(ステップS7508でNo)、上述と同様にステップS7509〜ステップS7512の処理を行う。
【0269】
そして、この事例では、該ページ0003.htmlにはリンク情報が存在しなかったため、この場合には、データ処理部14cのデータ登録部143は、ステップS7511では、データ情報記憶部23及び参照情報記憶部22に新しい欄を新設(確保)することなく、特定サイトの該ページ(0003.html)に関する各情報をデータ情報記憶部23の新データ情報の記録領域(図9の▲9▼の段)に記録すると、該ページについての全てのデータ収集を完了したものとして、この「収集状態」欄に、該ページのデータ収集が完了したことを示すフラグ(図9の「OK」)を記録するとともに、参照情報記憶部22の(図9の▲4▼の段)の「処理状態」欄の「未」フラグを、図9の「済」に変更する。この処理により、参照情報記憶部22の処理状態が全て「済」になり、該特定サイト(http://abcd.co.jp/0001.html)の全データ収集が完了したことが示されるので、この特定サイトの2度目の情報収集を完了させることが可能となる。
【0270】
すなわち、次のステップS7511でデータ処理部14bのデータ登録部143からデータ処理管理部16に処理の終了が通知されると、参照情報記憶部22の「処理状態」欄を監視している参照情報処理部13が「全ての参照情報のデータを収集した」(図6のステップS79でYes)と判定することで、この特定サイトの2度目の情報収集が終了する。
【0271】
なお、情報収集・提供システム1においては、当該特定サイトの次(3度目)の情報収集(巡回)の際には、データ処理部14の起動に先立って、参照情報処理部13により、参照情報記憶部22の新参照情報の記憶領域内のデータ(図9の▲3▼及び▲4▼の段)は、前参照情報の記憶領域に上書きされる処理が行われ、かつ、データ情報記憶部23の新データ情報の記憶領域内のデータ(図9の▲7▼,▲8▼,▲9▼の段)は、前データ情報の記憶領域に上書きされる処理が行われる。このような処理を行うことで、3度目以降の収集も、上述と同様の処理によりデータ収集が可能となる。
【0272】
この事例では、3ページしか存在しないサイトでのデータ収集等の動作を説明したが、それ以上のページを含むサイトでは、上述した処理を繰り返して、データ収集を行うことになる。
【0273】
また、この事例では、説明の複雑化を避けるために、一のページに他の一のページのみがリンクされているサイトでのデータ収集等の動作を説明したが、実際には一のページに他の複数のページがリンクされていることが多く、その場合には、上述のように、サイト情報記憶部21に設定された最大同時アクセス数の範囲内で複数のデータ処理部14が起動して(図3参照)、各データ処理部14がそれぞれ図7(及び後述する図11)の処理を行うことになる。
【0274】
さらには、ある特定サイト内のページに他の別のサイトのページがリンクされているような場合(例えば上述した特定サイトhttp://abcd.co.jp/0001.htmlの所定ページ0003.htmlに他の別のサイトhttp://wxyz.co.jpのページ0001.htmlがリンクされているような場合)であっても、上述した処理を繰り返すことで、一の特定サイトに関係する全てのデータ収集を行うことが可能である。但し、上述のように、この場合には、http://wxyz.co.jp/0001.htmlについてのコンテンツ自体の取得が行われることはなく、また該ぺージからリンクされたページ等(例えばhttp://wxyz.co.jp/0002.htmlなど)についてアクセスされることもない。
【0275】
なお、図9では、サイト情報記憶部21に別の特定サイト(特定サイト2)であるhttp://efgh.co.jp/0001.htmlのサイト情報も登録された例を示しているが、情報収集・提供システム1では、このように複数の特定サイトが登録されて、複数のサイトの収集を行なう際にも、同様の処理を同時に並行して行なうことになる(図2参照)。但し、図9に示す例では、特定サイト1と特定サイト2とでは収集開始日時の設定が異なるため、情報収集等の処理は同時には行われない。
【0276】
さらに、この図9では、特定サイトをWebサイトとした場合の参照情報記憶部22及びデータ情報記憶部23に記憶する内容を示したが、特定サイトをディレクトリツリー型のファイルシステムや、ドメイン参加型ネットワーク機器群などとした場合でも、同様の処理により、情報収集及び連携システムへの情報提供の処理を実現できる。
【0277】
(本システムと他システムとの連携)
次に、情報収集・提供システム1と他システムとの連携、すなわち収集した情報を連携システムに提供する処理等について、図10乃至図12を参照して詳細に説明する。
【0278】
なお、図10は、情報収集・提供システム1のデータ処理装置10と他システムとの連携(結合形態)を概略的に示している。一方、図11は、データ処理装置10と他システムの実行動作を説明するためのフローチャートであり、図6のステップS71のサブルーチンの動作を示している。また、図12は、データ処理装置10から他システムに送信される、統一したデータ形式としてのコンテンツボールの内容を示している。
【0279】
情報収集・提供システム1のデータ処理装置10では、サイト全体の処理を管理する参照情報処理部13と、サイトに含まれる個々のページのデータを処理するデータ処理部14とにより、ローカルまたはネットワーク100を介して該情報収集・提供システム1と接続される連携システムに対して、収集情報の提供を行う。
【0280】
ここで、情報収集・提供システム1から連携システムに対して提供(送信)される収集情報としては、CPU内のRAMを用いて転送するコンテンツボール30(図10及び図12参照)と、コンテンツ自体を格納している不図示の一時ファイルとから成る。なお、これら収集情報のうちの一時ファイルについては、連携システムが必要とする情報の如何等によっては、提供しないようにしても構わない。
【0281】
また、情報収集・提供システム1は、接続された連携システムに対して、記憶装置20における各記憶部21,22,23へのアクセスを許可し、これらの登録データを連携システムが適宜参照可能とすることで、補助的な情報の提供も行う。
【0282】
情報収集・提供システム1から連携システムに対しての収集情報(コンテンツボール30及び一時ファイル)の提供(送信)時期については、情報収集・提供システム1が特定サイトの情報収集を行なう直前の(a)サイト情報収集開始(START)の際(すなわち図6のステップS71の処理中)と、情報収集・提供システム1が特定サイトに含まれるページのデータ処理を終了した際(すなわち図7のステップS7511の処理中)と、情報収集・提供システム1が特定サイトの情報収集を全て完了した直後の(b)サイト情報収集完了(END)の際(すなわち図6のステップS81の処理中)と、の3つに大別され、このうちページのデータ処理を終了した際においては、特定サイトに含まれる個々のページを正常に処理した(c)ページ処理済(INFO)の場合と、特定サイトに含まれる個々のページを処理する際に、異常等を検出したため該ページのデータを正常に処理できなかった(d)ページ処理異常(ERR)の場合とがある。
【0283】
なお、(a)サイト情報収集開始或いは(b)サイト情報収集完了の際の提供情報には、当該特定サイトのサイト名が含まれ、(c)ページ処理済の際の提供情報には、特定サイトに含まれる当該ページの処理結果を示す情報が含まれ、(d)ページ処理異常の際の提供情報には、当該ページの処理時に検出された異常を示す情報が含まれることになる。
【0284】
また、コンテンツボール30及び一時ファイルの作成主体については、(a)サイト情報収集開始、或いは(b)サイト情報収集完了の場合には、データ処理装置10の参照情報処理部13が作成し、(c)ページ処理済、或いは(d)ページ処理異常の場合には、データ処理装置10のデータ処理部14が作成することになる。
【0285】
情報収集・提供システム1は、連携する他システムに対して、共通のインタフェースを提供する。ここで、共通のインタフェースとしては、図11のステップS7131〜ステップS7136に示す処理、及び、情報収集・提供システム1への登録処理、さらには、情報収集・提供システム1からのイベント検知処理、等が挙げられる。
【0286】
各連携システムを情報収集・提供システム1に登録する(すなわち図9に示す記憶装置20のサイト情報記憶部21の「連携システム名」に登録する)処理においては、不図示の表示部の入力画面上で、当該連携システムを図10のいずれの位置に結合するかについての設定を行うことが可能となっている。結合の設定を行う際には、当該連携システムのシステム名(図9参照)を用い、どの位置に結合したかは、情報収集・提供システム1のCPU内に記憶される。
【0287】
例えば、図10に示す例では、連携システムAが情報収集・提供システム1に直接結合した設定とされ、また、連携システムBは、先に結合したシステムAに対して結合した設定とされる。本実施形態では、このような結合態様とすることにより、連携システムAへの情報提供処理を行なった後に連携システムBへの情報提供処理を行なえる、という処理の連続性について保証している。
【0288】
一方、図10に示す例では、連携システムCについては、連携システムA及びBと関わりなく、情報収集・提供システム1に直接結合した設定とされる。本実施形態では、このように、先に結合している連携システムA等が存在していても、情報収集・提供システム1自体に直接結合できる構成となすことにより、他の連携システムの動作に影響を受けない、という連携システム相互間での独立性についても保証している。
【0289】
本実施の形態の情報収集・提供システム1では、このように、各連携システムに対して、処理に応じたシステム連携(結合態様)を選択できるようにしているので、連携システム側でも、本システムを利用したネットワークアプリケーションの開発が容易になる。
【0290】
(コンテンツボールのデータ構造)
この情報収集・提供システム1に結合するシステムは、コンテンツボール30を受信することで、データ処理装置10の処理状況と、特定サイトの情報を全て知ることができる。コンテンツボール30は、上述した共通インタフェースと同様に、(a)サイト情報収集開始と、(b)サイト情報収集完了と、(c)ページ処理済と、(d)ページ処理異常と、でそれぞれ同じデータ構造(データフォーマット)となっており、以下は、図12を参照してコンテンツボール30のデータ構造について説明する。
【0291】
図12に示すように、コンテンツボール30には、メッセージステータスが含まれる。このメッセージステータスの種類としては、図12に示すように、「START」,「END」,「INFO」,「ERR」があり、これらはそれぞれ、前述の(a)サイト情報収集開始,(b)サイト情報収集完了,(c)ページ処理済,(d)ページ処理異常を示すものである。
【0292】
連携システムは、コンテンツボール30のメッセージステータスのデータを参照することで、当該連携システム固有の処理を行なう。具体的には、例えばメッセージステータスがSTARTの場合には、前処理として、当該連携システムのデータベースの初期化処理を行ったり、INFOの場合は、後処理として、コンテンツボール30の「一時ファイル名」から一時ファイルを取得して単語を検索する処理を行う、等である。このような連携システム固有の処理は、後述するステップS7132(前処理)又はステップS7136(後処理)で行われることになる。
【0293】
また、コンテンツボール30には、サイト情報が含まれる。このサイト情報は、記憶装置20のサイト情報記憶部21のサイト情報と同じ情報である。連携システムは、コンテンツボール30のサイト情報を参照することで、例えば当該連携システムの前処理や後処理の設定によっては、記憶装置20のサイト情報記憶部21にアクセスして、特定サイトの内容を参照することも可能である。
【0294】
また、コンテンツボール30には、ページ情報が含まれる。ページ情報とは、図12に示すように、そのデータのネットワーク上の場所(具体的にはURLなど),階層,種別,サイズ,更新日時,収集状態を指しており、これらは記憶装置20のデータ情報記憶部23の各々と同じ内容である。連携システムは、コンテンツボール30のページ情報を参照することで、同様に、例えば当該連携システムの前処理や後処理の設定に基づいて、記憶装置20のデータ情報記憶部23にアクセスして、特定ページの内容を参照することも可能である。
【0295】
また、コンテンツボール30には、ページ状態が含まれる。ページ状態とは、データ処理部14が今回収集したページの状態について、前回収集時のデータ(すなわちデータ情報記憶部23の前データ情報の記憶領域の登録データ)と比較した結果について示すものであり、図12に示すように、今回収集したページが新規に追加されたものである場合にはNEWが、前回の収集から更新があった場合にはUPDATEが、前回の収集時と同じ場合にはNONEが設定される。
【0296】
具体的には、特定サイトへの最初の収集のときには、全てのコンテンツボール30のページ状態はNEWとなり、2度目以降の収集のときには、前回のデータと比較した結果のNEW(新規ページ),UPDATE(更新あり),NONE(更新なし)のいずれかが設定されることになる。
【0297】
また、コンテンツボール30には、一時ファイル名が含まれる。一時ファイル名とは、図4で説明した、データ処理部14のデータ取得部141がネットワーク100越しにサーバから取得したコンテンツを保存した一時ファイルの名称及び場所(ディレクトリ名等)を示すものである。したがって、連携システムは、コンテンツボール30の一時ファイル名を参照することで、一時ファイルにアクセスして、コンテンツの内容を参照することが可能となる。
【0298】
コンテンツボール30のページ情報とページ状態は、メッセージステータスがINFO(ページ処理済)またはERR(ページ処理異常)の場合に設定され、START(サイト情報収集開始)或いはEND(サイト情報収集終了)の場合には設定されず、空の状態となる。また、コンテンツボール30の一時ファイル名は、ページ状態がNEW(新規ページ)やUPDATE(更新あり)の場合など、データ処理装置10がコンテンツ自体を取得し、一時ファイルを作成した場合に設定される。
【0299】
次に、図11のフローチャートを参照して、図6のステップS71のサブルーチン、すなわちデータ処理装置10が特定サイトの情報収集の実行を開始する場合に、データ処理装置10から連携システムに(a)サイト情報収集開始(START)を通知する処理の詳細について説明する。
【0300】
なお、図11は(a)サイト情報収集開始(START)の際についてのフローチャートであるが、上述した(b)サイト情報収集完了(END)の際,(c)ページ処理済(INFO)の際,(d)ページ処理異常(ERR)の際についても同様のフローで行われる。したがって、(b)サイト情報収集完了(END)の場合には図11のフローチャートが図6のステップS81のサブルーチンとなり、(c)ページ処理済(INFO)と(d)ページ処理異常(ERR)の場合には図11のフローチャートが図7のステップS7511のサブルーチンとなる。
【0301】
また、図11のステップS711乃至ステップS713の処理は、(a)サイト情報収集開始(START)と(b)サイト情報収集完了(END)の場合には、参照情報処理部13が主体となり、(c)ページ処理済(INFO)と(d)ページ処理異常(ERR)の場合には、データ処理部14が主体となる。
【0302】
一方、図11の右側に示すフローチャート(ステップS7131乃至ステップS7136)は、ステップS713でコンテンツボール30を受信した連携システムが行う処理を示すものである。
【0303】
データ処理装置10において、前述の起動命令に基づいて起動した参照情報処理部13は、図6のステップS71で特定サイトのサイト情報(URL等)を取得するが、その際に、取得したURL等に基づいて、コンテンツボール30を作成する(ステップS711)。
【0304】
この場合のコンテンツボール30は、図12のうち、メッセージステータス(=START)とサイト情報だけが含まれ、ページ情報等は含まれないものとなる。
【0305】
また、参照情報処理部13は、(b)サイト情報収集完了(END)の場合には、図6のステップS81内の処理として、コンテンツボール30を作成する。
【0306】
この場合のコンテンツボール30は、図12のうち、メッセージステータス(=END)と、サイト情報だけが含まれ、ページ情報等は含まれないものとなる。
【0307】
一方、データ処理部14は、(c)ページ処理済(INFO)と(d)ページ処理異常(ERR)の場合に、データ処理を終えた図7のステップS7511において、収集データからコンテンツボール30を作成する。
【0308】
この場合のコンテンツボール30は、図12の全ての情報が含まれたものとなる。
【0309】
これらの場合、参照情報処理部13或いはデータ処理部14は、コンテンツを取得し一時ファイルを作成した場合には、その一時ファイル名もコンテンツボール30に格納する。
【0310】
なお、本実施形態では、情報収集・提供システム1は、メッセージステータスがSTART、END、ERRの場合と、INFOでかつページ状態がNONEの場合には、一時ファイルを作成しないようになっている。換言すれば、本実施形態では、メッセージステータスがINFOでかつページ状態がNEWまたはUPDATEの場合、すなわち、そのページのコンテンツ(更新されていた場合を含む)を一度も本システム1が収集していない場合にのみ、一時ファイルが作成されることになる。
【0311】
次のステップS712で、参照情報処理部13(上記(c),(d)の場合にはデータ処理部14、以下同様である。)は、記憶装置20のサイト情報記憶部21に登録された連携システム名(図9参照)を取得して、ステップS713に移行する。
【0312】
ステップS713で、参照情報処理部13は、S711で作成したコンテンツボール30を、連携システム(ここでは図10の連携システムAとする)に対して送信する。
【0313】
また、ステップS713では、参照情報処理部13は、コンテンツボール30の送信先となる連携システム(ここでは連携システムA)が、後述するステップS7131乃至7136の処理を完了するまで待機する。
【0314】
以下、コンテンツボール30の送信先となる連携システム(連携システムA)が行う処理について、図11右側のフローチャートを参照して説明する。
【0315】
連携システムAは、ステップS7131で参照情報処理部13(又はデータ処理部14)からのコンテンツボール30を受信すると、次のステップS7132で、受信したコンテンツボール30の上述したメッセージステータスを参照して、当該連携システムAに固有な第1の処理(前処理)を、必要に応じて行った後に、ステップS7133に移行する。
【0316】
ステップS7133で、連携システムAは、記憶装置20のサイト情報記憶部21にアクセスして、サイト情報記憶部21から、当該特定サイトの「連携システム名」欄に登録された、自機(システムA)に関連する連携システム名(この事例では連携システムA及び(連携システムAに関連している)連携システムBの連携システム名)を取得して、ステップS7134に移行する。
【0317】
ステップS7134で、連携システムAは、取得した連携システム名に、連携システムAの不図示のCPU内に記憶されているその他の連携システムが含まれているか否か(すなわち、自システム名に他の連携システム名が関連付けられているか否か)を判定して、Yesすなわち今回の連携では連携システムA以外の他の連携システムが存在すると判定した場合にはステップS7135に移行し、Noすなわち今回の連携では連携システムA以外に他の連携システムが存在しないと判定した場合には、ステップS7136に移行する。
【0318】
ステップS7135で、連携システムAは、他の連携システム(この事例では図10の連携システムB)に対してコンテンツボール30を転送(すなわち複写して送信)した後に、ステップS7136に移行する。
【0319】
なお、連携システムAからコンテンツボール30を受信した他の連携システム(この事例では連携システムB)は、連携システムAと同様に、ステップS7131乃至ステップS7136の処理を行うことになる。この場合、連携システムAは、連携システムBのかかる処理が終了するまでステップS7135で待機し、連携システムBの処理が終了すると、ステップS7136に移行する。
【0320】
ステップS7136で、連携システムAは、コンテンツボール30の上述したメッセージステータスを参照して、当該連携システムAに固有な第2の処理(後処理)を、必要に応じて行った後に、一連の処理を終了する。
【0321】
かくして、連携システムAによるステップS7131乃至ステップS7136の処理が終了すると、参照情報処理部13(上記(c),(d)の場合にはデータ処理部14)は、ステップS713の処理を抜けて、図6のステップS72に移行することになる。
【0322】
図11で説明したこれら一連の処理は、特定サイトの情報収集を開始・終了するとき(すなわち上記(a),(b)の場合)に1度づつと、特定サイト内のデータ(ページ等)の各々を処理する(すなわち上記(c),(d)の)度に行なわれる。具体的には、例えばあるWebサイト(特定サイト)に100個のページが存在する場合には、1+100+1=102回のコンテンツボール30の作成・送信と、連携システムでの処理が行なわれることになる。
【0323】
そのため、連携システム側では、上述したステップS7132又はステップS7136の各固有処理における自機のCPUの使用量と処理時間を予め推測して、CPU使用量が多く時間もかかる固有処理については(a)サイト情報収集開始の際及び/又は(b)サイト情報収集完了の際に行い、CPU使用量が少なく時間も少なくて済む固有処理については(c)ページ処理済の際及び/又は(d)ページ処理異常の際に行なうことが望ましい。その理由は、情報収集・提供システム1のデータ処理装置10では、通常、複数のデータ処理部14(14a〜n)が動作するために、上記(c),(d)でCPUとネットワーク100を最も多く使用している状態にあることによる。
【0324】
このように、実施の形態の情報収集・提供システム1では、特定サイトに対するデータ収集の開始の際((a)サイト情報収集開始(START))、特定サイト内の一のページについてのデータ処理終了の際((c)ページ処理済又は(d)ページ処理異常))、及び、特定サイトに対するデータ収集の終了の際((b)サイト情報収集完了(END))、の各々の時点で、それぞれ同一のデータフォーマットによる提供データ(コンテンツボール30)を連携システムに送信するので、クライアント側となる連携システム側では、特定サイト内に存在する複数の異なる形態の情報に対して、形態の違いを特に意識することなく参照でき、管理や情報参照の手間の軽減を図ることが可能となる。また、連携システム側では、コンテンツボール30の受信及び解析処理を統一することが可能となり、連携部分のプログラムの作成工数を短縮でき、本システムを利用したネットワークアプリケーションの開発効率を高めることが可能となる。
【0325】
そして、連携システムは、受信した各コンテンツボール30を解析して、例えば「ページ状態」等の情報により特定サイトの新規ページや更新されたページが分かり、また、「メッセージステータス」が「ERR」の場合には所謂リンク切れであることが分かり、また、「メッセージステータス」が「INFO」であるコンテンツボール30の数をカウントすることで、特定サイトの総ページ数が分かり、さらには、「ページ情報」の「サイズ」を積算することで、特定サイトの全容量が分かることになる。さらにまた、連携システムは、記憶装置20の各記憶部21,22,23にアクセスして必要な情報を参照することにより、特定サイトに関する種々の情報を得ることが可能となる。
【0326】
従って、本実施の形態の情報収集・提供システム1によれば、各連携システムに対して、種々の情報提供のサービスを行うことが可能で、検索以外の様々なサービスのニーズにも対応することが可能となる。
【0327】
なお、上述した実施の形態では、データ処理装置10がネットワーク100上で共有されているデータをネットワーク100を介して取得する例について説明したが、これに限定されず、例えば情報収集・提供システム1と不図示の他のコンピュータとでLANを組み、データ処理装置10で当該他のコンピュータ内のデータを取得するようにしても良いことは勿論、データを取得するコンピュータ内に情報収集・提供システム1を直接組み込んで、該コンピュータ内のデータを取得するようにしても良い。
【0328】
さらに、上述した実施の形態では、主に、情報収集及び提供する対象がWWWデータである場合について説明したが、これに限定されず、例えばディレクトリツリー型のファイルシステムを情報収集の対象とし、ディレクトリツリーを階層(リンク)として扱い、かつ、各ディレクトリに格納されているファイルを収集データとして、あるディレクトリ内の全てのファイルを取得し、サブディレクトリを検知し、更にサブディレクトリ内のファイルを取得しつづけることで、ディレクトリツリー内の全てのデータを取得することも可能である。
【0329】
また、ドメイン参加型ネットワークを情報収集の対象とし、ドメインを階層(リンク)、ドメインに属しているネットワーク機器を収集データとして、あるドメイン内の全てのネットワーク機器の状態を取得し、サブドメインを検知し、更にサブドメイン内のネットワーク機器の状態を取得し続けることで、ドメイン内の全てのネットワーク機器の状態(例えば「起動している」,「問題なく動作している」,「ハングアップしている」,等の各種状態)についての情報を取得することも可能である。
【0330】
このように、情報収集・提供システム1によれば、高速で質の高い情報収集が行われ、指定されたサイト内における情報を効率良く高速に収集することが可能となる。
【0331】
また、情報収集・提供システム1によれば、情報収集に際してCPUやネットワーク等のハードウェア資源の負荷を軽減することが可能となる。
【0332】
さらに、情報収集・提供システム1によれば、指定されたサイト内における情報収集後の情報提供に関するサービスの向上が実現する。
【0333】
そして、情報収集・提供システム1によれば、ローカルコンピュータ内のデータもしくはネットワーク上で共有されているデータで、階層(リンク)関係を持つが形式が異なる情報群(例えばHTML(Hyper Text Markup Language)は勿論、Macromedia社のFlashやディレクトリツリー型ファイルシステム、ドメイン参加型ネットワーク機器群など、)に対し、あたかも同一の形式の情報群として1つのファイルシステムとして認識し、階層関係に基づいてデータを収集し、記憶装置に登録し、さらには連携システムに提供することが可能となる。これにより、本システム及び他の連携システムの使用者は、特定サイト内に存在する複数の異なる形態の情報に対して特に意識することなく参照できるようになり、管理や情報参照の手間が大幅に軽減する。
【0334】
【発明の効果】
以上詳細に説明したように、本発明によれば、高速で質の高い情報収集のシステムを構築し、指定されたサイト内における情報を効率良く高速に収集する、情報収集システム、情報収集方法、及び情報収集プログラムを提供することが可能となる。
【0335】
また、本発明によれば、情報収集に際してCPUやネットワーク等のハードウェア資源の負荷を軽減することが可能な、情報収集システム、情報収集方法、及び情報収集プログラムを提供することが可能となる。
【0336】
さらに、本発明によれば、指定されたサイト内における情報収集後の情報提供に関するサービスの向上を実現した、情報収集システム、情報収集方法、及び情報収集プログラムを提供することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した情報収集・提供システムの概略構成を示す機能ブロック図である。
【図2】複数のサイトと複数のコンテンツに対して同時並行的に情報収集を行なう場合の、前記情報収集・提供システム内の特に参照情報処理部とデータ処理部における複数構成について説明するための図である。
【図3】複数のコンテンツに対して同時並行的に情報収集を行う場合の前記情報収集・提供システムの動作を、従来のロボット型エンジンのシステムの動作と比較して示す図であり、データ処理装置において2つのデータ処理部が相互に異なるコンテンツに対して情報収集を行う場合の、データ処理管理部と各データ処理部とにおける通知(呼び覚まし)機能の動作について説明するための図である。
【図4】複数の異なるプロトコルやデータ形式に対して透過的に処理を行なう場合の、前記情報収集・提供システム内の特にデータ処理部における構成について説明するための図である。
【図5】情報収集・提供システムにおいて特定サイトに対する情報取得を行う場合の、システム全体の動作概要を示すフローチャートであり、主に情報取得を開始するまでの動作を説明するためのものである。
【図6】一の特定サイトに対する情報取得の実行動作の概要を説明するためのフローチャートであり、図5のステップS7から派生したルーチンの処理を示す。
【図7】一の特定サイト内の一のページに対する情報取得の実行動作の詳細を説明するためのフローチャートであり、図6のステップS75から派生したルーチンの動作を示す。
【図8】情報収集・提供システムにおける参照情報処理部と各データ処理部の動作、及び記憶装置の各記憶部に記憶されるデータ等について説明する図である。
【図9】情報収集・提供システムにおける記憶装置の各記憶部に記憶される情報についてのデータテーブルを表した図である。
【図10】情報収集・提供システムのデータ処理装置と他システムとの連携を概略的に示す図である。
【図11】情報収集・提供システムがコンテンツボールを作成して連携システムに送信する処理、及び、コンテンツボールを受信した連携システムが行う処理について示すフローチャートであり、図6のステップS71,ステップS81,及び図7のステップS7511のサブルーチンを説明するための図である。
【図12】情報収集・提供システムが連携システムに送信するコンテンツボールのデータ構造について説明する図である。
【符号の説明】
1 情報収集・提供システム
10 データ処理装置
11 システム管理部
12 サイト管理部(管理手段)
13(13a,13b,13c,・・・) 参照情報処理部(管理手段、提供データ生成手段)
14(14a,14b,14c,・・・) データ処理部(データ処理手段、提供データ生成手段)
141(141a,141b,・・・) データ取得部(ページアクセス手段、ヘッダ情報取得手段、判定手段、コンテンツ取得手段)
142(142a,142b,・・・) データ解析部(コンテンツ取得手段)
143 データ登録部(情報登録手段)
15 参照情報処理管理部(管理手段)
16(16a,16b,16c,・・・) データ処理管理部(管理手段)
20 記憶装置
21 サイト情報記憶部
22 参照情報記憶部
23 データ情報記憶部
30 コンテンツボール(提供データ)
100 ネットワーク[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information collection system, an information collection method, and an information collection program. More specifically, the present invention mainly provides a system for collecting information published on a network, and provides the collected information to various computer devices on the client side. The present invention relates to a system and the like, and particularly to an information collection system and the like that realizes high-speed acquisition of a large number of documents and data in a designated site.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, a robot-type search engine has been known as a system for collecting information published on a network. In this robot type search engine, a program called a robot circulates around the Internet and automatically collects data of WWW (World Wide Web) pages.
[0003]
Conventional robot type search engines mainly collect WWW page data for the entire Internet, and do not collect WWW page data only for specific sites. The main focus is on collecting a large amount of WWW page data, but not on the speed of collection.
[0004]
For this reason, the conventional robot-type search engine system has a configuration in which the robot constantly circulates the entire Internet because the data collection target is the entire Internet, and the CPU that controls the entire system, There is a problem that a high load is applied to a network used by the system.
[0005]
On the other hand, there is a method of efficiently operating a plurality of robots and reducing the simultaneous operation time of each robot to reduce the load on a CPU and a network (for example, see Patent Document 1).
[0006]
However, in the system of
[0007]
Further, conventional robots are often limited to patrol / acquisition of HTML (Hyper Text Markup Language), which is easy to decipher because specifications are disclosed, and if a program for collecting information in a plurality of formats is created, the structure is reduced. Because of the complexity of multimedia, it is often impossible to support multimedia contents other than HTML represented by Flash of Macromedia (registered trademark) (http://www.macromedia.com/), which is widely used in recent years. .
[0008]
In addition, conventional robots are often part of a search engine and are closely related to a dedicated program for full-text search of the WWW called an indexer, so that application to functions other than the WWW search is difficult. There was a problem.
[0009]
In addition, despite the need for various services other than search with the spread of WWW and the like, conventionally provided software is either an HTML-only acquisition tool or library, or the application program described above. Often it was a set.
[0010]
[Patent Document 1]
JP 2000-76264 A
[0011]
[Problems to be solved by the invention]
SUMMARY OF THE INVENTION The present invention has been proposed to solve the above-mentioned problems, and an information collection system for constructing a high-speed and high-quality information collection system and efficiently and quickly collecting information in a designated site. It is a first object to provide an information collection method and an information collection program.
[0012]
A second object of the present invention is to provide an information collection system, an information collection method, and an information collection program that can reduce the load on hardware resources such as a CPU and a network when collecting information. .
[0013]
Further, a third object of the present invention is to provide an information collection system, an information collection method, and an information collection program, which realize an improvement in service related to information provision after information collection in a designated site.
[0014]
[Means for Solving the Problems]
The first configuration of the information collection system according to the present invention includes accessing a single page in a single site, collecting various data on a plurality of contents configuring the site, and processing a plurality of data for processing. A data processing device including a processing unit and a management unit that manages the data processing unit; specific site information including information indicating a site to which the data processing device first accesses; And a storage device for storing at least information about the content, wherein the data processing means of the data processing device has a page based on the specific site information stored in advance in the storage device, and a link to the page. Page access means for accessing the accessed link page, header information acquisition means for acquiring header information of the accessed page, and Acquisition means for acquiring the content of the accessed page, link information acquisition means for acquiring link information indicating the location of the linked page linked to the accessed page, and storage device for storing predetermined information based on each acquired information The information processing means for registering the data processing means with n (where n is 1 or more) based on the information stored in the storage device and the link information acquired by the link information acquiring means. ) An activation management means for individually starting and a termination management means for terminating data collection for the site based on the link information acquired by the link information acquisition means.
[0015]
In the information collection system having the first configuration, when the data processing unit is activated by the activation management unit based on the specific site information stored in the storage device, the page access unit accesses one page. An access process is performed, and subsequently, a process of acquiring header information of the page by the header information acquiring unit, a process of acquiring content of the page by the content acquiring unit, and a process of acquiring link information by the link information acquiring unit are sequentially performed. The predetermined information based on the acquired information is registered in the storage device by the information registration unit, and the activation management unit activates one or a plurality of data processing units based on the acquired link information. The above-described processes are performed simultaneously and in parallel and repeatedly, and the termination management means Data collection is terminated.
[0016]
Therefore, according to the first configuration, it is possible to rapidly collect various data in the site based on the link (or hierarchy) relation of each page.
[0017]
According to a second configuration of the information collection system of the present invention, in the first configuration, collection start information indicating a collection start date and time is stored in the storage device as specific site information, and the activation management unit of the data processing device is And activating the data processing means based on the collection start information.
[0018]
In the second configuration, access (patrol) to a page based on the specific site information stored in the storage device, and further to each page in the site, is periodically performed, and thereby, a plurality of pages constituting the site are configured. Since information about the contents of the page is periodically collected, it is possible to regularly obtain information such as updates and additions to various contents while reducing the load on hardware resources (CPU, network, etc.). It becomes.
[0019]
A third configuration of the information collection system according to the present invention is the information collection system according to the first or second configuration, wherein the storage device includes, as specific site information, a maximum of a data processing unit that processes each page in the one site. Coexistence number upper limit information indicating the coexistence number is stored, and the activation management means of the data processing device activates the data processing means within the range of the maximum number of coexistences of the coexistence number upper limit information.
[0020]
In the third configuration, the maximum concurrent activation number of the page access unit is limited by the coexistence number upper limit information, and each unit such as a header information acquisition unit, a content acquisition unit, a link information acquisition unit, and an information registration unit is included. Is also limited, so that a temporary high load is not applied to hardware resources (CPU, network, etc.), and hardware resources can be used efficiently.
[0021]
In a fourth configuration of the information collection system according to the present invention, in any one of the first to third configurations, the data processing unit may notify that the processing has been completed when the registration in the storage device by the information registration unit is completed. Is notified to the management means, and the management means performs a process of activating the data processing means by the activation management means or ending the data collection by the termination management means based on the notification.
[0022]
In the fourth configuration, the management unit only has to wait for a notification of a process notification from any of the data processing units after the data processing unit is activated, and there is no need to periodically detect the state of the data processing unit. Therefore, the load on hardware resources (CPU and the like) is reduced.
[0023]
According to a fifth configuration of the information collection system of the present invention, in any one of the first to fourth configurations, the data processing device determines whether or not the content has been changed based on the header information acquired by the header information acquisition unit. The content acquisition unit does not acquire the content of the accessed page when the determination unit determines that there is no change.
[0024]
In the fifth configuration, since the content of the accessed site is acquired only when it is determined that the content has been changed, collection of various data of a plurality of pages configuring the site and prompt termination of the processing are performed. And the load on hardware resources (CPU, network, etc.) is reduced.
[0025]
In a sixth configuration of the information collection system according to the present invention, in the fifth configuration, the storage device includes a storage area for storing header information acquired by the header information acquisition unit, and the determination unit includes the header information acquired this time. Is compared with the previously obtained header information stored in the storage device, and when they do not match, it is determined that the content has been changed.
[0026]
In the sixth configuration, when the header information matches each other, it is determined that there is no change in the content, and the processing by the content acquisition unit and the link information acquisition unit can be omitted. Network).
[0027]
According to a seventh configuration of the information collection system of the present invention, in the configuration of any one of the first to sixth configurations, the data processing device determines that the page is the site based on the header information acquired by the header information acquisition unit. Has a site determination unit that determines whether or not the page is within, and the content acquisition unit does not acquire the content of the accessed page when the site determination unit determines that the page is not within the site It is characterized by the following.
[0028]
In the seventh configuration, the situation where the processing is not terminated due to the infinite chain of information to be collected and processed by the data processing means is surely prevented, and the collection and processing of various data in a plurality of pages constituting the site can be rapidly performed. Completion is ensured, and the load on hardware resources (CPU, network, etc.) is reduced.
[0029]
An eighth configuration of the information collection system according to the present invention is the information collection system according to any one of the first to seventh configurations, wherein the content acquisition unit includes a plurality of types of analysis programs for analyzing the content of the page, The acquisition unit acquires link information including content type information indicating the type of content of the page, and the activation management unit outputs a data processing request including the link information upon activation of the data processing unit. Regarding the page accessed by the page access unit in the activated data processing unit, the content acquisition unit analyzes the content using an analysis program corresponding to the content type information included in the data processing request.
[0030]
In the eighth configuration, it is possible to acquire various types of contents.
[0031]
A ninth configuration of the information collection system according to the present invention is the information collection system according to any one of the first to eighth configurations, wherein the page access means includes a plurality of types of programs regarding a communication protocol for accessing the page. The information acquisition unit acquires link information including information on an access method to the link page from the content acquired by the content acquisition unit, and the activation management unit uses the link information when activating the data processing unit. The data processing request including the data processing request is output, and the page access means of the activated data processing means accesses the link page using a program corresponding to the access method included in the data processing request.
[0032]
In the ninth configuration, since the page to be accessed can be accessed using various access methods, it is possible to access various sites.
[0033]
A tenth configuration of the information collection system according to the present invention is the information collection system according to any one of the first to ninth configurations, wherein the storage device includes, as specific site information, another system that wants information about the one site. The cooperation system name is stored, and the data processing device, for each piece of information collected and processed by the data processing unit, provided data generation unit for generating provided data for providing to another system, and the generated provided data Provided data transmission means for transmitting to another system based on the cooperation system name.
[0034]
In the tenth configuration, since the provided data generated by the provided data generating means is transmitted to another system based on the cooperation system name, it is possible to provide various information providing services to the other system. It becomes possible.
[0035]
An eleventh configuration of the information collection system according to the present invention is the information collection system according to the tenth configuration, wherein the provision data generation unit performs processing by the data processing unit on one page in the site when data collection for the site is started. At the end of the data collection and at the end of the data collection for the site, the provided data in the same data format is generated.
[0036]
In the eleventh configuration, since the provided data generated by the provided data generating means is transmitted to the other system in the same format at each point in time, the receiving and analyzing process of the provided data in the other system is performed. Can be unified, and the development efficiency of the other system can be improved.
[0037]
According to a twelfth configuration of the information collection system of the present invention, in the tenth or eleventh configuration, the provided data transmitting unit transmits the content acquired by the content acquiring unit to another system based on the cooperation system name. It is characterized by doing.
[0038]
In the twelfth configuration, the process of storing the content acquired by the content acquisition means in the storage device can be omitted, and the storage capacity of the storage device and the load can be reduced.
[0039]
The main structure of the information collecting method of the present invention is to provide a plurality of data processing means for accessing one page in one site, collecting various data on a plurality of contents constituting the site, and processing the data. A data processing device comprising: a data processing device; a management device for managing the data processing device; specific site information including information indicating a site to be accessed first by the data processing device; and each content in the site. And a storage device for at least storing the information of the information processing device, wherein the data processing means of the data processing device includes a page based on the specific site information stored in the storage device in advance, and Page access processing for accessing a linked page linked to a page, and header information acquisition processing for acquiring header information of the accessed page And content acquisition processing for acquiring the content of the accessed page, link information acquisition processing for acquiring link information indicating the location of the linked page linked to the accessed page, and predetermined information based on the acquired information And an information registration process of registering the data processing unit in the storage device, and the management unit of the data processing device sets the data processing unit to n (based on the information stored in the storage device and the link information acquired in the link information acquisition process. (n is 1 or more). A startup process for starting the device and a termination process for terminating data collection for the site based on the link information acquired in the link information acquisition process are executed.
[0040]
In the information collection method having the above configuration, based on the specific site information stored in the storage device, when the data processing unit is activated by the activation process, one page is accessed by the page access process. The acquisition of the header information of the page by the header information acquisition process, the acquisition of the content of the page by the content acquisition process, the acquisition of the link information by the link information acquisition process are sequentially performed, and predetermined information based on the acquired information is obtained. Is registered in the storage device by the information registration process, and based on the acquired link information, one or a plurality of data processing units are activated by the activation process. The data collection for the site is terminated by the termination process.
[0041]
Therefore, according to the information collection method of the present invention, it is possible to collect various data in the site set in advance at high speed based on the link (or hierarchy) relation of each page.
[0042]
The information collection program of the present invention provides a computer with a plurality of data processing means for accessing a single page in one site to collect and process various data on a plurality of contents constituting the site. A data processing device comprising: a data processing device; a management device for managing the data processing device; specific site information including information indicating a site to be accessed first by the data processing device; and each content in the site. And a storage device for at least storing the information, and an information collection program for causing the data processing device to function as a data processing device, wherein the data processing unit of the data processing device is linked to a page based on the specific site information, and linked to the page. Access means for accessing the linked page, and header information for acquiring header information of the accessed page. Acquisition means, content acquisition means for acquiring the content of the accessed page, link information acquisition means for acquiring link information indicating the location of a linked page linked to the accessed page, and predetermined information based on each acquired information. In addition to functioning as information registration means for registering in the storage device, the management means of the data processing device sets the data processing means to n (n) based on the information stored in the storage device and the link information acquired by the link information acquisition means. The information collection program is intended to function as a boot management unit that starts up one or more devices and an end management unit that ends data collection for the site based on the link information acquired by the link information acquisition unit.
[0043]
According to the information collection program of the present invention, when activation of the data processing unit is performed by the activation management unit based on the specific site information stored in the storage device, access processing to one page is performed by the page access unit. Subsequently, the header information acquisition unit acquires the header information of the page, the content acquisition unit acquires the content of the page, and the link information acquisition unit acquires the link information. The predetermined information based on the information is registered in the storage device by the information registration unit, and one or a plurality of data processing units are activated by the activation management unit based on the acquired link information. Processing is performed concurrently and repeatedly, and data collection for the site is As can be allowed to Ryo, computer functions.
[0044]
Therefore, according to the information collection program of the present invention, the computer functions so as to rapidly collect various data in the site set in advance based on the link (or hierarchy) relation of each page.
[0045]
BEST MODE FOR CARRYING OUT THE INVENTION
Embodiments of the present invention will be described in detail with reference to the drawings.
[0046]
1 and 2 show schematic diagrams of an embodiment of an information collection and provision system to which the present invention is applied. In the present embodiment, an example will be described in which a software program is installed on one computer (for example, a personal computer) so that the computer functions as an information collecting / providing system.
[0047]
(Overview of the entire information collection and provision system)
The information collecting / providing
[0048]
Here, the information (data) to be collected by the data processing device 10 is all data that can be made public on the network 100, and includes various concepts such as pages, contents, files, etc. on the web. As will be described later, data in the local computer can be collected.
[0049]
The types of information (data) to be collected by the data processing device 10 include data dynamically created from document data, moving image data, a database, and the like (for example, data related to product sales and online reservation). Various data such as individual files stored in the directory tree type file system and network devices belonging to the domain participation network are included.
[0050]
The “document” of the document data refers to all documents that can be published on the network 100, including documents described in HTML, WWW published documents, Macromedia (registered trademark) Flash, and the like. Similarly, the “moving image” of the moving image data also refers to all data distributed in a stream, such as MMS (Microsoft (registered trademark) Media Server) or RTSP (Real Time Streaming Protocol), and includes audio data. It goes without saying that this is also included.
[0051]
Similarly, “dynamically created” data also refers to all dynamic data that can be published on the network 100, including data that creates a page each time it is accessed, using a computer language such as CGI or Perl. .
[0052]
Similarly, “individual files of a directory tree file system” also refers to all files recorded on a hard disk device and the like, including Word (registered trademark) Corporation Word documents and Excel documents.
[0053]
Similarly, “network devices belonging to a domain-joined network” also refers to all network devices that can participate in a domain, including personal computers and server computers.
[0054]
The “information group (site)” to be accessed by the data processing device 10 includes, for example, all of the websites of one company, all of the intra sites of one department, all of the files stored in one file server, And various forms.
[0055]
In addition, “to be referred” for an information group (site) means that all public files can be copied (downloaded), and even if all copies cannot be copied, file information (header information such as size and date and time described later) can be copied. I just want to get it.
[0056]
Further, the "hierarchy (link) relationship" of the information group includes not only the hierarchy relationship within the site but also the link relationship to other sites, and one data such as a directory hierarchy or an HTML URL is another data. Refers to those that are related to
[0057]
The "directory tree type file system" includes FAT used in Microsoft (registered trademark) OS such as MS-DOS (registered trademark) and Windows (registered trademark), and NTFS, UNIX (registered trademark). It refers to all file systems having a so-called directory (or folder) such as UFS or SSFS used and having a hierarchical structure.
[0058]
In addition, as the “domain participation type network”, a plurality of devices connected to the network 100 such as an Internet domain, a work group of Microsoft (registered trademark), an eDirectory of Active Directory, and an eDirectory of Novell (registered trademark) are defined as a unit. And all the networks whose management groups have subgroups.
[0059]
The “header information” mainly indicates various data transmitted prior to transmission of the main body in HTTP, but the same applies to protocols other than HTTP, and names and types other than the main body (data content itself) are used. , Size, update date and time.
[0060]
The term “content” mainly refers to the content of a document such as a text or an image published on a Web server. However, the content of a document published on a network 100 other than the Web server or a document in a local computer is referred to. When the target is a network device itself or the like, it indicates information (operation information or the like) of the network device itself.
[0061]
The information collecting / providing
[0062]
Here, other systems that access the information collection / providing
[0063]
In general, when the cooperative system is a search engine system, the cooperative system refers to the downloaded content (temporary file described later) and the data information storage unit 23 or the content ball 30 described below to determine what. Information about which URL contains the page containing the word will be obtained.
[0064]
When the cooperative system is a computer system for acquiring new arrival information, the cooperative system refers to the data information storage unit 23 or a content ball 30 described below to store data updated after a certain date. The location (for example, URL) is obtained.
[0065]
Further, when the cooperative system is a computer system for the purpose of acquiring broken link information of a Web page, the cooperative system refers to the reference information storage unit 22 or the content ball 30 to determine which Web page is Linked to the Web page, information such as what Web page does not exist is obtained.
[0066]
The details of the data provision process performed by the information collection /
[0067]
As shown in FIG. 1, the data processing device 10 includes six systems: a system management unit 11, a site management unit 12, a reference information processing unit 13, a data processing unit 14, a reference information processing management unit 15, and a data processing management unit 16. In the present embodiment, one CPU for each of these units 11 to 16 performs a so-called multitasking process using a common hardware resource.
[0068]
Although not shown, the information collecting / providing
[0069]
In the present embodiment, a case will be described in which one computer functions as the information collection / providing
[0070]
(Outline of the data processing device 10)
The data processing device 10 accesses a server that provides information on the set site, collects documents published on the network 100, and stores the documents in the data information storage unit 23.
[0071]
In the information collection / providing
[0072]
Further, even when there are a plurality of servers providing information of one specific site for each domain, the data processing apparatus 10 transparently accesses the plurality of servers, and stores the same data in the storage device 20 as the same site information. Information is stored in the information storage unit 23, and this processing will be described later.
[0073]
Note that “transparently accessing” means that, as viewed from a user, each of a plurality of servers accesses as if they are providing information by the same protocol.
[0074]
As shown in FIGS. 1 and 2, the data processing device 10 includes a system management unit 11 that controls the entire information collection and
[0075]
In the data processing device 10, as shown in FIG. 2, a plurality of reference information processing units 13, a plurality of data processing management units 16, and a plurality of data processing units 14 can coexist. Specifically, the reference information processing unit 13 and the data processing management unit 16 each have the same number of specific sites that are simultaneously accessed, and the data processing unit 14 has the same number of contents in the specific site that are simultaneously accessed. Will do. In the present embodiment, the reference information processing unit 13 and the data processing management unit 16 each have a maximum of 254 (that is, 254 specific sites can be simultaneously accessed), and the data processing unit 14 has a maximum of 254 × 10. The processing is performed in parallel with each other.
[0076]
As a result, the data processing apparatus 10 can simultaneously access a maximum of 254 specific sites, and can simultaneously access a maximum of 10 pages within each specific site.
[0077]
Note that the maximum number of simultaneous accesses in the reference information processing unit 13, the data processing management unit 16, and the data processing unit 14 is not particularly limited, and depends on the processing speed of the CPU, the capacity of the main memory, and the speed of the network 100. It can be set as appropriate, but generally up to about 10 each. For example, the CPU is Intel Pentium (registered trademark) 3-1.4 GHz, the main memory capacity is 256 MB, and the line speed is 1 Mbps. In the case of, the maximum simultaneous access upper limit number of the reference information processing unit 13 (that is, the upper limit number of specific sites to be accessed simultaneously) is about 5, and the maximum simultaneous access upper limit number of the data processing unit 14 (that is, one specific site It is preferable to set the upper limit number of pages to be accessed at the same time to about 10.
[0078]
Each of the units 11 to 16 in the data processing device 10 can be realized by one CPU, but are independent software programs (that is, a system management program, a site management program, a reference information processing program, a data processing program, a reference information (A processing management program, a data processing management program).
[0079]
Here, as described above, since the reference information processing unit 13 and the data processing management unit 16 exist as many as the number of the specific sites simultaneously accessed, respectively, the reference information processing program and the data processing management program perform (In this embodiment, a maximum of 254).
[0080]
Further, as described above, since the data processing units 14 exist in the number of pages to be accessed at the same time, the data processing programs also exist in the number of pages to be accessed at the same time (254 × 10 at the maximum in this embodiment). .
[0081]
In addition, each of these programs in each of the units 11 to 16 has a function of notifying (calling) to a program that cooperates with each other. That is, a program that does not require processing or a program that is waiting for processing of another cooperating program enters a standby state without using the CPU, and the standby state is released by a notification from another cooperating program. ing.
[0082]
(Outline of Storage Device 20)
On the other hand, the storage device 20 includes a site information storage unit 21 that stores management information for managing the entire information collection / providing
[0083]
Here, as shown in FIG. 1, the site information storage unit 21 mainly stores information to be referred to by the site management unit 12, and the stored information mainly relates to a specific site to be accessed. Specific site information, which is various information, is included. Here, as the specific site information, for example, as shown in a data table of FIG. 9, site information indicating the location (URL or the like) of the specific site, collection start information indicating the date and time when collection starts, The name of the cooperating system for the cooperating system that provides information (that is, wants the information of the specific site), the maximum number of simultaneous access to the specific site, the information on the access method used when accessing the specific site, etc. No.
[0084]
As shown in FIG. 9, in the site information storage unit 21, a serial number is assigned to each specific site to be accessed, and each serial number, a reference information storage unit 22, and a data information storage unit described later. The configuration is such that 23 “site” columns are associated with each other. Although FIG. 9 shows an example in which specific site information about two specific sites is registered in the site information storage unit 21, registration for many specific sites is actually possible.
[0085]
Although not shown, the site information storage unit 21 stores management information for managing the entire system in addition to the specific site information described above. The management information includes, for example, information about the maximum simultaneous activation upper limit number (the maximum number of specific sites to be accessed simultaneously) of the reference information processing unit 13 described later.
[0086]
For this information, the system management program of the data processing device 10 is started based on the operation of the operation input unit by the user, and the data table of FIG. 9 is displayed on a display unit (not shown) to register the site. By performing various operations such as input, setting, and the like, the information is recorded in the site information storage unit 21 by the system management unit 11.
[0087]
Here, the “site information” to be input is information indicating a site (location) to be accessed first by the data processing apparatus 10. If the specific site is on the Web, the URL (usually the top page) When a specific site and the
[0088]
The “serial number” is automatically added at the time of individual site registration.
[0089]
One or more “cooperation system names” can be registered for one specific site. Here, when a plurality of linked system names are registered for one specific site, the information collected and obtained by the data processing device 10 of the information collection / providing
[0090]
As the “maximum simultaneous access upper limit number”, a numerical value defining the maximum simultaneous coexistence number of the data processing unit 14 in one specific site is input.
[0091]
The “collection start date and time” is, for example, “every day at 00:00 on the first day of the month”, “every Sunday at 23:30”, depending on circumstances such as the frequency of update of the specific site or the time zone during which the cooperative system can be operated. It can be set arbitrarily, such as “every day at 6:00”.
[0092]
As information on the “access method”, proxy information, authentication information such as simple authentication (Basic authentication), form authentication (CGI authentication), and the like are input.
[0093]
Here, the “proxy” is installed to secure security and realize high-speed access when connecting from an internal network (in this case, the information collection / providing system 1) to an external network (in this case, a specific site). Refers to server or software.
[0094]
“Simple authentication (Basic authentication)” is a method in which access to specific data is restricted by a user name (ID) and a password, and is mainly used to restrict access to directories and files on the Web. Although used, here, it refers to all the systems in which access is restricted by a user name (ID) and a password.
[0095]
Further, “form authentication (CGI authentication)” refers to a system for redirecting an unauthenticated request to an HTML form mainly using an HTTP client-side redirect. All of the methods that allow access to data with access restrictions by accessing the location (URL or the like) with a parameter.
[0096]
The various types of information registered in the site information storage unit 21 are appropriately referred to by each unit of the data processing device 10 when the data processing device 10 collects information on a specific site. Will be described later.
[0097]
As shown in FIG. 1, the reference information storage section 22 mainly stores information to be referred to by the reference information processing section 13, and the stored reference information is, for example, a data table shown in FIG. As described above, the information of “site”, the “link information”, the “parameter” information, the “processing state” information, and the like are listed, and these information are recorded / updated by the data processing unit 14 during the information collection processing. Is done.
[0098]
Here, the “site” information (numerical value) is for associating with the above-described specific site information of the site information storage unit 21 and the “site” information of the data information storage unit 23 which will be described later. As information of the reference information storage unit 22, only information associated with the
[0099]
The “link information” is information indicating the content (data) to be collected next, where the content (data) is described, how it is described, and the like. In the present embodiment, As shown in FIG. 9, the link information includes information on “link source”, “link destination”, “number of lines”, and “tag name” of the specific site.
[0100]
Here, the link source is a location on the network 100 of the page in which the link information is described, and the numerical value of the “serial number” in the data information storage unit 23 of the corresponding site is stored.
[0101]
The link destination refers to the content (data) linked from the link source page or the location of the page on the network 100 based on the link information, and the “serial number” of the data information storage unit 23 of the corresponding site. Is stored.
[0102]
The number of lines indicates which line of the link source content (data) is described in the link information, and the line number is stored as a numerical value.
[0103]
The tag name indicates how the link information is linked. In the case of HTML, the HTML tag name (contents such as HREF of A tag and SRC of IMG tag) is used. It is memorized.
[0104]
Further, the “parameter” information is a parameter used when the data processing device 10 accesses a page (content (data) of the page indicated by the link destination of the link information) in the specific site. Stores a name anchor (URL fragment identifier) or, in the case of a dynamic program such as CGI, stores an argument of the program.
[0105]
The “processing state” information indicates whether or not the data processing apparatus 10 has completed all the information collection processing for one specific site. If all of the information collection processing has been completed, for example, a flag of “processed” If all of them have not been completed yet, this is indicated by, for example, a flag of “unprocessed”.
[0106]
As shown in FIG. 9, the reference information storage unit 22 has a storage area divided into a storage area for new reference information and an area for previous reference information. This is an area for writing the processing result during the data acquisition processing by the processing device 10, and the storage area for the previous reference information is an area for storing the processing result of the previous data acquisition.
[0107]
The data information storage unit 23 mainly stores information to be written and compared by the data processing unit 14 with respect to a result of acquiring information of a specific site. The information to be stored is, for example, as shown in FIG. As shown in the data table, information on "site", "serial number", "location on network", "number of layers", "type", "size", "update date", "collection status" And the like.
[0108]
Here, the information of “site” is for associating with the specific site information of the site information storage unit 21 and the information of the site of the reference information storage unit 22. Similarly, in FIG. As the information, only the information associated with the
[0109]
The information (numerical value) of “serial number” in the data information storage unit 23 indicates a page (usually a top page) existing on a specific site and a serial number based on the number of link pages linked to the page. In this example, as shown in FIG. 9, the information is associated with the link source and link destination information in the reference information storage unit 22. Then, in the data information storage unit 23, the information about the page of the specific site registered in the site information storage unit 21 is “serial number” 1, and the linked pages linked from the specific page are sequentially “ The serial numbers "2, 3, 4..." Are added.
[0110]
In the “location on the network”, information equivalent to the “site information” of the above-described site information storage unit 21 is stored. In this embodiment, a specific site and a link page directly or indirectly linked to the specific site The information indicating the location of is stored. In the example illustrated in FIG. 9, the top page existing on the specific site and the location (URL or the like) on the network 100 of the page linked to the top page are shown.
[0111]
Here, “directly or indirectly link to a specific site” means only a link page directly linked to (directly linked to) a specific site (top page or the like) registered in the site information storage unit 21. It is intended to include various link pages which are not directly linked to the specific site but can be finally accessed based on the access to the specific site. However, in the information collecting and providing
[0112]
In the “number of layers”, “type”, “size”, and “update date and time”, information indicating the number of layers, the type, and the update date and time of the data (each circulated page) collected by the data processing apparatus 10 are respectively described. It is memorized.
[0113]
Here, the information on the number of hierarchies indicates the order of the number of the page counted from the collection start data (the top page “http://abcd.co.jp/001.html” in FIG. 9). It is shown.
[0114]
The information of “collection state” indicates whether or not the data processing apparatus 10 has completed all the information collection processing for the pages existing in the one specific site. If all of the flags have not been completed yet, the status is indicated by, for example, a flag of “not yet completed”. In this embodiment, when the collection status of each page regarding one site is all “OK”, the processing status information regarding the site in the reference information storage unit 22 changes from “unprocessed” to “processed”. Will be.
[0115]
These pieces of information in the data information storage unit 23 are recorded and updated by the data processing unit 14 during the information collection process.
[0116]
As shown in FIG. 9, the data information storage unit 23 has a storage area divided into a storage area for new data information and a storage area for previous data information. An area for writing the processing result during the data acquisition processing by the device 10, and a storage area for the previous data information is an area for storing the processing result of the previous data acquisition.
[0117]
Further, in the present embodiment, the text of the data on each page, that is, the content itself is not stored in the storage device 20 but is provided as a temporary file to another cooperation system. It will be described later.
[0118]
(Overview of Functions of Each Unit in Data Processing Device 10)
Next, the functions of the units 11 to 16 of the data processing device 10 will be described.
[0119]
The system management unit 11 performs the following functions by operating based on a system management program for managing the entire information collection / providing
[0120]
Note that the system management unit 11 operates mainly based on a user's input operation. Once activated, the system management unit 11 is in a standby state until the user performs an input operation. When the user performs an input operation, the system management unit 11 performs a process of displaying input items and the like on a display screen of a display unit (not shown), and stores data in the site information storage unit 21 based on the input information. , Add, change, delete, etc.
[0121]
The site management unit 12 performs a process of referring to site information (such as a URL) of a specific site from the site information storage unit 21 based on a site management program for managing a plurality of sites to be collected. The date and time are compared with the collection start date and time of the site information storage unit 21. When the collection start date and time comes, the reference information processing unit 13 is started via the reference information processing management unit 15 and the specific site of the specific site to start information collection is started. A process of notifying site information (URL and the like) to each reference information processing unit 13 is performed.
[0122]
When a plurality of the specific sites registered in the site information storage unit 21 are set to the same collection start date and time, the site management unit 12 sends a plurality of reference information processing units when the collection start date and time comes. 13 is started.
[0123]
The reference information processing unit 13 performs the following functions by operating based on a reference information processing program for managing all data on one specific site to be collected. In other words, the reference information processing unit 13 performs the initialization function for initializing data in the reference information storage unit 22 and the data in the data information storage unit 23 relating to one specific site, the matching function for matching each data, and the reference information storage unit 22. Next, it has a function of extracting link information about data to be collected and notifying it to the data processing management unit 16 as a data processing request, and a function of determining whether or not all data in one specific site has been collected.
[0124]
The data processing unit 14 operates based on a data processing program for acquiring / analyzing various data (header information, contents, etc.) in one page to be collected, and thereby operates the one page. And a function of registering various information on the data in the one page in the reference information storage unit 22 and the data information storage unit 23 of the storage device 20.
[0125]
In the present embodiment, as for the function of obtaining data in a specific site in the data processing unit 14, since the access target is a Web page, one data processing unit 14 obtains only one Web page. For example, to acquire data of ten Web pages, ten data processing units 14 operate. On the other hand, when a file is to be accessed, one data processing unit 14 similarly obtains only one file.
[0126]
A plurality (n) of the data processing units 14 coexist in one specific site as described above, but the individual data processing units 14 (14a, 14b,. A plurality of types of protocols (communication procedures) and a plurality of data format analysis programs are respectively mounted, thereby enabling acquisition and analysis of various data.
[0127]
That is, each function of the data processing unit 14 is roughly divided into a
[0128]
The reference information processing management unit 15 performs the following functions by operating based on a reference information processing management program for managing the plurality of reference information processing units 13. That is, the reference information processing management unit 15 has a function of receiving a site processing request from the site management unit 12, a function of activating one or a plurality of reference information processing units 13 based on the received site processing request, After the activation of the service 13, it has a function of determining whether or not information is being collected for each specific site (see FIG. 2).
[0129]
The data processing management unit 16 performs the following functions by operating based on a data processing management program for managing the plurality of data processing units 14. That is, the data processing management unit 16 has a function of receiving a data processing request from the reference information processing unit 13 and a maximum simultaneous access registered in the site information storage unit 21 of the storage device 20 based on the received data processing request. It has a function of activating the data processing unit 14 within the upper limit number (see FIG. 9).
[0130]
Next, with reference mainly to FIG. 3, an operation of the data processing device 10 relating to a notification (calling) function in the data processing management unit 16 and the plurality of data processing units 14 (14a, 14b) will be described. Here, FIG. 3 shows the relationship between the data processing management unit 16 and each data processing unit 14 in comparison with a conventional system.
[0131]
In the following, when accessing a specific site where the maximum simultaneous access upper limit number of the site information storage unit 21 is set to “2”, that is, when the maximum value of the data processing unit 14 that can access a certain specific site is “2” It is assumed that this is set to "."
[0132]
First, the data processing management unit 16 outputs a start command to start the two data processing units (the data processing unit 14a and the data processing unit 14b shown in FIG. 3) according to the set
[0133]
Specifically, in the information collection / providing
[0134]
In the data processing apparatus 10, before the activated data processing units 14a and 14b access the data of each page, the reference information processing unit 13 determines the data handled by the data processing units 14a and 14b. The processing status information in the reference information storage unit 22 is updated so that the processing status of the data processing unit 14 is set to "processed" in advance, and the data processing management unit 16 accesses the data processing units 14a and 14b. The location of the page on the network (such as a URL), the access method, and the like are individually notified.
[0135]
Here, the processing status information in the reference information storage unit 22 is set to the “processed” state in advance when the data processing unit 14 is in the process of processing, and the reference information processing unit 13 performs data processing on the same page again. This is to prevent a processing request from being made. In other words, the processing state information in the reference information storage unit 22 functions as a flag indicating whether the reference information processing unit 13 has made a data processing request to the data processing unit 14 (whether the request has been made). Will be.
[0136]
Thus, in the data processing apparatus 10, the activated data processing units 14a and 14b each access data of different pages in the same site (see FIG. 2), and immediately start the process of collecting information. On the other hand, when the data processing management unit 16 confirms the start of the information collection processing of each of the data processing units 14a and 14b, it enters a standby state. At this time, in the data collection device 10, the hardware resources of the CPU can be effectively used for the waiting time of the data processing management unit 16, so that the processing speed of each of the data processing units 14a and 14b can be increased as much as possible. Thus, it is possible to collect information published on the network 100 at high speed.
[0137]
Subsequently, each of the data processing units 14a and 14b stores various information other than the content itself (for example, the size of the content, the update date and time of the content, etc.) in the data information storage unit 23 of the storage device 20 for the accessed page. Then, the reference information (link information indicating which page is linked to which page or content, parameters for accessing the page, etc.) is stored in the reference information storage unit 22 of the storage device 20. The data processing units 14a and 14b provide the content itself to another cooperation system (for example, a search engine system) in the form of a temporary file, and do not store the content in the storage device 20. In addition, if another cooperative system ignores the temporary file, the provided temporary file is automatically deleted. By performing such processing, enlargement of the data stored in the storage device 20 is prevented, and the storage capacity of the storage device 20 is saved.
[0138]
Then, when various processes described below for the accessed page are completed, each of the data processing units 14a and 14b transmits a processing completion notification to the data processing management unit 16.
[0139]
In the example of FIG. 3, the content of the page accessed by the data processing unit 14a has a smaller amount of information, so the data processing unit 14a finishes the information collection process first, and transmits a process completion notification to the data processing management unit 16. It shows the case where it is done.
[0140]
Here, when the data processing management unit 16 receives the processing completion notification, as shown in FIG. 3, the data processing management unit 16 releases the standby state and further collects information on unprocessed pages in the same site. An activation command and a data processing request are output to the data processing unit 14 so as to activate 14c.
[0141]
As a result, as shown in FIG. 3, in the data processing unit 14, the
[0142]
Then, in this information collection / providing
[0143]
That is, in the conventional robot type search engine system, as shown in the operation of the conventional system on the left side of FIG. 3, each
[0144]
On the other hand, in the information collecting / providing
[0145]
The information collection / providing
[0146]
As shown in FIG. 4, the data processing unit 14 includes a data acquisition unit 141 (141a, 141b, 141c,..., 141n) for transparently accessing a server using a plurality of different protocols, and a plurality of data acquisition units. A data analyzing unit 142 (142a, 142b, 142c,..., 142n) for transparently analyzing data contents in different formats, that is, analyzing the data contents so as to be viewed as the same format as viewed from a user; A data registration unit 143 that is connected to the data analysis unit 142 and registers data in the storage device 20 in a unified data format.
[0147]
The
[0148]
Then, when a content acquisition command is sent from the data processing management unit 16 to the
[0149]
In this embodiment, the temporary file is saved in the hard disk of the cooperative system (not shown) in order to save the storage capacity of the storage device 20 in this embodiment. In such a case, a temporary file storage area may be provided in the data information storage unit 23 or the like, and the processing may be performed in the storage device 20.
[0150]
The data analysis unit 142 includes HTML, Macromedia (registered trademark) Flash, SMIL (Synchronized Multimedia Integration Language), and Adobe (registered trademark) (http://www.adobe.com/mobile.com/download/comm/download.com/download/comm/download.html). (Registered trademark), Microsoft (registered trademark) Word, Excel, and other various programs for analyzing contents in different formats are implemented. As shown in FIG. 4, for example, the
[0151]
Then, the data analysis unit 142 selects a matching content analysis program (142a, 142b, 142c,..., 142n) from the temporary file acquired by the
[0152]
Upon receiving the analyzed and converted content ball 30 and the link information from the data analysis unit 142, the data registration unit 143 stores the contents of the site information and the page information from the content ball 30 in the data information storage unit 23 of the storage device 20. Then, a process of storing the link information in the reference information storage unit 22 of the storage device 20 is performed.
[0153]
In the data processing unit 14, since the
[0154]
Further, according to the present embodiment, even when the protocol or data format used for data acquisition is increased, each
[0155]
Next, the operation of the entire information collecting / providing
[0156]
FIG. 5 is a flowchart showing the general outline of the operation of the information collecting / providing
[0157]
In the information collection / providing
[0158]
In executing the information acquisition of the specific site, in the information collection and
[0159]
Subsequently, the site management unit 12 determines whether or not there is a match between the current time and the information collection start time (step S3). If No, that is, if there is no match, the site management unit 12 waits for a predetermined time. After performing (Step S5), the process returns to Step S1, and in the case of Yes, that is, when it is determined that there is a matching one of the specific sites, the reference information processing management unit starts collecting information on the site. 15 is notified of a site processing request including the site information (URL and the like) of the specific site (step S4).
[0160]
As a result, in the data processing device 10, the reference information processing management unit 15 is awakened, and the site management unit 12 enters a standby state (step S5).
[0161]
Upon receiving the site processing request, the reference information processing management unit 15 determines whether or not the specific site of the URL acquired by the site management unit 12 (that is, the site for which information collection is to be started) is already in patrol, that is, It is checked whether or not the reference information processing unit 13 that is in charge of the process already exists (step S6). If No, that is, if it is determined that the reference information processing unit 13 does not exist, the process proceeds to step S7. That is, if it is determined that the information already exists, it is determined that there is no need to go to the site again to collect information, the site processing request is discarded, the process waits for a certain period of time (step S5), and then returns to step S1. It waits until a site processing request is received from the site management unit 12.
[0162]
In step S7, the reference information processing management unit 15 outputs an activation command to the reference information processing unit 13, activates one reference information processing unit 13, and notifies the activated reference information processing unit 13 of the URL of the site. As a result, the information collection and the provision of the information to the cooperation system are started, and the fact that the specific site is being processed is stored in the RAM of the CPU.
[0163]
In step S7, after it is determined in step S3 that there are a plurality of specific sites where the current time and the information collection start time match, and in step S6 that none of the specific sites are traveling, a plurality of reference sites are set. An activation command is output from the reference information processing management unit 15 to activate the information processing unit, and a plurality of reference information processing units 13 corresponding to the number of the specific sites are activated.
[0164]
In addition, the process of collecting information and providing information to the cooperation system in step S7 is mainly based on the information in the site information storage unit 21 of the storage device 20 and the reference information processing unit 13, the data processing management unit 16, The processing is performed by the processing unit 14. In each processing, various data are recorded and updated in the reference information storage unit 22 and the data information storage unit 23 of the storage device 20. The outline and details are described in FIG. It will be described later with reference to FIG.
[0165]
When terminating the process of collecting information and providing information to the cooperative system in step S7, the reference information processing unit 13 notifies the site processing reference information processing management unit 15 (see FIG. 6 Step S81). In the present embodiment, when the reference information processing unit 13 is activated and terminated (that is, the start and end of information collection and the like), the notification is transmitted between the reference information processing management unit 15 and the reference information processing unit 13 in this manner. Therefore, the reference information processing management unit 15 always manages the reference information processing unit 13 by storing data indicating which site is currently being processed in the RAM of the CPU. It becomes possible.
[0166]
When the information collection process in step S7 ends, the site management unit 12 and the reference information processing management unit 15 determine whether there is an end instruction of the entire system notified from the system management unit 11 based on the operation input of the user. It is determined whether or not it is not (Step S8). If No, that is, if there is no end instruction, the process waits for a certain period of time (Step S5), and then returns to Step S1. The process ends.
[0167]
Note that the waiting for a certain time in step S5 is for preventing the CPU from constantly operating and imposing a burden on the CPU, and is usually made to wait for one minute.
[0168]
As described above, according to the information collection and
[0169]
Further, according to the information collection / providing
[0170]
(Overview of information collection processing)
Next, a routine derived from step S7 in FIG. 5, that is, an outline of an information collection execution process performed after the activation of the reference information processing unit 13 will be described with reference to a flowchart in FIG.
[0171]
In the information collecting / providing
[0172]
First, in step S71, the data processing device 10 transmits the URL of the specific site transferred from the reference information processing management unit 15 to the reference information processing unit 13 started based on the activation command from the reference information processing management unit 15 described above. (Ie, site information in the site information storage unit 21). In step S71, the data processing device 10 performs a process of creating a content ball indicating that the processing of the specific site is to be started by the reference information processing unit 13 and transmitting the content ball to the cooperation system, and then proceeds to step S72. This will be described later with reference to FIGS. 11 and 12.
[0173]
In the next step S72, in the data processing device 10, the reference information processing unit 13 transmits a data processing request to the data processing management unit 16, whereby one data processing management unit 16 is activated (see FIG. 2). . This data processing request includes the URL of the specific site (site information in the site information storage unit 21) and an instruction to start processing for the specific site.
[0174]
In the next step S73, based on the site information (URL and the like) acquired in the previous step, the data processing management unit 16 determines from the site information storage unit 21 the maximum simultaneous access upper limit number of the specific site. get. In other words, when the data processing unit 14 is activated, the data processing unit 14 is actually activated by the data processing management unit 16 instead of the reference information processing unit 13, and thus the processing subject of step S 72 is the data processing management unit 16. .
[0175]
Here, if the data processing unit 14 is activated in a large amount, it places a load on the CPU and other servers. Therefore, the data processing management unit 16 performs processing of a specific site in order to avoid such a load. Based on the maximum simultaneous access upper limit number, the number of data processing units 14 to be started is managed as follows.
[0176]
In the next step S74, the data processing management unit 16 checks the number of data processing units 14 currently accessing the specific site, and the data processing unit 14 It is determined whether or not the maximum simultaneous access upper limit number in the site has been reached (see FIG. 9). If No, that is, if it has not been reached, the process proceeds to step S76 via step S75, and Yes, that is, If it is determined that there is, the process proceeds to step S76. Normally, when the data processing unit 14 is activated for the first time to a specific site, a determination of No is made in this step S74.
[0177]
In step S75, the data processing device 10 activates the data processing unit 14 by the data processing management unit 16, starts the process of acquiring the data of the specific site in the data processing unit 14, and proceeds to step S76. Specifically, in step S75, a start command is issued from the data processing management unit 16 to the data processing unit 14 to start the data processing unit, and the data processing The request is transferred from the data processing management unit 16 to the activated one or more data processing units 14.
[0178]
More specifically, in the first step S75 at the start of the processing of the specific site, a start command is output to start one data processing unit, and the data processing request passed to the data processing unit 14 includes a storage request. The site information (the top page URL in this example) of the site information storage unit 21 in the device 20 is included.
[0179]
On the other hand, in the second and subsequent steps S75 after the progress of the processing of the specific site, an activation command is issued to activate one or a plurality of data processing units according to the number of links and the maximum simultaneous access upper limit number in the specific site. The data processing request (step S80 described later) that is output and passed to the data processing unit 14 includes the “location on the network” stored in the new data information storage area of the data information storage unit 23 in the storage device 20. Information (see FIG. 9).
[0180]
By the processing in step S75, each data processing unit 14 that has received the activation and the data processing request accesses any one page in the specific site.
[0181]
Note that details of the processing performed by the data processing unit 14 started in step S75 will be described in a derived routine (steps S7501 to S7511) in FIG. 7, which will be described later.
[0182]
In step S76, the data processing management unit 16 waits until receiving an end notification from the data processing unit 14, which will be described later (see FIG. 3), or until receiving a data processing request from the reference information processing unit 13 next. When any of these is received, the process returns to step S74.
[0183]
That is, for example, in a period during the second processing state of the data processing management unit 16 shown in FIG. 3, a process of receiving a data processing request from the reference information processing unit 13 and an end notification from the data processing unit 14; This means that the processes of S74 and S75 are being performed.
[0184]
In step S77 after the activation of the data processing unit 14, the data processing apparatus 10 performs processing (that is, information collection processing and information provision processing to the cooperative system) among the activated data processing units 14 (14a to 14n). The reference information processing unit 13 determines whether or not there is any one that has been completed, and waits in step S77 until there is one whose processing has been completed. The process moves to S78.
[0185]
This determination in step S77 is made based on the value of the number of pools of data processing requests transmitted to the data processing management unit 16 (that is, the number of waiting for activation). The number of pools is obtained by subtracting the total number of data processing units 14 started in step S75 from the total number of data processing requests transmitted in step S72 and step S80 described later. The transition will be between the maximum simultaneous access upper limit number.
[0186]
In detail, the reference information processing unit 13 adds 1 to the value of the number of pools in step S72 and step S80 to be described later, and stores the number of pools in step S75. When the activation command is issued, n is subtracted from the stored numerical value, and when the subtracted value becomes smaller than the stored value, it is determined that one of the activated data processing units 14 has been terminated. This is because, when the processing of the data processing unit 14 (for example, 14a) ends, the data processing management unit 16 activates the next data processing unit 14 (for example, 14b).
[0187]
When the information collection processing of any of the data processing units 14 is completed, information on the processed data is registered in the reference information storage unit 22 and the data information storage unit 23 of the storage device 20 (see FIG. 7). Step S7507 or step S7510) is in the state, which will be described later.
[0188]
In step S78 after determining “Yes” in step S77, the data processing device 10 causes the reference information processing unit 13 to check the “processing state” column of the new reference information in the reference information storage unit 22 of the storage device 20. By searching for the serial number of the new data information in the data information storage unit 23 based on the information of the link destination for which the processing state flag is “unprocessed”, the unprocessed (uncollected) data related to the specific site is searched. The information of the “location on the network” of the data is acquired from the storage area of the new data information in the data information storage unit 23, and the process proceeds to step S79. Here, the unprocessed (uncollected) data related to the specific site is, for example, information on a page in the specific site that has not been accessed by the data processing unit 14 or a data processing unit. 14 is link information on a page outside the specific site to which a link from the page accessed by the user is provided.
[0189]
In step S79, the data processing device 10 uses the reference information processing unit 13 to determine whether data (pages) of all reference information related to the specific site has been collected from the obtained unprocessed (uncollected) information. If the determination is No, that is, if it is determined that unprocessed (uncollected) data related to the specific site still exists, the process proceeds to step S80, while Yes, that is, all references related to the specific site If the information data has been collected and it is determined that there is no unprocessed (uncollected) information, the process proceeds to step S81. In step S79, the reference information processing unit 13 determines that the processing states of the reference information storage unit 22 in the storage device 20 are all "processed" (that is, the reference information storage unit 22 performs data processing on all link pages and the like in the specific site). And the number of pools of the data processing request described above is zero (that is, there is no waiting for activation of the data processing unit 14). The determination of Yes is made on condition that the unit 14 does not exist.
[0190]
In step S80, the data processing device 10 transmits a data processing request including the information of “location on the network” acquired in step S78 from the reference information processing unit 13 to the data processing management unit 16. At this time, the reference information processing unit 13 sets a flag of “completed” in advance in the processing state column of the reference information storage unit 22 for the unprocessed (uncollected) data.
[0191]
Thus, upon receiving the data processing request in step S80, the data processing management unit 16 exits the standby state in step S76 described above, shifts to step S74, and repeats the processing and standby in steps S74 to S76. On the other hand, the reference information processing unit 13 repeats the processing of steps S77 to S80 until it is determined in step S79 that there is no unprocessed (uncollected) information. As described above, by repeating each process, the data processing apparatus 10 collects data on all pages constituting one specific site and provides the data to the cooperative system.
[0192]
In the present embodiment, for a page or the like outside the specific site linked to a page or the like in the specific site, the data is stored in the storage device 20 as data related to the specific site. In order to prevent this, access is performed by the data processing unit 14, but acquisition and analysis of content and the like are not performed.
[0193]
That is, in the example of the specific site “http://abcd.co.jp/001.html” in FIG. 9, for example, a certain page “http://abcd.co.jp/002.html” in the specific site Is linked to a page “rtsp: ///hijk.co.jp/001.html” of a completely different site, the data of this page is transferred to the specific site “http://abcd.co. jp / 001.html] is stored in the reference information storage unit 22 and the data information storage unit 23 of the storage device 20 as data linked to the storage unit 20. In the data processing unit 14, “rtsp: //hijk.co.jp/001” is stored. .Html ”, but does not acquire the content of the page, and the data processing unit 14 causes all pages in the specific site to be accessed. When the information acquisition is completed for a collecting information on one particular site is completed (Yes in step S79), is determined by reference the information processing unit 13.
[0194]
In the information collecting / providing
[0195]
In step S81, the data processing device 10 terminates the derivative routine process in step S7 by causing the reference information processing unit 13 to notify the reference information processing management unit 15 of an end. After the end notification in step S81 is made, the reference information processing unit 13 and the data processing management unit 16 end the processing, and the next collection start time (see FIG. 9) comes, and the reference information processing management unit 15 Until a start command is output (step S7 in FIG. 5) or a data processing request is issued from the reference information processing unit 13 (step S72 in FIG. 6).
[0196]
In step S81, the data processing device 10 performs a process of creating a content ball indicating that the reference information processing unit 13 has completed the process of the URL of the specific site and transmitting the content ball to the cooperation system, and then proceeds to step S8. The process is shifted, but this process will be described later with reference to FIGS.
[0197]
As described above, in the data processing device 10 of the present embodiment, the data processing management unit 16 acquires the maximum simultaneous access upper limit number for the site from the site information storage unit 21 when the data processing management unit 16 is activated ( In step S73, while temporarily holding the data processing request (steps S72 and S80) received from the reference information processing unit 13, the number of data processing units 14 currently being accessed is checked (step S74). If the access limit has been reached, the process waits for the end of the data processing unit 14 or the reception of a data processing request from the reference information processing unit 13 (step S76, see FIG. 3). If the number of the processing units 14 has not reached the maximum simultaneous access upper limit number, the data processing unit 14 is started (Step S). 5) Therefore, the number of data processing units 14 during acquisition of information of one specific site is managed by the data processing management unit 16, and a case where a predetermined number or more of the data processing units 14 are started up may occur. As a result, the load on the CPU and the network 100 can be reduced.
[0198]
In the data processing apparatus 10, a plurality of data processing units 14 collect data for one specific site at the same time, and while the data processing unit 14 is collecting data, the data processing management unit 16 and the reference information processing unit 13 Is in a standby state (FIG. 3, step S76, step S77) without using the CPU, and as described above, whether the data processing unit 14 has completed the collection is determined by the data processing management unit 13, the data processing management unit 16, and the like. Instead of performing a periodic check, a signal indicating the end is individually transmitted from the completed data processing unit 14 to the data processing management unit 16, eliminating unnecessary operation and unnecessary idle time, and also eliminating the CPU and the network 100. It is possible to collect information on a specific site published on the network 100 at high speed while reducing the load on the network.
[0199]
(Details of information collection processing)
Next, with reference to the flowchart of FIG. 7, the derivation routine of step S75 of FIG. 6, that is, the details of the information collection process performed by one data processing unit 14 for data of one page in a specific site will be described. .
[0200]
In the information collecting / providing
[0201]
The
[0202]
As described above, specific examples of the information on the access method acquired in step S7503 include simple authentication (Basic authentication) information, form authentication (CGI = Common Gateway Interface authentication) information, proxy information, and the like.
[0203]
Here, when the simple authentication information is obtained, if the URL to be accessed matches the URL of the simple authentication, the
[0204]
When the form authentication information is obtained, the
[0205]
Further, when the proxy information information is obtained, the
[0206]
In the next step S7504, if the URL protocol information is HTTP, the
[0207]
In step S7505, the
[0208]
In step S7506, the
[0209]
In the case of the first access to the specific site, since the header information is not registered in any of the storage areas of the previous data information and the new data information of the data information storage unit 23 for the specific site, step S7506 is performed. Then, the determination of No will come out.
[0210]
In step S7507, the data processing unit 14 transfers the header information from the
[0211]
On the other hand, in step S7508, the data processing unit 14 determines whether or not the header information acquired in step S7505 is information on an external site. The flow shifts to step S7511 as no need of acquisition, and on the other hand, if No, that is, it is determined that the information is not external site information, the flow shifts to step S7509 as the need for content acquisition.
[0212]
Here, the determination as to whether or not the information is of an external site in step S7508 is performed based on information registered in the “site information” column of the site information storage unit 21. Specifically, the registered information is Is a web site, the reference is based on whether or not the domain name of the specific site (“abcd.co.jp” in the example of
[0213]
In step S7509, the data processing unit 14 actually obtains the content using the
[0214]
In step S7510, the data processing unit 14 analyzes the content stored in the temporary file by the data analysis unit 142, and performs a process of extracting necessary information. Specifically, the data analysis unit 142 accesses the temporary file in HTML if the content is HTML (ie, using the
[0215]
Note that the “necessary information” in step S7510 includes information forming a content ball 30 (see FIG. 12) to be described later and transmitted to the cooperation system, and information forming link information to be stored in the reference information storage unit 22 ( In this embodiment, the number of lines, the tag name).
[0216]
In step S7511, the data registration unit 143 of the data processing unit 14 that has obtained the content analysis content in the RAM uses the analysis content to determine the location on the network, the number of layers, the size constituting the header information, the update date and time, Is registered in the new data information storage area of the data information storage unit 23, and link information, parameters, and the like are registered in the new reference information storage area of the reference information storage unit 22, and the process proceeds to step S7512. In step S7512, the data processing management unit 16 is notified of an end notification (in this case, page processing completed: "NEW" indicating new data of "INFO" or "UPDATE" indicating updated data). And finish the process.
[0219]
On the other hand, in step S7511 after it is determined in step S7508 that the information is external site information, in this case, the data registration unit 143 determines the size and update of the header information since there is no content analysis content in this case. Information such as the date and time is registered in the new data information storage area of the data information storage unit 23, and the process proceeds to step S7512. At step S7512, an end notification is sent to the data processing management unit 16 (in this case, page processing completed: "INFO"). “NEW” indicating that the data is new data or “UPDATE” indicating that the data is updated data), and the process ends.
[0218]
As described above, according to the information collecting / providing
[0219]
That is, according to the information collecting / providing
[0220]
Further, according to the information collecting / providing
[0221]
Next, with reference to FIG. 8, in performing the above-described information collection processing, the reference information processing unit 13 and the data processing unit 14 transmit the information to the reference information storage unit 22 and the data information storage unit 23 of the storage device 20. The processing to be performed will be described.
[0222]
As schematically shown in FIG. 8, when performing the information collection process, the reference information processing unit 13 and the data processing unit 14 refer to and update the reference information storage unit 22 and the data information storage unit 23 of the storage device 20. While doing.
[0223]
As described above, each of the reference information storage unit 22 and the data information storage unit 23 has an area in which the storage area of the processing result by the data processing device 10 is duplicated, and one of the areas stores the result of the previous information acquisition processing. The other area is a storage area for new information to be newly created when the information acquisition processing is next performed.
[0224]
Then, in the data processing device 10, the data processing unit 14 accesses the URL specified by the reference information processing unit 13 via the network 100, acquires the header information of the URL, and reads “new data” in the data information storage unit 23. It is registered in the “information recording area” (step S7504 in FIG. 7), and is compared with the header information in the corresponding page of the “previous data information storage area” in the data information storage unit 23 (step S7505 in FIG. 7).
[0225]
In addition, as for the comparison of the header information, an example in which the update date and time are compared is described here for the sake of convenience of description, but other contents stored in the data information storage unit 23 such as the type and size are also described. Similar comparisons will be made.
[0226]
Here, as a result of comparing the header information of each storage area of the data information storage unit 23, if they match (Yes in step S7506), the data processing unit 14 stores the “previous reference information storage” in the reference information storage unit 22. The URL information stored in the “area” is copied as “unprocessed” to the “new reference information storage area” of the reference information storage unit 22 (step S7507). As a result of the comparison, if they do not match, or if they do not exist in the “previous data information storage area” of the data information storage unit 23 (No in step S7506), the data processing unit 14 is not an external site (No in step S7508). ) Is acquired, the content is stored as a temporary file (step S7509), link URL information included in the content is extracted (step S7510), and the “new reference information” in the reference information storage unit 22 is extracted. Is registered as “unprocessed” in the “storage area” (step S7511).
[0227]
By performing such processing, it is possible to save time and transfer amount for acquiring URL contents that have not been changed since the previous acquisition, and to acquire information at high speed while reducing the load on the CPU and the network 100. It becomes.
[0228]
On the other hand, during the data collection processing, the reference information processing unit 13 outputs the information of “location on the network” where the processing state of the storage area of the new reference information of the reference information storage unit 22 is “unprocessed”. 9 (see FIG. 9) from the new data information storage area of the data information storage unit 23 (step S78 in FIG. 6), and if there is “unprocessed” (Yes in step S79), the data processing unit 14 A data processing request is transmitted to the data processing management unit 16 to start, and the processing status information in the reference information storage unit 22 is changed to “processed” (step S80).
[0229]
In FIG. 8, three pages including a specific site (
[0230]
In FIG. 8, the information previously collected by the information collecting / providing
[0231]
In this case, as for
[0232]
More specifically, for
[0233]
On the other hand, the
[0234]
More specifically, at the time of this information collection, the header information of the
[0235]
Then, if all processes to be performed by the data processing unit 14 are completed and all of the “new reference information storage areas” of the reference information storage unit 22 have been processed (in this case, the new reference information shown in FIG. 8). When "unprocessed" in the lower row of the storage area is changed to "processed" and all the processes of the data processing units 14 (14a to 14c) are completed, a large amount of information in the specific site is deleted. It means that all of them have been acquired, and the reference information processing section 13 ends.
[0236]
Next, the relationship among the site information storage unit 21, the reference information storage unit 22, and the data information storage unit 23 in the storage device 20 will be described more specifically with reference to each data table shown in FIG. Each data registered in the reference information storage unit 22 and the data information storage unit 23 shown in FIG. 9 is a specific site “http://abcd.co.jp/0001” registered in the site information storage unit 21. .Html ”is only extracted and shown.
[0237]
As shown in FIG. 9, in the storage device 20, the numerical value of “serial number” (1 in FIG. 9) of the site information storage unit 21 is registered in the “site” column of the reference information storage unit 22, so that the reference information is stored. The data in the storage unit 22 is associated with the data of one specific site “http://abcd.co.jp/0001.html” registered in the site information storage unit 21, and similarly, the data information storage unit By registering the numerical value (“1” in FIG. 9) of the “serial number” of the site information storage unit 21 in the “site” column of 23, the data of the data information storage unit 23 is stored in the site information storage unit 21 of the specific site. It is associated with the data.
[0238]
In the storage device 20, the “serial number” number of the data information storage unit 23 is registered in the “link source” column and the “link destination” column of the “link information” of the reference information storage unit 22, so that the reference The data in the information storage unit 22 is associated with the data in the data information storage unit 23.
[0239]
Further, in the storage device 20, the reference information storage unit 22 and the data information storage unit 23 are each duplicated. Specifically, one is a storage area for the previous collection information, and the other is a storage area for the latest collection information. It is used as a storage area for information.
[0240]
Here, for one specific site “http://abcd.co.jp/0001.html” as an information acquisition target, in the first information collection process, the top page 0001. html and its lower page 0002. html. However, at the time of the second information collection process, 0002. 0003. Assuming that an html page has been newly added, processes such as updating data in the storage units 21 to 23 will be described.
[0241]
First, in the first information collection process, an instruction to process a site indicated by “http://abcd.co.jp/0001.html” is received according to the data processing request in step S7501 of FIG. 7 described above. The data processing unit 14 (referred to as 14a) stores various information related to “http://abcd.co.jp/0001.html” in the site information storage unit 21 (each data in the column (1) in FIG. 9). (In this case, proxy information) (step S7503), and obtains information from http: // abcd. co. jp / 0001. html.
[0242]
And, http: // abcd. co. jp / 0001. html, the data processing unit 14a first accesses http: // abcd. co. jp / 0001. The html header information is acquired by the data acquisition unit 141 (step S7504). In this case, since there is no previously acquired information (No in step S7506), the processing of steps S7509 to S7512 is performed.
[0243]
More specifically, in step S7509, the data processing unit 14a uses the
[0244]
That is, in step S7511, based on the information extracted in the previous step, the data processing unit 14a determines the number of layers (1 in this example), the type (HTML in this example), and the size (HTML in this example) of the page (0001.html). In the example, data such as 1024 (bytes), the update date and time (in this example, 00:00 on December 1, 2002), and the like are stored in the new data information recording area of the data information storage unit 23 ((5) in FIG. 9). , And if there is information on the link destination linked to the page (0001.html), the information is stored in the storage area of the new reference information in the reference information storage unit 22 (FIG. 9). In the corresponding columns in the column of (2) above).
[0245]
Then, in step S7511, the data registration unit 143 of the data processing unit 14a records each piece of information about the page (0001.html) in the reference information storage unit 22 and the data information storage unit 23, and stores all the data for the page. Assuming that the collection has been completed, a flag indicating that the data collection of the page has been completed is displayed in the “collection status” column of the new data information recording area (step (5) in FIG. 9) of the data information storage unit 23. “OK” in FIG. 9) is recorded, and the end is notified to the data processing management unit 16 (step S7512), and at this time, the content ball 30 is transmitted to the cooperation system.
[0246]
In this case, the data processing unit 14a sends the page 0001. When analyzing the content of html (step S7510), 0001. Since “0002.html” of the link page described in the text (content) of the html is extracted, the data registration unit 143 stores the new reference information in the storage area of the new reference information in the data information storage unit 23 in step S7511. , 0002. In addition to securing (newly established) a record column (step (6) in FIG. 9) for html, the secured (newly established) 0002. In the “collection status” column of html, a flag (for example, “not yet”) indicating that the data of the page has not been collected yet is recorded.
[0247]
In step S7510, 0002. The html extracted data processing unit 14a records the link information existing at the link source site (in this case, “http://abcd.co.jp/0001.html”), so in the next step S7511, , Which is secured in the storage area of the new reference information in the reference information storage unit 22 by the data registration unit 143. html to 0002. The link information (the link source, the link destination, the number of lines, the tag name) is recorded in the record column (step {circle around (2)} in FIG. 9) indicating that the link is made to the html, and the "process state" column is recorded in the "process state" column. In this case, an “unused” flag indicating that all the data of the specific content (in this case, the content of “http://abcd.co.jp/0002.html”) has not been collected yet is recorded. The example shown in the section {circle around (2)} in FIG. 9 corresponds to http: // abcd. co. jp / 0001. html in the 32nd line of the main text. This is a case where there is link destination information for linking to html, and the tag name is HREF of the A tag.
[0248]
Then, in the information collecting / providing
[0249]
Subsequently, the data processing unit 14b started next accesses the page based on “http://abcd.co.jp/0002.html” included in the start instruction, and similarly, http: // // abcd. co. jp / 0002. The html header information is acquired by the data acquisition unit 141 (step S7504). Since there is no previously acquired information (No in step S7506) and the site is not an external site (No in step S7508), the same steps as described above are performed. The processing from S7509 to S7512 is performed.
[0250]
That is, in step S7509, the data processing unit 14b uses the http: // abcd. co. jp / 0002. The content in the html is obtained, most of the content balls 30 described later are created, and the obtained data is stored as a temporary file for analysis by the data analysis unit 142. In the next step S7510, the data processing unit 14b analyzes the content in the data analysis unit 142 and extracts necessary information to replenish the missing portion of the content ball 30, and in the next step S7511, the data registration unit 143 newly registers each data described above in the reference information storage unit 22 and the data information storage unit 23, and provides the completed content ball 30 to the cooperation system in step S7512.
[0251]
That is, in step S7511, the data processing unit 14b, based on the information extracted in the previous step, determines the number of layers (2 in this example), type (HTML in this example), and size (HTML in this example) of the page (0002.html). In the example, data such as 1024 (bytes), the update date and time (in this example, 00:00 on December 1, 2002), and the like are stored in the new data information recording area of the data information storage unit 23 ((6) in FIG. 9). , And if there is information on the link destination linked to the page (0002.html), the information is recorded in the new reference information storage area of the reference information storage unit 22. Go.
[0252]
In this case, at the time of the first information collection (tour), 0002. Since no link information (0003.html) exists in html, in this case, the data registration unit 143 of the data processing unit 14b stores the new information in the data information storage unit 23 and the reference information storage unit 22 in step S7510. If the information on the page (0002.html) of the specific site is recorded in the new data information recording area (stage {circle around (6)} in FIG. 9) of the specific information site without newly establishing (securing) Assuming that all data collection for the page has been completed, a flag (“OK” in FIG. 9) indicating that data collection for the page has been completed is recorded in this “collection status” column, and a reference information storage unit The "unprocessed" flag in the "processing status" column of No. 22 ((2) in FIG. 9) is changed to "completed" in FIG. As a result of this processing, the processing states of the reference information storage unit 22 are all set to “completed”, and the data collection for all pages of the specific site (that is, each page at http://abcd.co.jp/) is completed. This indicates that the first information collection of this specific site can be completed.
[0253]
That is, when the end of the processing is notified from the data registration unit 143 of the data processing unit 14b to the data processing management unit 16 in the next step S7512, the reference information monitoring the “processing state” column of the reference information storage unit 22 When the processing unit 13 determines that “all the pieces of reference information data have been collected” (Yes in step S79 in FIG. 6), the first information collection of this specific site ends.
[0254]
In the information collection / providing
[0255]
Next, on the specific site “http://abcd.co.jp/0001.html”, a new page 0003. The second information collection process performed by the data processing device 10 after the html has been added will be described.
[0256]
Also in the second information collection process, an instruction to process the site indicated by “http://abcd.co.jp/0001.html” is received according to the data processing request in step S7501 in FIG. 7 described above. Similarly to the above, the data processing unit 14 (similarly, 14a) stores each information (“1” in FIG. 9) regarding “http://abcd.co.jp/0001.html” in the site information storage unit 21. , The information of the “access method” (proxy information in this case) is obtained (step S7503), and http: // abcd. co. jp / 0001. html.
[0257]
And, http: // abcd. co. jp / 0001. html, the data processing unit 14a first accesses http: // abcd. co. jp / 0001. The html header information is acquired by the data acquisition unit 141 (step S7504). In this case, however, the acquired header information matches the previous information (that is, the information in the step (5) in FIG. 9) (step S7506). Yes), the contents (including link information) of the top page (0001.html) are regarded as the same, and the data registration unit 143 performs the process of step S7507 this time. That is, in step S7507, the data registration unit 143 of the data processing unit 14a stores the data in each column of the previous data information recording area (steps (5) and (6) in FIG. 9) of the data information storage unit 23 (ie, The top page 0001.html and its lower page 0002.html) are all copied to the new data information recording area (steps (7) and (8) in FIG. 9). The “uncollected” flag is recorded only in the “collection state” column for html, and the information of the recording area of the previous reference information (step (2) in FIG. 9) of the reference information storage unit 22 is recorded in the recording area of the new reference information. (Step {circle around (3)} in FIG. 9), and a "not-yet" flag is recorded only in the "processing state" column.
[0258]
Note that the content ball 30 is created and updated by the
[0259]
Then, in the information collecting / providing
[0260]
Subsequently, the data processing unit 14b started next accesses the page based on “http://abcd.co.jp/0002.html” included in the start instruction, and accesses the page http: // abcd. co. jp / 0002. The html header information is acquired by the data acquisition unit 141 (step S7504), and the acquired header information is compared with the header information acquired last time (that is, the information of the stage (6) in FIG. 9) (step S7506).
[0261]
In this case, page 0002. Since the “size” and “update date and time” of the html header information are different from the previous time (No in step S7506), the page 0002. html contents are also considered to be different, and the processes of steps S7509 to S7512 are performed.
[0262]
That is, in step S7509, the data processing unit 14b uses the http: // abcd. co. jp / 0002. The content in the html is obtained, most of the content balls 30 described later are created, and the obtained data is stored as a temporary file for analysis by the data analysis unit 142. In the next step S7510, the data processing unit 14b analyzes the content in the data analysis unit 142 and extracts necessary information to replenish the missing portion of the content ball 30, and in the next step S7511, the data registration unit 143 newly registers each data described above in the reference information storage unit 22 and the data information storage unit 23, and provides the completed content ball 30 to the cooperation system in step S7512.
[0263]
That is, in step S7511, the data processing unit 14b, based on the information extracted in the previous step, determines the number of layers (2 in this example), type (HTML in this example), and size (HTML in this example) of the page (0002.html). In the example, data such as 2048 (bytes), update date and time (in this example, January 1, 2003 at 00:00) are stored in the new data information recording area of the data information storage unit 23 ([8] in FIG. 9). , And if there is information on the link destination linked to the page (0002.html), the information is recorded in the new reference information storage area of the reference information storage unit 22. Go.
[0264]
Then, in step S7511, the data registration unit 143 of the data processing unit 14b records each piece of information about the page (0002.html) in the reference information storage unit 22 and the data information storage unit 23. Assuming that the collection has been completed, a flag indicating that the data collection of the page has been completed is displayed in the “collection state” column of the new data information recording area (step (8) in FIG. 9) of the data information storage unit 23. “OK” in FIG. 9) is recorded, and the data processing management unit 16 is notified of the end (step S7512).
[0265]
In this case, at the time of the second information collection (tour), the page 0002. http: / abcd. co. jp / 0003. html, the data processing unit 14b sends the page 0002. When analyzing the content of html (step S7510), 0002. Since “0003.html” of the link page described in the body (content) of the html is extracted, in step S7511, the data registration unit 143 stores the new reference information in the storage area of the new reference information in the data information storage unit 23. , 0003. In addition to securing (newly established) a record column (
[0266]
In step S7510, 0003. The data processing unit 14b that has extracted the html records the link information existing in the link source site (in this case, “http://abcd.co.jp/0002.html”). , 0002. secured by the data registration unit 143 in the storage area of the new reference information in the reference information storage unit 22. html to 0003. The link information (link source, link destination, number of lines, tag name) is recorded in the record column (step {circle around (4)} in FIG. 9) indicating that the link is linked to html, and the "process state" column In this case, a flag “not yet recorded” indicating that all data of the specific content (in this case, the content of the lower page “http://abcd.co.jp/0003.html”) has not been collected is recorded. I do. The example shown in (4) in FIG. 9 corresponds to http: // abcd. co. jp / 0002. html. This is a case where there is link destination information for linking to html, and the tag name is HREF of the A tag.
[0267]
Then, in the information collecting / providing
[0268]
Next, the data processing unit 14c started next accesses the page based on “http://abcd.co.jp/0003.html” included in the start instruction, and similarly, http: // // abcd. co. jp / 0003. The html header information is acquired by the data acquisition unit 141 (step S7504). In this case, this is the first access, there is no information acquired previously (No in step S7506), and it is not an external site (No in step S7508). The processing of steps S7509 to S7512 is performed in the same manner as described above.
[0269]
In this case, the page 0003. Since no link information exists in the html, in this case, the data registration unit 143 of the data processing unit 14c newly establishes (secures) a new column in the data information storage unit 23 and the reference information storage unit 22 in step S7511. If the information about the page (0003.html) of the specific site is recorded in the new data information recording area (step (9) in FIG. 9) of the data information storage unit 23 without performing the above, Assuming that the data collection has been completed, a flag (“OK” in FIG. 9) indicating that the data collection of the page has been completed is recorded in the “collection state” column, and the flag in the reference information storage unit 22 (FIG. The "not-yet" flag in the "processing state" column of (4) is changed to "done" in FIG. As a result of this processing, the processing states of the reference information storage unit 22 are all set to “completed”, indicating that the collection of all data at the specific site (http://abcd.co.jp/0001.html) has been completed. Thus, it is possible to complete the second information collection of this specific site.
[0270]
That is, when the end of the processing is notified from the data registration unit 143 of the data processing unit 14b to the data processing management unit 16 in the next step S7511, the reference information monitoring the “processing state” column of the reference information storage unit 22 When the processing unit 13 determines that “all data of the reference information has been collected” (Yes in step S79 of FIG. 6), the second information collection of this specific site ends.
[0271]
In the information collection / providing
[0272]
In this example, the operation such as data collection at a site having only three pages has been described. However, at a site including more pages, the above processing is repeated to collect data.
[0273]
Also, in this case, in order to avoid complicating the explanation, operations such as data collection at a site where only one page is linked to one page have been described. In many cases, a plurality of other pages are linked, in which case, as described above, the plurality of data processing units 14 are activated within the range of the maximum number of simultaneous accesses set in the site information storage unit 21. 7 (see FIG. 3), each data processing unit 14 performs the processing of FIG. 7 (and FIG. 11 described later).
[0274]
Further, in a case where a page of another specific site is linked to a page of a specific site (for example, a predetermined page 0003.html of the specific site http://abcd.co.jp/0001.html described above). Is linked to page 0001.html of another site http://wxyz.co.jp), by repeating the above-described processing to obtain all the information related to one specific site. Data collection. However, as described above, in this case, http: // wxyz. co. jp / 0001. No content itself is obtained for html, and no access is made to a page or the like (for example, http://wxyz.co.jp/0002.html) linked from the page.
[0275]
In FIG. 9, another specific site (specific site 2) http: // efgh. co. jp / 0001. Although an example in which html site information is also registered is shown, the information collection / providing
[0276]
Further, FIG. 9 shows the contents stored in the reference information storage unit 22 and the data information storage unit 23 when the specific site is a Web site. However, the specific site is stored in a directory tree type file system or a domain participation type. Even in the case of a group of network devices, the process of collecting information and providing information to the cooperative system can be realized by the same process.
[0277]
(Cooperation between this system and other systems)
Next, cooperation between the information collection / providing
[0278]
FIG. 10 schematically shows the cooperation (connection form) between the data processing device 10 of the information collection / providing
[0279]
In the data processing device 10 of the information collecting / providing
[0280]
Here, the collected information provided (transmitted) from the information collecting / providing
[0281]
Further, the information collecting / providing
[0282]
With respect to the timing of providing (transmitting) the collected information (the content ball 30 and the temporary file) from the information collecting / providing
[0283]
The information provided at the start of (a) site information collection or (b) completion of site information collection includes the site name of the specific site, and (c) the provided information at the time of page processing has Information indicating the processing result of the page included in the site is included, and (d) information provided when the page processing is abnormal includes information indicating the abnormality detected during processing of the page.
[0284]
The content ball 30 and the creator of the temporary file are created by the reference information processing unit 13 of the data processing device 10 when (a) site information collection is started or (b) site information collection is completed. In the case of c) page processing completed or (d) page processing abnormality, the data processing unit 14 of the data processing apparatus 10 creates the page processing.
[0285]
The information collecting / providing
[0286]
In the process of registering each cooperative system in the information collecting / providing system 1 (that is, registering the cooperative system name in the site information storage unit 21 of the storage device 20 shown in FIG. 9), an input screen of a display unit (not shown) Above, it is possible to make a setting as to which position in FIG. 10 the linked system is to be connected to. When setting the connection, the system name (see FIG. 9) of the cooperative system is used, and the position to which the connection is performed is stored in the CPU of the information collection / providing
[0287]
For example, in the example illustrated in FIG. 10, the setting is such that the cooperative system A is directly connected to the information collection / providing
[0288]
On the other hand, in the example shown in FIG. 10, the cooperative system C is set to be directly coupled to the information collection / providing
[0289]
In the information collection / providing
[0290]
(Data structure of content ball)
By receiving the content ball 30, the system coupled to the information collecting / providing
[0291]
As shown in FIG. 12, the content ball 30 includes a message status. As shown in FIG. 12, the types of the message status include "START", "END", "INFO", and "ERR", which are (a) start of site information collection and (b), respectively. This indicates that site information collection is completed, (c) page processing is completed, and (d) page processing is abnormal.
[0292]
The cooperative system refers to the message status data of the content ball 30 to perform a process unique to the cooperative system. More specifically, for example, when the message status is START, initialization processing of the database of the cooperative system is performed as preprocessing, and when the message status is INFO, “temporary file name” of the content ball 30 is processed as postprocessing. And a process of obtaining a temporary file from the server and searching for a word. Such processing unique to the cooperative system is performed in step S7132 (pre-processing) or step S7136 (post-processing) described later.
[0293]
The content ball 30 includes site information. This site information is the same information as the site information in the site information storage unit 21 of the storage device 20. The cooperative system accesses the site information storage unit 21 of the storage device 20 by referring to the site information of the content ball 30 and, for example, depending on the setting of pre-processing and post-processing of the cooperative system, and It is also possible to refer.
[0294]
The content ball 30 contains page information. As shown in FIG. 12, the page information indicates the location (specifically, URL, etc.), hierarchy, type, size, update date, and collection status of the data on the network. The content is the same as that of each of the data information storage units 23. By referring to the page information of the content ball 30, the cooperative system similarly accesses the data information storage unit 23 of the storage device 20 based on, for example, the settings of the pre-processing and post-processing of the cooperative system, and specifies It is also possible to refer to the contents of the page.
[0295]
The content ball 30 includes a page state. The page state indicates a result of comparing the state of the page collected by the data processing unit 14 with the data at the time of the previous collection (that is, the registration data of the storage area of the previous data information in the data information storage unit 23). As shown in FIG. 12, if the page collected this time is a newly added page, NEW is set if the page is updated from the previous collection, and UPDATE is set if the page is the same as the previous collection. NONE is set.
[0296]
Specifically, at the first collection to a specific site, the page state of all the content balls 30 becomes NEW, and at the second and subsequent collections, NEW (new page) and UPDATE as a result of comparison with the previous data. Either (updated) or NONE (no update) is set.
[0297]
The content ball 30 includes a temporary file name. The temporary file name indicates the name and location (directory name, etc.) of the temporary file in which the content acquired by the
[0298]
The page information and the page state of the content ball 30 are set when the message status is INFO (page processing completed) or ERR (page processing abnormal), and when the message status is START (site information collection start) or END (site information collection end). Is not set and becomes empty. The temporary file name of the content ball 30 is set when the data processing apparatus 10 acquires the content itself and creates a temporary file, such as when the page state is NEW (new page) or UPDATE (updated). .
[0299]
Next, referring to the flowchart of FIG. 11, when the subroutine of step S71 of FIG. 6, that is, when the data processing device 10 starts executing the information collection of the specific site, the data processing device 10 transmits the information to the cooperation system (a). The process of notifying the start of site information collection (START) will be described in detail.
[0300]
FIG. 11 is a flowchart for (a) when the site information collection is started (START). However, FIG. 11 (b) when the site information collection is completed (END) and (c) when the page processing is completed (INFO). , (D) When a page processing error (ERR) occurs, a similar flow is performed. Therefore, in the case of (b) site information collection completion (END), the flowchart of FIG. 11 becomes a subroutine of step S81 of FIG. 6, and (c) page processing completed (INFO) and (d) page processing abnormality (ERR) In this case, the flowchart of FIG. 11 is a subroutine of step S7511 in FIG.
[0301]
In addition, the processing of steps S711 to S713 in FIG. 11 is mainly performed by the reference information processing unit 13 in the case of (a) start of site information collection (START) and (b) completion of site information collection (END). In the case of c) page processing completed (INFO) and (d) page processing abnormality (ERR), the data processing unit 14 is the main component.
[0302]
On the other hand, the flowchart (steps S7131 to S7136) shown on the right side of FIG. 11 shows processing performed by the cooperative system that has received the content ball 30 in step S713.
[0303]
In the data processing device 10, the reference information processing unit 13 activated based on the above-described activation instruction acquires the site information (URL or the like) of the specific site in step S71 of FIG. , The content ball 30 is created (step S711).
[0304]
In this case, the content ball 30 in FIG. 12 includes only the message status (= START) and site information, and does not include page information and the like.
[0305]
In addition, when (b) site information collection is completed (END), the reference information processing unit 13 creates the content ball 30 as a process in step S81 in FIG.
[0306]
In this case, the content ball 30 in FIG. 12 includes only the message status (= END) and the site information, and does not include the page information and the like.
[0307]
On the other hand, when (c) page processing is completed (INFO) and (d) page processing is abnormal (ERR), the data processing unit 14 deletes the content ball 30 from the collected data in step S7511 of FIG. create.
[0308]
In this case, the content ball 30 contains all the information shown in FIG.
[0309]
In these cases, when the reference information processing unit 13 or the data processing unit 14 acquires the content and creates a temporary file, the temporary file name is also stored in the content ball 30.
[0310]
In the present embodiment, the information collecting / providing
[0311]
In the next step S712, the reference information processing unit 13 (in the case of (c) and (d) above, the data processing unit 14, the same applies hereinafter) is registered in the site information storage unit 21 of the storage device 20. The system acquires the cooperative system name (see FIG. 9), and proceeds to step S713.
[0312]
In step S713, the reference information processing unit 13 transmits the content ball 30 created in S711 to the cooperation system (here, the cooperation system A in FIG. 10).
[0313]
In step S713, the reference information processing unit 13 waits until the cooperative system (the cooperative system A in this case) to which the content ball 30 is transmitted completes the processing in steps S7131 to 7136 described below.
[0314]
Hereinafter, processing performed by the cooperation system (cooperation system A) that is the transmission destination of the content ball 30 will be described with reference to the flowchart on the right side of FIG.
[0315]
Upon receiving the content ball 30 from the reference information processing unit 13 (or the data processing unit 14) in step S7131, the cooperation system A refers to the above-described message status of the received content ball 30 in the next step S7132, After performing the first process (pre-process) unique to the cooperative system A as necessary, the flow shifts to step S7133.
[0316]
In step S7133, the cooperative system A accesses the site information storage unit 21 of the storage device 20, and from the site information storage unit 21, the cooperative system A (system A) registered in the “cooperation system name” column of the specific site. ) Is obtained (in this case, the cooperation system names of the cooperation system A and the cooperation system B (related to the cooperation system A)), and the flow shifts to step S7134.
[0317]
In step S7134, the cooperative system A determines whether the obtained cooperative system name includes another cooperative system stored in a CPU (not shown) of the cooperative system A (that is, the cooperative system A includes another cooperative system name). It is determined whether or not the cooperation system name is associated), and if Yes, that is, it is determined that there is another cooperation system other than the cooperation system A in the current cooperation, the process proceeds to step S7135, and No, that is, the current cooperation If it is determined that there is no other cooperative system other than the cooperative system A, the flow shifts to step S7136.
[0318]
In step S7135, the cooperative system A transfers (ie, copies and transmits) the content ball 30 to another cooperative system (the cooperative system B in FIG. 10 in this case), and then proceeds to step S7136.
[0319]
Note that another cooperative system (the cooperative system B in this case) that has received the content ball 30 from the cooperative system A performs the processes of steps S7131 to S7136, similarly to the cooperative system A. In this case, the cooperation system A waits in step S7135 until the processing of the cooperation system B ends, and when the processing of the cooperation system B ends, the processing proceeds to step S7136.
[0320]
In step S7136, the cooperative system A refers to the above-described message status of the content ball 30, performs a second process (post-process) unique to the cooperative system A as necessary, and then performs a series of processes. To end.
[0321]
Thus, when the processing of steps S7131 to S7136 by the cooperative system A ends, the reference information processing unit 13 (the data processing unit 14 in the case of (c) and (d) above) exits the processing of step S713, The process will proceed to step S72 in FIG.
[0322]
The series of processes described with reference to FIG. 11 is performed once each time the information collection of the specific site is started / finished (that is, in the above-described cases (a) and (b)), the data (the page or the like) within the specific site. Is performed each time (i.e., (c) and (d) above) are processed. Specifically, for example, when a certain Web site (specific site) has 100 pages, 1 + 100 + 1 = 102 times of creation / transmission of the content ball 30 and processing in the cooperative system are performed. .
[0323]
For this reason, the cooperative system preliminarily estimates the CPU usage and processing time of the own device in each of the above-described unique processes in step S7132 or step S7136, and the unique process that requires a large amount of CPU and takes a long time (a). When the site information collection is started and / or (b) when the site information collection is completed, the specific processing that requires less CPU usage and requires less time is (c) page processing completed and / or (d) page It is desirable to perform the process when there is a processing abnormality. The reason is that, in the data processing device 10 of the information collecting / providing
[0324]
As described above, in the information collection /
[0325]
Then, the cooperative system analyzes each received content ball 30 to find out, for example, a new page or an updated page of the specific site based on information such as “page state” and “message status” of “ERR”. In this case, it is known that the link is broken, and by counting the number of the content balls 30 whose “message status” is “INFO”, the total number of pages of the specific site can be determined. , The total capacity of a specific site can be determined. Furthermore, the cooperative system can obtain various information related to a specific site by accessing the storage units 21, 22, and 23 of the storage device 20 and referring to necessary information.
[0326]
Therefore, according to the information collecting / providing
[0327]
In the above-described embodiment, an example in which the data processing apparatus 10 acquires data shared on the network 100 via the network 100 has been described. However, the present invention is not limited to this. And a computer not shown may form a LAN, and the data processing device 10 may acquire the data in the other computer. May be directly incorporated to acquire data in the computer.
[0328]
Furthermore, in the above-described embodiment, a case has been mainly described in which the information collection and provision target is WWW data. However, the present invention is not limited to this. The tree is treated as a hierarchy (link), and all the files in a certain directory are acquired using the files stored in each directory as collected data, subdirectories are detected, and the files in the subdirectories are acquired. By continuing, it is also possible to acquire all data in the directory tree.
[0329]
In addition, the domain participation type network is targeted for information collection, the domain is a hierarchy (link), and the network devices belonging to the domain are collected data, the status of all network devices in a certain domain is acquired, and the subdomain is detected. By further acquiring the status of the network devices in the sub-domain, the status of all the network devices in the domain (for example, “starting up”, “operating without problems”, It is also possible to acquire information on various states such as "Yes".
[0330]
As described above, according to the information collection / providing
[0331]
Further, according to the information collection and
[0332]
Further, according to the information collecting / providing
[0333]
According to the information collecting / providing
[0334]
【The invention's effect】
As described above in detail, according to the present invention, a high-speed and high-quality information collection system is constructed, an information collection system, an information collection method, which efficiently and quickly collects information in a designated site, And an information collection program can be provided.
[0335]
Further, according to the present invention, it is possible to provide an information collection system, an information collection method, and an information collection program capable of reducing the load on hardware resources such as a CPU and a network when collecting information.
[0336]
Further, according to the present invention, it is possible to provide an information collection system, an information collection method, and an information collection program, which realize improved services related to information provision after information collection within a designated site.
[Brief description of the drawings]
FIG. 1 is a functional block diagram showing a schematic configuration of an information collecting / providing system to which the present invention is applied.
FIG. 2 is a view for explaining a plurality of configurations in a reference information processing section and a data processing section in the information collection / providing system in a case where information collection is performed simultaneously and in parallel on a plurality of sites and a plurality of contents. FIG.
FIG. 3 is a diagram showing an operation of the information collection / providing system when information is collected simultaneously and in parallel for a plurality of contents in comparison with an operation of a system of a conventional robot type engine; FIG. 11 is a diagram for describing an operation of a notification (calling) function between the data processing management unit and each data processing unit when two data processing units collect information on mutually different contents in the device.
FIG. 4 is a diagram for describing a configuration in a data processing unit in the information collection / providing system when a process is performed transparently for a plurality of different protocols and data formats.
FIG. 5 is a flowchart showing an outline of the operation of the entire system when information is acquired for a specific site in the information collection / providing system, and is mainly for describing operations up to the start of information acquisition.
FIG. 6 is a flowchart for explaining an outline of an information acquisition execution operation for one specific site, and shows processing of a routine derived from step S7 in FIG. 5;
FIG. 7 is a flowchart for explaining details of an information acquisition execution operation for one page in one specific site, and shows an operation of a routine derived from step S75 in FIG. 6;
FIG. 8 is a diagram illustrating operations of a reference information processing unit and each data processing unit in the information collection / providing system, data stored in each storage unit of the storage device, and the like.
FIG. 9 is a diagram illustrating a data table of information stored in each storage unit of the storage device in the information collection / providing system.
FIG. 10 is a diagram schematically showing cooperation between a data processing device of an information collection / providing system and another system.
11 is a flowchart showing a process in which the information collection / providing system creates a content ball and transmits the content ball to the cooperative system, and a process performed by the cooperative system which has received the content ball; FIG. FIG. 8 is a diagram for explaining a subroutine of step S7511 in FIG. 7.
FIG. 12 is a diagram illustrating a data structure of a content ball transmitted from the information collecting / providing system to the cooperation system.
[Explanation of symbols]
1 Information collection and provision system
10 Data processing device
11 System Management Department
12 site management department (management means)
13 (13a, 13b, 13c,...) Reference information processing unit (management means, provided data generation means)
14 (14a, 14b, 14c, ...) Data processing unit (data processing means, provided data generation means)
141 (141a, 141b,...) Data acquisition unit (page access means, header information acquisition means, determination means, content acquisition means)
142 (142a, 142b, ...) Data analysis unit (content acquisition means)
143 Data registration part (information registration means)
15 Reference information processing management unit (management means)
16 (16a, 16b, 16c, ...) Data processing management unit (management means)
20 Storage device
21 Site information storage
22 Reference information storage unit
23 Data information storage
30 Content Ball (Provided Data)
100 networks
Claims (36)
前記データ処理装置が最初にアクセスするためのサイトを示す情報が含まれた特定サイト情報と、当該サイト内の各コンテンツについての情報と、を少なくとも記憶するための記憶装置と、を有し、
前記データ処理装置の前記データ処理手段は、予め前記記憶装置に記憶された前記特定サイト情報に基づくページ、及び、該ページにリンクされたリンクページにアクセスするためのページアクセス手段と、アクセスしたページのヘッダ情報を取得するヘッダ情報取得手段と、アクセスしたページのコンテンツを取得するためのコンテンツ取得手段と、アクセスしたページにリンクされたリンクページの場所を示すリンク情報を取得するリンク情報取得手段と、取得した各情報に基づく所定の情報を前記記憶装置に登録する情報登録手段とを有し、
前記データ処理装置の前記管理手段は、前記記憶装置に記憶された情報及び前記リンク情報取得手段で取得したリンク情報に基づいて、前記データ処理手段をn(nは1以上)個起動させる起動管理手段と、前記リンク情報取得手段で取得したリンク情報に基づいて、当該サイトに対するデータ収集を終了させる終了管理手段と、
を備えたことを特徴とする情報収集システム。A plurality of data processing means for accessing one page in one site, collecting and processing various data on a plurality of contents constituting the site, and a management means for managing the data processing means And a data processing device comprising:
A storage device for storing at least the specific site information including information indicating a site for the data processing device to access first, and information on each content in the site,
The data processing unit of the data processing device includes a page based on the specific site information stored in advance in the storage device, and a page access unit for accessing a link page linked to the page, and the accessed page Header information obtaining means for obtaining the header information of the content, content obtaining means for obtaining the content of the accessed page, and link information obtaining means for obtaining the link information indicating the location of the link page linked to the accessed page Having information registration means for registering predetermined information based on each acquired information in the storage device,
The management unit of the data processing device is configured to start up n (n is 1 or more) data processing units based on information stored in the storage device and link information acquired by the link information acquisition unit. Means, based on the link information obtained by the link information obtaining means, end management means for ending data collection for the site,
An information collection system comprising:
前記データ処理装置の前記起動管理手段は、前記収集開始情報に基づいて、前記データ処理手段を起動させること
を特徴とする請求項1記載の情報収集システム。In the storage device, collection start information indicating a collection start date and time is stored as the specific site information,
2. The information collection system according to claim 1, wherein the activation management unit of the data processing device activates the data processing unit based on the collection start information.
前記データ処理装置の前記起動管理手段は、前記併存数上限情報の最大同時併存数の範囲内で、前記データ処理手段を起動させること
を特徴とする請求項1又は2記載の情報収集システム。In the storage device, as the specific site information, coexistence number upper limit information indicating the maximum simultaneous coexistence number of the data processing unit that processes each page in the one site is stored,
The information collection system according to claim 1, wherein the activation management unit of the data processing device activates the data processing unit within a range of the maximum number of simultaneous coexistences of the coexistence number upper limit information.
前記管理手段は、該通知に基づいて、前記起動管理手段による前記データ処理手段の起動或いは前記終了管理手段によるデータ収集の終了の処理を行うこと
を特徴とする請求項1乃至3のいずれか1項に記載の情報収集システム。The data processing means, when the registration in the storage device by the information registration means is completed, notifies the management means that the processing has been completed,
4. The method according to claim 1, wherein the management unit performs, based on the notification, activation of the data processing unit by the activation management unit or termination of data collection by the termination management unit. 5. Information collection system described in section.
前記コンテンツ取得手段は、前記判定手段で変更無しと判定された場合には、アクセスしたページのコンテンツを取得しないこと
を特徴とする請求項1乃至4のいずれか1項に記載の情報収集システム。The data processing device has a determination unit that determines whether there is a change in the content based on the header information acquired by the header information acquisition unit,
The information collection system according to any one of claims 1 to 4, wherein the content acquisition unit does not acquire the content of the accessed page when the determination unit determines that there is no change.
前記判定手段は、今回取得したヘッダ情報と前記記憶装置に記憶された前回取得分のヘッダ情報とを比較して、一致しない場合にはコンテンツの変更有りと判定すること
を特徴とする請求項5記載の情報収集システム。The storage device includes a storage area for storing header information acquired by the header information acquisition unit,
6. The method according to claim 5, wherein the determination unit compares the currently acquired header information with the previously acquired header information stored in the storage device, and determines that there is a content change if they do not match. Information collection system described.
前記コンテンツ取得手段は、前記サイト判定手段で当該サイト内のページではないと判定された場合には、アクセスしたページのコンテンツを取得しないこと
を特徴とする請求項1乃至6のいずれか1項に記載の情報収集システム。The data processing device has a site determination unit that determines whether the page is a page in the site based on the header information acquired by the header information acquisition unit,
7. The content acquisition device according to claim 1, wherein the content acquisition unit does not acquire the content of the accessed page when the site determination unit determines that the page is not a page in the site. Information collection system described.
前記リンク情報取得手段は、当該ページのコンテンツの種類を示すコンテンツ種類情報が含まれたリンク情報を取得し、
前記起動管理手段は、前記データ処理手段の起動にあたり、当該リンク情報を含めたデータ処理要求を出力し、
起動したデータ処理手段におけるページアクセス手段のアクセスしたページに関して、コンテンツ取得手段は、当該データ処理要求に含まれたコンテンツ種類情報に対応する解析プログラムを用いてコンテンツを解析すること
を特徴とする請求項1乃至7のいずれか1項に記載の情報収集システム。The content acquisition unit includes a plurality of types of analysis programs for analyzing the content of the page,
The link information obtaining means obtains link information including content type information indicating a type of content of the page,
Upon activation of the data processing unit, the activation management unit outputs a data processing request including the link information,
The content acquisition unit analyzes the content of the page accessed by the page access unit in the activated data processing unit, using an analysis program corresponding to the content type information included in the data processing request. The information collection system according to any one of claims 1 to 7.
前記リンク情報取得手段は、前記コンテンツ取得手段で取得したコンテンツから、当該リンクページへのアクセス方法についての情報が含まれたリンク情報を取得し、
前記起動管理手段は、前記データ処理手段の起動にあたり、当該リンク情報を含めたデータ処理要求を出力し、
起動したデータ処理手段のページアクセス手段は、当該データ処理要求に含まれたアクセス方法に対応するプログラムを用いて当該リンクページにアクセスすること
を特徴とする請求項1乃至8のいずれか1項に記載の情報収集システム。The page access unit includes a plurality of types of programs regarding a communication protocol for accessing the page,
The link information obtaining unit obtains link information including information on a method of accessing the link page from the content obtained by the content obtaining unit,
Upon activation of the data processing unit, the activation management unit outputs a data processing request including the link information,
9. The apparatus according to claim 1, wherein the page access unit of the activated data processing unit accesses the link page using a program corresponding to the access method included in the data processing request. Information collection system described.
前記データ処理装置は、前記データ処理手段で収集、処理する各情報に関し、前記他のシステムに提供するための提供データを生成する提供データ生成手段と、生成した提供データを前記連携システム名に基づく他のシステムに送信する提供データ送信手段と、を備えたこと
を特徴とする請求項1乃至9のいずれか1項に記載の情報収集システム。In the storage device, as the specific site information, a cooperative system name of another system that wants information about the one site is stored,
The data processing apparatus is configured to provide, for each piece of information collected and processed by the data processing unit, provided data for providing to the other system, and a generated data based on the cooperative system name. The information collection system according to any one of claims 1 to 9, further comprising: provided data transmission means for transmitting the data to another system.
を特徴とする請求項10記載の情報収集システム。The provided data generation unit is configured to start the data collection for the site, to terminate the processing of one page in the site by the data processing unit, and to terminate the data collection for the site. 11. The information collection system according to claim 10, wherein the provided data is generated in the same data format.
を特徴とする請求項10又は11記載の情報収集システム。12. The information collection system according to claim 10, wherein the provided data transmitting unit transmits the content acquired by the content acquiring unit to another system based on the cooperative system name.
前記データ処理装置が最初にアクセスするためのサイトを示す情報が含まれた特定サイト情報と、当該サイト内の各コンテンツについての情報と、を少なくとも記憶するための記憶装置と、を用いた情報収集方法であって、
前記データ処理装置の前記データ処理手段は、予め前記記憶装置に記憶された前記特定サイト情報に基づくページ、及び、該ページにリンクされたリンクページにアクセスするページアクセス処理と、アクセスしたページのヘッダ情報を取得するヘッダ情報取得処理と、アクセスしたページのコンテンツを取得するためのコンテンツ取得処理と、アクセスしたページにリンクされたリンクページの場所を示すリンク情報を取得するリンク情報取得処理と、取得した各情報に基づく所定の情報を前記記憶装置に登録する情報登録処理と、を実行し、
前記データ処理装置の前記管理手段は、前記記憶装置に記憶された情報及び前記リンク情報取得処理で取得したリンク情報に基づいて、前記データ処理手段をn(nは1以上)個起動させる起動処理と、前記リンク情報取得処理で取得したリンク情報に基づいて、当該サイトに対するデータ収集を終了させる終了処理と、
を実行することを特徴とする情報収集方法。A plurality of data processing means for accessing one page in one site, collecting and processing various data on a plurality of contents constituting the site, and a management means for managing the data processing means And a data processing device comprising:
Information collection using a storage device for storing at least specific site information including information indicating a site to be accessed first by the data processing device and information on each content in the site. The method,
The data processing unit of the data processing device includes: a page based on the specific site information stored in advance in the storage device; a page access process for accessing a link page linked to the page; a header of the accessed page Header information acquisition processing for acquiring information, content acquisition processing for acquiring the content of the accessed page, link information acquisition processing for acquiring link information indicating the location of a linked page linked to the accessed page, and acquisition Information registration processing for registering predetermined information based on each piece of information in the storage device,
The management unit of the data processing device is configured to start n (n is 1 or more) data processing units based on the information stored in the storage device and the link information acquired in the link information acquisition process. And a termination process for terminating data collection for the site based on the link information acquired in the link information acquisition process;
An information collection method characterized by performing the following.
前記起動処理では、前記収集開始情報に基づいて前記データ処理手段を起動させること
を特徴とする請求項13記載の情報収集方法。In the storage device, collection start information indicating a collection start date and time is stored as the specific site information,
14. The information collection method according to claim 13, wherein, in the activation process, the data processing unit is activated based on the collection start information.
前記起動処理では、前記併存数上限情報の最大同時併存数の範囲内で、前記データ処理手段を起動させること
を特徴とする請求項13又は14記載の情報収集方法。In the storage device, as the specific site information, coexistence number upper limit information indicating the maximum simultaneous coexistence number of the data processing unit that processes each page in the one site is stored,
15. The information collection method according to claim 13, wherein, in the activation process, the data processing unit is activated within a range of a maximum number of simultaneous coexistences of the coexistence number upper limit information.
前記管理手段は、該通知に基づいて、前記起動処理或いは前記終了処理を実行すること
を特徴とする請求項13乃至15のいずれか1項に記載の情報収集方法。The data processing unit, when the information registration process is completed, executes a notification process of notifying the management unit that the process has been completed,
16. The information collection method according to claim 13, wherein the management unit executes the activation processing or the termination processing based on the notification.
取得すべきでないと判定された場合には、前記コンテンツ取得処理を実行しないこと
を特徴とする請求項13乃至16のいずれか1項に記載の情報収集方法。Prior to the content acquisition process, the data processing device performs a determination process to determine whether to acquire the content,
17. The information collection method according to claim 13, wherein when it is determined that the content should not be acquired, the content acquisition process is not performed.
前記判定処理では、今回取得したヘッダ情報と前記記憶装置に記憶された前回取得分のヘッダ情報とを比較して、一致する場合には、コンテンツを取得すべきでないと判定すること
を特徴とする請求項17記載の情報収集方法。The storage device includes a storage area for storing header information acquired in the header information acquisition process,
In the determination processing, the header information acquired this time is compared with the header information acquired last time stored in the storage device, and if they match, it is determined that the content should not be acquired. The information collection method according to claim 17.
当該サイト内のページではないと判定された場合には、前記コンテンツ取得処理を実行しないこと
を特徴とする請求項13乃至18のいずれか1項に記載の情報収集方法。The data processing device performs a site determination process to determine whether the page is a page in the site, based on the header information acquired in the header information acquisition process,
19. The information collection method according to claim 13, wherein the content acquisition processing is not performed when it is determined that the page is not a page in the site.
前記リンク情報取得処理では、当該ページのコンテンツの種類を示すコンテンツ種類情報が含まれたリンク情報を取得し、
前記起動処理では、前記データ処理手段の起動にあたり、当該リンク情報を含めたデータ処理要求を出力し、
起動したデータ処理手段につき、前記ページアクセス処理によりアクセスしたページにおける前記コンテンツ取得処理では、当該データ処理要求に含まれたコンテンツ種類情報に対応する解析プログラムを用いてコンテンツを解析すること
を特徴とする請求項13乃至19のいずれか1項に記載の情報収集方法。The data processing means of the data processing device includes a plurality of types of analysis programs for analyzing the content of the page,
In the link information obtaining process, link information including content type information indicating the type of content of the page is obtained,
In the activation processing, upon activation of the data processing unit, a data processing request including the link information is output,
As for the activated data processing means, in the content acquisition processing on the page accessed by the page access processing, the content is analyzed using an analysis program corresponding to the content type information included in the data processing request. The information collection method according to any one of claims 13 to 19.
前記リンク情報取得処理では、前記コンテンツ取得処理で取得したコンテンツから、当該リンクページへのアクセス方法についての情報が含まれたリンク情報を取得し、
前記起動処理では、前記データ処理手段の起動にあたり、当該リンク情報を含めたデータ処理要求を出力し、
起動したデータ処理手段は、当該データ処理要求に含まれたアクセス方法に対応するプログラムを用いて前記ページアクセス処理を実行すること
を特徴とする請求項13乃至20のいずれか1項に記載の情報収集方法。The data processing unit of the data processing device includes a plurality of types of programs regarding a communication protocol for accessing a site,
In the link information obtaining process, from the content obtained in the content obtaining process, obtain link information including information on an access method to the link page,
In the activation processing, upon activation of the data processing unit, a data processing request including the link information is output,
21. The information according to claim 13, wherein the activated data processing means executes the page access processing using a program corresponding to an access method included in the data processing request. Collection method.
前記データ処理装置は、前記データ処理手段で取得した各情報に基づいて、前記他のシステムに提供するための提供データを生成する提供データ生成処理と、生成した提供データを前記連携システム名に基づく他のシステムに送信する提供データ送信処理と、を実行すること
を特徴とする請求項13乃至21のいずれか1項に記載の情報収集方法。In the storage device, as the specific site information, a cooperative system name of another system that wants information about the one site is stored,
The data processing device is configured to generate provided data for providing to the other system based on each information obtained by the data processing unit, and to provide the generated provided data based on the cooperation system name. 22. The information collection method according to claim 13, further comprising performing a provided data transmission process for transmitting the data to another system.
を特徴とする請求項22記載の情報収集方法。In the provided data generation processing, at the start of data collection for a site, at the end of processing by a data processing unit for one page in the site, and at the end of data collection for the site, 23. The information collection method according to claim 22, wherein the provided data is generated in the same data format.
を特徴とする請求項22又は23記載の情報収集方法。24. The information collection method according to claim 22, wherein, in the provided data transmission processing, the content acquired in the content acquisition processing is transmitted to another system based on the cooperation system name.
前記データ処理装置が最初にアクセスするためのサイトを示す情報が含まれた特定サイト情報と、当該サイト内の各コンテンツについての情報と、を少なくとも記憶するための記憶装置と、して機能させるための情報収集プログラムであって、
前記データ処理装置の前記データ処理手段を、特定サイト情報に基づくページ、及び、該ページにリンクされたリンクページにアクセスするためのページアクセス手段、アクセスしたページのヘッダ情報を取得するヘッダ情報取得手段、アクセスしたページのコンテンツを取得するためのコンテンツ取得手段、アクセスしたページにリンクされたリンクページの場所を示すリンク情報を取得するリンク情報取得手段、取得した各情報に基づく所定の情報を前記記憶装置に登録する情報登録手段、として機能させるとともに、
前記データ処理装置の前記管理手段を、前記記憶装置に記憶された情報及び前記リンク情報取得手段で取得したリンク情報に基づいて、前記データ処理手段をn(nは1以上)個起動させる起動管理手段、前記リンク情報取得手段で取得したリンク情報に基づいて、当該サイトに対するデータ収集を終了させる終了管理手段、として機能させる
ための情報収集プログラム。A plurality of data processing means for accessing a single page in one site to collect and process various data on a plurality of contents constituting the site, and managing the data processing means; A data processing device comprising:
A storage device for storing at least specific site information including information indicating a site to be accessed first by the data processing device and information on each content in the site; Information collection program,
The data processing unit of the data processing device, a page based on specific site information, a page access unit for accessing a link page linked to the page, a header information acquisition unit for acquiring header information of the accessed page Content acquisition means for acquiring the content of the accessed page, link information acquisition means for acquiring link information indicating the location of the linked page linked to the accessed page, and storing the predetermined information based on the acquired information. Function as information registration means for registering in the device,
Activation management for activating the management unit of the data processing device based on information stored in the storage device and link information acquired by the link information acquisition unit, n (n is 1 or more) of the data processing units Means, an information collection program for functioning as end management means for ending data collection for the site based on the link information acquired by the link information acquisition means.
前記起動管理手段を、前記収集開始情報に基づいて前記データ処理手段を起動させる手段として機能させる
ための請求項25記載の情報収集プログラム。In the storage device, collection start information indicating a collection start date and time is stored as the specific site information,
26. The information collection program according to claim 25, wherein the start management unit functions as a unit that starts the data processing unit based on the collection start information.
前記起動管理手段を、前記併存数上限情報の最大同時併存数の範囲内で前記データ処理手段を起動させる手段として機能させる
ための請求項25又は26記載の情報収集プログラム。In the storage device, as the specific site information, coexistence number upper limit information indicating the maximum simultaneous coexistence number of the data processing unit that processes each page in the one site is stored,
27. The information collection program according to claim 25, wherein the start management unit functions as a unit that starts the data processing unit within a range of the maximum number of simultaneous coexistences of the coexistence number upper limit information.
前記管理手段を、該通知に基づいて、前記起動管理手段による前記データ処理手段の起動或いは前記終了管理手段によるデータ収集の終了の処理を行う手段として機能させる
ための請求項25乃至27のいずれか1項に記載の情報収集プログラム。The data processing means, when the registration in the storage device by the information registration means is completed, function as a means for notifying the management means that processing has been completed,
28. The control device according to claim 25, wherein the management unit is configured to function as a unit that performs a process of activating the data processing unit by the activation management unit or ending the data collection by the termination management unit based on the notification. An information collection program according to item 1.
前記コンテンツ取得手段を、前記判定手段で変更無しと判定された場合には、アクセスしたページのコンテンツを取得しない手段として機能させる
ための請求項25乃至28のいずれか1項に記載の情報収集プログラム。The data processing device functions as a determination unit that determines whether there is a change in content based on the header information acquired by the header information acquisition unit,
The information collection program according to any one of claims 25 to 28, wherein when the determination unit determines that there is no change, the content acquisition unit functions as a unit that does not acquire the content of the accessed page. .
前記判定手段を、今回取得したヘッダ情報と前記記憶装置に記憶された前回取得分のヘッダ情報とを比較して、一致しない場合にはコンテンツの変更有りと判定する手段として機能させる
ための請求項29記載の情報収集プログラム。The storage device, function to include a storage area for storing the header information acquired by the header information acquisition means,
The function of the determining means as a means for comparing the header information obtained this time with the header information obtained last time stored in the storage device, and determining that there is a change in the content if the header information does not match. 29. An information collecting program according to 29.
前記コンテンツ取得手段を、前記サイト判定手段で当該サイト内のページではないと判定した場合には、アクセスしたページのコンテンツを取得しない手段として機能させる
ための請求項25乃至30のいずれか1項に記載の情報収集プログラム。The data processing device, based on the header information acquired by the header information acquisition means, to function as a site determination means to determine whether the page is a page in the site,
31. The method according to claim 25, wherein the content acquisition unit functions as a unit that does not acquire the content of the accessed page when the site determination unit determines that the page is not a page in the site. Information collection program described.
前記リンク情報取得手段を、当該ページのコンテンツの種類を示すコンテンツ種類情報が含まれたリンク情報を取得する手段として機能させ、
前記起動管理手段を、前記データ処理手段の起動にあたり、当該リンク情報を含めたデータ処理要求を出力する手段として機能させ、
起動したデータ処理手段におけるページアクセス手段のアクセスしたページに関して、コンテンツ取得手段を、当該データ処理要求に含まれたコンテンツ種類情報に対応する解析プログラムを用いてコンテンツを解析する手段として機能させる
ための請求項25乃至31のいずれか1項に記載の情報収集プログラム。The content acquisition means, as a means having a plurality of types of analysis programs for analyzing the content of the page,
Causing the link information obtaining means to function as means for obtaining link information including content type information indicating the type of content of the page;
Upon activation of the data processing unit, the activation management unit functions as a unit that outputs a data processing request including the link information,
A request for causing the content acquisition means to function as means for analyzing the content using the analysis program corresponding to the content type information included in the data processing request, with respect to the page accessed by the page access means in the activated data processing means. Item 32. The information collection program according to any one of Items 25 to 31.
前記リンク情報取得手段を、前記コンテンツ取得手段で取得したコンテンツから、当該リンクページへのアクセス方法についての情報が含まれたリンク情報を取得する手段として機能させ、
前記起動管理手段を、前記データ処理手段の起動にあたり、当該リンク情報を含めたデータ処理要求を出力する手段として機能させ、
起動したデータ処理手段のページアクセス手段を、当該データ処理要求に含まれたアクセス方法に対応するアクセスプログラムを用いて当該リンクページにアクセスする手段として機能させる
ための請求項25乃至32のいずれか1項に記載の情報収集プログラム。Causing the page access unit to function as a unit having a plurality of types of programs regarding a communication protocol for accessing the page,
The link information acquisition unit, from the content acquired by the content acquisition unit, to function as a unit that acquires link information including information about an access method to the link page,
Upon activation of the data processing unit, the activation management unit functions as a unit that outputs a data processing request including the link information,
33. A function according to claim 25, wherein the activated page access means of the data processing means functions as means for accessing the link page using an access program corresponding to the access method included in the data processing request. Information collection program described in section.
前記データ処理装置を、前記データ処理手段で収集、処理する各情報に関し、前記他のシステムに提供するための提供データを生成する提供データ生成手段と、生成した提供データを前記連携システム名に基づく他のシステムに送信する提供データ送信手段、として機能させる
ための請求項25乃至33のいずれか1項に記載の情報収集プログラム。The storage device, as the specific site information, to function as a means for storing a cooperation system name of another system that wants information about the one site,
For each piece of information collected and processed by the data processing device, the data processing device generates provided data for providing to the other system, and provides the generated provided data based on the cooperative system name. The information collection program according to any one of claims 25 to 33, which functions as a provision data transmission unit that transmits the information to another system.
ための請求項34記載の情報収集プログラム。The provided data generating means may be used at the start of data collection for the site, at the end of processing by the data processing means for one page in the site, and at the end of data collection for the site. 35. The information collection program according to claim 34, wherein the information collection program is configured to function as means for generating provided data in the same data format.
ための請求項34又は35記載の情報収集プログラム。36. The information collection program according to claim 34, wherein the provision data transmission unit functions as a unit that transmits the content acquired by the content acquisition unit to another system based on the cooperative system name.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003115226A JP2004318746A (en) | 2003-04-21 | 2003-04-21 | Information collection system, information collection method and information collection program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003115226A JP2004318746A (en) | 2003-04-21 | 2003-04-21 | Information collection system, information collection method and information collection program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004318746A true JP2004318746A (en) | 2004-11-11 |
Family
ID=33474483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003115226A Pending JP2004318746A (en) | 2003-04-21 | 2003-04-21 | Information collection system, information collection method and information collection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004318746A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008257695A (en) * | 2007-03-15 | 2008-10-23 | Yahoo Japan Corp | Information collection method and information collection apparatus |
JP2009075904A (en) * | 2007-09-21 | 2009-04-09 | Fujifilm Corp | Search enablement program |
JP2009544379A (en) * | 2006-07-24 | 2009-12-17 | アグファ・ヘルスケア・ナームローゼ・フェンノートシャップ | Method for data coupling between a medical device and a computer system |
WO2013065858A1 (en) * | 2011-11-04 | 2013-05-10 | Ricoh Company, Ltd. | Image display apparatus, image display system, and image display method |
JP7228937B1 (en) | 2022-02-17 | 2023-02-27 | 株式会社Jx通信社 | Information processing device, program and information processing method |
-
2003
- 2003-04-21 JP JP2003115226A patent/JP2004318746A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009544379A (en) * | 2006-07-24 | 2009-12-17 | アグファ・ヘルスケア・ナームローゼ・フェンノートシャップ | Method for data coupling between a medical device and a computer system |
JP2008257695A (en) * | 2007-03-15 | 2008-10-23 | Yahoo Japan Corp | Information collection method and information collection apparatus |
JP2009075904A (en) * | 2007-09-21 | 2009-04-09 | Fujifilm Corp | Search enablement program |
WO2013065858A1 (en) * | 2011-11-04 | 2013-05-10 | Ricoh Company, Ltd. | Image display apparatus, image display system, and image display method |
JP2013117949A (en) * | 2011-11-04 | 2013-06-13 | Ricoh Co Ltd | Image display device, image display system and image display method |
US9361315B2 (en) | 2011-11-04 | 2016-06-07 | Ricoh Company, Ltd. | Image display apparatus, image display system, and image display method |
JP7228937B1 (en) | 2022-02-17 | 2023-02-27 | 株式会社Jx通信社 | Information processing device, program and information processing method |
JP2023119614A (en) * | 2022-02-17 | 2023-08-29 | 株式会社Jx通信社 | Information processing device, program and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230144450A1 (en) | Multi-partitioning data for combination operations | |
US20200014690A1 (en) | Network personal digital video recorder system | |
US6681227B1 (en) | Database system and a method of data retrieval from the system | |
US9378212B2 (en) | Methods and systems for providing file data and metadata | |
JP3622313B2 (en) | Document management system | |
JP5624479B2 (en) | Sync server process | |
Roth | Patterns of mobile interaction | |
US20070174246A1 (en) | Multiple client search method and system | |
US12182110B1 (en) | Bi-directional query updates in a user interface | |
US20030018624A1 (en) | Scalable eContent management system and method of using the same | |
JPH09153050A (en) | Document information collecting method and document information collecting device | |
JP2003528395A (en) | Method and apparatus for automatically locating data in a computer network | |
CN116016702B (en) | Application observable data acquisition processing method, device and medium | |
US7496578B2 (en) | Shared internet storage resource, user interface system, and method | |
JP2004318746A (en) | Information collection system, information collection method and information collection program | |
Chmielewski et al. | A distributed platform for archiving and retrieving RSS feeds | |
US12169499B1 (en) | Interactive filter tokens in a GUI interface | |
US20250004822A1 (en) | Make automatically workable or generating code for Service Worker, replication and rules based web app and suggesting, installing, invoking & managing Progressive Web Apps (PWAs) | |
Phatak et al. | Web&: An architecture for non-interactive web | |
Xu | Metadata conversion and the library OPAC | |
US7433875B2 (en) | Web store events | |
Dikaiakos et al. | A distributed middleware infrastructure for personalized services | |
CN101017501B (en) | Method and system for selective tracking of semantic web data using distributed update events | |
JP2002342371A (en) | System and method for www retrieval | |
JPH117445A (en) | Integrated document management device |