JP2004206634A - Monitoring method, operation monitoring device, monitoring system, and computer program - Google Patents
Monitoring method, operation monitoring device, monitoring system, and computer program Download PDFInfo
- Publication number
- JP2004206634A JP2004206634A JP2002378113A JP2002378113A JP2004206634A JP 2004206634 A JP2004206634 A JP 2004206634A JP 2002378113 A JP2002378113 A JP 2002378113A JP 2002378113 A JP2002378113 A JP 2002378113A JP 2004206634 A JP2004206634 A JP 2004206634A
- Authority
- JP
- Japan
- Prior art keywords
- response
- time interval
- monitoring
- received
- response request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、監視の対象となる監視対象装置の稼動状態を監視する稼動監視装置を用いた監視方法、その方法を適用した稼動監視装置、その稼動監視装置を用いた監視システム、及びその稼動監視装置を実現するためのコンピュータプログラムに関し、特に監視対象装置を効率的に監視する監視方法、稼動監視装置、監視システム及びコンピュータプログラムに関する。
【0002】
【従来の技術】
サーバコンピュータの稼動状態を監視する方法として、一定の時間間隔でサーバコンピュータに応答を要求し、要求に対する応答に基づいて、その結果を表示させるという監視システムが開示されている(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開2001−125853号公報
【0004】
【発明が解決しようとする課題】
稼動状態を監視するための応答要求は、通信回線及びサーバコンピュータの負荷を考慮すると余り頻繁に行うことは好ましくないが、障害発生の疑いがある場合、障害の有無を見極める必要があるため高頻度の応答要求が望まれる。
【0005】
しかしながら従来の監視システムでは、サーバコンピュータに対して一定の時間間隔で応答要求が送信されるため、時間間隔を短く設定すれば安定稼働時における通信回線及び各種装置の負荷増大の問題が生じ、また時間間隔を長く設定すれば障害発生の疑いがある場合において障害の有無を見極め難いという問題が生じる。
【0006】
またサーバコンピュータ自体は安定稼動している確率が高いため正常時にはその状態を通知せず、障害発生の疑いが有る場合に限り通知を行うため、障害が発生した後、正常な状態に復帰した場合に、障害発生の通知を行わなくなるだけなので正常か否かを見極めることが困難であるという問題がある。
【0007】
本発明は斯かる事情に鑑みてなされたものであり、応答要求に対する応答状況に基づいて障害発生の疑いがあると判定した場合に、サーバコンピュータに対して応答要求を送信する時間間隔を短くするように変更することにより、安定稼働時における通信回線及び各種装置の負荷が増大することを防止しながらも、障害発生の疑いがある場合には障害発生の有無を見極め易くすることが可能な監視方法、その方法を適用した稼動監視装置、その稼動監視装置を用いた監視システム、及びその稼動監視装置を実現するためのコンピュータプログラムの提供を主たる目的とする。
【0008】
また本発明では、障害発生の疑いが有ると判定した後、所定回数以上連続して正常な応答を受信した場合に、稼動状態が正常であることを通知することにより、正常状態への復帰を容易に見極めることが可能な稼動監視装置等の提供を他の目的とする。
【0009】
【課題を解決するための手段】
第1発明に係る監視方法は、監視対象装置へ、該監視対象装置の稼動状態を示す応答を要求する応答要求を送信し、送信した応答要求に対する応答の受信に基づいて稼動状態を監視する稼動監視装置を用いた監視方法において、前記稼動監視装置は、予め設定されている第1時間間隔で応答要求を送信し、正常な稼動を示す応答を受信したか否かを判定し、正常な稼動を示す応答を受信することができなかったと判定した場合に、応答要求を送信する時間間隔を第1時間間隔より短い第2時間間隔に変更することを特徴とする。
【0010】
第1発明に係る監視方法では、ウェブサーバコンピュータ等の監視対象装置に対して第1時間間隔で応答要求を送信し、正常な応答を受信することができず、障害が発生している可能性があると判定した場合に、第1時間間隔より短い第2時間間隔で応答要求を送信することにより、第1時間間隔を長く設定することで正常時における通信回線の通信負荷及び監視対象装置の処理負荷を軽減しながらも、第2時間間隔を短く設定することで障害発生の疑いがある場合には障害発生の有無を見極め易くすることが可能である。
【0011】
第2発明に係る稼動監視装置は、監視対象装置へ、該監視対象装置の稼動状態を示す応答を要求する応答要求を送信し、送信した応答要求に対する応答の受信に基づいて稼動状態を監視し、監視している稼動状態を通知する稼動監視装置において、予め設定されている第1時間間隔で応答要求を送信する手段と、正常な稼動を示す応答を受信したか否かを判定する手段と、正常な稼動を示す応答を受信することができなかったと判定した場合に、前記監視対象装置の稼動状態が異常であることを通知する通知情報を所定の送信先へ送信する手段と、応答要求の送信間隔を第1時間間隔より短い第2時間間隔に変更する手段とを備えることを特徴とする。
【0012】
第2発明に係る稼動監視装置では、ウェブサーバコンピュータ等の監視対象装置に対して第1時間間隔で応答要求を送信し、正常な応答を受信することができず、障害が発生している可能性があると判定した場合に、第1時間間隔より短い第2時間間隔で応答要求を送信することにより、第1時間間隔を長く設定することで正常時における通信回線の通信負荷及び監視対象装置の処理負荷を軽減しながらも、第2時間間隔を短く設定することで障害発生の疑いがある場合には障害発生の有無を見極め易くすることが可能である。
【0013】
第3発明に係る稼動監視装置は、第2発明において、前記第2時間間隔で送信した応答要求に対し連続して正常な稼動を示す応答を受信した回数を計数する手段と、計数した回数が所定回数以上連続しているか否かを判定する手段と、前記所定回数以上連続して正常な応答を受信したと判定したときに、応答要求の送信間隔を第1時間間隔に変更する手段と、稼動状態が正常であることを通知する通知情報を所定の送信先へ送信する手段とを備えることを特徴とする。
【0014】
第3発明に係る稼動監視装置では、障害が発生している可能性が有ると判定して第2時間間隔で応答要求を送信している場合で、所定回数以上連続して正常な応答を受信したときに、監視対象装置は正常に復帰したと判定して応答要求の送信間隔を第1時間間隔に変更すると共に、稼動状態が正常であることを通知することにより、実際に監視対象装置に障害が発生しているのか、それとも一時的にパフォーマンスが低下しているに過ぎないのかを容易に見極めることが可能である。
【0015】
第4発明に係る稼動監視装置は、第2発明又は第3発明において、前記監視対象装置から正常な稼動を示す応答を受信することができなかったと判定した場合に、前記監視対象装置に関連付けられている他の装置へ応答要求を送信する手段を更に備えることを特徴とする。
【0016】
第4発明に係る稼動監視装置では、監視対象装置から正常な応答を受信することができなかったと判定した場合に、例えば当該監視対象装置と同一環境にある他の装置へも応答要求を送信して他の装置の稼動状況をも監視することにより、発生している可能性の有る障害が単独の監視対象装置のみの現象であるのか、通信環境全体のものであるかを見極めることができるので適切な障害復旧作業を行うことが可能である。
【0017】
第5発明に係る監視システムは、請求項2乃至請求項4のいずれかに記載の稼動監視装置と、該稼動監視装置による監視の対象となる監視対象装置と、前記稼動監視装置から送信される通知情報を受信する管理装置とを備えることを特徴とする。
【0018】
第5発明に係る監視システムでは、稼動監視装置からウェブサーバコンピュータ等の監視対象装置に対して第1時間間隔で応答要求を送信し、正常な応答を受信することができず、障害が発生している可能性があると判定した場合に、第1時間間隔より短い第2時間間隔で応答要求を送信することにより、第1時間間隔を長く設定することで正常時における通信回線の通信負荷及び監視対象装置の処理負荷を軽減しながらも、第2時間間隔を短く設定することで障害発生の疑いがある場合には障害発生の有無を見極め易くすることが可能である。
【0019】
第6発明に係るコンピュータプログラムは、コンピュータに、監視対象装置へ、該監視対象装置の稼動状態を示す応答を要求する応答要求を送信させ、送信させた応答要求に対する応答の受信に基づいて稼動状態を監視させるコンピュータプログラムにおいて、コンピュータに、予め設定されている第1時間間隔で応答要求を送信させる手順と、コンピュータに、正常な稼動を示す応答を受信したか否かを判定させる手順と、コンピュータに、正常な稼動を示す応答を受信することができなかったと判定した場合に、応答要求の送信間隔を第1時間間隔より短い第2時間間隔に変更させる手順とを実行させることを特徴とする。
【0020】
第6発明に係るコンピュータプログラムでは、コンピュータにて実行することにより、コンピュータが監視対象装置を監視する稼動監視装置として動作し、監視対象装置に対して第1時間間隔で応答要求を送信し、正常な応答を受信することができず、障害が発生している可能性があると判定した場合に、第1時間間隔より短い第2時間間隔で応答要求を送信することにより、第1時間間隔を長く設定することで正常時における通信回線の通信負荷及び監視対象装置の処理負荷を軽減しながらも、第2時間間隔を短く設定することで障害発生の疑いがある場合には障害発生の有無を見極め易くすることが可能である。
【0021】
【発明の実施の形態】
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
図1は本発明の監視システムを概念的に示す説明図である。
図1中10はサーバコンピュータを用いた本発明の稼動監視装置であり、稼動監視装置10は通信網NWを介してウェブサーバコンピュータ等の監視対象装置20と通信網NWを介して通信を行い、監視対象装置20の稼動状況を監視している。
また稼動監視装置10は、クライアントコンピュータを用いた管理装置30と接続し、管理装置30を操作する操作者は、管理装置30により監視した結果を確認することができる。
さらに稼動監視装置10は、監視対象装置20と同一の通信環境にある他の監視対象装置40,40,…と通信を行う。(以降の説明では監視対象装置20と他の監視対象装置40とを明確に区別するため他の監視対象装置40を他装置40という)
ここで監視対象装置20と同一の通信環境にある他装置40,40,…とは、監視対象装置20に対して、例えば「www.osakagas.co.jp」等の同じドメインに属する装置、通信網NW上の位置を示すIPアドレスが「192.20.10.*** (* は任意)」等の同じIPアドレス体系に属する装置、同じルータ及びハブ等の接続装置にて接続されている(多段接続も含む)装置、そして同じサーバラックに設置されている装置というような関係に有る装置を言う。
【0022】
なお図1中では稼動監視装置10、監視対象装置20、管理装置30及び他装置40,40,…が同一の通信網NW上に位置する形態を示しているが、稼動監視装置10と管理装置30とがLAN等の同一の内部通信網上に位置し、監視対象装置20及び他装置40,40,…が他の内部通信網に位置し、稼動監視装置10と監視対象装置20がインターネット等の外部通信網で接続されているというように様々な形態に適用することが可能である。
また監視対象装置20及び他装置40,40,…は同一の通信環境、即ち同一の通信網上に配置されていることを前提としているが、監視対象装置20と同様のサービスを提供するミラーサーバを他装置40として用いる場合等では、異なる通信網に配置されてあっても良い。
【0023】
次に本発明の監視システムにて用いられる各装置の構成について説明する。
図2は本発明の監視システムにて用いられる各種装置の構成を示すブロック図である。
稼動監視装置10は、装置全体を制御するCPU11、本発明の稼動監視装置用のコンピュータプログラムPG及びデータ等の各種情報を記録したCD−ROM等の記録媒体RECから各種情報を読み取るCD−ROMドライブ等の補助記憶手段12、補助記憶手段12により読み取られたコンピュータプログラムPG及びデータ等の各種情報を記録するハードディスク等の記録手段13、各種処理に用いられる情報を一時的に記憶するRAM14、並びに通信網NWに接続する通信手段15を備えている。
そして記録手段13から本発明のコンピュータプログラムPG及びデータ等の各種情報を読み取り、RAM14に記憶させてコンピュータプログラムPGに含まれる各種手順を実行することで、サーバコンピュータは本発明の稼動監視装置10として動作し、稼動状態を示す応答を要求する応答要求を監視対象装置20へ送信する。
なお記録手段13には、監視の対象となる監視対象装置20の通信網NW上の位置を示すIPアドレス等の位置情報、管理装置30へ情報を送信するための電子メールアドレス等の送信先情報、監視対象装置20に関連付けられている他装置40,40,…の位置情報、及び本発明の監視方法を実行するための時間間隔等の各種設定が記録されている。
【0024】
監視対象装置20は、CPU21、記録手段22、RAM23及び通信手段24を備えている。
なお監視対象装置20の記録手段22には、監視対象装置20から送信される応答要求に対する応答として送信されるHTML(Hyper Text Markup Language)等の形式の所定のファイルが記録されており、応答要求を受信した場合に記録されているファイルを応答として稼動監視装置10へ送信する。
なお応答要求に対する応答としては様々な方法があり、CGI(Common Gateway Interface)等のインターフェースを利用して所定のプログラムを起動し、稼動状況を示したファイルを生成し、応答として送信するようにしても良い。
【0025】
管理装置30は、CPU31、記録手段32、RAM33、通信手段34、マウス及びキーボード等の入力手段35並びにモニタ及びプリンタ等の出力手段36を備えている。
【0026】
他装置40は、CPU41、記録手段42、RAM43及び通信手段44を備えている。
【0027】
次に本発明の監視システムにて用いられる各装置の処理を説明する。
図3は本発明の稼動監視装置10の監視処理を示すフローチャートである。
稼動監視装置10は、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、予め設定されている60分等の第1時間待機し(S101)、監視対象装置20の稼動状態を示す応答を要求する応答要求を監視対象装置20へ通信手段15から送信する(S102)。
応答要求を送信した後、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、送信した応答要求に対して、正常な稼動を示す応答を受信したか否かを判定し(S103)、正常な稼動を示す応答を受信した場合(S103:YES)、ステップS101に戻り、以降の処理を繰り返す。
ステップS101〜S103の処理により、監視対象装置20が正常に稼動している場合、稼動監視装置10は第1時間間隔で応答要求を送信することとなる。
【0028】
ステップS103において、正常な稼動を示す応答を受信することができなかった場合(S103:NO)、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、監視対象装置20の稼動状態が異常であることを通知する異常通知情報を、所定の送信先として設定されている送信先情報に基づく管理装置30へ電子メール等の方法にて通信手段15から送信する(S104)。
管理装置30では、CPU31の制御により、異常通知情報を受信し、受信した異常通知情報を出力手段36から出力する。
ステップS103において正常な稼動を示す応答を受信することができなかった場合とは、例えば異常を示す応答を受信した場合、受信した応答が異常であった場合、及び所定時間内に応答を受信することができなかった場合である。
【0029】
異常通知情報を送信した稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、稼動監視装置20に関連付けられている他装置40,40,…へ応答要求を送信させる他装置監視サブルーチンを起動する(S105)。
【0030】
そして稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、応答要求を送信する間隔を第1時間間隔より短い10分等の第2時間間隔に変更して(S106)、第2時間待機し(S107)、監視対象装置20の稼動状態を示す応答を要求する応答要求を監視対象装置20へ通信手段15から送信する(S108)。
応答要求を送信した後、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、送信した応答要求に対して、正常な稼動を示す応答を受信したか否かを判定し(S109)、正常な稼動を示す応答を受信することができなかった場合(S109:NO)、異常通知情報を管理装置30へ通信手段15から送信して(S110)、ステップS107に戻り、以降の処理を繰り返す。
管理装置30では、CPU31の制御により、異常通知情報を受信し、受信した異常通知情報を出力手段36から出力する。
【0031】
ステップS109において、正常な稼動を示す応答を受信した場合(S109:YES)、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、送信した応答要求に対し連続して正常な稼動を示す応答を受信した回数を計数し(S111)、計数した回数が所定回数、例えば10回以上連続しているか否かを判定する(S112)。
【0032】
ステップS112において、所定回数以上連続して正常な応答を受信したと判定したとき(S112:YES)、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、監視対象装置20の稼動状態が正常であることを通知する正常通知情報を、所定の送信先として設定されている送信先情報に基づく管理装置30へ電子メール等の方法にて通信手段15から送信し(S113)、応答要求を送信する間隔を第2時間間隔から第1時間間隔に変更して(S114)、ステップS101に進み以降の処理を繰り返す。
管理装置30では、CPU31の制御により、正常通知情報を受信し、受信した正常通知情報を出力手段36から出力する。
ステップS112において、正常な応答を連続して受信した回数が所定回数未満であると判定したとき(S112:NO)、ステップS107に戻り、以降の処理を繰り返す。
ステップS107〜S114の処理により、監視対象装置20に障害が発生している可能性があると判定した場合、稼動監視装置10は第2時間間隔で応答要求を送信することになる。
【0033】
次に他装置監視サブルーチンについて説明する。
図4は本発明の稼動監視装置10の他装置監視サブルーチンを示すフローチャートである。
図3を用いて説明した監視処理のステップS105にて起動した他装置監視サブルーチンの処理として、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、監視対象装置20に関連付けられている他装置40へ、他装置40の稼動状態を示す応答を要求する応答要求を通信手段15から送信する(S201)。
応答要求を送信した後、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、送信した応答要求に対して、正常な稼動を示す応答を受信したか否かを判定し(S202)、正常な稼動を示す応答を受信した場合(S202:YES)、他装置監視サブルーチンを終了させる。
【0034】
ステップS202において、正常な稼動を示す応答を受信することができなかった場合(S202:NO)、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、他装置40の稼動状態が異常であることを通知する異常通知情報を、所定の送信先として設定されている送信先情報に基づく管理装置30へ通信手段15から送信する(S203)。
管理装置30では、CPU31の制御により、異常通知情報を受信し、受信した異常通知情報を出力手段36から出力する。
【0035】
そして稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、第2時間待機し(S204)、応答要求を他装置40へ通信手段15から送信する(S205)。
応答要求を送信した後、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、送信した応答要求に対して、正常な稼動を示す応答を受信したか否かを判定し(S206)、正常な稼動を示す応答を受信することができなかった場合(S206:NO)、ステップS203に戻り、以降の処理を繰り返す。
【0036】
ステップS206において、正常な稼動を示す応答を受信した場合(S206:YES)、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、送信した応答要求に対し連続して正常な稼動を示す応答を受信した回数を計数し(S207)、計数した回数が所定回数、例えば10回以上連続しているか否かを判定する(S208)。
ステップS208において、所定回数以上連続して正常な応答を受信したと判定したとき(S208:YES)、稼動監視装置10では、RAM14に記憶させたコンピュータプログラムPGを実行するCPU11の制御により、他装置40の稼動状態が正常であることを通知する正常通知情報を、所定の送信先として設定されている送信先情報に基づく管理装置30へ電子メール等の方法にて通信手段15から送信し(S209)、他装置監視サブルーチンを終了させる。
管理装置30では、CPU31の制御により、正常通知情報を受信し、受信した正常通知情報を出力手段36から出力する。
【0037】
ステップS208において、正常な応答を連続して受信した回数が所定回数未満であると判定したとき(S208:NO)、ステップS204に戻り、以降の処理を繰り返す。
なお他装置40が複数である場合、他装置監視サブルーチンは夫々の装置毎に起動させる。
また他装置40を管理する担当者が監視対象装置20を管理する担当者と異なる場合、他装置監視サブルーチンにおける異常通知情報及び正常通知情報については、管理装置30以外の装置へ送信するようにしてもよい。
さらに稼動監視装置10では、監視対象装置20及び他装置40,40,…の稼動状況から障害発生の有無だけでなく、障害箇所の切り分け、例えば単独の装置に発生した障害であるか、又は通信環境全体の障害であるかを判定することができる。
【0038】
前記実施の形態では、監視対象装置20から正常な稼動を示す応答を受信しなかった場合に、全ての他装置40,40,…へ応答要求を送信する形態を示したが、本発明はこれに限らず、他装置40,40,…間の関連状況を予め設定しておき、監視対象装置20から正常な稼動を示す応答を受信しなかった場合に、先ず第1の他装置40へ応答要求を送信し、第1の他装置40から正常な稼動を示す応答を受信しなかったときに、第2の他装置40へ応答要求を送信するというように運用環境に応じた様々なルールを設定することが可能である。
【0039】
【発明の効果】
以上詳述した如く本発明に係る監視方法、稼動監視装置、監視システム及びコンピュータプログラムでは、稼動監視装置から監視対象装置に対して第1時間間隔で、稼動状態を示す応答を要求する応答要求を送信し、正常な応答を受信することができず、障害が発生している可能性があると判定した場合に、第1時間間隔より短い第2時間間隔で応答要求を送信することにより、第1時間間隔を長く設定することで正常時における通信回線の通信負荷及び監視対象装置の処理負荷を軽減しながらも、第2時間間隔を短く設定することで障害発生の疑いがある場合には障害発生の有無を見極め易くすることが可能であり、これにより監視対象装置を管理する担当者は、監視対象装置が正常に稼動している時には稼動状況を特に意識する必要が無く、障害が発生している可能性が有る時には煩雑に状況を確認することができるので効率的に監視対象装置を監視することが可能である等、優れた効果を奏する。
【0040】
また本発明では、障害が発生している可能性が有ると判定して第2時間間隔で応答要求を送信している場合で、所定回数以上連続して正常な応答を受信したときに、監視対象装置は正常に復帰したと判定して応答要求の送信間隔を第1時間間隔に変更すると共に、稼動状態が正常であることを通知することにより、実際に監視対象装置に障害が発生しているのか、それとも一時的にパフォーマンスが低下しているに過ぎないのかを容易に見極めることが可能である等、優れた効果を奏する。
【0041】
さらに本発明では、監視対象装置から正常な応答を受信することができなかったと判定した場合に、例えば当該監視対象装置と同一の通信環境にある他の装置へも応答要求を送信して他の装置の稼動状況をも監視することにより、発生している可能性の有る障害が単独の監視対象装置のみの現象であるのか、通信環境全体のものであるかを見極めることができるので適切な障害復旧作業を行うことが可能である等、優れた効果を奏する。
【図面の簡単な説明】
【図1】本発明の監視システムを概念的に示す説明図である。
【図2】本発明の監視システムにて用いられる各種装置の構成を示すブロック図である。
【図3】本発明の稼動監視装置の監視処理を示すフローチャートである。
【図4】本発明の稼動監視装置の他装置監視サブルーチンを示すフローチャートである。
【符号の説明】
10 稼動監視装置
20 監視対象装置
30 管理装置
40 他の監視対象装置(他装置)
NW 通信網
PG コンピュータプログラム
REC 記録媒体[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a monitoring method using an operation monitoring device that monitors the operation state of a monitoring target device to be monitored, an operation monitoring device to which the method is applied, a monitoring system using the operation monitoring device, and an operation monitoring thereof The present invention relates to a computer program for realizing a device, and more particularly to a monitoring method, an operation monitoring device, a monitoring system, and a computer program for efficiently monitoring a monitored device.
[0002]
[Prior art]
As a method of monitoring the operating state of a server computer, a monitoring system that requests a response from the server computer at a predetermined time interval and displays the result based on the response to the request is disclosed (for example, Patent Document 1). reference).
[0003]
[Patent Document 1]
JP 2001-125853 A
[0004]
[Problems to be solved by the invention]
It is not preferable to make a response request to monitor the operation status too frequently in consideration of the load on the communication line and the server computer. However, when there is a suspicion of a failure, it is necessary to determine whether there is a failure. Is desired.
[0005]
However, in the conventional monitoring system, since a response request is transmitted to the server computer at a fixed time interval, if the time interval is set short, a problem of an increase in the load on the communication line and various devices during a stable operation occurs, and If the time interval is set long, there is a problem that it is difficult to determine the presence or absence of a failure when a failure is suspected.
[0006]
In addition, the server computer itself has a high probability of stable operation, so it does not notify its state when it is normal, and notifies it only when there is a suspicion of failure, so it returns to the normal state after a failure occurs In addition, there is a problem that it is difficult to determine whether or not the operation is normal because notification of the occurrence of a failure is not performed.
[0007]
The present invention has been made in view of the above circumstances, and shortens a time interval for transmitting a response request to a server computer when it is determined that a failure has been suspected based on a response state to the response request. Monitoring that can prevent an increase in the load on communication lines and various devices during stable operation, but can easily determine whether a failure has occurred if it is suspected. A main object is to provide a method, an operation monitoring device to which the method is applied, a monitoring system using the operation monitoring device, and a computer program for realizing the operation monitoring device.
[0008]
Further, in the present invention, when it is determined that there is a suspicion that a failure has occurred, if a normal response is received continuously for a predetermined number of times or more, it is notified that the operating state is normal, thereby returning to the normal state. Another object is to provide an operation monitoring device or the like that can be easily identified.
[0009]
[Means for Solving the Problems]
A monitoring method according to a first aspect of the present invention is an operating method for transmitting a response request for requesting a response indicating the operating status of the monitored device to the monitored device, and monitoring the operating status based on receiving a response to the transmitted response request. In a monitoring method using a monitoring device, the operation monitoring device transmits a response request at a first time interval that is set in advance, determines whether a response indicating normal operation has been received, and determines whether a normal operation has been received. When it is determined that the response indicating the request has not been received, the time interval for transmitting the response request is changed to a second time interval shorter than the first time interval.
[0010]
In the monitoring method according to the first invention, a response request is transmitted to the monitoring target device such as a web server computer at the first time interval, a normal response cannot be received, and a failure may have occurred. If it is determined that there is a communication request, the response request is transmitted at a second time interval shorter than the first time interval, and the communication time of the communication line and the monitoring target device in a normal state are set by setting the first time interval longer. By setting the second time interval to be short while the processing load is reduced, it is possible to easily determine whether or not a failure has occurred if a failure is suspected.
[0011]
An operation monitoring device according to a second aspect of the present invention transmits a response request for requesting a response indicating the operation status of the monitored device to the monitored device, and monitors the operation status based on reception of a response to the transmitted response request. A means for transmitting a response request at a preset first time interval, and a means for determining whether or not a response indicating normal operation has been received, in an operation monitoring device for notifying an operation state being monitored. Means for transmitting, to a predetermined destination, notification information for notifying that the operation status of the monitored device is abnormal when it is determined that a response indicating normal operation has not been received, Means for changing the transmission interval to a second time interval shorter than the first time interval.
[0012]
In the operation monitoring device according to the second invention, a response request is transmitted to the monitoring target device such as a web server computer at the first time interval, a normal response cannot be received, and a failure may have occurred. If it is determined that there is a possibility, the response request is transmitted at a second time interval shorter than the first time interval, so that the first time interval is set longer so that the communication load of the communication line and the monitoring target device in the normal state are set. By setting the second time interval short, it is possible to easily determine whether or not a failure has occurred if the second time interval is set short while reducing the processing load of the process.
[0013]
The operation monitoring device according to a third invention is the operation monitoring device according to the second invention, wherein the means for counting the number of times the response indicating the normal operation is continuously received for the response request transmitted at the second time interval, Means for determining whether or not the response is continuous for a predetermined number of times or more, and means for changing the transmission interval of the response request to a first time interval when it is determined that a normal response has been received for the predetermined number of times or more, Means for transmitting, to a predetermined destination, notification information for notifying that the operating state is normal.
[0014]
In the operation monitoring device according to the third aspect of the present invention, when it is determined that a failure may have occurred and the response request is transmitted at the second time interval, the normal response is continuously received a predetermined number of times or more. Then, the monitoring target device determines that the monitoring target device has returned to normal, changes the transmission interval of the response request to the first time interval, and notifies the monitoring target device that the operating state is normal, thereby actually sending the monitoring target device to the monitoring target device. It is easy to determine if a failure has occurred or if the performance is only temporarily degraded.
[0015]
The operation monitoring device according to a fourth aspect of the present invention, when it is determined in the second or third aspect that a response indicating normal operation cannot be received from the monitoring target device, is associated with the monitoring target device. And transmitting a response request to another device.
[0016]
In the operation monitoring device according to the fourth aspect, when it is determined that a normal response cannot be received from the monitoring target device, a response request is transmitted to, for example, another device in the same environment as the monitoring target device. By monitoring the operating status of other devices, it is possible to determine whether a fault that may have occurred is a phenomenon of only a single monitored device or the entire communication environment. Appropriate disaster recovery work can be performed.
[0017]
A monitoring system according to a fifth aspect of the present invention provides an operation monitoring device according to any one of
[0018]
In the monitoring system according to the fifth aspect, a response request is transmitted from the operation monitoring device to the monitoring target device such as the web server computer at the first time interval, and a normal response cannot be received, and a failure occurs. If it is determined that there is a possibility that there is a possibility, the response request is transmitted at a second time interval shorter than the first time interval. By setting the second time interval to be short, it is possible to easily determine whether or not a failure has occurred if the failure is suspected by setting the second time interval to be short while reducing the processing load on the monitoring target device.
[0019]
A computer program according to a sixth aspect of the present invention causes a computer to transmit a response request for requesting a response indicating the operation state of the monitored device to the monitored device, and based on the reception of a response to the transmitted response request, A computer program for transmitting a response request at a first time interval set in advance, a procedure for causing the computer to determine whether a response indicating normal operation has been received, Changing the transmission interval of the response request to a second time interval shorter than the first time interval when it is determined that the response indicating the normal operation cannot be received. .
[0020]
In the computer program according to the sixth aspect of the present invention, when the computer executes the computer program, the computer operates as an operation monitoring device that monitors the monitoring target device, and transmits a response request to the monitoring target device at a first time interval. When it is determined that there is a possibility that a failure has occurred due to a failure to receive a response, a response request is transmitted at a second time interval shorter than the first time interval, thereby reducing the first time interval. Setting a longer time period reduces the communication load on the communication line and the processing load on the monitoring target device under normal conditions, while setting a shorter second time interval makes it possible to determine whether a failure has occurred if it is suspected. It is possible to make it easier to determine.
[0021]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described in detail with reference to the drawings showing the embodiments.
FIG. 1 is an explanatory view conceptually showing a monitoring system of the present invention.
In FIG. 1,
Further, the
Further, the
Here, the
[0022]
Note that FIG. 1 shows a configuration in which the
It is assumed that the monitored
[0023]
Next, the configuration of each device used in the monitoring system of the present invention will be described.
FIG. 2 is a block diagram showing the configuration of various devices used in the monitoring system of the present invention.
The
The server computer reads the computer program PG of the present invention and various information such as data from the
The recording means 13 includes position information such as an IP address indicating the position of the monitored
[0024]
The
The
There are various methods for responding to the response request. A predetermined program is started using an interface such as CGI (Common Gateway Interface), a file indicating the operation status is generated, and the file is transmitted as a response. Is also good.
[0025]
The
[0026]
The
[0027]
Next, processing of each device used in the monitoring system of the present invention will be described.
FIG. 3 is a flowchart showing a monitoring process of the
Under the control of the
After transmitting the response request, the
When the
[0028]
If a response indicating normal operation cannot be received in step S103 (S103: NO), the
Under the control of the
The case where the response indicating the normal operation could not be received in step S103 includes, for example, the case where the response indicating the abnormality is received, the case where the received response is abnormal, and the case where the response is received within a predetermined time. This is the case when it was not possible.
[0029]
In the
[0030]
Then, in the
After transmitting the response request, the
Under the control of the
[0031]
If a response indicating normal operation is received in step S109 (S109: YES), the
[0032]
If it is determined in step S112 that a normal response has been received continuously for a predetermined number of times or more (S112: YES), the
The
In step S112, when it is determined that the number of times a normal response has been continuously received is less than the predetermined number (S112: NO), the process returns to step S107, and the subsequent processing is repeated.
When it is determined that there is a possibility that a failure has occurred in the
[0033]
Next, the other device monitoring subroutine will be described.
FIG. 4 is a flowchart showing another device monitoring subroutine of the
As a process of the other device monitoring subroutine started in step S105 of the monitoring process described with reference to FIG. 3, the
After transmitting the response request, the
[0034]
If a response indicating normal operation cannot be received in step S202 (S202: NO), the
Under the control of the
[0035]
Then, the
After transmitting the response request, the
[0036]
In step S206, when a response indicating normal operation is received (S206: YES), the
In step S208, when it is determined that the normal response has been received continuously for a predetermined number of times or more (S208: YES), the
The
[0037]
If it is determined in step S208 that the number of times a normal response has been continuously received is less than the predetermined number (S208: NO), the process returns to step S204, and the subsequent processing is repeated.
When there are a plurality of
If the person in charge of managing the
Further, the
[0038]
In the above-described embodiment, the case where a response request indicating normal operation is not received from the
[0039]
【The invention's effect】
As described in detail above, in the monitoring method, the operation monitoring device, the monitoring system, and the computer program according to the present invention, a response request for requesting a response indicating the operation state from the operation monitoring device to the monitoring target device at the first time interval is provided. If it is determined that a normal response cannot be received and a failure may have occurred, a response request is transmitted at a second time interval shorter than the first time interval, thereby enabling Setting a longer time interval reduces the communication load on the communication line and the processing load on the monitoring target device during normal operation, while setting a shorter second time interval causes a failure if a failure is suspected. It is possible to make it easier to determine whether or not a monitoring target has occurred, so that the person in charge of managing the monitoring target device does not need to be particularly aware of the operating status when the monitoring target device is operating normally. , Etc. disorder is possible to monitor efficiently monitored devices can be confirmed complicated the situation when there is a possibility of the occurrence, an excellent effect.
[0040]
Also, in the present invention, when it is determined that a failure may have occurred and the response request is transmitted at the second time interval, when a normal response is received continuously for a predetermined number of times or more, the monitoring is performed. The target device determines that the target device has returned to normal, changes the transmission interval of the response request to the first time interval, and notifies that the operating state is normal. It is possible to easily determine whether or not the performance is temporarily reduced or the performance is only temporarily reduced.
[0041]
Further, in the present invention, when it is determined that a normal response cannot be received from the monitoring target device, for example, a response request is transmitted to another device in the same communication environment as the monitoring target device, and another response is transmitted. By also monitoring the operating status of the device, it is possible to determine whether the fault that may have occurred is only a single monitored device or the entire communication environment. Excellent effects, such as the ability to perform a recovery operation.
[Brief description of the drawings]
FIG. 1 is an explanatory view conceptually showing a monitoring system of the present invention.
FIG. 2 is a block diagram showing a configuration of various devices used in the monitoring system of the present invention.
FIG. 3 is a flowchart showing a monitoring process of the operation monitoring device of the present invention.
FIG. 4 is a flowchart showing another device monitoring subroutine of the operation monitoring device of the present invention.
[Explanation of symbols]
10 Operation monitoring device
20 Monitoring target device
30 Management device
40 Other monitored devices (other devices)
NW communication network
PG computer program
REC recording medium
Claims (6)
前記稼動監視装置は、
予め設定されている第1時間間隔で応答要求を送信し、
正常な稼動を示す応答を受信したか否かを判定し、
正常な稼動を示す応答を受信することができなかったと判定した場合に、応答要求を送信する時間間隔を第1時間間隔より短い第2時間間隔に変更する
ことを特徴とする監視方法。A monitoring method using an operation monitoring device that transmits a response request for requesting a response indicating the operating state of the monitored device to the monitored device and monitors the operating status based on receiving a response to the transmitted response request,
The operation monitoring device,
Sending a response request at a preset first time interval,
Determine whether a response indicating normal operation has been received,
A monitoring method characterized by changing a time interval for transmitting a response request to a second time interval shorter than the first time interval when it is determined that a response indicating normal operation has not been received.
予め設定されている第1時間間隔で応答要求を送信する手段と、
正常な稼動を示す応答を受信したか否かを判定する手段と、
正常な稼動を示す応答を受信することができなかったと判定した場合に、
前記監視対象装置の稼動状態が異常であることを通知する通知情報を所定の送信先へ送信する手段と、
応答要求の送信間隔を第1時間間隔より短い第2時間間隔に変更する手段と
を備えることを特徴とする稼動監視装置。A response request for requesting a response indicating the operating status of the monitored device is transmitted to the monitored device, the operating status is monitored based on a response to the transmitted response request, and the monitored operating status is notified. In operation monitoring equipment,
Means for transmitting a response request at a preset first time interval;
Means for determining whether a response indicating normal operation has been received,
If it is determined that a response indicating normal operation has not been received,
Means for transmitting notification information for notifying that the operation state of the monitored device is abnormal to a predetermined destination,
Means for changing the transmission interval of the response request to a second time interval shorter than the first time interval.
計数した回数が所定回数以上連続しているか否かを判定する手段と、
前記所定回数以上連続して正常な応答を受信したと判定したときに、
応答要求の送信間隔を第1時間間隔に変更する手段と、
稼動状態が正常であることを通知する通知情報を所定の送信先へ送信する手段と
を備えることを特徴とする請求項2に記載の稼動監視装置。Means for counting the number of times a response indicating normal operation has been continuously received for the response request transmitted at the second time interval;
Means for determining whether the counted number is continuous for a predetermined number of times or more,
When it is determined that a normal response has been received continuously for the predetermined number of times or more,
Means for changing the transmission interval of the response request to a first time interval;
3. The operation monitoring apparatus according to claim 2, further comprising: means for transmitting notification information for notifying that the operation state is normal to a predetermined transmission destination.
該稼動監視装置による監視の対象となる監視対象装置と、
前記稼動監視装置から送信される通知情報を受信する管理装置と
を備えることを特徴とする監視システム。An operation monitoring device according to any one of claims 2 to 4,
A monitored device to be monitored by the operation monitoring device;
A monitoring device that receives notification information transmitted from the operation monitoring device.
コンピュータに、予め設定されている第1時間間隔で応答要求を送信させる手順と、
コンピュータに、正常な稼動を示す応答を受信したか否かを判定させる手順と、
コンピュータに、正常な稼動を示す応答を受信することができなかったと判定した場合に、応答要求の送信間隔を第1時間間隔より短い第2時間間隔に変更させる手順と
を実行させることを特徴とするコンピュータプログラム。A computer program for causing a computer to transmit a response request for requesting a response indicating the operation status of the monitored device to the monitored device, and to monitor the operation status based on receiving a response to the transmitted response request,
Causing the computer to send a response request at a preset first time interval;
Causing the computer to determine whether a response indicating normal operation has been received;
And changing the transmission interval of the response request to a second time interval shorter than the first time interval when the computer determines that the response indicating the normal operation has not been received. Computer program to do.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002378113A JP2004206634A (en) | 2002-12-26 | 2002-12-26 | Monitoring method, operation monitoring device, monitoring system, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002378113A JP2004206634A (en) | 2002-12-26 | 2002-12-26 | Monitoring method, operation monitoring device, monitoring system, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004206634A true JP2004206634A (en) | 2004-07-22 |
Family
ID=32815083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002378113A Pending JP2004206634A (en) | 2002-12-26 | 2002-12-26 | Monitoring method, operation monitoring device, monitoring system, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004206634A (en) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011061271A (en) * | 2009-09-07 | 2011-03-24 | Toa Corp | Communication system, master unit and slave unit |
JP2011154526A (en) * | 2010-01-27 | 2011-08-11 | Oki Electric Industry Co Ltd | Preventive maintenance system for transaction processors, and preventive maintenance server |
CN102262579A (en) * | 2011-08-05 | 2011-11-30 | 浪潮(北京)电子信息产业有限公司 | Computer monitoring method and system |
JP2012186699A (en) * | 2011-03-07 | 2012-09-27 | Toshiba It Service Kk | Communication system and method of determining whether communication terminal is available or not |
JP2012185714A (en) * | 2011-03-07 | 2012-09-27 | Toshiba It Service Kk | Electronic signboard system, and content delivery method of electronic signboard system |
JP2013073456A (en) * | 2011-09-28 | 2013-04-22 | Mitsubishi Electric Corp | Application monitoring optimizing device |
JP2013258762A (en) * | 2013-08-29 | 2013-12-26 | Kddi Corp | Fault detection device, monitoring and controlling device, and computer program |
JP2015519630A (en) * | 2012-03-30 | 2015-07-09 | アンビエント・コーポレイション | Optimizing discovery of data network devices to reduce data transfer capacity |
JP2015530639A (en) * | 2012-07-20 | 2015-10-15 | ブルー・カイ・インコーポレイテッドBlue Kai, Inc. | Tag latency monitoring and control system for improved web page performance |
CN105446850A (en) * | 2014-08-22 | 2016-03-30 | 阿里巴巴集团控股有限公司 | Monitoring method and apparatus |
JP2017005598A (en) * | 2015-06-15 | 2017-01-05 | 3plex株式会社 | Security camera health check |
CN106530599A (en) * | 2016-11-30 | 2017-03-22 | 英业达科技有限公司 | Home environment monitoring and alarming system |
US9723057B2 (en) | 2014-09-25 | 2017-08-01 | Oracle International Corporation | Reducing web page load latency by scheduling sets of successive outgoing HTTP calls |
US10666533B2 (en) | 2012-07-20 | 2020-05-26 | Oracle International Corporation | Tag latency monitoring and control system for enhanced web page performance |
JP2023501662A (en) * | 2019-11-14 | 2023-01-18 | 華為技術有限公司 | Data acquisition method and apparatus |
-
2002
- 2002-12-26 JP JP2002378113A patent/JP2004206634A/en active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011061271A (en) * | 2009-09-07 | 2011-03-24 | Toa Corp | Communication system, master unit and slave unit |
JP2011154526A (en) * | 2010-01-27 | 2011-08-11 | Oki Electric Industry Co Ltd | Preventive maintenance system for transaction processors, and preventive maintenance server |
JP2012186699A (en) * | 2011-03-07 | 2012-09-27 | Toshiba It Service Kk | Communication system and method of determining whether communication terminal is available or not |
JP2012185714A (en) * | 2011-03-07 | 2012-09-27 | Toshiba It Service Kk | Electronic signboard system, and content delivery method of electronic signboard system |
CN102262579A (en) * | 2011-08-05 | 2011-11-30 | 浪潮(北京)电子信息产业有限公司 | Computer monitoring method and system |
JP2013073456A (en) * | 2011-09-28 | 2013-04-22 | Mitsubishi Electric Corp | Application monitoring optimizing device |
JP2015519630A (en) * | 2012-03-30 | 2015-07-09 | アンビエント・コーポレイション | Optimizing discovery of data network devices to reduce data transfer capacity |
JP2015530639A (en) * | 2012-07-20 | 2015-10-15 | ブルー・カイ・インコーポレイテッドBlue Kai, Inc. | Tag latency monitoring and control system for improved web page performance |
US10666533B2 (en) | 2012-07-20 | 2020-05-26 | Oracle International Corporation | Tag latency monitoring and control system for enhanced web page performance |
JP2013258762A (en) * | 2013-08-29 | 2013-12-26 | Kddi Corp | Fault detection device, monitoring and controlling device, and computer program |
CN105446850A (en) * | 2014-08-22 | 2016-03-30 | 阿里巴巴集团控股有限公司 | Monitoring method and apparatus |
US9723057B2 (en) | 2014-09-25 | 2017-08-01 | Oracle International Corporation | Reducing web page load latency by scheduling sets of successive outgoing HTTP calls |
JP2017005598A (en) * | 2015-06-15 | 2017-01-05 | 3plex株式会社 | Security camera health check |
CN106530599A (en) * | 2016-11-30 | 2017-03-22 | 英业达科技有限公司 | Home environment monitoring and alarming system |
JP2023501662A (en) * | 2019-11-14 | 2023-01-18 | 華為技術有限公司 | Data acquisition method and apparatus |
JP7416936B2 (en) | 2019-11-14 | 2024-01-17 | 華為技術有限公司 | Data acquisition method and equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8010840B2 (en) | Generation of problem tickets for a computer system | |
JP5418250B2 (en) | Abnormality detection apparatus, program, and abnormality detection method | |
JP2004206634A (en) | Monitoring method, operation monitoring device, monitoring system, and computer program | |
JP5173388B2 (en) | Information processing apparatus and information processing method | |
CN108418710B (en) | Distributed monitoring system, method and device | |
US20150319097A1 (en) | Methods and systems for prioritizing nameservers | |
US20070044152A1 (en) | Method and apparatus for diagnosing and mitigating malicious events in a communication network | |
US20050188081A1 (en) | Packet sniffer | |
JP2007249829A (en) | Communication system between internal networks, information processor and repeating information processor, communication control program, communication control method between internal networks, remote fault management system, managed device, and management device | |
US20060221815A1 (en) | Failure-monitoring program and load-balancing device | |
JP2010231293A (en) | Monitoring device | |
JP2000250833A (en) | Operating information acquisition method in multiple server operation management and recording medium recording the program | |
US7673035B2 (en) | Apparatus and method for processing data relating to events on a network | |
JP2006260343A (en) | Program for checking link cut | |
JPH1145195A (en) | Computer system, abnormality detector and recording medium | |
JP4863984B2 (en) | Monitoring processing program, method and apparatus | |
JP2008005118A (en) | Network monitor system | |
JP4034436B2 (en) | Client / server system and client operation monitoring method | |
US20060026278A1 (en) | Administration system for network management systems | |
JP2003345681A (en) | Network monitoring method, its execution system and its processing program | |
JP2004362328A (en) | Information device management system, information device, device management server, status management program, device management program, and information device management method | |
JP5546883B2 (en) | Supervisory control system | |
JP2000029745A (en) | Fault detection method, computer system, and constitution apparatus and storage medium thereof | |
JP2004282541A (en) | Monitor system and method | |
WO2025062549A1 (en) | Interval calculation device and interval calculation method |