JP2008293441A - Method and apparatus for predicting device fault - Google Patents
Method and apparatus for predicting device fault Download PDFInfo
- Publication number
- JP2008293441A JP2008293441A JP2007140876A JP2007140876A JP2008293441A JP 2008293441 A JP2008293441 A JP 2008293441A JP 2007140876 A JP2007140876 A JP 2007140876A JP 2007140876 A JP2007140876 A JP 2007140876A JP 2008293441 A JP2008293441 A JP 2008293441A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- phenomenon
- fault
- information
- prior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は機器障害予測方法及び機器障害予測装置に係り、特に障害を監視する必要がある分野において、機器に発生する障害を予測する機器障害予測方法及び機器障害予測装置に関する。 The present invention relates to a device failure prediction method and a device failure prediction apparatus, and more particularly to a device failure prediction method and a device failure prediction device for predicting a failure occurring in a device in a field where the failure needs to be monitored.
機器の障害の発生を予測し、情報処理システムの性能を監視する性能監視装置が知られている(例えば、特許文献1参照)。図4はこの特許文献1に記載の性能監視システムの一例の構成図を示す。同図において、性能監視装置10は蓄積サーバ101と分析サーバ102とから構成される。性能監視装置10は、Webサーバ11、AP(アプリケーション)サーバ12、DB(データベース)サーバ13から構成される情報処理システムとローカルエリアネットワーク(LAN)等の通信回線で接続され、この通信回線を介して各サーバの状態を監視する。
2. Description of the Related Art A performance monitoring device that predicts the occurrence of a device failure and monitors the performance of an information processing system is known (see, for example, Patent Document 1). FIG. 4 shows a configuration diagram of an example of the performance monitoring system described in
蓄積サーバ101は上記の各サーバ11〜13間を接続する通信回線で通信されるトランザクションのスループット、処理名等を示すトランザクションデータなどを監視データとして内部に蓄積する。分析サーバ102は、蓄積サーバ101に蓄積された監視データに基づいて、情報処理システムに現在発生している障害を検知したり、あるいは情報処理システムに将来発生する可能性のある障害を予測する。
The
この性能監視装置では、複数の情報処理装置(サーバ11〜13)の稼動状況及び複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視手段(蓄積サーバ101)と、上記監視データに基づいて、情報処理システムに現在発生している障害を検知、又は情報処理システムに将来障害が発生する可能性を予測する障害検知/予測手段(分析サーバ102)とを有する構成である。 In this performance monitoring apparatus, the monitoring means (storage server 101) for monitoring the operation status of a plurality of information processing devices (servers 11 to 13) and the data communication status of each communication line connecting the plurality of information processing devices, This configuration includes a failure detection / prediction unit (analysis server 102) that detects a failure that currently occurs in the information processing system or predicts the possibility of a future failure in the information processing system based on the monitoring data. .
ここで、上記の障害検知/予測手段は、算出された複数種類の監視データの間の相関関係と、監視手段によって現在までに得られた複数種類の監視データの推移とに基づいて、情報処理装置に将来障害が発生する可能性があることを予測する。また、上記の障害検知/予測手段は、複数種類の監視データに基づいて算出された、情報処理システムの正常稼動時及び異常稼動時の少なくともいずれか一方の相関関係を用いて、情報処理システムに現在発生している障害を検知、又は情報処理システムに将来障害が発生する可能性を予測する。 Here, the failure detection / prediction unit performs information processing based on the correlation between the calculated types of monitoring data and the transition of the types of monitoring data obtained up to now by the monitoring unit. Predict that equipment may fail in the future. Further, the failure detection / prediction means uses the correlation between at least one of normal operation and abnormal operation of the information processing system calculated based on a plurality of types of monitoring data. Detect a failure that currently occurs, or predict the possibility that a failure will occur in the information processing system in the future.
しかしながら、機器障害予測装置の関連発明である上記の特許文献1記載の性能監視装置は、情報処理装置に将来障害が発生する可能性があることを予測するために、算出された複数種類の監視データの間の相関関係と、監視手段によって現在までに得られた複数種類の監視データの推移とに基づいて、あるいは、複数種類の監視データに基づいて算出された、情報処理システムの正常稼動時及び異常稼動時の少なくともいずれか一方の相関関係を用いて予測するため、計算量が膨大となり、また装置が複雑となる。
However, the performance monitoring device described in
装置を簡略化するには、相関関係の算出は行わず、また将来発生する可能性のあるすべての障害の予測を行わず、障害の契機となる現象(事前現象)が発生したことを検出することができればよい。しかしながら、ある現象が障害と関係がある事前現象であるかどうかは障害解析の過去データから障害発生後の障害解析時にしか得られない。 To simplify the device, do not calculate correlations, do not predict all possible failures that may occur in the future, and detect that a phenomenon (prior phenomenon) that triggers the failure has occurred I can do it. However, whether or not a certain phenomenon is a prior phenomenon related to a failure can be obtained only from the past failure analysis data at the time of failure analysis after the occurrence of the failure.
本発明は以上の点に鑑みなされたもので、障害の契機となる事前現象を予めデータベースに登録しておくことで、機器の現在の現象が登録された事前現象であるか否かに応じて次に発生する障害を予測することが可能な機器障害予測方法及び機器障害予測装置を提供することを目的とする。 The present invention has been made in view of the above points, and by registering in advance a pre-phenomenon that triggers a failure according to whether or not the current phenomenon of the device is a pre-registered pre-phenomenon. An object of the present invention is to provide a device failure prediction method and device failure prediction apparatus that can predict a failure that will occur next.
上記の目的を達成するため、第1の発明は、機器により構成されるシステムの変化を検出する第1のステップと、検出した変化が、障害の発生契機としてその直前に発生する障害事前現象と同じ現象によるものであるかどうか判定する第2のステップと、第2のステップにより障害事前現象と同じ現象によるものであるとの判定結果が得られたときは、その旨を通知する第3のステップとを含むことを特徴とする。 In order to achieve the above object, the first invention includes a first step of detecting a change in a system constituted by devices, and a failure prior phenomenon that occurs immediately before the detected change as a failure occurrence trigger. When the second step for determining whether or not the phenomenon is caused by the same phenomenon and the determination result obtained by the second step are caused by the same phenomenon as the failure prior phenomenon, the third step for notifying that effect is provided. And a step.
また、上記の目的を達成するため、第2の発明は、機器により構成されるシステムの変化を検出する検出手段と、検出した変化が、障害の発生契機としてその直前に発生する障害事前現象と同じ現象によるものであるかどうか判定する判定手段と、判定手段により障害事前現象と同じ現象によるものであるとの判定結果が得られたときは、その旨を通知する通知手段とを有することを特徴とする。 In order to achieve the above object, the second invention includes a detecting means for detecting a change in a system constituted by devices, and a failure prior phenomenon that occurs immediately before the detected change as a failure occurrence trigger. A determination means for determining whether or not the phenomenon is caused by the same phenomenon, and a notification means for notifying that when the determination means obtains a determination result that the phenomenon is caused by the same phenomenon as the failure prior phenomenon. Features.
本発明によれば、機器の障害の発生契機としてその直前に発生する障害事前現象である障害事前現象情報に基づき、機器の障害発生を障害が発生する前に予測して管理者に認識させることができる。 According to the present invention, based on failure pre-phenomenon information that is a failure pre-occurrence phenomenon that occurs immediately before the occurrence of a device failure, predicting the occurrence of a device failure before the failure occurs and allowing the administrator to recognize it. Can do.
次に、本発明を実施するための最良の形態について図面と共に説明する。図1は本発明になる機器障害予測装置の一実施例のブロック図を示す。同図において、管理者端末1が機器2に接続されている。機器2は、機器本来の動作に必要な各部分(図示せず)に加えて、障害事前情報データベース21と障害予測通知部22とを有している。これら障害事前情報データベース21と障害予測通知部22とは機器障害予測装置を構成している。
Next, the best mode for carrying out the present invention will be described with reference to the drawings. FIG. 1 shows a block diagram of an embodiment of a device failure prediction apparatus according to the present invention. In the figure, an
管理者端末1は障害事前情報データベース21へ障害の契機となる現象を登録するためにある。管理者端末1を操作する管理者は、機器2を使用するユーザである場合もあり、また、ユーザとは別である場合もあり得る。障害事前情報データベース21には、機器2で障害が起きた場合、障害発生時のログから障害が発生する前に障害の契機となる現象があれば、その障害の契機となる現象(障害事前情報)が管理者端末1により登録(保存)される。この障害事前情報は、予め分かっているものについてはすべて障害事前情報データベース21に予め登録され、その後分かった場合は、障害事前情報データベース21に随時登録される。本実施例では、障害事前現象をデータベース化することで事前に障害を予測できる可能性が高くなる。
The
障害事前情報データベース21は記憶機能だけでなく、判断機能も有しており、登録されている障害事前情報の中のどれか一つの障害事前情報と同じ現象が機器2に発生した場合、その現象に対応した障害事前情報に基づき、次に予測される障害情報を予測して障害予測通知部22に通知する。障害予測通知部22は、発光ダイオード(LED)などによる視覚的通知、あるいはアラーム音による聴覚的通知により、更には画像表示により障害予測を管理者あるいはユーザに通知する。
The failure
機器2としては、例えばPICMG(PCI Industrial Computer Manufacturers Group)が策定した次世代の通信機器向け標準規格(AdvancedTCA:Advanced Telecom Computing Architecture)によるATCAスイッチなどがあり、また、障害の例としてはポートリンクダウン(Port Link Down)があり、障害事前情報の例としてはポートリンクアップ/ダウンがある。すなわち、ATCAスイッチにおいては、ポートリンクアップ/ダウンを起こした場合、その後ポートリンクダウンになってしまうことがある。
The
ここで、管理者端末1と機器2とからなるシステムには、例えば図2(A)に示すように、複数台(ここでは一例として3台)の機器A、B、Cを1台の管理装置4で統括的に管理するシステムや、図2(B)に示すように、1台の機器と1台の管理装置とが一体となった単一機器システム5がある。これらのシステムのうち図2(A)に示したシステムでは、機器A、B、Cを統括管理する管理装置4に、また同図(B)に示した単一機器システム5の機器に、前述した事前情報データベース21と障害予測通知部22とからなる機器障害予測装置を有している。
Here, in a system including the
次に、図1の実施例の動作について、図3の本発明の機器障害予測方法の一実施例のフローチャートを併せ参照して説明する。管理者端末1から障害事前情報データベース21へ障害の契機となる現象を示す障害事前情報を予め登録する(ステップS1)。続いて、管理装置が図2(A)又は(B)に示したシステムの変化を検出する(ステップS2)。なお、管理装置は図1では図示を省略してある。このシステムの変化は、システムを構成する一台又は複数台の機器が、機器本来の動作以外の何らかの現象を発生したことにより生じる。
Next, the operation of the embodiment of FIG. 1 will be described with reference to the flowchart of one embodiment of the device failure prediction method of the present invention shown in FIG. Pre-failure information indicating a phenomenon that causes a failure is registered in advance from the
続いて、上記の検出された変化が、障害事前情報データベース21に登録された障害事前情報と同じ現象であるかどうか、障害事前情報データベース21が判定し(ステップS3)、上記の検出された変化が、登録された障害事前情報と同じ現象である場合は、その旨を障害予測通知部22に通知する。これにより、障害予測通知部22は障害発生の契機となる現象が発生したことを、すなわち、予測される障害を管理者に報知する(ステップS4)。
Subsequently, the failure
ここで、障害事前情報データベース21に登録された障害事前情報が複数あり、そのうちのどの障害事前情報と一致するかを区別して報知する場合は、光の点滅周期、音の断続する長短のパターン、あるいは画面に表示されるメッセージなどで区別する。これらの方法は、公知であるので、その詳細な説明は省略する。これにより、管理者は障害が起きる可能性を認識することが可能となり、その予測される障害がシステムの動作に影響を与えるようなものであれば、該当する機器の交換などを行う。
Here, when there are a plurality of failure prior information registered in the failure
一方、ステップS2で検出された変化が、障害事前情報データベース21に登録された障害事前情報の中には存在しない現象であるとステップS3で判定された場合は、その現象(システムの変化)が障害発生の契機となる現象ではないと判断して、障害事前情報データベース21から障害予測通知部22へは何の通知も行われない(ステップS5)。これにより、障害予測通知部22は何の通知も行わない。
On the other hand, when it is determined in step S3 that the change detected in step S2 is a phenomenon that does not exist in the failure prior information registered in the failure
このように、本実施例によれば、障害の契機となる現象を示す障害事前情報を予め障害事前情報データベース21に登録しておき、システム変化を伴う現象が生じる毎に、その現象が障害事前情報データベース21に登録されているかどうかを判定するようにしたため、発生した現象が障害事前情報データベース21に登録されていると判定したときは、その現象を契機として発生する障害を、その障害が発生する前に予測して管理者に通知することができる。また、本実施例によれば、相関関係の算出を行って将来発生する可能性のあるすべての障害の予測を行う必要がないため、機器の構成を簡略化することができる。
As described above, according to the present embodiment, failure prior information indicating a phenomenon that triggers a failure is registered in the failure
なお、本発明は上記の実施例に限定されるものではなく、例えば、管理者端末1が障害事前情報データベース21に障害事前情報を登録する場合だけでなく、障害が発生した際、自動的にログから障害発生契機を障害事前情報データベース21に登録する方法も考えられる。
In addition, this invention is not limited to said Example, For example, not only when the
1 管理者端末
2 機器
21 障害事前情報データベース
22 障害予測通知部
DESCRIPTION OF
Claims (10)
前記検出した変化が、障害の発生契機としてその直前に発生する障害事前現象と同じ現象によるものであるかどうか判定する第2のステップと、
前記第2のステップにより前記障害事前現象と同じ現象によるものであるとの判定結果が得られたときは、その旨を通知する第3のステップと
を含むことを特徴とする機器障害予測方法。 A first step of detecting a change in a system constituted by devices;
A second step of determining whether or not the detected change is due to the same phenomenon as the failure prior phenomenon that occurs immediately before the occurrence of the failure;
A device failure prediction method comprising: a third step of notifying when the determination result that the failure is caused by the same phenomenon as the failure prior phenomenon is obtained in the second step.
前記機器の障害発生時に、その障害の発生契機としてその障害発生直前に発生する現象を障害事前情報としてデータベースに登録する第1のステップと、
前記システムの変化を検出する第2のステップと、
前記検出した変化が、前記データベースに登録されている前記障害事前情報と同じ現象によるものであるかどうか判定する第3のステップと、
前記第3のステップにより前記障害事前情報と同じ現象によるものであるとの判定結果が得られたときのみ、その旨を前記管理者に通知する第4のステップと
を含むことを特徴とする機器障害予測方法。 A method for predicting the occurrence of a failure of the device by an administrator who manages a system composed of one or a plurality of devices,
A first step of registering a phenomenon that occurs immediately before the occurrence of the failure in the database as failure prior information when the failure of the device occurs;
A second step of detecting a change in the system;
A third step of determining whether the detected change is due to the same phenomenon as the prior failure information registered in the database;
And a fourth step of notifying the administrator to that effect only when a determination result that the same phenomenon as the failure prior information is obtained by the third step is obtained. Failure prediction method.
前記検出した変化が、障害の発生契機としてその直前に発生する障害事前現象と同じ現象によるものであるかどうか判定する判定手段と、
前記判定手段により前記障害事前現象と同じ現象によるものであるとの判定結果が得られたときは、その旨を通知する通知手段と
を有することを特徴とする機器障害予測装置。 Detecting means for detecting a change in a system constituted by devices;
Determining means for determining whether the detected change is due to the same phenomenon as the failure prior phenomenon that occurs immediately before the occurrence of the failure;
A device failure prediction apparatus, comprising: a notification means for notifying that when the determination means obtains a determination result that is due to the same phenomenon as the failure prior phenomenon.
前記機器の障害の発生契機としてその障害発生直前に発生する現象が、障害事前情報として登録されているデータベースと、
前記障害事前情報を予め前記データベースに登録する登録手段と、
前記システムの変化を検出する検出手段と、
前記検出した変化が、前記データベースに登録されている前記障害事前情報と同じ現象によるものであるかどうか判定する判定手段と、
前記判定手段により前記障害事前情報と同じ現象によるものであるとの判定結果が得られたときのみ、その旨を前記管理者に通知する通知手段と
を有することを特徴とする機器障害予測装置。 An apparatus for predicting the occurrence of a failure of the device by an administrator who manages a system composed of one or a plurality of devices,
A phenomenon that occurs immediately before the occurrence of the failure of the device as a trigger for occurrence of the failure is a database registered as failure prior information, and
Registration means for previously registering the prior failure information in the database;
Detecting means for detecting a change in the system;
Determining means for determining whether the detected change is due to the same phenomenon as the prior failure information registered in the database;
An apparatus failure prediction apparatus comprising: notification means for notifying the administrator only when the determination means obtains a determination result that is due to the same phenomenon as the prior failure information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007140876A JP2008293441A (en) | 2007-05-28 | 2007-05-28 | Method and apparatus for predicting device fault |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007140876A JP2008293441A (en) | 2007-05-28 | 2007-05-28 | Method and apparatus for predicting device fault |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008293441A true JP2008293441A (en) | 2008-12-04 |
Family
ID=40168068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007140876A Pending JP2008293441A (en) | 2007-05-28 | 2007-05-28 | Method and apparatus for predicting device fault |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008293441A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010186310A (en) * | 2009-02-12 | 2010-08-26 | Nec Corp | Operation management apparatus, operation management method and program thereof |
JP2013200899A (en) * | 2013-07-08 | 2013-10-03 | Nec Corp | Operation management apparatus, and operation management method |
CN118669318A (en) * | 2024-06-25 | 2024-09-20 | 乾昇真空技术(深圳)有限公司 | Method and device for detecting vacuum pump cooling device, electronic equipment and storage medium |
-
2007
- 2007-05-28 JP JP2007140876A patent/JP2008293441A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010186310A (en) * | 2009-02-12 | 2010-08-26 | Nec Corp | Operation management apparatus, operation management method and program thereof |
US8352789B2 (en) | 2009-02-12 | 2013-01-08 | Nec Corporation | Operation management apparatus and method thereof |
JP2013200899A (en) * | 2013-07-08 | 2013-10-03 | Nec Corp | Operation management apparatus, and operation management method |
CN118669318A (en) * | 2024-06-25 | 2024-09-20 | 乾昇真空技术(深圳)有限公司 | Method and device for detecting vacuum pump cooling device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014068283A (en) | Network failure detection system and network failure detection device | |
JP2004192642A5 (en) | ||
CN100549975C (en) | Computer maintenance support system and analysis server | |
CN106487612A (en) | A kind of server node monitoring method, monitoring server and system | |
CN108418710A (en) | A kind of distributed monitoring system, method and device | |
CN113032218B (en) | A server fault detection method, system and computer-readable storage medium | |
CN106656636A (en) | Cloud platform fault detection method and device | |
JP2008293441A (en) | Method and apparatus for predicting device fault | |
KR101572672B1 (en) | Method for monitoring node failure on communication network and system thereof | |
JP2010015246A (en) | Failure information analysis management system | |
JP5949785B2 (en) | Information processing method, apparatus and program | |
KR101555225B1 (en) | Fault prediction and diagnosis apparatus of motor control centers | |
WO2016082509A1 (en) | Method and apparatus for detecting connectivity of label switched path | |
CN112835780B (en) | Service detection method and device | |
WO2014040470A1 (en) | Alarm message processing method and device | |
JP2017521802A (en) | Architecture for correlation events for supercomputer monitoring | |
KR100450415B1 (en) | A Network Management Method using Availability Prediction | |
JP6513001B2 (en) | Failure detection device, failure detection method, and program | |
JP2008005118A (en) | Network monitor system | |
KR20240039379A (en) | Apparatus and method for monitoring protective relay | |
JP2015082131A (en) | Monitoring system, monitoring method, monitoring program, and monitoring device | |
WO2014010021A1 (en) | Information processing device, information processing system, method for controlling information processing device, and program for controlling information processing device | |
JP2011028490A (en) | System monitoring device, system monitoring method, and program | |
JP5126137B2 (en) | Network management system and program | |
JP2005252765A (en) | Network failure decision apparatus, network maintenance system, network failure decision method and program |