JP5542398B2 - 障害の根本原因解析結果表示方法、装置、及びシステム - Google Patents
障害の根本原因解析結果表示方法、装置、及びシステム Download PDFInfo
- Publication number
- JP5542398B2 JP5542398B2 JP2009225859A JP2009225859A JP5542398B2 JP 5542398 B2 JP5542398 B2 JP 5542398B2 JP 2009225859 A JP2009225859 A JP 2009225859A JP 2009225859 A JP2009225859 A JP 2009225859A JP 5542398 B2 JP5542398 B2 JP 5542398B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- analysis result
- aggregation
- result information
- cause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0748—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
Description
図1は、本発明の第1の実施の形態による計算機システムの1つの構成を示す概観図である。計算機システム0は、管理サーバ1と、管理サーバ1で生成される画面出力データを表示するためのディスプレイ装置D2と、管理対象装置群3とからなる。管理サーバ1は、管理対象装置群3を構成する計算機、ネットワークスイッチ(NWスイッチ)及びストレージサブシステムを含む情報処理装置を管理対象として監視・管理している。
* 計算機ネットワークN4における接続状態、及び論理的な関係情報を含んだ管理対象構成情報103。なお、メモリ10は内容の異なる当該情報を複数格納し得る。
* プロセッサ11によって解析処理を行うための解析ルール情報104。なお、メモリ10は内容の異なる当該情報を複数格納し得る。
* プロセッサ11において解析ルール情報104を入力として解析処理がおこなわれた結果を格納するための解析結果情報102。なお、メモリ10は内容の異なる当該情報を複数格納し得る。
* 本発明の手順を実行するためのプログラムである管理プログラム105。
* 管理対象装置、又は管理対象装置にて発生したイベントについての情報を含むイベント管理情報106。メモリ10は内容の異なる当該情報を複数格納し得る。
* プロセッサ11によって管理プログラム105を実行した結果、生成される集約解析結果情報T1。
以下に、本発明で用いる用語の定義を記す。なお本箇所以外にも用語定義がされている。
管理サーバ1が有する各種情報について説明する。
管理対象構成情報103は、管理サーバ1が管理対象とする管理対象装置の識別子と、装置間の物理的及び論理的な関係(例えば接続関係や、サーバ・クライアントの関係や、包含関係)を含む情報である。前記識別子は管理対象装置と通信するための識別子、例えばIPアドレス、FQDN(Fully Qualified Domain Name)、又はホスト名等が考えられる。しかしこれ以外の識別子であっても管理対象装置と最終的に通信可能であればよい。
* 監視対象情報処理装置の種別(たとえば、ストレージサブシステム、スイッチ装置、サーバ装置等)と、当該装置を構成する部位の種別。
* 監視対象情報処理装置を構成する部位の情報及び装置と部位、または部位と部位の包含関係。
* ネットワーク通信を行うための部位については、接続相手となる部位。
* 監視対象情報処理装置の設定。
* 管理プログラム105は、監視対象情報処理装置から受信した各装置についての構成情報及び設定情報に基いて管理対象構成情報103を生成又は更新する。
* 管理プログラム105が監視対象情報処理装置の設定を行える場合は、管理プログラムは管理サーバの入力装置を介して受信した装置設定情報を装置に設定すると共に、管理対象構成情報103を生成又は更新する。
図27はイベント管理情報106を示す。イベント管理情報は以下の情報を含む。
* イベントID。イベント管理情報を識別する情報である。
* イベント検知時間。イベントを検知した時間を示す。なお、イベント検知は監視対象情報処理装置である場合や、管理システムである場合もあり、当該時間にはそれぞれの計算機または装置が管理するタイマーに基いた値をセットする。
* 発生元装置ID。イベントが発生した装置の識別子を格納する。
* 発生元部位ID。イベントを生じさせた理由となる装置内の部位の識別子を格納する。
* 状態。イベント発生によって変化した発生元部位の状態を格納する。
<2.3.解析ルール情報>
図2は解析ルール情報104を示した図である。
* 解析ルールに対して一意に識別される識別情報104−1。
* 解析ルールを適用する対象とする装置及び部位同士の関係を示したトポロジ条件104−21。
* 管理対象装置群3で発生した障害の原因箇所を特定するために検知が必要とされる一つ以上のイベント(装置又は部位の状態を直接的又は間接的に示すことができるイベントがより好適)で構成される、いわゆる原因箇所を特定するための条件の集合である条件セット104−22。なお、前述のトポロジ条件104ー21と条件セット104ー22を合わせて条件パート104−2と呼ぶことがある。
* if−then形式のルールの結論として、障害の原因箇所を示す原因箇所情報104−31と障害原因に対する結論の詳細情報である結論詳細情報104−32とから成る結論パート104−3。
本発明の説明のために、図28の装置群を例として、一般的なルールの例を説明する。
* ファイルサーバ計算機(以後ファイルサーバと省略して呼ぶ)のローカルのファイルシステムをネットワーク上の他の計算機に公開する。なお、ファイルシステムの公開対象は全ての場合もあればファイルシステムの一部の場合もある。
* 前述の他の計算機はネットワークを介して公開された前述のファイルシステムをネットワークドライブとして利用する。なお、ネットワークドライブはMicrosoft Windows(登録商標)固有の表現であり、公開されたファイルシステムを利用するためにネットワークドライブが必須というわけではない。
* 条件R1−21としてファイルサーバの公開されたファイルシステムの状態がエラーとなること。
* 条件R1−22としてクライアントマシンのネットワークドライブの状態がエラーとなること。
* 原因箇所情報は”ファイルサーバ”の公開されたファイルシステムである。
* 詳細メッセージは”ファイルサーバの公開されたファイルシステムの障害が原因”である。
* ルール識別情報R2−1には”R2”が、条件パートには適用先のトポロジとしてトポロジ条件は”なし”である為、少なくとも全ての管理対象のファイルサーバに適用される。
* 条件セットを構成する条件は、”計算機のファイルシステム”の状態がエラーであることを指定する。
そして、この条件セットに対応する結論として、結論パートR2−3には、以下を指定する。
* 原因箇所情報は、”計算機”の”ファイルシステム”である。
* 詳細メッセージは、”計算機のファイルシステムの障害が原因”である。
図26は解析結果情報102を示した図である。解析結果情報102は、解析ルール情報104を、トポロジ条件に適合する一つ以上の監視対象情報処理装置のセットの構成または設定とトポロジ条件に合わせて具体化した展開済みルールのいずれかを元として作成される。解析結果情報102は、以下の情報を含む。
* 解析ID:解析結果情報を識別する識別子である。
* 解析時間:解析結果情報が格納した解析結果を得た時間である。
* 適用ルールID:解析結果を得るために使用した解析ルールIDの識別子である。
* 適用部位ID:適用ルールIDで識別される解析ルール情報を適用した、一つ以上の監視対象情報処理装置又は当該装置の部位についての一つ以上の識別子である。
* 原因装置情報:適用ルールIDで識別される解析ルール情報を適用部位IDで指定された監視対象情報処理装置又は当該装置の部位に適用して得られた、一連のイベントの原因となった監視対象情報処理装置についての、種別及び識別子である。なお本欄の種別は省略しても良い。
* 原因部位情報:適用ルールIDで識別される解析ルール情報を適用部位IDで指定された監視対象情報処理装置又は当該装置の部位に適用して得られた、一連のイベントの原因となった監視対象情報処理装置の部位についての、種別及び識別子である。なお本欄の種別は省略しても良い。
* 受信イベントリスト:当該解析結果情報に示す原因を導き出した元となる一つ以上のイベントに関する情報である。なお、個々のイベントに関する情報は、イベントの発生元である監視対象情報処理装置の識別子、又は当該装置の識別子に部位の識別子を加えた識別子と、当該装置または部位の状態を含む。
* 確信度:受信イベントリストに含まれる一つ以上のイベントから原因装置情報及び/又は原因装置部位が原因箇所であることに対する確からしさを示す。なお、本実施例では確信度は0から100の値を取り、100の場合は管理サーバが得たイベントの情報から上述の原因装置情報及び部位が確実に原因箇所であることを意味し、値が小さいほど確実性が下がることを意味する。なお、当然ながら確信度は他の表現で表記してもよい。
* メッセージ:適用ルールIDで識別される解析ルール情報を適用部位IDで指定された監視対象情報処理装置又は当該装置の部位に適用して得られた原因装置及び原因部位を表示するためのメッセージである。
(Step B)管理プログラム105は、Step Aで選択した個々の集合に対する処理として、解析ルール情報104の条件セットの条件を満たす、前述の装置集合が発生元のイベントをイベント管理情報106を参照することで選択する。
* 受信イベントリスト:Step Bで選択したイベントの各々について、発生元装置ID及び発生元部位ID及び状態を格納する。なお、イベントを識別する情報としてイベント管理情報のイベントIDを上記値と共に格納してもよい。
* 適用ルールID:Step Aの選択に用いた解析ルール情報に格納されたルール識別情報を格納する。
* 適用部位ID:Step Aで選択した装置集合であって、解析ルール情報104の条件パートの原因箇所情報に記載の装置及び部位の識別子を格納する。
* 原因装置情報及び原因部位情報:Step Aで選択した装置集合であって、解析ルール情報104の条件パートの原因箇所情報に記載の装置及び部位の識別子を格納する。
* メッセージ:Step Aの選択に用いた解析ルール情報に格納された結論詳細情報104−32のテキスト文に原因装置情報及び原因部位情報の情報を追加したテキスト文。なお、本項目はテキスト形式以外の情報であってもよい。
* 確信度: 解析結果情報102の受信イベントリストに格納した情報と、解析ルール情報104の条件セットの条件に基いて計算された確信度を格納する。計算方法の一例としては、受信イベントリストが示すイベントの個数を、前述の条件セットの条件の個数で割った値に100を掛ける方法がある。しかし、他の方法で計算してもよい。
図8乃至図11は、解析結果情報102の例を示したものである。
<2.5.集約解析結果情報>
図12は、集約した解析結果を画面表示するための表示用情報である集約解析結果情報T1を示したものである。
(A)装置集約:同じ原因装置であることを示す解析結果情報を1つに集約する。当該集約の場合、管理プログラム105は複数の解析結果情報のそれぞれに記載の受信イベントリストをまとめて表示し、かつ集約対象の複数の解析結果情報の確信度の最高値を表示することで、管理者はより多くのイベントが同一の原因装置の障害によって発生したことが容易に理解できるようになる。なお、個々の解析ルールに対して確信度を含む解析結果を表示する場合は、集約対象の複数の解析結果情報の中でもっとも高い値を採用し、集約対象の他の解析結果情報の確信度も当該高い値に修正する。
(B)部位集約:同じ原因部位であることを示す解析結果情報を1つに集約する。当該集約の場合、管理プログラム105は複数の解析結果情報に記載の受信イベントリストをまとめて表示し、かつ集約対象の複数の解析結果情報の確信度の最高値を表示することで、管理者はより多くのイベントが同一の原因装置の障害によって発生したことが容易に理解できるようになる。なお、個々の解析ルールに対して確信度を含む解析結果を表示する場合は、確信度は集約対象の複数の解析結果情報の中でもっとも高い値を採用し、集約対象の他の解析結果情報の確信度も当該高い値に修正する。
図25は、ディスプレイ装置D2に表示させる画面表示データの構成について示したものである。画面表示データは、大きくわけて、集約解析結果D21と、集約元解析結果D22と、集約解析トポロジ表示D23から成る。集約解析結果D21は、集約した解析結果の要約を表示する領域であり、集約した結果としての障害の原因に関する情報を表示する。このため、集約した解析メッセージとして、障害の原因箇所に言及した集約解析メッセージD211と、集約解析した結果に対する確からしさを示す確信度D212から成る。なお、集約元解析結果D22と、集約トポロジ表示D23は必ずしも必須の表示データではない。ITシステムを管理する管理者の都合にあわせて、表示の有無を決定すべきものである。ただし、集約された解析結果の生データである解析結果情報が何であるのかを把握したい場合には、集約元解析結果D22のような表示は有効である。
管理プログラム105は、監視対象情報処理装置の状態を管理するプログラムである。管理プログラム105は、これまで示した処理及び以後説明する処理に加えて、監視対象情報処理装置の状態(例えば、障害発生の有無や、当該装置で行われた設定変更の有無や、性能に関する状態等がある)を管理し、ディスプレイ装置D2で表示する。そのため、当該管理プログラム105は例えば以下を行う。
(A)ネットワークインタフェース13を介して監視対象情報処理装置から管理情報(例えば、障害発生の有無や、当該装置の設定情報や、性能情報等がある)を受信する。
(B)受信した管理情報に基づいて上記状態を判断し、ディスプレイ装置D2へ表示させる。
次に、管理サーバ1が有する管理プログラム105について説明する。
以下に、管理サーバ1が、ある時間の解析結果情報を取得し、ルール毎に出力された解析結果情報を、(A)装置集約、(B)部位集約、(C)上位集約、(D)排他選択、(E)包含集約、の5つの集約方法で解析結果が集約して絞りこまれて画面に表示されるまでの処理について示す。
* 集約種別:装置集約を示す値を格納する。
* 集約確信度:ステップS7の該当行の関連解析IDリストが示す複数の解析結果情報のうち、最も高い値を格納する。
* 原因箇所リスト:ステップS7の該当行の原因装置情報を格納する。
* 解析結果リスト:ステップS7の該当行の関連解析IDを格納する。
* 集約種別:部位集約を示す値を格納する。
* 集約確信度:ステップS8の該当行の関連解析IDリストが示す複数の解析結果情報のうち、最も高い値を格納する。
* 原因箇所リスト:ステップS8の該当行の原因装置情報及び原因箇所情報を格納する。
* 解析結果リスト:ステップS8の該当行の関連解析IDリストを格納する。
(ステップS1609)管理プログラム105は、テーブルT4に基いて、集約種別が排他選択又は上位集約又は包含集約が適用できる解析ルールに対して集約解析結果情報T1を作成・更新する。なお、本処理は後ほど詳細を示す。
(ステップS1610)管理プログラム105は、集約解析結果情報T1と、イベント管理情報106と、解析ルール情報104と、管理対象構成情報103と、解析結果情報102と、を用いて、集約解析結果をディスプレイ装置D1に画面描画・出力する。ここで、どのようなデータを元に図25に示す集約解析結果の画面表示の画面構成を表示するのかについては、後述の画面出力処理手順にて説明する。
以下に上述の処理で用いたテーブルT2乃至テーブルT4について説明する。
図13は、テーブルT2を示した図である。テーブルT2は原因装置カラムC201に記載の原因装置毎に、当該装置が原因装置である解析結果情報102の識別子をカラムC202に格納する。なおテーブルT2は、プログラム実行中に作成し、集約解析結果情報T1を生成後に消去してもよい。
図14は、テーブルT3を示した図である。テーブルT3は原因装置・原因部位情報カラムC301に記載の原因装置及び部位毎に、当該装置の部位が原因部位である解析結果情報102の識別子をカラムC303に格納する。なおテーブルT2は、プログラム実行中に作成し、集約解析結果情報T1を生成後に消去してもよい。
図15は、テーブルT4を示した図である。テーブルT4は解析結果情報毎に、解析結果情報記載の原因を確信度100で得るために受信が必要なイベントのリスト(適用条件リストC402)と、解析結果情報の確信度を計算した時点で用いた(または受信した)イベントのリスト(受信イベントリストC403)と、を格納する。なおテーブルT4は、プログラム実行中に作成し、集約解析結果情報T1を生成後に消去してもよい。
次に、装置集約および部位集約のためのテーブルT2及びT3の作成処理について説明する。図17は、図16のステップS1604の詳細を示したフローである。
次に、上位集約、排他選択、及び包含集約のためのテーブルT4の作成処理について説明する。図18は、図16のステップS1605の詳細を示したフローである。
* 解析ID C401:S1601選択解析結果情報の解析IDを格納する。
* 適用条件リストC402:S1601選択解析結果情報の適用部位IDが示す監視対象装置又は部位に対して、適用ルールIDが示す解析ルール情報の条件を適用して得た監視対象装置及び部位と条件の集合を格納する。
* 受信イベントリストC403:S1601選択解析結果情報の受信イベントリストの値を格納する。
次に、図16におけるステップS1609の、上位集約、排他選択、及び包含集約に対する集約処理手順を詳細化した図19について説明する。
* 集約確信度:図20のステップS2000で得た共通の条件のみで評価した確信度を格納する。
* 原因箇所リスト:原因装置情報と原因部位情報を組み合わせた原因箇所情報を取得した二つの解析結果情報102それぞれに対して求めた後に求めた情報を加えたリストを格納する。
* 解析結果リストには、S1901対象T4行の解析IDと、S1902対象T4行の解析IDとを格納する。
* 集約確信度:ステップS2201の高い確信度を持つ解析結果情報102の確信度を格納する。
* 原因箇所リスト:ステップS2201の高い確信度を持つ解析結果情報102の原因装置情報、原因部位情報を組み合わせた原因箇所情報を格納する。
* 解析結果リスト:高い確信度を持つ解析結果情報の解析IDを先に格納し、次に高い確信度ではなかったS1901対象T4行又はS1902対象T4行どちらかの解析IDを格納する。
* 集約確信度:ステップS2304で取得した解析結果情報102の確信度を格納する。
* 原因箇所リスト:ステップS2304で取得した解析結果情報102の原因装置情報、原因部位情報を組み合わせた原因箇所情報を格納する。
* 解析結果リスト:ステップS2304で取得した解析結果情報102の解析IDを先に格納し、次にもう一つの解析結果情報102の解析IDを格納する。
次に作成されたT4の集約解析結果情報により、どのように画面表示されるのかの処理について詳細化した図24について説明する。なお、本処理は図16の解析から表示までの一連の処理の一環として行うほか、管理サーバ1の管理者からの画面表示要求にもとづいて処理を開始してもよい。以下、フローの説明を行う。
(ステップS94)管理プログラム105は、ステップS93で取得した表示データを元に確信度D212の画面を描画する。
(ステップS95)管理プログラム105は、集約解析結果情報T1の解析情報リストから、集約元解析結果D22の表示データを取得する。
(ステップS96)管理プログラム105は、ステップS95で取得した表示データを元に集約元解析結果D22の画面を描画する。
(ステップS97)管理プログラム105は、集約解析結果情報T1の解析結果リストから解析IDを取得し、解析IDから解析結果情報102を取得して、関連する装置情報を管理装置構成情報103から取得して、トポロジ表示データを作成する。
(ステップS98)管理プログラム105は、ステップS97で作成したトポロジ表示データを元に集約解析トポロジ画面を描画する。
(A)前記メモリは、前記原因装置の原因を示す原因情報と、前記原因装置を十分条件で特定するための前記情報処理装置に関する一つ以上の状態条件と、前記原因情報の確からしさを表す確信度と、前記一つ以上の状態条件の一部または全てを満たす一つ以上の検知済み状態と、を含み、前記解析ルール情報に基いて生成された解析結果情報を複数格納し、
(B)前記プロセッサは、前記解析結果情報に含まれる前記原因情報又は前記一つ以上の状態条件又は前記一つ以上の検知済み状態に基いて、複数の前記解析結果情報から集約対象とする複数の解析結果情報を選択し、
(C)前記プロセッサは、前記集約対象とする複数の解析結果情報に含まれる前記原因情報に基いて、集約後の原因情報を生成し、
(D)前記プロセッサは、前記集約対象とする複数の解析結果情報に含まれる前記確信度に基いて、集約後の確信度を計算し、
(E) 前記ディスプレイ装置は、前記集約後の原因情報と、前記集約後の確信度を表示することも説明した。
10・・・メモリ
11・・・プロセッサ
13・・・ネットワークI/F
Claims (14)
- 情報処理装置を複数管理する管理システムであって、
前記情報処理装置から管理情報を受信するネットワークインタフェースと、
前記管理情報に基づいて前記情報処理装置の状態を判断するプロセッサと、
前記情報処理装置の状態情報と、前記状態が発生した原因である原因装置を特定するための複数の解析ルール情報と、管理対象である前記複数の情報処理装置の構成情報とを格納するメモリと、
前記情報処理装置の状態を表示するディスプレイ装置と、
を有し、
前記メモリは、前記解析ルール情報に基いて生成された、前記原因装置の原因を示す原因情報と、前記原因装置を十分条件で特定するための前記情報処理装置に関するトポロジ条件を含む一つ以上の状態条件と、前記原因情報の確からしさを表す確信度と、前記一つ以上の状態条件の一部または全てを満たす一つ以上の検知済み状態と、を含む解析結果情報を複数格納し、
前記プロセッサは、前記解析結果情報に含まれる前記原因情報又は前記一つ以上の状態条件又は前記一つ以上の検知済み状態に基いて、集約の方法である集約種別を決定し、複数の前記解析結果情報から集約対象とする複数の解析結果情報を選択し、
前記プロセッサは、前記集約対象とする複数の解析結果情報について、前記集約種別に従って集約し、前記集約種別ごとに集約後の原因情報を生成し、
前記プロセッサは、前記集約対象とする複数の解析結果情報に含まれる前記確信度に基いて、前記集約種別ごとに、前記複数の解析結果情報を集約した結果として通知されるべき集約後の確信度を計算し、
前記プロセッサは、前記ディスプレイ装置に、前記集約後の原因情報と、前記集約後の確信度と、前記複数の解析結果情報に関する集約トポロジ情報とを表示させる、
ことを特徴とする管理システム。 - 請求項1の管理システムであって、
前記情報処理装置の状態は、前記情報処理装置の論理的又は物理的な構成物である部位の状態、又は前記情報処理装置の装置としての状態であって、
前記原因情報は、前記部位に関する情報又は前記情報処理装置の装置としての情報である、
ことを特徴とする管理システム。 - 請求項2記載の管理システムであって、
前記集約種別は、前記原因情報が示す原因装置又は原因部位が共通する解析結果情報を、前記原因装置又は原因部位単位で集約する方法を含み、
前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
前記プロセッサは、
確からしさがより高いことを示す、前記第一の集約対象解析結果情報の確信度又は前記第二の集約対象解析結果情報の確信度のいずれかを前記集約後の確信度として計算し、
さらに、前記複数の解析結果情報それぞれに含まれる検知済み状態を集約して前記ディスプレイ装置に表示させる
ことを特徴とする管理システム。 - 請求項2記載の管理システムであって、
前記集約種別は、同一の前記情報処理装置または前記部位に対して前記解析ルール情報を適用することで生成された複数の解析結果情報を集約して、解析結果情報を排他的に選択する方法を含み、
前記集約対象とする複数の解析結果情報は、第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
前記第一の集約対象解析結果情報の一つ以上の状態条件と、前記第二の集約対象解析結果情報の一つ以上の状態条件とは、共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、
前記プロセッサは、
前記第一の集約対象解析結果情報の一つ以上の検知済み状態が、前記第一の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記第一の集約対象解析結果情報の確信度を前記集約後の確信度とし、前記第一の集約対象解析結果情報の原因情報に基く情報を前記集約後の原因情報として前記ディスプレイ装置に表示させ、
前記第二の集約対象解析結果情報の一つ以上の検知済み状態が、前記第二の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記第二の集約対象解析結果情報の確信度を前記集約後の確信度とし、前記第二の集約対象解析結果情報の原因情報に基く情報を前記集約後の原因情報として前記ディスプレイ装置に表示させ、
前記複数の解析結果情報のうち、前記集約後の原因情報としない解析結果情報は、前記情報処理装置の前記状態の監視上不要な情報であると前記ディスプレイ装置に表示させる、
ことを特徴とする管理システム。 - 請求項2記載の管理システムであって、
前記集約種別は、同一の前記情報処理装置または前記部位に対して前記解析ルール情報を適用することで生成された前記複数の解析結果情報を集約する方法を含み、
前記集約対象とする複数の解析結果情報は、第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
前記第一の集約対象解析結果情報の一つ以上の状態条件と、前記第二の集約対象解析結果情報の一つ以上の状態条件とは、共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、
前記プロセッサは、前記第一の集約対象解析結果情報の一つ以上の検知済み状態及び前記第二の集約対象解析結果情報の一つ以上の検知済み状態が、前記差異条件に含まれる前記第一の集約対象解析結果情報の一つ以上の状態条件又は前記差異条件に含まれる前記第二の集約対象解析結果情報の一つ以上の状態条件を満たさない場合、前記第一の集約対象解析結果情報の確信度と前記第二の集約対象解析結果情報の確信度の和を前記集約後の確信度とし、前記第一の集約対象解析結果情報の原因情報と前記第二の集約対象解析結果情報の原因情報とに基く情報を前記集約後の原因情報として前記ディスプレイ装置に表示させる、
ことを特徴とする管理システム。 - 請求項2記載の管理システムであって、
前記集約種別は、前記複数の解析結果情報のうちの第一の解析結果情報に含まれる複数の状態条件のうちの一つ以上の状態条件が、前記複数の解析結果情報のうちの第二の解析結果情報に含まれる状態条件の全てと、他の状態条件とで構成される場合に、前記第一及び第二の解析結果情報を集約する方法を含み、
前記プロセッサは、
前記第一の集約対象解析結果情報の一つ以上の検知済み状態が前記他の状態条件を満たす場合、前記第一の集約対象解析結果情報の確信度を前記集約後の確信度とし、前記第一の集約対象解析結果情報の原因情報に基く情報を前記集約後の原因情報として前記ディスプレイ装置に表示させ、
前記第一の集約対象解析結果情報の一つ以上の検知済み状態が前記他の状態条件のいずれも満たさない場合、前記第二の集約対象解析結果情報の確信度を前記集約後の確信度とし、前記第二の集約対象解析結果情報の原因情報に基く情報を前記集約後の原因情報として前記ディスプレイ装置に表示させる、
ことを特徴とする管理システム。 - 請求項4記載の管理システムであって、
前記プロセッサは、前記ディスプレイ装置に前記第二の集約対象解析結果情報の原因情報を表示させる場合、対応する確信度として前記集約後の確信度を表示させる、
ことを特徴とする管理システム。 - 情報処理装置を複数管理する管理システムの管理方法であって、
前記情報処理装置から管理情報を受信し、
前記管理情報に基づいて前記情報処理装置の状態を判断し、
前記情報処理装置の状態情報を前記管理システムが有するメモリに格納し、
前記状態が発生した原因である原因装置を特定するための複数の解析ルール情報と、管理対象である前記複数の情報処理装置の構成情報とをメモリに格納し、
前記解析ルール情報に基き、前記原因装置の原因を示す原因情報と、前記原因装置を十分条件で特定するための前記情報処理装置に関するトポロジ条件を含む一つ以上の状態条件と、前記原因情報の確からしさを表す確信度と、前記一つ以上の状態条件の一部または全てを満たす一つ以上の検知済み状態と、を含む解析結果情報を複数生成し、
前記解析結果情報に含まれる前記原因情報又は前記一つ以上の状態条件又は前記一つ以上の検知済み状態に基いて、集約の方法である集約種別を決定し、複数の前記解析結果情報から集約対象とする複数の解析結果情報を選択し、
前記集約対象とする複数の解析結果情報について、前記集約種別に従って集約し、前記集約種別ごとに集約後の原因情報を生成し、
前記集約対象とする複数の解析結果情報に含まれる前記確信度に基いて、前記集約種別ごとに、前記複数の解析結果情報を集約した結果として通知されるべき集約後の確信度を計算し、
前記集約後の原因情報と、前記集約後の確信度と、前記複数の解析結果情報に関する集約トポロジ情報とを表示する、
ことを特徴とする管理方法。 - 請求項8の管理方法であって、
前記情報処理装置の状態は、前記情報処理装置の論理的又は物理的な構成物である部位の状態、又は前記情報処理装置の装置としての状態であって、
前記原因情報は、前記部位に関する情報又は前記情報処理装置の装置としての情報である、
ことを特徴とする管理方法。 - 請求項9記載の管理方法であって、
前記集約種別は、前記原因情報が示す原因装置又は原因部位が共通する解析結果情報を、前記原因装置又は原因部位単位で集約する方法を含み、
前記集約対象とする複数の解析結果情報は、第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
確からしさがより高いことを示す、前記第一の集約対象解析結果情報の確信度又は前記第二の集約対象解析結果情報の確信度のいずれかを前記集約後の確信度として計算し、
さらに、前記複数の解析結果情報それぞれに含まれる検知済み状態を集約して表示する
ことを特徴とする管理方法。 - 請求項9記載の管理方法であって、
前記集約種別は、同一の前記情報処理装置または前記部位に対して前記解析ルール情報を適用することで生成された複数の解析結果情報を集約して、解析結果情報を排他的に選択する方法を含み、
前記集約対象とする複数の解析結果情報は、第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
前記第一の集約対象解析結果情報の一つ以上の状態条件と、前記第二の集約対象解析結果情報の一つ以上の状態条件とは、共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、
前記第一の集約対象解析結果情報の一つ以上の検知済み状態が、前記第一の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記第一の集約対象解析結果情報の確信度を前記集約後の確信度とし、前記第一の集約対象解析結果情報の原因情報に基く情報を、前記集約後の原因情報として表示し、
前記第二の集約対象解析結果情報の一つ以上の検知済み状態が、前記第二の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記第二の集約対象解析結果情報の確信度を前記集約後の確信度とし、前記第二の集約対象解析結果情報の原因情報に基く情報を前記集約後の原因情報として表示し、
前記複数の解析結果情報のうち、前記集約後の原因情報としない解析結果情報は、前記情報処理装置の前記状態の監視上不要な情報であると表示する
ことを特徴とする管理方法。 - 請求項9記載の管理方法であって、
前記集約種別は、同一の情報処理装置または前記部位に対して前記解析ルール情報を適用することで生成された前記複数の解析結果情報を集約する方法を含み、
前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
前記第一の集約対象解析結果情報の一つ以上の状態条件と前記第二の集約対象解析結果情報の一つ以上の状態条件とは、共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、
前記第一の集約対象解析結果情報の一つ以上の検知済み状態及び前記第二の集約対象解析結果情報の一つ以上の検知済み状態が、前記差異条件に含まれる前記第一の集約対象解析結果情報の一つ以上の状態条件又は前記差異条件に含まれる前記第二の集約対象解析結果情報の一つ以上の状態条件を満たさない場合、前記第一の集約対象解析結果情報の確信度と前記第二の集約対象解析結果情報の確信度の和を前記集約後の確信度とし、前記第一の集約対象解析結果情報の原因情報と前記第二の集約対象解析結果情報の原因情報とに基く情報を前記集約後の原因情報として表示する、
ことを特徴とする管理方法。 - 請求項9記載の管理方法であって、
前記集約種別は、前記複数の解析結果情報のうちの第一の解析結果情報に含まれる複数の状態条件のうちの一つ以上の状態条件が、前記複数の解析結果情報のうちの第二の解析結果情報に含まれる状態条件の全てと、他の状態条件とで構成される場合に、前記第一及び第二の解析結果情報を集約する方法を含み、
前記第一の集約対象解析結果情報の一つ以上の検知済み状態が前記前記他の状態条件を満たす場合、前記第一の集約対象解析結果情報の確信度を前記集約後の確信度とし、前記第一の集約対象解析結果情報の原因情報に基く情報を前記集約後の原因情報として表示し、
前記第一の集約対象解析結果情報の一つ以上の検知済み状態が前記他の状態条件のいずれも満たさない場合、前記第二の集約対象解析結果情報の確信度を前記集約後の確信度とし、前記第二の集約対象解析結果情報の原因情報に基く情報を前記集約後の原因情報として表示する、
ことを特徴とする管理方法。 - 請求項11記載の管理方法であって、
前記第二の集約対象解析結果情報の原因情報を表示する場合、対応する確信度として前記集約後の確信度を表示する、
ことを特徴とする管理方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009225859A JP5542398B2 (ja) | 2009-09-30 | 2009-09-30 | 障害の根本原因解析結果表示方法、装置、及びシステム |
EP09850016.8A EP2485148A4 (en) | 2009-09-30 | 2009-10-22 | Method, device and system for displaying analysis result of essential cause analysis of failure |
CN200980159268.7A CN102428447B (zh) | 2009-09-30 | 2009-10-22 | 故障的根本原因解析结果显示方法、装置以及系统 |
US12/664,382 US8423826B2 (en) | 2009-09-30 | 2009-10-22 | Method, apparatus and system for displaying result of failure root cause analysis |
PCT/JP2009/005560 WO2011039825A1 (ja) | 2009-09-30 | 2009-10-22 | 障害の根本原因解析結果表示方法、装置、及びシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009225859A JP5542398B2 (ja) | 2009-09-30 | 2009-09-30 | 障害の根本原因解析結果表示方法、装置、及びシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011076293A JP2011076293A (ja) | 2011-04-14 |
JP5542398B2 true JP5542398B2 (ja) | 2014-07-09 |
Family
ID=43825682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009225859A Expired - Fee Related JP5542398B2 (ja) | 2009-09-30 | 2009-09-30 | 障害の根本原因解析結果表示方法、装置、及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8423826B2 (ja) |
EP (1) | EP2485148A4 (ja) |
JP (1) | JP5542398B2 (ja) |
CN (1) | CN102428447B (ja) |
WO (1) | WO2011039825A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8156387B2 (en) * | 2003-12-19 | 2012-04-10 | Pitney Bowes Inc. | Method and system for error manipulation |
US8112378B2 (en) | 2008-06-17 | 2012-02-07 | Hitachi, Ltd. | Methods and systems for performing root cause analysis |
US8429455B2 (en) * | 2010-07-16 | 2013-04-23 | Hitachi, Ltd. | Computer system management method and management system |
JP5165132B1 (ja) * | 2012-05-31 | 2013-03-21 | 株式会社 ディー・エヌ・エー | ゲーム管理サーバ装置、ゲーム管理サーバ装置用プログラム、および、端末装置用プログラム |
WO2014013603A1 (ja) | 2012-07-20 | 2014-01-23 | 株式会社日立製作所 | 監視システム及び監視プログラム |
US10274946B2 (en) * | 2012-12-12 | 2019-04-30 | Mitsubishi Electric Corporation | Monitoring control apparatus and monitoring control method |
US20140282426A1 (en) * | 2013-03-12 | 2014-09-18 | Microsoft Corporation | Divide and conquer approach to scenario timeline activity attribution |
CN103440174B (zh) * | 2013-08-02 | 2016-05-25 | 杭州华为数字技术有限公司 | 一种错误信息处理方法、装置及应用该装置的电子设备 |
US9244808B2 (en) * | 2013-09-27 | 2016-01-26 | International Business Machines Corporation | Pattern oriented data collection and analysis |
JP6413537B2 (ja) | 2013-10-23 | 2018-10-31 | 富士通株式会社 | 障害予兆通報装置および予兆通報方法、予兆通報プログラム |
WO2015079564A1 (ja) * | 2013-11-29 | 2015-06-04 | 株式会社日立製作所 | イベントの根本原因の解析を支援する管理システム及び方法 |
US10437510B2 (en) * | 2015-02-03 | 2019-10-08 | Netapp Inc. | Monitoring storage cluster elements |
US20170147931A1 (en) * | 2015-11-24 | 2017-05-25 | Hitachi, Ltd. | Method and system for verifying rules of a root cause analysis system in cloud environment |
JP6838234B2 (ja) * | 2017-03-24 | 2021-03-03 | 日立Astemo株式会社 | 車両制御装置 |
US11442773B2 (en) * | 2017-03-29 | 2022-09-13 | Kyocera Corporation | Equipment management method, equipment management apparatus and equipment management system |
CN110502404B (zh) * | 2019-07-22 | 2022-05-31 | 平安科技(深圳)有限公司 | 一种基于数据治理平台的预警处理方法及相关设备 |
WO2024257278A1 (ja) * | 2023-06-14 | 2024-12-19 | 日本電信電話株式会社 | ルール生成装置、ルール生成方法、及びプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05114899A (ja) * | 1991-10-22 | 1993-05-07 | Hitachi Ltd | ネツトワーク障害診断方式 |
US5528516A (en) * | 1994-05-25 | 1996-06-18 | System Management Arts, Inc. | Apparatus and method for event correlation and problem reporting |
US5539877A (en) * | 1994-06-27 | 1996-07-23 | International Business Machine Corporation | Problem determination method for local area network systems |
JPH09160849A (ja) * | 1995-12-04 | 1997-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 自律エージェント制御による通信ネットワーク障害管理システム |
US5737520A (en) * | 1996-09-03 | 1998-04-07 | Hewlett-Packard Co. | Method and apparatus for correlating logic analyzer state capture data with associated application data structures |
US7043661B2 (en) * | 2000-10-19 | 2006-05-09 | Tti-Team Telecom International Ltd. | Topology-based reasoning apparatus for root-cause analysis of network faults |
US6738933B2 (en) * | 2001-05-09 | 2004-05-18 | Mercury Interactive Corporation | Root cause analysis of server system performance degradations |
EP1405187B1 (en) * | 2001-07-06 | 2019-04-10 | CA, Inc. | Method and system for correlating and determining root causes of system and enterprise events |
JP2003333084A (ja) * | 2002-05-09 | 2003-11-21 | Matsushita Electric Ind Co Ltd | パケットフィルタリングルール設定方法 |
CN100456687C (zh) * | 2003-09-29 | 2009-01-28 | 华为技术有限公司 | 网络故障实时相关性分析方法及系统 |
US7552447B2 (en) * | 2004-05-26 | 2009-06-23 | International Business Machines Corporation | System and method for using root cause analysis to generate a representation of resource dependencies |
US7203624B2 (en) * | 2004-11-23 | 2007-04-10 | Dba Infopower, Inc. | Real-time database performance and availability change root cause analysis method and system |
JP4239989B2 (ja) * | 2005-03-07 | 2009-03-18 | 日本電気株式会社 | 障害復旧システム、障害復旧装置、ルール作成方法、および障害復旧プログラム |
US7406271B2 (en) * | 2005-05-24 | 2008-07-29 | Xerox Corporation | Contextual fault handling method and apparatus in a printing system |
JP4527642B2 (ja) * | 2005-09-29 | 2010-08-18 | 富士通株式会社 | ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム |
JP4873985B2 (ja) * | 2006-04-24 | 2012-02-08 | 三菱電機株式会社 | 設備機器用故障診断装置 |
WO2008149975A1 (ja) * | 2007-06-06 | 2008-12-11 | Nec Corporation | 通信網の障害原因分析システムと障害原因分析方法、及び障害原因分析用プログラム |
WO2010109673A1 (ja) * | 2009-03-24 | 2010-09-30 | 株式会社日立製作所 | 管理システム及び情報処理システム |
US20110145269A1 (en) * | 2009-12-09 | 2011-06-16 | Renew Data Corp. | System and method for quickly determining a subset of irrelevant data from large data content |
US20110314138A1 (en) * | 2010-06-21 | 2011-12-22 | Hitachi, Ltd. | Method and apparatus for cause analysis configuration change |
-
2009
- 2009-09-30 JP JP2009225859A patent/JP5542398B2/ja not_active Expired - Fee Related
- 2009-10-22 CN CN200980159268.7A patent/CN102428447B/zh not_active Expired - Fee Related
- 2009-10-22 US US12/664,382 patent/US8423826B2/en not_active Expired - Fee Related
- 2009-10-22 WO PCT/JP2009/005560 patent/WO2011039825A1/ja active Application Filing
- 2009-10-22 EP EP09850016.8A patent/EP2485148A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JP2011076293A (ja) | 2011-04-14 |
US8423826B2 (en) | 2013-04-16 |
US20110209010A1 (en) | 2011-08-25 |
WO2011039825A1 (ja) | 2011-04-07 |
EP2485148A1 (en) | 2012-08-08 |
EP2485148A4 (en) | 2017-06-21 |
CN102428447A (zh) | 2012-04-25 |
CN102428447B (zh) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5542398B2 (ja) | 障害の根本原因解析結果表示方法、装置、及びシステム | |
US11868237B2 (en) | Intelligent services for application dependency discovery, reporting, and management tool | |
US11614943B2 (en) | Determining problem dependencies in application dependency discovery, reporting, and management tool | |
US12079668B2 (en) | Dependency analyzer in application dependency discovery, reporting, and management tool | |
US11379292B2 (en) | Baseline modeling for application dependency discovery, reporting, and management tool | |
US12099438B2 (en) | Testing agent for application dependency discovery, reporting, and management tool | |
US11620211B2 (en) | Discovery crawler for application dependency discovery, reporting, and management tool | |
US12164416B2 (en) | Intelligent services and training agent for application dependency discovery, reporting, and management tool | |
CN104903866B (zh) | 对事件根本原因的分析予以支援的管理系统以及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130806 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140507 |
|
LAPS | Cancellation because of no payment of annual fees |