JP7032251B2 - 障害影響範囲の推論装置、障害原因の推論装置、障害影響範囲の推論方法、障害原因の推論方法、及びプログラム - Google Patents
障害影響範囲の推論装置、障害原因の推論装置、障害影響範囲の推論方法、障害原因の推論方法、及びプログラム Download PDFInfo
- Publication number
- JP7032251B2 JP7032251B2 JP2018123350A JP2018123350A JP7032251B2 JP 7032251 B2 JP7032251 B2 JP 7032251B2 JP 2018123350 A JP2018123350 A JP 2018123350A JP 2018123350 A JP2018123350 A JP 2018123350A JP 7032251 B2 JP7032251 B2 JP 7032251B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- state
- cause
- dependency
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Description
また、本発明は、上記第2の課題を解決するために、障害原因の自動的な絞り込みが可能である障害原因の推論装置、障害原因の推論方法、及びプログラムを提供することも目的とする。
ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールが設定される設定手段と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手段と、
前記要素についての故障情報が入力されたときに、保管されている前記依存関係ルールから状態に影響がある前記要素を選び出し、選び出された前記要素に基づいて前記状態伝搬ルールを検出し、前記故障情報で影響を受ける前記要素の範囲を推定する範囲推定手段と、
を備える。
ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールを設定する設定手順と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手順と、
前記要素についての故障情報が入力されたときに、保管されている前記依存関係ルールから状態に影響がある前記要素を選び出し、選び出された前記要素に基づいて前記状態伝搬ルールを検出し、前記故障情報で影響を受ける前記要素の範囲を推定する範囲推定手順と、
を行う。
ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールが設定される設定手段と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手段と、
前記ネットワークについての障害状況が入力されたときに、保管されている前記依存関係ルールから前記障害状況に関連する1又は複数の前記要素を選び出すとともに、選び出された前記要素が取り得る1又は複数の状態を検索し、選び出された前記要素と検索した前記状態に基づいて前記状態伝搬ルールを検出し、前記障害状況の原因となる前記要素と該要素の状態のリストを推定する原因推定を行う原因推定手段と、
を備える。
ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールを設定する設定手順と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手順と、
前記ネットワークについての障害状況が入力されたときに、保管されている前記依存関係ルールから前記障害状況に関連する1又は複数の前記要素を選び出すとともに、選び出された前記要素が取り得る1又は複数の状態を検索し、選び出された前記要素と検索した前記状態に基づいて前記状態伝搬ルールを検出し、前記障害状況の原因となる前記要素と該要素の状態のリストを推定する原因推定手順と、
を行う。
また、本発明は、障害原因の自動的な絞り込みが可能である障害原因の推論装置、障害原因の推論方法、及びプログラムを提供することもできる。
ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールが設定される設定手段と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手段と、
前記要素についての故障情報が入力されたときに、保管されている前記依存関係ルールから状態に影響がある前記要素を選び出し、選び出された前記要素に基づいて前記状態伝搬ルールを検出し、前記故障情報で影響を受ける前記要素の範囲を推定する範囲推定手段、又は/及び
前記ネットワークについての障害状況が入力されたときに、保管されている前記依存関係ルールから前記障害状況に関連する1又は複数の前記要素を選び出すとともに、選び出された前記要素が取り得る1又は複数の状態を検索し、選び出された前記要素と検索した前記状態に基づいて前記状態伝搬ルールを検出し、前記障害状況の原因となる前記要素と該要素の状態のリストを推定する原因推定を行う原因推定手段と、
を備えることを特徴とする。
なお、上記の「要素」とは、ネットワークを構成するノード、インターフェース、リンク、経路、サブネット、サービス等を意味する。
図1に本推論装置のブロック図を示す。ネットワーク構成情報収集モジュール11はネットワークの構成情報を自動的に収集し、これをネットワークオントロジBonsaiに基づくインスタンス表現に変換してネットワーク構成情報RDF(Resource Description Framework)ストレージに格納する。なお、ネットワーク構成情報収集モジュール11の具体例は後述する。
前記障害状況応答手段は、障害原因絞込モジュール15であり、複数の障害状況情報から推論した複数の障害原因候補から障害原因を絞り込む。
図3に本明細書で例として用いるネットワークのIPレベルの構成を示す。図4にこのネットワークのIPネットワーク構成をBonsaiに基づくインスタンスとして表した図を示す。図5にこのネットワークの物理レベルの構成を示す。図6にこのネットワークの物理ネットワーク構成をBonsaiに基づくインスタンスとして表した図を示す。図7にホスト3上で動作するwebサーバ1のネットワークサービス構成をBonsaiに基づくインスタンスとして表した図を示す。論理ネットワーク構成、オーバレイネットワーク構成および運用ネットワーク構成に関するインスタンス図は省略する。
依存関係ルールは、互いの状態に影響を及ぼす(依存関係にある)2つの要素を記載したものである。例えば、図18に示すSPIN依存関係ルールは、物理インタフェースが物理ノードに接続している場合、物理ノードの状態が物理インタフェースの状態に影響を与えることを示している。図19に示すSPIN依存関係ルールは、物理リンクが物理インタフェースに接続している場合、物理インタフェースの状態が物理リンクの状態に影響を与えることを示している。図20に示すSPIN依存関係ルールは、論理リンクが物理リンク上で動作している場合、物理リンクの状態が論理リンクの状態に影響を与えることを示している。図21に示すSPIN依存関係ルールは、IPサブネットが論理リンク上で動作している場合、論理リンクの状態がIPサブネットの状態に影響を与えることを示している。図22に示すSPIN依存関係ルールは、IP経路がIPサブネットにより構成されている場合、IPサブネットの状態がIP経路の状態に影響を与えることを示している。図23に示すSPIN依存関係ルールは、サービスがIP経路の端点となる論理ノード上で動作している場合、IP経路の状態がサービスの状態に影響を与えることを示している。
図1に示す本推論装置において、SPIN依存関係ストレージにはすでに図18から図23に示したSPIN依存関係ルールが格納されているとする。このとき、図8から図17に示したネットワーク構成情報がネットワーク構成情報RDFストレージ21に入力されたとする。するとSPIN推論エンジン12は入力されたネットワーク構成情報にSPIN依存関係ルールを適用し、その結果を依存関係ルール展開ストレージ23に格納する。図8に示すインスタンス表現は、図18に示すSPIN依存関係ルールと図9に示すインスタンス表現により、図30のように書き換えられる。この例では7行目と8行目が元のインスタンス表現に追加されている。図9に示すインスタンス表現は、図19に示すSPIN依存関係ルールおよび図10と図11に示すインスタンス表現により、図31のように書き換えられる。この例では7行目が元のインスタンス表現に追加されている。図10に示すインスタンス表現は、図20に示すSPIN依存関係ルールと図12に示すインスタンスにより、図32のように書き換えられる。この例では7行目が元のインスタンス表現に追加されている。図12に示すインスタンス表現は、図21に示すSPIN依存関係ルールと図13に示すインスタンス表現により、図33のように書き換えられる。この例では8行目が元のインスタンス表現に追加されている。図13に示すインスタンス表現は、図22に示すSPIN依存関係ルールと図14に示すインスタンス表現により、図34のように書き換えられる。この例では9行目が元のインスタンス表現に追加されている。図14に示すインスタンス表現は、図23に示すSPIN依存関係ルールと図17に示すインスタンス表現により、図35のように書き換えられる。この例では7行目が元のインスタンス表現に追加されている。
本推論装置の範囲推定手段が行う動作について説明する。スイッチ3が故障した場合のネットワークサービスレベルでの影響範囲推論の手順を図36に示す。その際に使用する影響範囲推論ルールを図37に示す。
(ステップ2)影響範囲推論モジュール13はこの情報を「switch3_p - hasState -“NodeDown”」という 障害情報トリプルに変換し、依存関係ルール展開ストレージ23に送信する。
(ステップ3)依存関係ルール展開ストレージ23は一時的依存関係ルール展開ストレージ27にオントロジ更新を送信する。
(ステップ4)一時的依存関係ルール展開ストレージ27はオントロジ更新通知をSPIN推論エンジン12に送信する。
(ステップ5)SPIN推論エンジン12は追加された障害情報トリプルに基づきSPIN状態伝搬ルールを展開し、その結果として得られたトリプルを一時的依存関係ルール展開ストレージ27に追加する。SPIN推論エンジン12が追加するトリプルは以下のとおりである。
・if_s3_u_p - hasState -“IfDown”
・link_r3s2_p - hasState -“LinkDown”
・link_r3s2_l - hasState -“LinkDown”
・subnet3_i - hasState -“NetDown”
・path_h2h3 - hasState -“Unreachable”
・web1_s - hasState -“Unavailable”
(ステップ6)一時的依存関係ルール展開ストレージ27はトリプル追加通知を影響範囲推論モジュール13に送信する。
(ステップ7)影響範囲推論モジュール13は、SPIN推論エンジン12によるトリプル追加によって状態に変更があったインスタンスを得るため、状態変更インスタンス要求を一時的依存関係ルール展開ストレージ27に送信する。
(ステップ8)一時的依存関係ルール展開ストレージ27は状態に変更があったインスタンスを影響範囲推論モジュール13に送信する。状態に変更があったインスタンスは以下のとおりである。
・switch3_p - hasState -“NodeDown”
・if_s3_u_p - hasState -“IfDown”
・link_r3s2_p - hasState -“LinkDown”
・link_r3s2_l - hasState -“LinkDown”
・subnet3_i - hasState -“NetDown”
・path_h3h2 - hasState -“Unreachable”
・web1_s - hasState -“Unavailable”
(ステップ9)影響範囲推論モジュール13はステップ2で追加されたトリプルを消去するため、リセット要求を一時的依存関係ルール展開ストレージ27に送信する。
(ステップ10)一時的依存関係ルール展開ストレージ27はステップ2で追加されたトリプルを消去し、リセット応答を影響範囲推論モジュール13に送信する。
(ステップ11)この結果、ネットワークサービスレベルでの影響は「web1_s - hasState -“Unavailable”」であるので、影響範囲推論モジュール13は入出力モジュール26に「web1閲覧不能」という応答を返す。
本推論装置の原因推定手段が行う動作について説明する。ホスト2からweb1が閲覧不能である場合の障害原因推論の手順を図38に示す。このとき使用する障害推論ルールを図39から図42に示す。またこのルールで使用するFaultNodeクラスを図43に示す。
(ステップ2)障害原因推論モジュール14は、web1_sの状態に依存関係をもつインスタンスを検索するため、「? - has CausalRelationship - web1_s」という依存インスタンス要求を依存関係ルール展開ストレージ23に送信する。
(ステップ3)依存関係ルール展開ストレージ23は依存インスタンス応答として「host3_i - hasCausalRelationship - web1_s」を障害原因推論モジュール14に送信する。
(ステップ4)障害原因推論モジュール14は、host3_iが取り得る状態を得るため「host3_i - possibleStates - ?」という状態候補要求を依存関係ルール展開ストレージ23に送信する。
(ステップ5)依存関係ルール展開ストレージ23は、ネットワーク構成情報RDFストレージ21が保管する、図15に示すhost3_iのインスタンス表現に基づき、host3_iが取り得る状態として“NodeDown”を状態候補応答として障害原因推論モジュール14に送信する。
(ステップ6)障害原因推論モジュール14は、host3_iが“NodeDown”という状態になったとき、web1_sが“Unavailable”という状態になるかを確認するため、「host3_i - hasState -“NodeDown”」というトリプルを仮定トリプルとして依存関係ルール展開ストレージ23に送信する。
(ステップ7)依存関係ルール展開ストレージ23は仮定トリプルを追加し、SPIN推論エンジン12にオントロジ更新通知を送信する。
(ステップ8)SPIN推論エンジン12は追加されたトリプルに対してSPIN状態伝搬ルールを適用し、「web1_s - hasState -“Unavailable”というトリプルを得るので、これを一時的状態伝搬ストレージに追加する。
(ステップ9)一時的状態伝搬ストレージは障害原因推論モジュール14にトリプル追加通知を送信する。
(ステップ10)障害原因推論モジュール14は状態更新があったインスタンスを得るため、「? - hasState - ?」を状態更新インスタンス要求として一時的状態伝搬ストレージに送信する。
(ステップ11)一時的状態伝搬ストレージは、状態変更があったインスタンスとして以下を障害原因推論モジュール14に送信する。
・host3_i - hasState -“NodeDown”
・web1_s - hasState -“Unavailable”
(ステップ12)この結果、「host3_i - hasState -“NodeDown”」から「web1_s - hasState -“Unavailable”」に遷移可能であることが分かるため、障害原因推論モジュール14は「host3_i - hasState -“NodeDown”」が「web1_s - hasState -“Unavailable”」の原因候補であることを知る。次に障害原因推論モジュール14は、ステップ6で追加した仮定トリプルを取り消すため、リセット要求を一時的状態伝搬ストレージに送信する。
(ステップ13)一時的状態伝搬ストレージ28はステップ6からステップ8で更新した内容を消去し、リセット応答を障害原因推論モジュール14に送信する。ステップ5で複数の状態候補が返ってきた場合、それぞれの状態についてステップ6からステップ13を繰り返す。また、ステップ3で複数の依存インスタンスが返ってきた場合、それぞれのインスタンスについてステップ4からステップ13を繰り返す。以上の処理の結果、原因候補のインスタンスが確定する。この例では「host3_i - hasState -“NodeDown”」である。次に障害原因推論モジュール14は確定した原因候補インスタンス「host3_i - hasState -“NodeDown”」の原因を得るため、ステップ2に戻り、「? - hasCausalRelationship - host3_i」を依存インスタンス要求として依存関係ルール展開ストレージ23に送信する。以降、原因候補インスタンスが得られなくなるまで上記の手順を再帰的に繰り返す。
(ステップ14)以上の結果、影響範囲推論モジュール13は図44-(b)に示すフォルトツリーを得るので、これを入出力モジュール26に送信する。
本推論装置の障害状況応答手段が行う動作について説明する。ホスト2からweb1が閲覧不能であることが分かったと同時に、ホスト1からはweb1の閲覧が可能であることが分かったとする。このような情報を利用した障害原因絞り込みの手順を図45に示す。その際に使用する絞り込みルールを図46に示す。
(ステップ2)障害原因推論モジュール14は図38に示した手順でhost2からweb1が閲覧不能である原因候補を得る。
(ステップ3)結果として障害原因推論モジュール14は図44-(b)のフォルトツリーを得る。
(ステップ4)障害原因推論モジュール14はhost2のフォルトツリーを入出力モジュール26に送信する。
(ステップ5)次に入出力モジュール26は「host1からweb1が閲覧不能」という情報を原因推論モジュールに送信する。
(ステップ6)障害原因推論モジュール14は図38に示した手順でhost1からweb1が閲覧不能である原因候補を得る。
(ステップ7)結果として障害原因推論モジュール14は図44-(a)のフォルトツリーを得る。
(ステップ8)障害原因推論モジュール14はhost1のフォルトツリーを入出力モジュール26に送信する。
(ステップ9)入出力モジュール26はhost2のフォルトツリー(障害状態)とhost1のフォルトツリー(正常状態)とともに原因絞込要求を原因絞込モジュールに送信する。
(ステップ10)原因推論モジュールは障害状態のフォルトツリーと正常状態のフォルトツリーにより、以下のようにして原因を絞り込む。図44-(a)と(b)を比較すると、下線を付した行が両方に現れている。実際にはホスト1からweb1は閲覧可能であるので、ホスト1のフォルトツリーに現れているインスタンスは正常に動作している。したがって、下線を付した行はホスト2のフォルトツリーから削除することができる。その結果、図44-(c)の結果を得ることができる。太字で示した行は物理レベルでの障害原因候補を示す。原因絞込モジュールは結果を障害原因推論モジュール14に送信する。
(ステップ11)障害原因推論モジュール14は絞込後のhost2のフォルトツリーを入出力モジュール26に送信する。
ネットワーク構成情報収集モジュール11としては、例えば非特許文献4等に記載される、KANVASアーキテクチャを備えるKANVASシステムが例示できる。図47に、KANVASシステムの構成例を示す。KANVASシステムは、情報収集装置として機能するKANVAS Information Collector(KIC)30、ストレージサーバ装置として機能するKANVAS Storage Server(KSS)20、アクセスサーバ装置として機能するKANVAS Access Server(KAS)10、及びKANVAS Instance Generator(KIG)50という4つの主要なモジュールを備える。
KSS20は論理的にはAS(Autonomous System:統一された管理ポリシによって運用されているネットワークの範囲)ネットワーク44に1つ存在する。負荷分散のため物理的には複数のノードに存在してもよいが、論理的には1つであるとする。KAS10とKIC30はASネットワーク44の規模により、ASネットワーク44内に1つ設置される場合もあれば、負荷分散のため複数設置される場合もある。
図50の例では、KIG50のコントローラモジュール53は、KSSインタフェースモジュール52を介してKSS20にアクセスし、対象範囲のネットワーク構成に関する情報をデータベースから取得する。KSS20のデータベースに対象範囲のLSDBが格納されている場合、コントローラモジュール53は、ルータ#1から#5のIPアドレスが記載されたLSDBを得る。これにより、KIG50は、ルータ#1から#5のIPノード(図2に示す符号C3)を知ることができる。
図50の例では、次にKIG50のコントローラモジュール53はMIB取得モジュール54を介してルータ#1から#5にSNMPで問合せ、各ルータが持つインタフェースの情報(インタフェースの種類、IPアドレス、ネットマスクなど)を得る。たとえば、MIBで定義されているIfType,ipAdEntAddr,ipAdEntNetMaskなどのオブジェクトを参照する。これにより、KIG50は、ルータ#1から#5のIPサブネットC1、IPインタフェースC2及びIPネットワーク構成C4を得ることができる。
・サブネット#1には、ルータ#1,ルータ#2,ルータ#3が接続している。
・サブネット#2には、ルータ#2,ルータ#4,ルータ#5が接続している。
・サブネット#3には、ルータ#3が接続している。
・サブネット#4には、ルータ#4が接続している。
・サブネット#5には、ルータ#4が接続している。
・サブネット#6には、ルータ#5が接続している。
図50の例では、KIG50のコントローラモジュール53はMIB取得モジュール54を介してルータ#1から#5にSNMPで問合せ、各サブネットに接続する機器のIPアドレスとMACアドレスの対応表を得る。たとえば、MIBで定義されているipNetToMediaTableなどのオブジェクトを参照する。これにより、KIG50は、各装置のIPノードC3、論理ノードD3、物理ノードE3を得ることができる。
・サブネット#1には、ルータ#1、#2、#3、KIG50、KSS20以外に5台の機器が接続している。
・サブネット#2には、ルータ#2、#4、#5以外に2台の機器が接続している.
・サブネット#3には、ルータ#3以外に2台の機器が接続している。
・サブネット#4には、ルータ#4以外に2台の機器が接続している。
・サブネット#5には、ルータ#4以外に2台の機器が接続している。
・サブネット#6には、ルータ#5以外に4台の機器が接続している。
図50の例では、KIG50のコントローラモジュール53は、MIB取得モジュール54を介してSNMPで各ルータに問合せ、LLDPの情報を得る。たとえばLLDP-MIBで定義されているlldpRemTableなどのオブジェクトを参照する。また、スイッチのようにLayer-2機器でもIPアドレスを持つものは、その値も得る。これにより、KIG50は、接続機器として機能する物理ノードE3を得ることができる。
・サブネット#1には、スイッチSW#1が接続している。
・サブネット#2には、スイッチSW#2が接続している。
・サブネット#3には、スイッチSW#3が接続している。
・サブネット#4には、スイッチSW#4-1が接続している。
・サブネット#5には、スイッチSW#4-2が接続している。
・サブネット#6には、スイッチSW#5とアクセスポイント#1が接続している。
コントローラモジュール53は、対象範囲における経路を制御するネットワーク機器から、各ネットワーク機器が制御する下流ネットワークの情報を取得し、これを用いて前記対象範囲の論理ネットワーク構成を特定する。図50の例では、KIG50のコントローラモジュール53は、MIB取得モジュール54を介してスイッチSW#1からSW#5とアクセスポイント#1にSNMPで問合せ、各スイッチやアクセスポイント#1に接続する機器のMACアドレスを得る。たとえば、MIBで定義されているdot1dTpPortTableなどのオブジェクトを参照する。この結果とステップS103で得たMACアドレスを突き合わせることで、KIG50は、論理ノードD3、論理インタフェースD2、論理リンクD1、論理ネットワーク構成D4、物理インタフェースE2、物理リンクE1、物理ネットワーク構成E4を得ることができる。
・スイッチSW#1にはルータ#1、ルータ#2、ルータ#3、KSS20、KIG50、ホスト#1-1、ホスト#1-2、ホスト#1-3、ホスト#1-4が接続している。
・スイッチSW#2にはルータ#2、ルータ#4、ルータ#5、ホスト#2が接続している。
・スイッチSW#4-1とスイッチSW#4-2は、物理的には1台のスイッチ(スイッチSW#4)である。
・サブネット#4とサブネット#5はVLANであり、スイッチSW#4を共有している。
・スイッチSW#4にはルータ#4、ホスト#4、ホスト#5が接続している。
・スイッチSW#5にはホスト#6とアクセスポイント#1が接続している。
・アクセスポイント#1にはホスト#7が接続している。
図50の例では、KIG50のコントローラモジュール53はMIB取得モジュール54を介して各ホストにSNMPで問合せ、仮想マシン環境を実現するハイパバイザが動作しているか、また動作している場合、どのような仮想マシンが動作しているかを得る。たとえば、RFC7666で規定されるMIBで定義されているvmMIBなどのオブジェクトを利用する。この結果、KIG50は、ホスト#1-1上でホスト#1-2とホスト#1-3が仮想マシン(VM)として動作していることを知る。すなわち、図56に示すような情報を得る。
図50の例では、KIG50のコントローラモジュール53は、サービス判定モジュール55を介して、コントローラモジュール53は、対象範囲に含まれる各端末すなわち各ホストにアクセスし、対象範囲に含まれるネットワークサービス構成B3を特定する。アクセスは、例えば、ルータ#1から#5、ホスト#1-1から#7における、ネットワークサーバに対応するポートへのアクセスである。アクセスするポートはサービスに応じたポートであり、たとえば、HTTPサーバは80番ポート、SMTPサーバは25番ポート、DNSサーバは53番ポート、DHCPサーバは67番ポートとなる。具体的には、HTTPサーバやSMTPサーバのようにTCP(Transmission Control Protocol)を使用する場合は、対応するポート番号を指定してTCPコネクションの確立を試みる。
KIG50のコントローラモジュール53は、得られたネットワーク構成の情報をインスタンス生成モジュール56に渡す。インスタンス生成モジュール56は、対象範囲のネットワーク構成を予め定められた形式で表しインスタンスを生成する。
KIG50のコントローラモジュール53は、KSSインタフェースモジュール52を介して得られたインスタンス表現をKSS20に送信する。
・データモデルとしてネットワークオントロジBonsaiを用いることで障害影響範囲推論と障害原因推論の両方を可能とした。
・障害影響範囲推論においては、ネットワーク構成が決定した時点で依存関係ルールを展開するため、実行時に依存関係ルールを展開する必要がない。そのため、実行時のメモリ消費量が抑えられ、高速に実行できる。
・障害原因推論においては、依存関係にないインスタンスや症状に関係しない状態伝搬に関しては解析ルールを展開しないことで全探索を避け、大規模なシステムにも適用可能とした。
・障害原因推論において、複数の観測情報を用いた原因の絞り込みが可能である。
・障害の影響範囲推論において、ネットワーク構成情報にあらかじめ依存関係ルールを展開して保持しておくこと。
・障害原因推論において、依存関係にないインスタンスや症状に関係しない状態伝搬には解析ルールを展開しないこと。
・障害原因推論において、複数の観測情報を用いた原因の絞り込みが可能であること。
11:ネットワーク構成情報収集モジュール
12:SPIN推論エンジン
13:影響範囲推論モジュール
14:障害原因推論モジュール
15:障害原因絞込モジュール
20:KANVAS Storage Server(KSS)
21:ネットワーク構成情報RDFストレージ
22:SPIN依存関係ルールストレージ
23:依存関係ルール展開ストレージ
24:SPIN状態伝搬ルールストレージ
25:ルール入力モジュール
26:入出力モジュール
27:一時的依存関係ルール展開ストレージ
30:KANVAS Information Collector(KIC)
44:ネットワーク
50:KANVAS Instance Generator(KIG)
51:APIモジュール
52:KSSインタフェースモジュール
53:コントローラモジュール
54:MIB取得モジュール
55:サービス判定モジュール
56:インスタンス生成モジュール
Claims (8)
- ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールが設定される設定手段と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手段と、
前記要素についての故障情報が入力されたときに、保管されている前記依存関係ルールから状態に影響がある前記要素を選び出し、選び出された前記要素に基づいて前記状態伝搬ルールを検出し、前記故障情報で影響を受ける前記要素の範囲を推定する範囲推定手段と、
を備えることを特徴とする障害影響範囲の推論装置。 - 推定した前記要素の範囲のうち、ネットワークのサービスに関する影響を入力された前記故障情報の応答とする故障情報応答手段をさらに備えることを特徴とする請求項1に記載の障害影響範囲の推論装置。
- ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールが設定される設定手段と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手段と、
前記ネットワークについての障害状況が入力されたときに、保管されている前記依存関係ルールから前記障害状況に関連する1又は複数の前記要素を選び出すとともに、選び出された前記要素が取り得る1又は複数の状態を検索し、選び出された前記要素と検索した前記状態に基づいて前記状態伝搬ルールを検出し、前記障害状況の原因となる前記要素と該要素の状態のリストを推定する原因推定を行う原因推定手段と、
を備えることを特徴とする障害原因の推論装置。 - 前記原因推定手段に前記障害状況に類似する他の障害状況を仮定して前記原因推定を行わせ、前記他の障害状況の原因となる前記要素と該要素の状態の他のリストを推定し、前記リストと前記他のリストに共通する項目を前記リストから除外した結果を、入力された前記障害状況の応答とする障害状況応答手段をさらに備えることを特徴とする請求項3に記載の障害原因の推論装置。
- 障害影響範囲の推論装置が行う障害影響範囲の推論方法であって、
ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールを設定する設定手順と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手順と、
前記要素についての故障情報が入力されたときに、保管されている前記依存関係ルールから状態に影響がある前記要素を選び出し、選び出された前記要素に基づいて前記状態伝搬ルールを検出し、前記故障情報で影響を受ける前記要素の範囲を推定する範囲推定手順と、
を行うことを特徴とする障害影響範囲の推論方法。 - 障害原因の推論装置が行う障害原因の推論方法であって、
ネットワークを構成する複数の要素のうち、互いの状態が依存し合う関係にある2つの要素の依存関係を記載した依存関係ルール、及び前記2つの要素の間で伝搬する状態の内容を記載した状態伝搬ルールを設定する設定手順と、
前記ネットワークの構成についての情報を収集し、前記ネットワークの構成に応じた前記依存関係ルールを抽出して保管する保管手順と、
前記ネットワークについての障害状況が入力されたときに、保管されている前記依存関係ルールから前記障害状況に関連する1又は複数の前記要素を選び出すとともに、選び出された前記要素が取り得る1又は複数の状態を検索し、選び出された前記要素と検索した前記状態に基づいて前記状態伝搬ルールを検出し、前記障害状況の原因となる前記要素と該要素の状態のリストを推定する原因推定手順と、
を行うことを特徴とする障害原因の推論方法。 - 請求項1又は2に記載の障害影響範囲の推論装置としてコンピュータを機能させるためのプログラム。
- 請求項3又は4に記載の障害原因の推論装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018123350A JP7032251B2 (ja) | 2018-06-28 | 2018-06-28 | 障害影響範囲の推論装置、障害原因の推論装置、障害影響範囲の推論方法、障害原因の推論方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018123350A JP7032251B2 (ja) | 2018-06-28 | 2018-06-28 | 障害影響範囲の推論装置、障害原因の推論装置、障害影響範囲の推論方法、障害原因の推論方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020005138A JP2020005138A (ja) | 2020-01-09 |
JP7032251B2 true JP7032251B2 (ja) | 2022-03-08 |
Family
ID=69100563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018123350A Active JP7032251B2 (ja) | 2018-06-28 | 2018-06-28 | 障害影響範囲の推論装置、障害原因の推論装置、障害影響範囲の推論方法、障害原因の推論方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7032251B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230370498A1 (en) * | 2020-10-16 | 2023-11-16 | Nippon Telegraph And Telephone Corporation | Inference device, inference method, and inference program |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230316114A1 (en) * | 2020-10-16 | 2023-10-05 | Nippon Telegraph And Telephone Corporation | Detection device, detection method, and detection program |
CN114422338B (zh) * | 2022-03-29 | 2022-08-26 | 浙江网商银行股份有限公司 | 故障影响分析方法以及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000069003A (ja) | 1998-08-21 | 2000-03-03 | Nippon Telegr & Teleph Corp <Ntt> | マルチレイヤネットワーク故障影響範囲推定方法及びその装置 |
JP2011145773A (ja) | 2010-01-12 | 2011-07-28 | Fujitsu Ltd | ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2921502B2 (ja) * | 1996-08-19 | 1999-07-19 | 日本電気株式会社 | 順序回路の故障箇所推定方法 |
-
2018
- 2018-06-28 JP JP2018123350A patent/JP7032251B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000069003A (ja) | 1998-08-21 | 2000-03-03 | Nippon Telegr & Teleph Corp <Ntt> | マルチレイヤネットワーク故障影響範囲推定方法及びその装置 |
JP2011145773A (ja) | 2010-01-12 | 2011-07-28 | Fujitsu Ltd | ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
鎌谷修 ほか,ネットワークオントロジによる障害影響範囲推論手法の検討,電子情報通信学会 2018年通信ソサイエティ大会 講演論文集2,2018年08月28日,p. 264 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230370498A1 (en) * | 2020-10-16 | 2023-11-16 | Nippon Telegraph And Telephone Corporation | Inference device, inference method, and inference program |
Also Published As
Publication number | Publication date |
---|---|
JP2020005138A (ja) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7108674B2 (ja) | 故障根本原因決定方法及び装置並びにコンピュータ記憶媒体 | |
US11411803B2 (en) | Associating network policy objects with specific faults corresponding to fault localizations in large-scale network deployment | |
JP5237034B2 (ja) | イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 | |
JP2019536331A (ja) | 対話型ネットワーク分析プラットフォームのためのシステムおよび方法 | |
EP3643009A1 (en) | Validation of layer 3 using virtual routing forwarding containers in a network | |
US20180351788A1 (en) | Fault localization in large-scale network policy deployment | |
JP7032251B2 (ja) | 障害影響範囲の推論装置、障害原因の推論装置、障害影響範囲の推論方法、障害原因の推論方法、及びプログラム | |
US10873509B2 (en) | Check-pointing ACI network state and re-execution from a check-pointed state | |
CN111034123A (zh) | 网络中第1层接口的验证 | |
EP3643011A1 (en) | Network validation between the logical level and the hardware level of a network | |
CN110741602A (zh) | 响应于网络意图形式对等性失败的事件生成 | |
CN104579978B (zh) | 一种动态网络链路层拓扑发现方法 | |
Pantuza et al. | Network management through graphs in software defined networks | |
Pandey et al. | SNMP‐based enterprise IP network topology discovery | |
CN102273133A (zh) | 网络故障诊断方法及装置和系统 | |
CN109639488A (zh) | 一种多外网分流加速方法及系统 | |
US9319271B2 (en) | Management device and management method | |
Andreev et al. | An algorithm for building an enterprise network topology using widespread data sources | |
Zhou et al. | Discovery algorithm for network topology based on SNMP | |
Andreev et al. | Network Topology Discovery: a Problem of Incomplete Data Improvement | |
Pu et al. | Design of Industrial Network Topology Discovery Algorithm Based on Multi-protocol | |
JP6824843B2 (ja) | ネットワーク構成検出装置、ネットワーク構成検出システム、ネットワーク構成検出方法及びネットワーク構成検出プログラム | |
Schuster et al. | Modeling Low-Level Network Configurations for Analysis, Simulation and Testing | |
沖田 | Integrated Network Operations and Management | |
WO2007061404A2 (en) | Network topology mapper |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7032251 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |