[go: up one dir, main page]

JP2010088031A - アンダーレイネットワーク障害検知方法及びネットワークシステム - Google Patents

アンダーレイネットワーク障害検知方法及びネットワークシステム Download PDF

Info

Publication number
JP2010088031A
JP2010088031A JP2008257402A JP2008257402A JP2010088031A JP 2010088031 A JP2010088031 A JP 2010088031A JP 2008257402 A JP2008257402 A JP 2008257402A JP 2008257402 A JP2008257402 A JP 2008257402A JP 2010088031 A JP2010088031 A JP 2010088031A
Authority
JP
Japan
Prior art keywords
network
tunnel
value
packet
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008257402A
Other languages
English (en)
Inventor
Minaxay Philavong
ミナサイ ピラウォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008257402A priority Critical patent/JP2010088031A/ja
Publication of JP2010088031A publication Critical patent/JP2010088031A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】アンダーレイネットワーク上に構築されたオーバーレイネットワークにおいて、トンネルトラフィックの変化によりアンダーレイネットワークの障害を検知する。
【解決手段】オーバーレイノード内の計測機能部303において、パッシブプローブ304がオーバーレイネットワークのトンネルトラフィックを抽出してそのパケットヘッダ部をコレクタ部306に蓄積し、アナライザ部308がパケットヘッダ情報に基づいて、トラフィック状態である利用帯域、遅延、パケットロス率を計算し、トンネルごとにトンネルトラフィック状態を管理する。障害検知部310は、計測されたトラフィック状態からトラフィック変化のパターンを解析し、変化の許容範囲を予測し、最新の計測結果が許容範囲に入っていない場合には、障害発生を推定する。アクティブプローブ312が経路トレース処理を行ってアンダーレイネットワークの障害の確認と障害箇所の特定を行う。
【選択図】図3

Description

本発明は、例えば実ネットワークであるアンダーレイネットワーク上に複数の仮想ノードを有するオーバーレイネットワークが構築されている場合に、オーバーレイネットワークにおける挙動からアンダーレイネットワークの障害を検出するアンダーレイネットワーク障害検知方法と、そのような方法が実行されるネットワークシステムに関する。
TCP/IP(Transmission Control Protocol/Internet Protocol)やMPLS(Multi-Protocol Label Switching)などに基づくネットワークをアンダーレイネットワークとして、このようなアンダーネットワーク上に覆いかぶせるように構築した仮想ネットワークであって、アンダーレイネットワークとは異なる名前空間を有するネットワークのことを、オーバーレイネットワークと呼ぶ。アンダーレイネットワーク上には、複数のサービスに対応して複数のオーバーレイネットワークを構築することが可能である。オーバーレイネットワークで構成した仮想ネットワーク内では、既存のネットワーク技術に依存しないネットワーク技術を使えることが知られている。しかしながら、オーバーレイネットワークは、アンダーレイネットワークに依存しているため、アンダーレイネットワークでの障害によりオーバーレイネットワークにも異常が発生することとなり、このため、オーバーレイネットワークを運用している場合には、オーバーレイネットワークでの仮想リンクのトラフィック状態の変化に基づいて、アンダーレイネットワークの障害を検出できることが望ましい。
従来、ネットワークのトラフィック状態監視としては、ネットワーク内の各ネットワーク機器(ルータやスイッチ)の物理インターフェースで受信される全トラフィックを計測し、その各物理リンクのトラフィック状態情報を計算してトラフィックの状態や異常を監視する方法がある。しかしながらこの方法では、各ネットワークノードは自ノードでの物理リンクの単位で監視・計測を行っているため、計測の結果はネットワークノード間の物理リンク上のトラフィック状態しか示すことができない。
このネットワーク計測・監視及び異常検知の技術に関し、例えば、特許文献1(特開2008‐118242号公報)には、パケットサンプリングによって異常トラフィックを検出する技術が開示されている。この検出手法では、トラフィックにおける急激なピーク等という異常を検出しやすくするために、全体の大きなトラフィック量を複数のグループに分割しており、これによって、異常の箇所を簡単に特定できるようにしている。また、各々のサンプリングしたトラフィックの値を時系列で記録し、トラフィックの変化を予測し、この予測値と実際に計測した結果を比較して、トラフィックの変化があるかを特定している。この方法では、ネットワークノードにおける計測・監視結果を、中央管理サーバとして設けられている異常トラヒック検出装置に集約し、異常トラヒック検出装置においてネットワーク障害・異常の検知を行っている。したがって、ネットワークノード自身が物理リンクに対して計測・監視を行っても、異常トラヒック検出装置にデータの解析が依頼されることとなり、複雑の解析には対応できものの、解析量が多くなると解析時間が必要になるという問題点がある。また、ネットワークの設計変更や計測対象の箇所が変更される場合には、異常トラヒック検出装置の設定変更が必要になり、ネットワークの設計変更には即時に対応できなくなる。
また特許文献2(特開2008‐141641号公報)には、過去の計測したトラフィックの結果を学習し、トラフィックの変動や推移を予測する技術が開示されている。この技術では、ネットワーク内に流れるトラフィックについて周期性がある場合に、その過去のある期間(例えば各曜日ごとの期間)のトラフィック形態を事前に学習し、その周期成分を分析してその期間のトラフィックの特性を記録する。これにより、ある期間のトラフィック特性を予測でき、新しく計測したトラフィック状態と過去の変動の動向と比較して、トラフィックの異常を検出できる。しかしながら特許文献2に記載のものでは、トラフィックの周期を学習してトラフィックの異常を特定するので、精度を向上するために、多く学習用の過去のデータが必要になり、また、周期性がないトラフィックについては、過去の参照するデータがないため、異常の判断ができなくなる、という問題点がある。
特開2008‐118242号公報 特開2008‐141641号公報
上述したようなトラフィックの計測と監視とを行ってネットワーク障害を検出する方法では、監視及び計測の対象が物理インターフェース上に入ってくる全パケットとなっていることから、アンダーレイネットワークの状態が主な計測対象になり、アンダーレイネットワークでの隣接するノード間のトラフィックについての計測結果が得られることになる。
アンダーレイネットワーク上にオーバーレイネットワークを構築するのは、アンダーレイネットワークでのネットワーク構成などに依存せずに名前空間等を設定できる仮想ネットワークを構成したいからであり、その観点からすれば、オーバーレイネットワークでの監視及び計測結果に基づいて障害を特定できることが極めて望ましい。しかしながら上述した従来の技術の延長では、アンダーレイネットワークとオーバーレイネットワークの両方についての全体の情報がないと、アンダーレイネットワークでの障害発生箇所を特定することができない、という問題点がある。
そこで本発明の目的は、例えば実ネットワークであるアンダーレイネットワーク上に、複数のサービスに対応する複数のオーバーレイネットワークが作成される場合に、オーバーレイネットワークでのノード間のトラフィック品質及び状態の変化を計測し、それらのトラフィック状態の変化したことからアンダーレイネットワークの障害を検出することができるアンダーレイネットワーク障害検知方法と、そのような障害検知方法が実施されるネットワークシステムとを提供することにある。
本発明のアンダーレイネットワーク障害検知方法は、アンダーレイネットワーク上に複数のオーバーレイネットワークが形成されているときに、各オーバーレイネットワーク上の各トンネルのトラフィック状態を計測してトンネルの状態の変化を検出し、アンダーレイネットワークでの障害を検知する方法であって、トンネルトラフィックのパケットを抽出することと、抽出されたパケットのパケットヘッダを解析してトンネルのトラフィック状態を計測することと、パケットヘッダの解析結果から、障害の発生を推定することと、障害の発生を推定した場合に、アンダーレイネットワークの経路を再確認することと、を有する。
本発明のネットワークシステムは、アンダーレイネットワーク上に複数のオーバーレイネットワークが形成されているネットワークシステムであって、1または複数の仮想ノードと、各オーバーレイネットワーク上の各トンネルのトラフィック状態を計測してトンネルの状態の変化を検出する計測機能部と、を有するオーバーレイノードを備え、計測機能部は、トンネルトラフィックのパケットを抽出するパケット抽出手段と、パケット抽出手段によって抽出されたパケットのパケットヘッダを解析してトンネルのトラフィック状態を計測するパケットヘッダ解析手段と、パケットヘッダ解析手段での解析結果に基づいて障害の発生を推定するトンネル障害検知手段と、トンネル障害検知手段が障害の発生を推定した場合にアンダーレイネットワークの経路を再確認する経路再確認手段と、を備える。
本発明では、オーバーレイノードに入って来るトラフィックに対し、トラフィック全体ではなく、オーバーレイネットワークのトンネルのトラフィックに対し、パッシブプローブを用いてパケットを抽出する。したがって、各オーバーレイネットワークの各仮想リンク(トンネル)に対して、トラフィックの状態・品質を計測し管理することができる。
また本発明によれば、オーバーレイネットワークのトラフィック状態・品質の変化を検出することによって、オーバーレイネットワーク上からは見えないアンダーレイネットワークでのトポロジーの変化を推定することができ、また、アクティブプローブを用いてアンダーレイネットワークの経路を再確認することにより、アンダーレイネットワークでの障害の箇所を特定できる。
次に、本発明の実施の形態について、図面を参照して説明する。本実施形態の技術は、複数の仮想ノードから構成されるオーバーレイネットワーク(仮想ネットワーク)の仮想リンク(すなわちトンネル)のトラフィック状態を計測・監視し、トンネル内のトラフィック状態の変化により、アンダーレイネットワークの障害を検出するものである。
最初に、オーバーレイネットワークについて説明する。図1は、例えば実ネットワークとして構築されるアンダーレイネットワーク100と、そのようなオーバーレイネットワーク上に仮想ネットワークとして構築される複数のオーバーレイネットワーク140,150との基本的な関係を示す構成図である。
アンダーレイネットワーク100から、オーバーレイネットワークを構築するオーバーレイノード101〜105が構成され、オーバーレイノード上に仮想ノード110〜113、120〜123が搭載されている。ここでは、2つのオーバーレイネットワーク140,150は、“A”及び“B”の文字で区別されており、文字“A”がラベルされた仮想ノード110〜113は、“A”のオーバーレイネットワーク140の仮想ノードであり、文字“B”がラベルされた仮想ノード120〜123は“B”のオーバーレイネットワーク150の仮想ノードである。同一のオーバーレイノードに両方のオーバーレイネットワークの仮想ノードが共存してもよいし、片方のオーバーレイネットワークの仮想ノードのみが存在してもよい。これらの仮想ノードは、オーバーレイネットワークごとに、オーバーレイリンク(仮想リンク)141〜144、151〜154で相互に接続されている。仮想リンクはトンネルとも呼ばれ、例えば、TCPセッションやIP/IPSecトンネル、MPLSパス、ATMコネクションなどが用いられる。アンダーレイネットワーク100(例えば実ネットワーク)では、オーバーレイノード101〜105間は、例えばアンダーレイネットワークでのリンク130〜133で接続されている。
オーバーレイノードとそれらの間のリンクは、アンダーレイネットワークでのノード及びリンクと1対1に対応しているわけではない。図2は、オーバーレイノードとアンダーレイノードの関係を説明する図である。ここで示した例では、2つのオーバーレイノード101,102間のリンクが、複数のアンダーレイノード170〜173を経由している。オーバーレイノード101,102に搭載されている仮想ノード110,111が仮想リンク(トンネル)141により接続されて、オーバーレイネットワークが構築されている。オーバーレイノード101,102とアンダーレイノード170,172との間、及びアンダーレイノード170〜173の相互間は、例えば物理リンクであるアンダーレイリンク160〜165によって接続されている。アンダーレイネットワークのアンダーレイノードは、一般的なルーターやスイッチによって構成されるものであって、既存のSTPやOSPF等のルーティングプロトコルで経路計算を行い、TCP/IPやイーサネット(登録商標)、MPLSなどの転送プロトコルを用いてデータ転送を行う。
オーバーレイネットワークは、仮想リンク141で仮想ノード110、111を接続することにより、アンダーレイネットワークから見て入れ子状になっている。アンダーレイネットワークに対して独立した名前空間をオーバーレイネットワークに持たせることにより、アンダーレイネットワークのプロトコルに依存することのない仮想ネットワークを構築することができる。独立した名前空間の利用は、既知の技術として、MPLSによるIP−VPNや、IPsecによるインターネットVPNで使用されている。一方で、仮想ノードの処理動作を変更し、複数の仮想リンクで接続された仮想ノードにおいて新規のネットワーク技術を処理させることにより、オーバーレイネットワーク上で新規のネットワーク技術を適用することが可能となる。
アンダーレイネットワークにおいてノードやリンクの障害が発生した場合、アンダーレイのルーティングプロトコルによる経路再計算が行なわれて、通常経路から迂回経路へ経路の切り替えが発生する。しかしながらオーバーレイネットワーク上の仮想ノードは、アンダーレイネットワークのトポロジー情報を保持していないため、アンダーレイネットワーク側での経路切り替え発生があってもその経路切り替えを把握することができない。アンダーレイネットワークでの経路切り替えは、オーバーレイネットワークのトラフィック状態・品質に影響するため、アンダーレイネットワークの障害をオーバーレイネットワークが知ることができるようにする必要がある。そこで本実施形態では、オーバーレイノードにおいてアンダーレイネットワークの障害を検出できるようにしている。
図3は、本発明の実施の一形態のネットワーク障害検知システムを構成するオーバーレイノードの構成を示すブロック図であり、トラフィックを計測する部分を中心にして示したものである。また図4は、計測機能部303における処理の詳細を示すためのブロック図である。
オーバーレイノード300内に、それぞれ独立のオーバーレイルーティングプロトコル機能を持つ複数の仮想ノード301と、トラフィックを計測する計測機能部303が設けられている。計測機能部303は、パッシブプローブ304と、コレクタ部306と、アナライザ部308と、障害検知部310と、アクティブプローブ部312と、経路情報記録部314とを備えている。
パッシブプローブ304は、オーバーレイノード300に到着するパケット302を監視し、パケットのヘッダにオーバーレイネットワークのトラフィックを示すトンネルヘッダを含まれるかを識別し、オーバーレイネットワークトラフィックのみをフィルタリングし、オーバーレイネットワークのトンネルトラフィックのパケットのみを抽出する。また、パッシブプローブ304は、蓄積量と解析量を減らすために、抽出したパケットに対して、所定のレートでサンプリングを行い、サンプリングしたパケットのヘッダ情報とトンネルの情報とをコレクタ部306に送る。そのようなフィルタリングとサンプリングを行うために、パッシプブローブ304は、フィルタリング部331とサンプリング部332を備えている。
図5は、オーバーレイネットワークのトラフィックのパケットヘッダを示している。パケットでは、アウターヘッダ360、トンネルヘッダ361、インナーヘッダ362及びペイロード363がこの順で並んでいる。アウターヘッダ360は、アンダーレイネットワークのルーティングプロトコル用のヘッダであり、トンネルヘッダ361は、オーバーレイネットワークのパケットヘッダを示す重要なヘッダ部であり、インナーヘッダ362はオーバーレイネットワークのルーティングプロトコル用のヘッダである。また、トンネルヘッダ361の内部には、オーバーレイノードから他のオーバーレイノードへ送信する際のタイムスタンプ364と、オーバーレイネットワークの識別キー365と、パケットの順序を保証するシーケンス番号366とが保持されている。
次に、このようパッシブプローブ304での処理の詳細について、図6を用いて説明する。
ステップ400において物理インタフェースにパケットが到着すると、まず、パッシブプローブ304は、ステップ401において、そのパケットにオーバーレイネットワーク用のトンネルヘッダがあるかどうかを判定する。トンネルヘッダがない場合には、ステップ403に示した、アンダーレイネットワークのルーティング機能でパケットを転送する処理に移行する。トンネルヘッダがある場合には、次に、ステップ402において、パッシブプローブ304は、パケットフィルタリングを行う。このフィルタリングにより抽出されなかったパケットは、ステップ404に示すように、仮想ノードに転送される。次に、パケットフィルタリングで抽出したパケットに対し、パッシブプローブ304は、ステップ405において、パケットのサンプリングを行い、その後、ステップ406において、サンプリングされたパケットのヘッダ情報をコレクタ部306に記録し、処理を終了する。
コレクタ部306は、フィルタリング及びサンプリングされたオーバーレイトラフィックのパケットヘッダの情報をパッシブプローブ304から受け取って記録し、新しいパケットヘッダ情報を記録する場合には、そのパケットヘッダ情報を定期的にアナライザ部へ通知する。すなわちコレクタ部306は、パッシブプローブ304から、計測されたパケットヘッダの必要な情報305を取得し、アナライザ部がそのヘッダ情報を取得するまで、そのヘッダ情報のデータを保管する。
アナライザ部308は、設定された周期で、コレクタ部306に蓄積されているオーバーレイトラフックのパケットヘッダ情報307にアクセスして取得する。そしてアナライザ部308は、パケットヘッダの[アウターヘッダ]の[送信元IPアドレス]と[宛先IPアドレス]と[オーバーレイネットワークのキー]とを組み合わせてトンネルID(識別子)を構成し、各オーバーレイネットワークの各トンネル(仮想リンク)のトンネルID単位で、オーバーレイネットワークのトンネル内のトラフィック状態を管理する。そのようなアナライザ部は、トンネルID単位でトラフィック状態を記憶するメモリスロット335と、トンネルについての情報を保持するトンネル情報データベース336とを備えており、トンネル情報データベース336は、トンネルIDを格納するトンネルIDデータベース337と、各トンネルごとの状態を記述するステートテーブル(状態テーブル)を保持するトンネル状態データベース338とからなっている。
アナライザ部308は、コレクタ部306に蓄積されているパケットヘッダ情報307から、トンネルのトラフィック状態である利用帯域、遅延、パケットロス率を解析して計算を行い、各トンネルIDごとのメモリスロットに、設定された解析周期で、計算した利用帯域値、遅延値及びパケットロス率値を時系列で記録する。さらに、全体のオーバーレイネットワークのトラフィック状態を把握できるようにするために、アナライザ部308は、矢印316で示すように、外部の管理サーバに対し、トンネルのトラフィック状態を定期的に通知する。
図7は、このようなアナライザ部308の動作を示すフローチャートである。アナライザ部308は、ステップ410において、一定の周期で、コレクタ部306に保管されているトンネルトラフィックのパケットのヘッダデータを取得する。そしてアナライザ部308は、そのヘッダデータ情報から、各トンネルについて、ステップ411〜413に示すように、トンネルトラフィック状態を示す3つのパラメータ:利用帯域、遅延、パケットロス率を計算する。各トンネルのトラフィック状態を区別するために、アナライザ部308は、ステップ414に示すように、計測した結果の利用帯域値、遅延値及びパケットロス値をトンネルID(トンネルヘッダ内のオーバーレイネットワークキー、送信元IPアドレス、宛先IPアドレスの組み合わせ)で管理し、その計算した3つのパラメータ値をステップ415において各パラメータ用のメモリスロットに記録する。その結果、トンネルトラフィック状態を表す各パラメータが、トンネルごとに、一定周期の時系列で保存されることになる。
障害検知部310は、アナライザ部308にある各トンネルIDの利用帯域値用のメモリスロットと、遅延値用のメモリスロットと、パケットロス率値用のメモリスロットとにアクセスし、n個分のメモリスロットに格納されている各パラメータ(利用帯域値と遅延値とパケットロス率値)に基づき、n個の期間にわたるこれらのパラメータの平均値μ及び標準偏差σを計算する。障害検知部310は、各パラメータの変動に関し、平均値μと標準偏差σから、「μ−ασ」を超えて「μ+ασ」以下であるという許容範囲を設定する。ここでαは、管理者が設定する正の数である。そして障害検知部310は、メモリスロット内の各パラメータから算出された変動許容範囲と、最新の計測による結果値とを比較し、その計測値が変動許容範囲に入っていない場合、すなわち、計測値≦μ−ασ、または、計測値>μ+ασの場合には、そのトンネルIDのトンネル内のトラフィックが異常であることを判定し、かつ、そのトラフィックが利用しているアンダーレイネットワークに障害があると推定する。このようにアンダーレイネットワークでの障害を推定した場合には、障害検知部310は、障害発生ののアラーム311をアクティブプローブ312に通知する。
図8は、障害検知部310の動作を示すフローチャートである。障害検知部310は、ステップ420において、アナライザ部308のメモリスロット335に保存されている各パラメータの値を取得し、ステップ421,422において、各パラメータの平均値μ及び標準偏差σを計算し、次にステップ423において、その平均値μと標準偏差σを用いて、各パラメータの変動の許容範囲を決定する。許容範囲は、[μ−ασ:μ+ασ]の範囲になる。αは正の数値であり、αを小さくすると変化の許容範囲が狭くなり、誤検知が多く発生する。逆にαに大きな値を設定する場合には、許容範囲が大きくなり、未検知が多く発生する。
次に障害検知部310は、ステップ424において、最新の計測値が各パラメータの許容範囲に入っているかを判定する。ここで許容範囲に入っている場合には、障害発生なしとしてそのまま処理を終了する。一方、許容範囲に入っていない場合には、ステップ425において、利用帯域の変化または遅延の変化に基づいて、アンダーレイネットワークでの障害の推定を行う。図9はこのような障害の推定の条件を説明するフローチャートである。
オーバーレイネットワーク上に流れるTCPフローにおいてパケットロス率が多く発生する場合は、TCPの輻輳制御が発生する場合であるので利用帯域が激しく変動し、障害による利用帯域の変動を特定することは困難になる。この場合は、遅延変動を基準にして障害を推定することが適切である。逆に、パケットロス率が少ない場合は、利用帯域が安定した状態であるため、利用帯域の急激な変動を簡単に検出でき、利用帯域を基準にして障害を推定することができる。なお、判断条件であるパケットロス率とTCPの特性であるスループットとは、1/(RTT*(パケットロス率)1/2)の関係があるので、判定条件として用いられるパケットロス率の値を決定することができる。ここでRTTは、往復時間(round trip time)で表わされるスループットである。
そこで、図9に示すように、ステップ430において、パケットロス率がある固定値を上回るかどうかを判定し、パケットロス率がある固定値以下の場合には、ステップ431に示すように、利用帯域変化の条件で障害検知を行い、ステップ433に示すように、遅延の変化とパケットロス率の変化とを参考として用い、ステップ435において、アンダーレイネットワークでの障害の推定を行う。逆にパケットロス率が固定値を上回る時は、ステップ432に示すように、遅延変化の条件で障害検知を行い、ステップ434に示すように、利用帯域の変化とパケットロス値の変化とを参考として用い、ステップ435において、アンダーレイネットワークでの障害の推定を行う。具体的には、利用帯域値の変化を条件とする場合には、利用帯域値が減少して遅延値が増加した場合と、利用帯域値が減少してパケットロス率値が増加した場合に、トラフィック状態が異常であると推定し、遅延値の変化を条件とする場合には、遅延値が増加して利用帯域値が減少した場合と、遅延値が増加してパケットロス率値が増加した場合に、トラフィック状態が異常であると推定する。
このようにして図8のステップ425に示す障害推定が行われると、次に、ステップ426において、推定の結果、アンダーレイネットワークにおいて障害が発生したと推定できるかを判断し、障害発生を推定できない場合にはそのまま処理を終了し、障害発生を推定できる場合には、ステップ427において、障害検知部310は、アクティブプローブ312に対して、アンダーレイネットワークでの障害発生の推定のアラーム311を発信する。
アクティブプローブ312は、障害検知部310からアンダーレイネットワークでの障害発生推定アラーム311を受信すると、オーバーレイネットワークのトンネル(仮想リンク)が実際に利用しているアンダーレイネットワークの各アンダーレイノードの経路を再確認し、事前に経路情報記録部314に登録されている経路情報と一致するかを確認する。一致しない場合、アンダーレイネットワークにおいて経路切り替え又は変更が発生したことだと判断し、アクティブプローブ312は、オーバーレイネットワークの仮想ノード301又は外部の管理サーバに対し、アンダーレイネットワーク障害のアラームを通知する。
図10は、アクティブプローブ312の動作を示すフローチャートである。アクティブプローブ312は、通常時には待機状態にある。すなわちステップ440において障害発生推定のアラーム311を受信するまで、ステップ441に示すようにアクティブプローブ312は待機している。障害検知部340からアンダーレイネットワークの障害発生の推定のアラーム311を受信すると、この場合にはアンダーレイネットワークに対してネットワークのトポロジーの変化があるかを確認することが必要になるので、アクティブプローブ312は、ステップ442において、アンダーレイネットワークにおける経路トレース処理を行ってアンダーレイネットワークのトポロジーを検出する。例えばアンダーレイネットワークがTCP/IPネットワークである場合には、トンネルの前端のアドレスに対するTracerouteパケット315をアンダーレイネットワークに送出し、このTracerouteパケットに対する応答を受信することによって、アクティブプローブ312はアンダーレイネットワークのトポロジーを検出する。次にアクティブプローブ312は、ステップ443において、経路トレース処理によって検出したアンダーレイネットワークの経路情報を事前に経路情報記録部314に保存されている経路情報と比較し、ステップ444において経路情報が一致するかを判定することにより、実際に経路の変更が行なわれているかを再確認する。アクティブプローブ312は、経路情報が一致する場合、すなわち経路変更が起きていない場合にはそのまま処理を終了し、経路情報が一致しない場合、すなわち経路変更が行われていた場合には、アンダーレイネットワークに障害が発生したことを特定し、アンダーレイネットワークの障害発生のアラーム316を外部の管理サーバへ警告する。
上述した実施形態においては、アンダーレイネットワークでの障害を特定しなければならないことから、障害検知部310において誤検知が発生するとアクティブプローブ312も起動して、経路トレース処理を行い、アンダーレイネットワークの経路を再確認することになる。しかしながら本実施形態では、定期的にアクティブプローブによる処理を行う場合よりも、経路トレース処理の頻度が小さく、また、拡張性及び効率性も高い。
一般にネットワークの監視には、パケットフィルタリングなどに基礎をおくパッシブ計測と、Tracerouteパケットなどのネットワーク内に伝搬させて経路トレース処理を行うアクティブ計測の2通りの方法がある。このうちパッシブ計測は計測精度が低いと考えられ、アクティブ計測は計測精度は高いものの計測用のトラフィックが発生するためにネットワーク全体に対する計測用の負荷が大きくなるものと考えられる。上述した実施形態では、パッシブ計測によって、障害の発生の候補を絞った上で、障害発生の可能性があると推測される場合にのみアクティブ計測を行うことにより、ネットワークに与える負荷を軽減しつつ、正確な障害発生検出を行うことを可能にしている。
次に発明の別の実施形態について説明する。この例では、計測されメモリスロットに格納されている各パラメータを利用し、1つのパラメータにおける変化と2つ以上のパラメータにおける変化とを用いて、トンネルトラフィックの障害検知を行う。
1つのパラメータのみを利用する場合、標準偏差σと変数αとの積ασについて、αに小さい値が設定されると、パラメータ変動の許容範囲が狭くなり、各パラメータにおける小さな変化でも障害として検知されてしまい、誤検知が多く発生する。そのため、変数αには大きな値を設定することが必要である。
一方、2つ以上のパラメータを利用する場合には、2つ以上のパラメータ(利用帯域、遅延、パケットロス率のうちの2つ以上)が同時に変化することを検出することにより、トンネルトラフィックの障害のアラームを通知する。2つ以上のパラメータを利用する場合は、そのようなパラメータの積について平均値μと標準偏差σを求めて「μ−ασ」を超えて「μ+ασ」以下であるという許容範囲する際に変数αに大きい値が設定されると、許容範囲は大きくなりすぎ、あるパラメータでの変化を検知することができなくなる。そこで、2つ以上のパラメータが同時に変化するという条件では、αもは小さな値を設定することが必要である。
“1つのパラメータにおける変化がある”、あるいは、“2つ以上のパラメータにおける変化がある”という条件で、障害検知の判定を実現する。
以上説明した各実施形態において、オーバーレイネットワークのトンネルトラフィック状態を監視し、トンネルトラフィックの変化によるアンダーレイネットワークの障害を推定する計測機能部は、ハードウェアによって構成してもよいし、コンピュータを動作させるソフトウェアプログラムによって実現してもよい。あるいは、部分的にハードウェアで構成し、部分的にソフトウェアで構成してもよい。
上述した各実施形態によれば、アンダーレイネットワーク(実ネットワーク)上に複数オーバーレイネットワーク(仮想ネットワーク)を構築する場合に、各オーバーレイネットワークの各トンネル(仮想リンク)のトラフィック状態を監視し、各トンネルのトラフィック状態の変化を検出することにより、オーバーレイネットワークのトポロジーでは見ることができないアンダーレイネットワークでのトポロジー変化及び障害を検知することができる。
以上、実施形態に基づき本発明を具体的に説明したが、本発明は、前述の実施形態に限定されるものではなく、その要旨を逸脱しない範囲について種々変化可能であることはもちろんである。
アンダーレイネットワークとこのアンダーレイネットワークに収容される複数のオーバーレイネットワークの概要を説明する図である。 オーバーレイノードとアンダーレイノードの関係を説明する図である。 本発明の実施の一形態におけるオーバーレイノードの構成を示すブロック図である。 計測機能部における処理の詳細を示すためのブロック図である。 オーバーレイパケットのヘッダの構成を示す図である。 パッシブプローブの動作を示すフローチャートである。 アナライザ部の動作を示すフローチャートである。 障害検知部の動作を示すフローチャートである。 障害推定の動作を示すフローチャートである。 アクティブプローブの動作を示すフローチャートである。
符号の説明
100 アンダーレイネットワーク
140,150 オーバーレイネットワーク
101〜105 オーバーレイノード
110〜113,120〜123,301 オーバーレイノード上の仮想ノード
130〜133 リンク
141〜144,151〜154 オーバーレイリンク(仮想リンク)
160〜165 アンダーレイリンク
170〜173 アンダーレイノード
300 オーバーレイノード
302 トラフィック
303 計測機能部
304 パッシブプローブ
306 コレクタ部
308 アナライザ部
310 障害検知部
312 アクティブプローブ
314 経路情報記録部
331 フィルタリング
332 サンプリング
335 メモリスロット
336 トンネル情報データベース
337 トンネルIDデータベース
338 トンネル状態データベース

Claims (20)

  1. アンダーレイネットワーク上に複数のオーバーレイネットワークが形成されているときに、各オーバーレイネットワーク上の各トンネルのトラフィック状態を計測してトンネルの状態の変化を検出し、アンダーレイネットワークでの障害を検知する方法であって、
    前記トンネルトラフィックのパケットを抽出することと、
    前記抽出されたパケットのパケットヘッダを解析してトンネルのトラフィック状態を計測することと、
    前記パケットヘッダの解析結果から、障害の発生を推定することと、
    障害の発生を推定した場合に、前記アンダーレイネットワークの経路を再確認することと、
    を有するアンダーレイネットワーク障害検知方法。
  2. 前記パケットを抽出することは、
    トンネルヘッダ内にあるオーバーレイネットワークのキーで識別することによって、受信した全体トラフィックのパケットから、前記オーバーレイネットワークのトラフィックのパケットのみをフィルタリングすることと、
    前記フィルタリングされたパケットに対し、決められたレートでサンプリングを行うことと、
    を有する、請求項1に記載のアンダーレイネットワーク障害検知方法。
  3. 前記トラフィック状態を計測することは、
    前記サンプリングされたパケットのパケットヘッダ情報を取得することと、
    該パケットヘッダ情報から、トンネルトラフィック状態をそれぞれ表わす3つのパラメータである利用帯域値、遅延値及びパケットロス値を計算することと、
    前記トンネルトラフィック状態の前記各パラメータの値を一定周期の時系列のデータとしてメモリスロットに記録することと、
    を有する、請求項2に記載のアンダーレイネットワーク障害検知方法。
  4. 前記オーバーレイネットワークのトンネルトラフィックのパケットヘッダが、前記アンダーレイネットワークのルーティングプロトコル用のアウターヘッダと、各オーバーレイネットワークの識別子のキーを含むトンネルヘッダと、前記オーバーレイネットワークのルーティングプロトコル用のインナーヘッダと、を有する、請求項3に記載のアンダーレイネットワーク障害検知方法。
  5. 前記トンネル内にあるオーバーレイネットワークのキーと前記アウターヘッダにある送信元IPアドレスと前記アウターヘッダにある宛先IPアドレスとを用いてトンネルIDを構成し、前記各オーバーレイネットワークの各トンネルのトラフィック状態を前記トンネルIDを用いて管理する、請求項4に記載のアンダーレイネットワーク障害検知方法。
  6. 前記障害の発生を推定することは、
    前記メモリスロット内に保存されている前記各パラメータの値を取得することと、
    前記各パラメータごとにその平均値μとその変化の標準偏差σを計算することと、
    αを与えられた整数として、パラメータごとに、下限をμ−ασとし、上限をμ+ασとする変化許容範囲を決定することと、
    を有する、請求項3に記載のアンダーレイネットワーク障害検知方法。
  7. 前記各パラメータの変化許容範囲と最新の各パラメータの計測値とを比較し、前記最新の計測値が前記変化許容範囲内に入る場合には当該パラメータ値は正常であると判定し、前記最新の計測値が前記変化許容範囲内に入らない場合には当該パラメータ値に急激な変化があったと判定し、
    前記急激な変化の有無に基づいてトラフィック状態の異常を推定して障害の発生を推定する、請求項6に記載のアンダーレイネットワーク障害検知方法。
  8. 前記急激な変化があった場合に、
    前記計測したパケットロス率に対し、パケットロス率≦設定値の場合に、利用帯域値の変化を条件としてトラフィック状態の異常を推定し、パケットロス率>設定値の場合に、遅延値の変化を条件としてトラフィック状態の異常を推定する、請求項7に記載のアンダーレイネットワーク障害検知方法。
  9. 前記利用帯域値の変化を条件とする場合には、利用帯域値が減少して遅延値が増加した場合と、利用帯域値が減少してパケットロス率値が増加した場合に、トラフィック状態の異常を推定し、
    前記遅延値の変化を条件とする場合には、遅延値が増加して利用帯域値が減少した場合と、遅延値が増加してパケットロス率値が増加した場合に、トラフィック状態の異常を推定する、
    請求項8に記載のアンダーレイネットワーク障害検知方法。
  10. アンダーレイネットワークの経路を再確認することとは、
    前記オーバーレイノードから宛先であるトンネルの前端のアドレスに対し、前記アンダーレイネットワークの経路情報を再確認し、事前に保存している経路情報と比較して、前記アンダーレイネットワークの経路情報が変化したかを確認することと、
    前記アンダーレイネットワークの経路が変化していた場合に、前記アンダーレイネットワークの障害を特定することと、
    を有する、請求項1に記載のアンダーレイネットワーク障害検知方法。
  11. アンダーレイネットワーク上に複数のオーバーレイネットワークが形成されているネットワークシステムであって、
    1または複数の仮想ノードと、各オーバーレイネットワーク上の各トンネルのトラフィック状態を計測してトンネルの状態の変化を検出する計測機能部と、を有するオーバーレイノードを備え、
    前記計測機能部は、前記トンネルトラフィックのパケットを抽出するパケット抽出手段と、前記パケット抽出手段によって抽出されたパケットのパケットヘッダを解析してトンネルのトラフィック状態を計測するパケットヘッダ解析手段と、前記パケットヘッダ解析手段での解析結果に基づいて障害の発生を推定するトンネル障害検知手段と、前記トンネル障害検知手段が障害の発生を推定した場合に前記アンダーレイネットワークの経路を再確認する経路再確認手段と、を備える、ネットワークシステム。
  12. 前記パケット抽出手段は、
    トンネルヘッダ内にあるオーバーレイネットワークのキーで識別することによって、受信した全体トラフィックのパケットから、前記オーバーレイネットワークのトラフィックのパケットのみをフィルタリングするフィルタリング部と、
    前記フィルタリングされたパケットに対し、決められたレートでサンプリングを行うサンプリング部と、
    を有する、請求項11に記載のネットワークシステム。
  13. 前記パケットヘッダ解析手段は、メモリスロットを備え、前記サンプリングされたパケットのパケットヘッダ情報を取得し、該パケットヘッダ情報から、トンネルトラフィック状態をそれぞれ表わす3つのパラメータである利用帯域値、遅延値及びパケットロス値を計算し、前記各パラメータの値を一定周期の時系列のデータとして前記メモリスロットに記録する、請求項12に記載のネットワークシステム。
  14. 前記オーバーレイネットワークのトンネルトラフィックのパケットヘッダが、前記アンダーレイネットワークのルーティングプロトコル用のアウターヘッダと、各オーバーレイネットワークの識別子のキーを含むトンネルヘッダと、前記オーバーレイネットワークのルーティングプロトコル用のインナーヘッダと、を有する、請求項13に記載のネットワークシステム。
  15. 前記パケットヘッダ解析手段は、前記トンネル内にあるオーバーレイネットワークのキーと前記アウターヘッダにある送信元IPアドレスと前記アウターヘッダにある宛先IPアドレスとを用いてトンネルIDを構成し、前記各オーバーレイネットワークの各トンネルのトラフィック状態を前記トンネルIDを用いて管理する、請求項14に記載のネットワークシステム。
  16. 前記トンネル障害検知手段は、前記メモリスロット内に保存されている前記各パラメータの値を取得し、前記各パラメータごとにその平均値μとその変化の標準偏差σを計算し、αを与えられた整数としてパラメータごとに、下限をμ−ασとし上限をμ+ασとする変化許容範囲を決定する、請求項13に記載のネットワークシステム。
  17. 前記トンネル障害検知手段は、前記各パラメータの変化許容範囲と最新の各パラメータの計測値とを比較し、前記最新の計測値が前記変化許容範囲内に入る場合には当該パラメータ値は正常であると判定し、前記最新の計測値が前記変化許容範囲内に入らない場合には当該パラメータ値に急激な変化があったと判定し、前記急激な変化の有無に基づいてトラフィック状態の異常を推定して障害の発生を推定する、請求項16に記載のネットワークシステム。
  18. 前記トンネル障害検知手段は、前記急激な変化があった場合に、前記計測したパケットロス率に対し、パケットロス率≦設定値であれば利用帯域値の変化を条件としてトラフィック状態の異常を推定し、パケットロス率>設定値であれば遅延値の変化を条件としてトラフィック状態の異常を推定する、請求項17に記載のネットワークシステム。
  19. 前記トンネル障害検知手段は、
    前記利用帯域値の変化を条件とする場合には、利用帯域値が減少して遅延値が増加した場合と、利用帯域値が減少してパケットロス率値が増加した場合に、トラフィック状態の異常を推定し、
    前記遅延値の変化を条件とする場合には、遅延値が増加して利用帯域値が減少した場合と、遅延値が増加してパケットロス率値が増加した場合に、トラフィック状態の異常を推定する、請求項18に記載のネットワークシステム。
  20. 前記経路再確認手段は、前記オーバーレイノードから宛先であるトンネルの前端のアドレスに対し、前記アンダーレイネットワークの経路情報を再確認し、事前に保存している経路情報と比較して、前記アンダーレイネットワークの経路情報が変化したかを確認し、前記アンダーレイネットワークの経路が変化していた場合に、前記アンダーレイネットワークの障害を特定する、請求項11に記載のネットワークシステム。
JP2008257402A 2008-10-02 2008-10-02 アンダーレイネットワーク障害検知方法及びネットワークシステム Pending JP2010088031A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008257402A JP2010088031A (ja) 2008-10-02 2008-10-02 アンダーレイネットワーク障害検知方法及びネットワークシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008257402A JP2010088031A (ja) 2008-10-02 2008-10-02 アンダーレイネットワーク障害検知方法及びネットワークシステム

Publications (1)

Publication Number Publication Date
JP2010088031A true JP2010088031A (ja) 2010-04-15

Family

ID=42251491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008257402A Pending JP2010088031A (ja) 2008-10-02 2008-10-02 アンダーレイネットワーク障害検知方法及びネットワークシステム

Country Status (1)

Country Link
JP (1) JP2010088031A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012070274A1 (ja) * 2010-11-26 2012-05-31 三菱電機株式会社 通信システムおよびネットワーク障害検出方法
CN102932191A (zh) * 2012-11-26 2013-02-13 赛特斯网络科技(南京)有限责任公司 Iptv网络中基于动态链路实现实时智能故障分析的方法
JP2013121075A (ja) * 2011-12-07 2013-06-17 Nec Corp パケット通信システム、パケット通信における品質評価方法、パケット解析装置およびその制御方法と制御プログラム
CN104244542A (zh) * 2013-06-17 2014-12-24 合肥源辉光电子有限公司 公路隧道led照明调光控制装置故障检测响应电路
WO2017159520A1 (ja) * 2016-03-14 2017-09-21 日本電気株式会社 ネットワーク通信品質計測システム、ネットワーク通信品質計測方法および記録媒体
US9806996B2 (en) 2014-04-28 2017-10-31 Fujitsu Limited Information processing system and control method for information processing system
CN108093430A (zh) * 2017-12-21 2018-05-29 重庆脉实智能制造有限公司 一种适用于高速移动环境下的无线网络探测方法
JP2018152788A (ja) * 2017-03-14 2018-09-27 日本電信電話株式会社 通信装置
JP2019106621A (ja) * 2017-12-12 2019-06-27 日本電信電話株式会社 異常検知システム、異常検知方法、および、異常検知プログラム
CN113039755A (zh) * 2018-12-26 2021-06-25 西门子股份公司 用于工业控制系统的监测方法、装置、系统和计算机可读介质
US11528204B2 (en) 2018-02-20 2022-12-13 Nippon Telegraph And Telephone Corporation Monitoring device, network fault monitoring system, and monitoring method
WO2023026417A1 (ja) * 2021-08-25 2023-03-02 日本電信電話株式会社 経路制御方法および経路制御装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012070274A1 (ja) * 2010-11-26 2012-05-31 三菱電機株式会社 通信システムおよびネットワーク障害検出方法
JP2013121075A (ja) * 2011-12-07 2013-06-17 Nec Corp パケット通信システム、パケット通信における品質評価方法、パケット解析装置およびその制御方法と制御プログラム
CN102932191A (zh) * 2012-11-26 2013-02-13 赛特斯网络科技(南京)有限责任公司 Iptv网络中基于动态链路实现实时智能故障分析的方法
CN102932191B (zh) * 2012-11-26 2015-08-19 赛特斯信息科技股份有限公司 Iptv网络中基于动态链路实现实时智能故障分析的方法
CN104244542A (zh) * 2013-06-17 2014-12-24 合肥源辉光电子有限公司 公路隧道led照明调光控制装置故障检测响应电路
US9806996B2 (en) 2014-04-28 2017-10-31 Fujitsu Limited Information processing system and control method for information processing system
WO2017159520A1 (ja) * 2016-03-14 2017-09-21 日本電気株式会社 ネットワーク通信品質計測システム、ネットワーク通信品質計測方法および記録媒体
JP2018152788A (ja) * 2017-03-14 2018-09-27 日本電信電話株式会社 通信装置
JP2019106621A (ja) * 2017-12-12 2019-06-27 日本電信電話株式会社 異常検知システム、異常検知方法、および、異常検知プログラム
CN108093430A (zh) * 2017-12-21 2018-05-29 重庆脉实智能制造有限公司 一种适用于高速移动环境下的无线网络探测方法
CN108093430B (zh) * 2017-12-21 2021-03-26 重庆脉实智能制造有限公司 一种适用于高速移动环境下的无线网络探测方法
US11528204B2 (en) 2018-02-20 2022-12-13 Nippon Telegraph And Telephone Corporation Monitoring device, network fault monitoring system, and monitoring method
CN113039755A (zh) * 2018-12-26 2021-06-25 西门子股份公司 用于工业控制系统的监测方法、装置、系统和计算机可读介质
WO2023026417A1 (ja) * 2021-08-25 2023-03-02 日本電信電話株式会社 経路制御方法および経路制御装置
JP7598063B2 (ja) 2021-08-25 2024-12-11 日本電信電話株式会社 経路制御方法および経路制御装置

Similar Documents

Publication Publication Date Title
JP2010088031A (ja) アンダーレイネットワーク障害検知方法及びネットワークシステム
JP5207082B2 (ja) コンピュータシステム、及びコンピュータシステムの監視方法
EP3366006B1 (en) Triggered in-band operations, administration, and maintenance in a network environment
JP5120784B2 (ja) 通信ネットワークシステムにおけるネットワーク上の品質劣化箇所を推定する方法
EP2081321A2 (en) Sampling apparatus distinguishing a failure in a network even by using a single sampling and a method therefor
EP1865646A1 (en) A method for monitoring the packet loss rate
US8477772B2 (en) System and method for determination of routing information in a network
CN103081407B (zh) 故障分析装置、故障分析系统及故障分析方法
US8422386B2 (en) Abnormal traffic detection apparatus, abnormal traffic detection method and abnormal traffic detection program
CN108370333B (zh) 用于分段路由网络中性能测量的系统、方法和节点
US20110270957A1 (en) Method and system for logging trace events of a network device
JP4648838B2 (ja) ネットワーク監視支援装置、ネットワーク監視支援方法およびネットワーク監視支援プログラム
US9019817B2 (en) Autonomic network management system
CN101483547A (zh) 一种网络突发事件度量评估方法及系统
EP2795841B1 (en) Method and arrangement for fault analysis in a multi-layer network
JP2009049708A (ja) ネットワーク障害情報収集装置、システム、方法及びプログラム
JP4412031B2 (ja) ネットワーク監視システム及びその方法、プログラム
US7903657B2 (en) Method for classifying applications and detecting network abnormality by statistical information of packets and apparatus therefor
JP2012182739A (ja) 異常リンク推定装置、異常リンク推定方法、プログラムおよび異常リンク推定システム
JP2008283621A (ja) ネットワーク輻輳状況監視装置、ネットワーク輻輳状況監視方法及びプログラム
Shirali-Shahreza et al. Empowering software defined network controller with packet-level information
CN114465897A (zh) 业务流中数据包的监控方法、装置和系统
JP4464256B2 (ja) ネットワーク上位監視装置
JP2016146581A (ja) トラヒック情報収集装置およびトラヒック情報収集方法
JP2006211360A (ja) 通信回線監視装置