JP5421831B2 - Failure detection device - Google Patents
Failure detection device Download PDFInfo
- Publication number
- JP5421831B2 JP5421831B2 JP2010069216A JP2010069216A JP5421831B2 JP 5421831 B2 JP5421831 B2 JP 5421831B2 JP 2010069216 A JP2010069216 A JP 2010069216A JP 2010069216 A JP2010069216 A JP 2010069216A JP 5421831 B2 JP5421831 B2 JP 5421831B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- traffic information
- value
- unit
- determination value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 107
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000010354 integration Effects 0.000 claims description 24
- 230000002123 temporal effect Effects 0.000 claims 2
- 238000004891 communication Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 14
- 239000006185 dispersion Substances 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Small-Scale Networks (AREA)
- Telephonic Communication Services (AREA)
Description
本発明は、ネットワーク装置の故障を検出する故障検出装置に関する。 The present invention relates to a failure detection device that detects a failure of a network device.
有線ネットワークや無線ネットワーク等の様々な通信ネットワークに属するネットワーク装置においては、自装置内部やネットワーク内の他のネットワーク装置の故障をアラームとして上げる監視機能を有するものが知られている。このネットワーク装置は、ポーリング等の監視機能によって自装置や他のネットワーク装置の故障を早期に検出し、サービス品質の低下を早期に回復している。 Among network devices belonging to various communication networks such as a wired network and a wireless network, those having a monitoring function for raising a failure of another network device in its own device or in the network as an alarm are known. This network device detects a failure of its own device or another network device at an early stage by a monitoring function such as polling, and recovers a deterioration in service quality at an early stage.
ところで、ネットワーク装置の故障には、ハードウェアの不具合以外にもソフトウェアやファームウェア上のバグにより一部の処理に不具合を及ぼすものも含まれる。この場合、上記したような監視機能では、ハードウェアの故障を検出できるものの、ソフトウェア等による故障の検出が困難な場合があった。例えば、検出対象のネットワーク装置において、ソフトウェア上のバグによりトラヒック処理だけに不具合が生じる場合には、ポーリング等の監視機能に対して正常に反応するために、故障を検出することが困難となっていた。 By the way, the failure of the network device includes not only a hardware failure but also a failure in a part of processing due to a bug in software or firmware. In this case, although the monitoring function as described above can detect a hardware failure, it may be difficult to detect the failure by software or the like. For example, in a network device to be detected, when a failure occurs only in traffic processing due to a software bug, it is difficult to detect a failure because it responds normally to a monitoring function such as polling. It was.
従来、このような故障を含め、様々な方法で故障を検出することが検討されている。例えば、トラヒックの自己類似性に基づいて故障を検出するものや(非特許文献1)、複数のトラヒック情報の予測誤差を算出して、算出した誤差を利用して対象とするネットワーク装置の故障を検出するもの(非特許文献2)等が検討されている。 Conventionally, it has been studied to detect a failure by various methods including such a failure. For example, a failure is detected based on traffic self-similarity (Non-Patent Document 1), a prediction error of a plurality of traffic information is calculated, and a failure of a target network device is calculated using the calculated error. What to detect (nonpatent literature 2) etc. is examined.
しかしながら、上記従来の故障検出方法では、以下に示すような問題点があった。例えば、トラヒックの自己類似性に基づく故障検出法の場合には、粒度の細かいデータが必要になると共に、新たなトラヒック情報が観測される度に故障検出を実施するため演算量が膨大となる。この故障検出に係る演算量を抑制するために、故障検出タイミングを粗くした場合には故障検出の速度が遅くなり、故障検出に用いるトラヒック情報の粒度を粗くした場合には故障検出精度が低下してしまう問題があった。
また、無線環境に応じてトラヒック情報は時間的に大きく変動するため、単一のトラヒック情報や故障検出用の閾値を用いて故障検出を行う場合には、検出可能な故障事象が限定され、故障の未検出又は誤検出が生じる恐れがある。
However, the conventional failure detection method has the following problems. For example, in the case of a failure detection method based on traffic self-similarity, fine-grained data is required, and the amount of computation is enormous because failure detection is performed each time new traffic information is observed. In order to suppress the amount of calculation related to failure detection, the failure detection speed becomes slower when the failure detection timing is roughened, and the failure detection accuracy is lowered when the granularity of traffic information used for failure detection is coarsened. There was a problem.
In addition, since traffic information varies greatly in time depending on the wireless environment, when fault detection is performed using single traffic information or a threshold value for fault detection, the number of fault events that can be detected is limited. May not be detected or erroneously detected.
本発明は、かかる点に鑑みてなされたものであり、故障検出に係る演算量の増加を抑制し、故障検出速度を低下させることなく、ネットワーク装置の故障を精度よく検出することができる故障検出装置を提供することを目的とする。 The present invention has been made in view of the above points, and is capable of detecting a failure of a network device with high accuracy without suppressing an increase in the amount of calculation related to failure detection and reducing a failure detection speed. An object is to provide an apparatus.
本発明の故障検出装置は、ネットワーク装置に対する複数の異なるトラヒック情報を取得する複数のトラヒック情報取得部と、各トラヒック情報取得部において取得した各トラヒック情報の正規分布に従う誤差から前記トラヒック情報の誤差分散値をそれぞれ算出する複数の故障判断値算出部と、前記故障判断値算出部で算出した各誤差分散値に対してそれぞれ重みづけをし、重みづけされた各誤差分散値を統合して総合故障判断値を生成する故障判断値統合部と、前記故障統合判断値統合部で生成された前記総合故障判断値に基づいて前記ネットワーク装置の故障を検出する故障検出部と、を備えたことを特徴とする。 The failure detection apparatus of the present invention includes a plurality of traffic information acquisition units that acquire a plurality of different traffic information for a network device, and an error variance of the traffic information from an error according to a normal distribution of each traffic information acquired by each traffic information acquisition unit and a plurality of failure determination value calculation portion for calculating a value, respectively, each weighting for each error variance value calculated by the failure determination value calculation unit, total failure to integrate the error distribution values weighted A failure determination value integration unit that generates a determination value; and a failure detection unit that detects a failure of the network device based on the total failure determination value generated by the failure integration determination value integration unit. And
この構成によれば、複数の異なるトラヒック情報から算出した各故障判断値を統合した総合故障判断値に基づいて故障を検出するので、従来の故障検出方法と比べて故障検出に係る演算量の増加を抑制し、故障検出速度を低下させることなく、ネットワーク装置の故障を精度よく検出することができる。また、2つの故障判断値を統合した総合故障判断値から総合的に故障有無を検出するので、従来のように単一のトラヒック情報や故障検出用の閾値を用いて故障検出を行う場合と比べて、検出可能な故障事象が拡大し、故障の未検出又は誤検出を防止することができる。 According to this configuration, since the failure is detected based on the total failure determination value obtained by integrating the failure determination values calculated from a plurality of different traffic information, the amount of calculation related to the failure detection is increased as compared with the conventional failure detection method. Thus, it is possible to accurately detect a failure of the network device without reducing the failure detection speed. In addition, since the presence / absence of failure is comprehensively detected from the total failure judgment value obtained by integrating the two failure judgment values, compared to the case where failure detection is performed using a single traffic information and a threshold for failure detection as in the past. As a result, the number of detectable failure events can be expanded, and failure detection or false detection can be prevented.
本発明によれば、故障検出に係る演算量の増加を抑制し、故障検出速度を低下させることなく、ネットワーク装置の故障を精度よく検出することができる。 According to the present invention, it is possible to accurately detect a failure of a network device without suppressing an increase in the amount of calculation related to failure detection and reducing the failure detection speed.
以下、本発明の実施の形態について添付図面を参照して詳細に説明する。なお、以下の実施の形態においては、本発明に係る故障検出装置を、無線端末装置と無線基地局装置との間の無線区間を含む無線通信システムに配置した例について説明するが、この構成に限定されるものではない。故障検出装置を配置可能な通信システムであればよく、例えば、パーソナルコンピュータや固定電話などの固定端末装置が接続されるインターネットや公衆交換電話網(PSTN:Public Switched Telephone Networks)等の無線区間を含まない有線通信システムに故障検出装置を配置する構成としてもよい。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following embodiment, an example in which the failure detection device according to the present invention is arranged in a wireless communication system including a wireless section between a wireless terminal device and a wireless base station device will be described. It is not limited. Any communication system can be used as long as the failure detection device can be arranged. For example, it includes a wireless section such as the Internet or a public switched telephone network (PSTN) to which a fixed terminal device such as a personal computer or a fixed telephone is connected. It is good also as a structure which arrange | positions a failure detection apparatus in the no wire communication system.
まず故障検出装置の詳細を説明する前に、故障検出装置が属する通信システムの概要の一例について説明する。図1は、本発明の実施の形態に係る故障検出装置が属する通信システムの概要図である。 First, before explaining details of the failure detection apparatus, an example of an outline of a communication system to which the failure detection apparatus belongs will be described. FIG. 1 is a schematic diagram of a communication system to which a failure detection apparatus according to an embodiment of the present invention belongs.
図1に示すように、無線通信システム1においては、無線基地局装置3に無線接続された携帯電話等の無線端末装置2により、スイッチ装置4やルータ装置5等の中継装置6を介して通信が行われている。ルータ装置5には、無線端末装置2に対して各種サービスを提供する外部サーバ装置7や、無線通信システム1内の装置故障を検出する故障検出装置8が接続されている。
As shown in FIG. 1, in the wireless communication system 1, communication is performed by a
故障検出装置8は、無線基地局装置3、中継装置6、外部サーバ装置7を監視しており、無線基地局装置3、中継装置6、外部サーバ装置7を利用する際に発生するトラヒック情報を定期的に取得している。そして、故障検出装置8は、無線基地局装置3、中継装置6、外部サーバ装置7から取得した異なる複数のトラヒック情報を利用して、無線基地局装置3、中継装置6、外部サーバ装置7の故障を検出する。
The
なお、本実施の形態に係る故障検出装置8は、検出対象の無線基地局装置3、中継装置6、外部サーバ装置7に対して外部装置として接続される構成としたが、検出対象の無線基地局装置3、中継装置6、外部サーバ装置7の一部として内部に設けられていてもよい。また、故障検出装置8は、検出対象のネットワーク装置として、無線基地局装置3、中継装置6、外部サーバ装置7の全ての故障を検出する構成としてもよいし、いずれかを検出する構成としてもよい。さらに、故障検出装置8は、中継装置6の上位に位置付けられる図示しない無線ネットワーク制御装置(RNC:Radio Network Controller)の一部に設けられる構成としてもよい。コアネットワークの一部に設けられる構成としてもよい。このように、故障検出装置8は、無線通信システム1を構成するネットワーク装置のいずれを検出対象とすることが可能である。
The
次に、図2を参照して故障検出装置8について説明する。図2は、本実施の形態に係る故障検出装置8の機能ブロック図である。なお、以下の説明では、検出対象となる無線基地局装置3、中継装置6、外部サーバ装置7を、被検出装置として称して説明する。
Next, the
故障検出装置8は、複数の個別故障検出部11(11a,11b)と、故障判断値統合部12と、故障検出部13と、検出条件記憶部14と、報知部15とを備えている。この故障検出装置8は、複数の異なるトラヒック情報に対して統計的性質を利用してそれぞれ個別故障判断を行い、個別故障判断結果を示す各個別故障判断値を統合した総合故障判断値により、被検出装置の故障を総合的に判断するものである。なお、以下では、故障検出装置8が2つの個別故障検出部11a,11bを備える場合を例に挙げて説明するが、異なるトラヒック情報に対して並列的に個別故障判断処理を行うのであれば、個別故障検出部11は任意の数で構成可能である。
The
各個別故障検出部11a,11bは、複数の異なるトラヒック情報を取得し、取得した各トラヒック情報の統計的性質を利用して並列的に故障判断動作を実行するものであり、トラヒック情報取得部16(16a,16b)と、トラヒック情報記憶部17(17a,17b)と、故障判断値算出部18(18a,18b)と、統計情報更新部19(19a,19b)と、を有している。
Each individual
トラヒック情報取得部16a,16bは、被検出装置からそれぞれ異なるトラヒック情報を取得する。ここで、トラヒック情報は、例えば、無線端末装置2の通信の際に発生するトラヒックの受付呼数、および、受け付けたトラヒックのうち正常に処理できた呼数(成功呼数)である。なお、トラヒック情報として、トラヒックの受付呼数および成功呼数だけでなく、受付呼数に対する成功呼数を成功率として利用してもよいし、受付呼数から成功呼数を減算した失敗呼数を利用してもよい。この場合において、受付呼数および成功呼数は、単位時間あたりの呼数としてもよい。単位時間は、特に限定されるものではなく、例えば、1秒単位、1分単位、1時間単位としてもよい。トラヒック情報は、上記した内容以外にも、被検出装置に対する監視可能な通信処理量を示す情報であれば、どのようなものであってもよい。
The traffic
この場合、故障検出装置8が、被検出装置から直にトラヒック情報を取得する構成としてもよいし、無線通信システム1にトラヒック情報の収集用のサーバ装置を設けて、このサーバ装置からトラヒック情報を取得するようにしてもよい。また、故障検出装置8が被検出装置に対して定期的にトラヒック情報を要求する構成としてもよいし、被検出装置から定期的に故障検出装置8にトラヒック情報が送信される構成としてもよい。また、トラヒック情報取得部16は、被検出装置の装置単位のトラヒック情報を取得してもよいし、被検出装置を構成する構成部分単位でトラヒック情報を取得してもよい。被検出装置を構成する構成部分単位とは、ポート等のインターフェース単位、モジュール単位やインタフェースカード単位のような被検出装置を構成する部分単位である。
In this case, the
上述したように各トラヒック情報取得部16a,16bで取得されるトラヒック情報はそれぞれ異なる種類(種別)のトラヒック情報であり、所定の時間tに取得されたトラヒック情報a(t),b(t),c(t),d(t)があるものとする。トラヒック情報a(t),b(t),c(t),d(t)は、式(1)及び式(2)のような関係にあるものとする。
a(t)=b(t)+e1(t)…(1)
c(t)=d(t)+e2(t)…(2)
ここで、e1(t)及びe2(t)は、正規分布に従う誤差と仮定する。なお、以下では、トラヒック情報取得部16aがトラヒック情報a(t),b(t)を取得し、トラヒック情報取得部16bがトラヒック情報c(t),d(t)を取得するものとして説明する。
As described above, the traffic information acquired by the traffic
a (t) = b (t) + e 1 (t) (1)
c (t) = d (t) + e 2 (t) (2)
Here, e 1 (t) and e 2 (t) are assumed to be errors according to a normal distribution. In the following description, it is assumed that the traffic
トラヒック情報記憶部17は、トラヒック情報取得部16で取得された被検出装置のトラヒック情報を記憶する。本実施の形態では、トラヒック情報記憶部17は、トラヒック情報取得部16が取得したトラヒック情報a(t),b(t)を記憶し、トラヒック情報記憶部17は、トラヒック情報取得部16が取得したトラヒック情報c(t), d(t)を記憶する。 The traffic information storage unit 17 stores the traffic information of the detected device acquired by the traffic information acquisition unit 16. In the present embodiment, the traffic information storage unit 17 stores the traffic information a (t) and b (t) acquired by the traffic information acquisition unit 16, and the traffic information storage unit 17 acquires the traffic information acquisition unit 16. The traffic information c (t), d (t) is stored.
故障判断値算出部18a,18bは、トラヒック情報記憶部17a,17bに記憶されたトラヒック情報を、個別故障判断部毎における故障判断用の個別故障判断値に変換し、この個別故障判断値を所定の閾値と比較して故障判断を行い、故障判断結果として個別故障判断値を故障判断値統合部12に出力する。ここで、個別故障判断値は、上記トラヒック情報a(t),b(t)及びc(t),d(t)の各誤差e1及びe2から算出される誤差分散値(分散値)σ1及びσ2を用いる。この場合、期待値は0とするが期待値が0ではない場合において0となるように期待値の減算を前もって実施する。具体的には、式(3)に示すように、分散値σ1はトラヒック情報a(t),b(t)の誤差e1の2乗平均により算出され、式(4)に示すように、分散値σ2はトラヒック情報c(t),d(t)の誤差e2の2乗平均により算出される。
σ1=E[|e1(t)|2]…(3)
σ2=E[|e2(t)|2]…(4)
The failure determination
σ 1 = E [| e 1 (t) | 2 ] (3)
σ 2 = E [| e 2 (t) | 2 ] (4)
そして、故障判断値算出部18a,18bは、個別の故障判断結果として個別故障判断値(分散値σ1及びσ2)を故障判断値統合部12にそれぞれ出力する。
Then, the failure determination
故障判断値統合部12は、各故障判断値算出部18a,18bから受けた個別故障判断値(分散値σ1及びσ2)に対してそれぞれ重みづけをして個別故障判断値を統合し、総合的に故障の有無を判断するための総合故障判断値σを生成する。総合故障判断値σは、式(5)及び式(6)により定義し、w1とw2が正の重みづけとなる。
σ=w1σ1+ w2σ2…(5)
σ=w1σ1+w2σ2=w1*E[|a(t)−b(t)|2]+w2*E[|c(t)−d(t)|2]
…(6)
ここで、E[ ]はアンサンブル平均を示すが、アンサンブル平均の代わりに時間平均を用いてもよい。
The failure determination
σ = w 1 σ 1 + w 2 σ 2 (5)
σ = w 1 σ 1 + w 2 σ 2 = w 1 * E [| a (t) −b (t) | 2 ] + w 2 * E [| c (t) −d (t) | 2 ]
(6)
Here, E [] represents an ensemble average, but a time average may be used instead of the ensemble average.
統計情報更新部19a,19bは、故障判断値算出部18a,18bの算出した個別故障判断値(分散値σ1及びσ2)がトラヒックの時間変動に追従するように、定期的に収集されるトラヒック情報a(t),b(t)及びc(t),d(t)の統計情報を学習し、このトラヒック情報の統計情報(統計的性質)を利用して個別故障判断値を逐次的に更新する。ここでは、例えば、式(7)及び(8)により、指数平滑法を利用して統計情報を算出する。
更新処理:
σ1(t)=ησ1(t−1)+(1−η)|a(t)−b(t)|2
σ1(t)=0 for t=0 …(7)
σ2(t)=ζσ2(t−1)+(1−ζ)|c(t)−d(t)|2
σ2(t)=0 for t=0 …(8)
The statistical
Update process:
σ 1 (t) = ησ 1 (t−1) + (1−η) | a (t) −b (t) | 2
σ 1 (t) = 0 for t = 0 (7)
σ 2 (t) = ζσ 2 (t−1) + (1−ζ) | c (t) −d (t) | 2
σ 2 (t) = 0 for t = 0 (8)
統計情報更新部19a,19bによる更新処理がされた場合、故障判断値統合部12は、式(9)により、更新後の個別故障判断値(分散値σ1(t)及びσ2(t))にそれぞれ重みづけをして統合し、総合故障判断値σ(t)を生成する。
統合処理:
σ(t)=w1σ1(t)+w2σ2(t) …(9)
When the update processing by the statistical
Integrated processing:
σ (t) = w 1 σ 1 (t) + w 2 σ 2 (t) (9)
これにより、無線環境に応じてトラヒック情報は時間的に大きく変動した場合でも、この変動に追従した個別故障判断値を算出することができる。なお、式(9)に示す故障判断値統合部12での各個別故障判断値の統合(重みづけ)処理前に式(7)及び式(8)よりトラヒック情報の統計情報を更新したが、式(10)で示すように各(瞬時)分散値|a(t)−b(t)|2及び|c(t)−d(t)|2をw1,w2により重みづけして統合後の故障判断値σに対して、式(11)に示すトラヒック情報の統計情報を更新することも可能である。
統合処理:
σ’(t)=w1*|a(t)−b(t)|2 +w2*|c(t)−d(t)|2 …(10)
σ’(t)は時間tにおける瞬時誤差の統合結果を示す。
更新処理:
σ(t)=λσ(t−1)+(1−λ)σ’(t) …(11)
Thereby, even when the traffic information largely fluctuates in time according to the wireless environment, it is possible to calculate an individual failure judgment value that follows this fluctuation. Note that the statistical information of the traffic information was updated from the formulas (7) and (8) before the integration (weighting) processing of the individual fault judgment values in the fault judgment
Integrated processing:
σ ′ (t) = w 1 * | a (t) −b (t) | 2 + w 2 * | c (t) −d (t) | 2 (10)
σ ′ (t) indicates an integration result of instantaneous errors at time t.
Update process:
σ (t) = λσ (t−1) + (1−λ) σ ′ (t) (11)
ここで、トラヒック量及び時間帯に応じてトラヒック情報及びそのトラヒック情報に基づく故障発生の検出確率が変動するため、個別故障検出部11a,11bによる検出精度が時間とともに変化する。この場合、故障判断値統合部12は、トラヒック量及び/又は時間帯に応じて重みづけを変えることにより、個別故障判断値を適切に統合でき検出精度を改善することが可能となる。特に、時間帯又はトラヒック量に応じて一方の個別故障検出部11の個別故障検出精度が改善し、他方の個別故障検出部11の個別故障検出精度が劣化した場合には、これら各検出精度に応じて重みづけの値を大きくしたり小さくしたりする。すなわち、重みづけw1及びw2の値の調整を、トラヒック量及び時間変動に応じて準静的に可変させることが好ましい。
Here, since the detection probability of occurrence of a failure based on the traffic information and the traffic information varies according to the traffic amount and the time zone, the detection accuracy by the individual
故障検出部13は、故障判断値統合部12で統合された総合故障判断値σに基づいて、被検出装置の故障を検出し、故障検出結果を報知部15に出力する。具体的には、故障検出部13は、検出条件記憶部14に検出条件として記憶された閾値THと総合故障判断値σとを比較し、総合故障判断値σが閾値THより小さい場合には正常であると判断し、総合故障判断値σが閾値THより大きい場合には故障があると判断する。また、故障検出部13は、故障を検出した場合にはトラヒック情報記憶部17a,17bに記憶されたトラヒック情報をリセット(消去)し、故障を検出しない場合にはトラヒック情報記憶部17a,17bに記憶されたトラヒック情報の学習(更新)が継続される。
The
報知部15は、故障検出部13によって故障が検出された場合に、その旨をシステム管理者に報知する。この場合、報知部15は、装置の故障をシステム管理者に対して報知可能な構成であればよく、アラーム等の音声によって報知してもよいし、画像表示によって報知してもよい。また、システム管理者に対して電子メール等で報知するようにしてもよい。なお、無線通信システム1は、報知部15からの報知に基づいて冗長構成への切替を行うようにしてもよい。
When the
なお、上記した故障検出装置8の各部は、装置内に組み込まれたCPU(Central Processing Unit)がROM(Read Only Memory)内の各種プログラムに従ってRAM(Random Access Memory)内のデータを演算し、さらに無線通信システム1を構成する無線基地局装置3、中継装置6、外部サーバ装置7等の各部と協働して処理が実行される。
Each unit of the
次に、図3を参照して故障検出装置8の動作概要の一例について簡単に説明する。図3は、本実施の形態に係る故障検出装置8の動作概要の一例を示すフロー図である。なお、図3では、総合故障判断値の生成前に各トラヒック情報の統計情報を更新する場合を例に挙げて説明する。
Next, an example of the operation outline of the
最初に、個別故障検出部11a,11b内の被検出装置のトラヒック情報、故障判断値及び統計情報を初期化する(ステップS01)。次に、トラヒック情報取得部16aによってトラヒック情報a(t),b(t)が取得されると共に(ステップS02)、トラヒック情報取得部16bによってトラヒック情報c(t),d(t)が取得される(ステップS03)。取得されたトラヒック情報a(t),b(t)はトラヒック情報記憶部17aに記憶され、取得されたトラヒック情報c(t),d(t)はトラヒック情報記憶部17bに記憶される。
First, the traffic information, failure judgment value, and statistical information of the detected devices in the
次に、故障判断値算出部18aでは、上記式(3)により、トラヒック情報記憶部17aに記憶されたトラヒック情報a(t),b(t)から分散値σ1を算出し(ステップS04)、故障判断値算出部18aでは、上記式(4)により、トラヒック情報記憶部17bに記憶されたトラヒック情報c(t),d(t)から分散値σ2を算出する(ステップS05)。統計情報更新部19aでは、上記式(5)により、故障判断値算出部18aで算出した個別故障判断値(分散値σ1)がトラヒックの時間変動に追従するように逐次的に更新される(ステップS06)。同様に、統計情報更新部19aでは、上記式(6)により、故障判断値算出部18aで算出した個別故障判断値(分散値σ2)がトラヒックの時間変動に追従するように逐次的に更新される(ステップS07)。これら更新された各分散値σ1及びσ2は故障判断値統合部12に送られる。ここで、個別故障検出部11aでのステップS02,S04及びS06までの処理と、個別故障検出部11bでのステップS03、S05及びS07までの処理とは、並列的に実行される。
Next, the failure judgment value calculation unit 18a calculates the variance value σ 1 from the traffic information a (t) and b (t) stored in the traffic
次に、故障判断値統合部12では、上記式(9)により、各故障判断値算出部18a,18bで算出された個別故障判断値(分散値σ1(t)及びσ2(t))がそれぞれ重みづけされ、総合故障判断値σ(t)が生成される(ステップS08)。故障検出部13では、故障判断値統合部12で生成された総合故障判断値σ(t)と検出条件記憶部14に記憶された閾値THとが比較され、被検出装置の故障の有無が判断される(ステップS09)。総合故障判断値σ(t)が正常範囲外にある(閾値THより大きい)場合には(ステップS09:Yes)、被検出装置に故障があると判断され、報知部15で故障が報知される(ステップS10)。一方、総合故障判断値σ(t)が正常範囲内にある(閾値THより小さい)場合には(ステップS09:No)、ステップS02及びS03の動作に戻る。そして、個別故障検出部11a,11b内のトラヒック情報、故障判断値及び統計情報がリセット(消去)される(ステップS11)。
Next, in the failure determination
以上のように、本実施の形態によれば、複数の異なるトラヒック情報から算出した各故障判断値を統合した総合故障判断値から故障を検出するので、従来の故障検出方法と比べて故障検出に係る演算量の増加を抑制し、故障検出速度を低下させることなく、ネットワーク装置の故障を精度よく検出することができる。また、一方の故障判断値算出部18aで算出された故障判断値と、他方の故障判断値算出部18bで算出された故障判断値とを統合した総合故障判断値から総合的に故障有無を検出するので、従来のように単一のトラヒック情報や故障検出用の閾値を用いて故障検出を行う場合と比べて、検出可能な故障事象が拡大し、故障の未検出又は誤検出を防止することができる。
As described above, according to the present embodiment, since a failure is detected from an overall failure determination value obtained by integrating each failure determination value calculated from a plurality of different traffic information, failure detection can be performed compared to the conventional failure detection method. It is possible to accurately detect a failure of the network device without suppressing an increase in the calculation amount and reducing the failure detection speed. Further, the presence / absence of a failure is comprehensively detected from a comprehensive failure determination value obtained by integrating the failure determination value calculated by one failure determination value calculation unit 18a and the failure determination value calculated by the other failure determination
なお、上記実施の形態では、総合故障判断値σ(t)と閾値THとを比較して故障の有無を検出したが、上記式(3)及び式(4)により算出した各分散値σ1及びσ2に対して、それぞれ個別故障判断用の閾値TH1及びTH2と比較して故障の有無を検出し、個別故障検出を行ってもよい。この場合において、一方の故障判断値算出部18aで算出された故障判断値が正常を示し、他方の故障判断値算出部18bで算出された故障判断値が異常を示すような場合でも、各故障判断値を統合した総合故障判断値から総合的に故障検出を行うので、ネットワーク装置の故障検出精度を向上させることが可能である。
In the above embodiment, the total failure judgment value σ (t) and the threshold value TH are compared to detect the presence or absence of a failure. However, each variance value σ 1 calculated by the above equations (3) and (4) is used. And σ 2 may be compared with the threshold values TH 1 and TH 2 for determining individual failures, respectively, to detect the presence or absence of failures, and perform individual failure detection. In this case, even if the failure determination value calculated by one failure determination value calculation unit 18a indicates normality and the failure determination value calculated by the other failure determination
また、故障検出装置8での被検出装置の故障検出では、式(12)及び式(13)に示すように、誤差e1及びe2の分散が最小となるトラヒック情報a(t),b(t)及びc(t),d(t)を用いることも可能である。
a(t)=αb(t)+e1(t) …(12)
c(t)=βd(t)+e2(t) …(13)
ここで、e1(t)及びe2(t)が正規分布に従う誤差と仮定する。なお、それぞれの期待値,分散値がμ1,σ1及びμ2,σ2である。αとβは未知の値であるとする。
Further, in the failure detection of the detected device by the
a (t) = αb (t) + e 1 (t) (12)
c (t) = βd (t) + e 2 (t) (13)
Here, it is assumed that e 1 (t) and e 2 (t) are errors according to a normal distribution. In addition, each expected value and dispersion value are μ 1 , σ 1 and μ 2 , σ 2 . Let α and β be unknown values.
上記同様に、分散値σ1はトラヒック情報a(t),αb(t)の誤差e1の2乗平均により算出され、分散値σ2はトラヒック情報c(t),βd(t)の誤差e2の2乗平均により算出される。そして、分散値σ1であるE[|a(t)−αb(t)|2]を最小化するαmの値と、分散値σ1であるE[|c(t)−βd(t)|2]を最小化するβmの値とを求める。αm及びβmの値は、式(14)及び式(15)により与えられる。
αm=σc1/σ1 …(14)
βm=σc2/σ2 …(15)
ここで、σc1=E[a(t)*b(t)],σc2=E[c(t)*d(t)]で定義される。
Similarly to the above, the variance value σ 1 is calculated by the mean square of the error e 1 of the traffic information a (t), αb (t), and the variance value σ 2 is the error of the traffic information c (t), βd (t). It is calculated by the mean square of e 2. Then, a variance value σ 1 E [| a (t ) -αb (t) | 2] and the value of alpha m that minimizes the variance value σ 1 E [| c (t ) -βd (t ) | 2 ] to minimize the value of β m . The values of α m and β m are given by equations (14) and (15).
α m = σ c1 / σ 1 (14)
β m = σ c2 / σ 2 (15)
Here, σ c1 = E [a (t) * b (t)] and σ c2 = E [c (t) * d (t)] are defined.
そして、式(16)により、最小化された分散値σ1及びσ2にそれぞれ重みづけをして総合故障判断値σが算出される。この場合には、最初に分散値を最小化する値αm及びβmを逐次更新した後、個別故障判断値の逐次更新を行い、個別故障判断値の更新処理後に下記の通り、統合処理(重みづけ)を行う。
統合処理:
σ=w1σ1+w2σ2
=w1*E[|a(t)−αm(t)b(t)|2]+w2*E[|c(t)−βm(t)d(t)|2]
…(16)
Then, the total failure judgment value σ is calculated by weighting the minimized variance values σ 1 and σ 2 according to the equation (16). In this case, first, the values α m and β m that minimize the variance value are sequentially updated, and then the individual failure determination values are sequentially updated. After the individual failure determination value update processing, the integration processing ( Weighting).
Integrated processing:
σ = w 1 σ 1 + w 2 σ 2
= W 1 * E [| a (t) −α m (t) b (t) | 2 ] + w 2 * E [| c (t) −β m (t) d (t) | 2 ]
... (16)
また、上記実施の形態と同様に、トラヒックの時間変動に追従するために個別故障判断値を逐次更新することが可能である。すなわち、σ1,σ2,σc1,σc2の計算を逐次更新する必要がある。尚、個別故障判断値の更新処理前に統合(重みづけ)を行う場合には、σ1,σ2,σc1,σc2の他にσの計算も下記式(17)(18)の通り逐次更新する必要がある。
統合処理:
σ’(t)=w1*|a(t)−αm(t)b(t)|2 +w2*|c(t)−βm(t)d(t)|2
…(17)
σ’(t)は時間tにおける瞬時誤差の統合結果を示す。
更新処理:
σ(t)=λσ(t−1)+(1−λ)σ’(t) …(18)
Further, as in the above-described embodiment, the individual failure judgment value can be sequentially updated in order to follow the time fluctuation of traffic. That is, it is necessary to sequentially update the calculations of σ 1 , σ 2 , σ c1 , and σ c2 . When integration (weighting) is performed before the individual failure judgment value update process, in addition to σ 1 , σ 2 , σ c1 , σ c2 , σ is calculated as shown in the following equations (17) and (18). Must be updated sequentially.
Integrated processing:
σ ′ (t) = w 1 * | a (t) −α m (t) b (t) | 2 + w 2 * | c (t) −β m (t) d (t) | 2
... (17)
σ ′ (t) indicates an integration result of instantaneous errors at time t.
Update process:
σ (t) = λσ (t−1) + (1−λ) σ ′ (t) (18)
また、上記した実施の形態においては、故障検出装置が特定の通信システムに適用される構成に限定されず、如何なる通信システムに適用されてもよい。例えば、ISDN、ADSLの固定通信システムの他、NGN等の通信システムに適用されてもよい。また、W−CDMA方式、HSDPA/HSUPA方式、LTE方式、LTE−Advanced方式、IMT−Advanced方式、WiMAX方式、Wi−Fi方式等の移動体通信システムに適用されてもよい。 Further, in the above-described embodiment, the failure detection apparatus is not limited to the configuration applied to a specific communication system, and may be applied to any communication system. For example, the present invention may be applied to communication systems such as NGN in addition to ISDN and ADSL fixed communication systems. The present invention may also be applied to mobile communication systems such as W-CDMA, HSDPA / HSUPA, LTE, LTE-Advanced, IMT-Advanced, WiMAX, and Wi-Fi.
以上、本発明は特定の実施形態を参照しながら説明されたが、単なる例示に過ぎず、当業者が考えうる程度の変形例、修正例、代替例、置換例等で実現されてもよい。また、本実施の形態においては、発明の理解を促すため具体的な数値例を用いて説明がなされたが、特に断りがない限り、それらの数値は単なる一例に過ぎず、同様な作用を奏する如何なる数値が使用されてもよい。また、実施例または項目の区分けは、本発明に本質的ではなく、2以上の実施例または項目に記載された事項が必要に応じて組み合わされて使用されてもよい。説明の便宜上、本実施例に係る装置は機能的なブロック図を用いて説明されたが、装置はハードウェア、ソフトウェアまたはこれらの組み合わせで実現されてもよい。本発明は、上記実施例に限定されず、本発明の技術的思想から逸脱することなく、様々な変形例、修正例、代替例、置換例等が包含される。 Although the present invention has been described above with reference to specific embodiments, the present invention is merely illustrative, and may be implemented with variations, modifications, alternatives, replacements, and the like that can be considered by those skilled in the art. Further, in the present embodiment, explanations have been made using specific numerical examples in order to promote understanding of the invention. However, unless otherwise specified, these numerical values are merely examples and have the same effect. Any numerical value may be used. Further, the division of the examples or items is not essential to the present invention, and the matters described in two or more examples or items may be used in combination as necessary. For convenience of explanation, the apparatus according to the present embodiment has been described using a functional block diagram, but the apparatus may be realized by hardware, software, or a combination thereof. The present invention is not limited to the above-described embodiments, and various modifications, corrections, alternatives, substitutions, and the like are included without departing from the technical idea of the present invention.
また、今回開示された実施の形態は、全ての点で例示であってこの実施の形態に制限されるものではない。本発明の範囲は、上記した実施の形態のみの説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。 The embodiment disclosed this time is illustrative in all respects and is not limited to this embodiment. The scope of the present invention is shown not by the above description of the embodiments but by the scope of the claims, and is intended to include all modifications within the meaning and scope equivalent to the scope of the claims.
以上説明したように、本発明は、ネットワーク装置の故障を精度よく検出することができるという効果を有し、特に無線通信システムにおけるネットワーク装置の故障を検出する故障検出装置に有用である。 As described above, the present invention has an effect that a failure of a network device can be detected with high accuracy, and is particularly useful for a failure detection device that detects a failure of a network device in a wireless communication system.
1 無線通信システム
2 無線端末装置
3 無線基地局装置(ネットワーク装置)
4 スイッチ装置(ネットワーク装置)
5 ルータ装置(ネットワーク装置)
6 中継装置(ネットワーク装置)
7 外部サーバ装置(ネットワーク装置)
8 故障検出装置
11(11a,11b) 個別故障検出部
12 故障判断値統合部
13 故障検出部
14 検出条件記憶部
15 報知部
16(16a,16b) トラヒック情報取得部
17(17a,17b) トラヒック情報記憶部
18(18a,18b) 故障判断値算出部
19(19a,19b) 統計情報更新部
1
4 Switch device (network device)
5 Router device (network device)
6 Relay device (network device)
7 External server device (network device)
8 Failure detection device 11 (11a, 11b) Individual
Claims (4)
各トラヒック情報取得部において取得した各トラヒック情報の正規分布に従う誤差から前記トラヒック情報の誤差分散値をそれぞれ算出する複数の故障判断値算出部と、
前記故障判断値算出部で算出した各誤差分散値に対してそれぞれ重みづけをし、重みづけされた各誤差分散値を統合して総合故障判断値を生成する故障判断値統合部と、
前記故障統合判断値統合部で生成された前記総合故障判断値に基づいて前記ネットワーク装置の故障を検出する故障検出部と、を備えたことを特徴とする故障検出装置。 A plurality of traffic information acquisition units for acquiring a plurality of different traffic information for the network device;
A plurality of failure judgment value calculation units for calculating an error variance value of the traffic information from an error according to a normal distribution of each traffic information acquired in each traffic information acquisition unit ;
A failure determination value integration unit that weights each error variance value calculated by the failure determination value calculation unit and integrates the weighted error variance values to generate a total failure determination value;
A failure detection device comprising: a failure detection unit that detects a failure of the network device based on the total failure determination value generated by the failure integration determination value integration unit.
前記故障判断値統合部は、前記故障判断値更新部による更新後の誤差分散値に対して重みづけをして前記総合故障判断値を生成することを特徴とする請求項1に記載の故障検出装置。 Based on the new traffic information acquired by the traffic information acquisition unit, it has a failure judgment value update unit that sequentially updates the error variance value so as to follow the temporal variation of the traffic information,
The failure detection according to claim 1, wherein the failure determination value integration unit generates the comprehensive failure determination value by weighting the error variance value updated by the failure determination value update unit. apparatus.
前記故障判断値統合部は、前記故障判断値更新部による更新前に前記誤差分散値に対して重みづけをし、前記故障判断値更新部による重みづけされた誤差分散値を更新して前記総合故障判断値を生成することを特徴とする請求項1に記載の故障検出装置。 Based on the new traffic information acquired by the traffic information acquisition unit, it has a failure judgment value update unit that sequentially updates the error variance value so as to follow the temporal variation of the traffic information,
The failure determination value integrating section, a weighting to the error distribution values before updating by the failure determination value updating section, the total update the error distribution values weighted by the failure judgment value updating section The failure detection apparatus according to claim 1, wherein a failure determination value is generated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010069216A JP5421831B2 (en) | 2010-03-25 | 2010-03-25 | Failure detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010069216A JP5421831B2 (en) | 2010-03-25 | 2010-03-25 | Failure detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011205276A JP2011205276A (en) | 2011-10-13 |
JP5421831B2 true JP5421831B2 (en) | 2014-02-19 |
Family
ID=44881478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010069216A Active JP5421831B2 (en) | 2010-03-25 | 2010-03-25 | Failure detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5421831B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014241519A (en) * | 2013-06-11 | 2014-12-25 | 日本電気株式会社 | Communication network system, communication network switching method, communication processing device and its control method, and control program |
CN105243180B (en) * | 2015-09-01 | 2021-06-04 | 珠海格力电器股份有限公司 | Electromechanical equipment fault early warning method and system |
CN113946913B (en) * | 2021-12-20 | 2022-04-15 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | Railway running fault detection method, device, electronic equipment and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08107415A (en) * | 1994-10-04 | 1996-04-23 | Fujitsu Ltd | Synchronous LAN system and method for automatically changing master clock node in synchronous LAN |
JP2005223847A (en) * | 2004-02-09 | 2005-08-18 | Intelligent Cosmos Research Institute | Network abnormality detecting device and method, and network abnormality detecting program |
-
2010
- 2010-03-25 JP JP2010069216A patent/JP5421831B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011205276A (en) | 2011-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11204824B1 (en) | Intelligent network operation platform for network fault mitigation | |
US8560894B2 (en) | Apparatus and method for status decision | |
US11714700B2 (en) | Intelligent network operation platform for network fault mitigation | |
US8862119B2 (en) | Method and apparatus for telecommunications network performance anomaly events detection and notification | |
US20160088502A1 (en) | Method and network device for cell anomaly detection | |
US11678201B2 (en) | Femtocell provisioning and service issue optimization | |
US20110122761A1 (en) | KPI Driven High Availability Method and apparatus for UMTS radio access networks | |
JP5239749B2 (en) | Communication quality management system, communication detection device, network management device, communication quality management method, and communication detection program | |
JP5421831B2 (en) | Failure detection device | |
CN112867051B (en) | System and method for peer-to-peer statistics based fault detection | |
KR102333866B1 (en) | Method and Apparatus for Checking Problem in Mobile Communication Network | |
Gurbani et al. | Detecting and predicting outages in mobile networks with log data | |
US9585041B2 (en) | Method and apparatus for detecting a sleeping cell | |
CN109699041A (en) | A kind of RRU channel failure diagnosis processing method and RRU device | |
JP5511305B2 (en) | Failure detection device | |
KR20210030761A (en) | Method for monitoring wireless network quality and apparatus therefor | |
JP5350975B2 (en) | Failure detection device | |
CN117155937B (en) | Cluster node fault detection method, device, equipment and storage medium | |
US20230069206A1 (en) | Recovery judgment apparatus, recovery judgment method and program | |
US9311210B1 (en) | Methods and apparatus for fault detection | |
JP5485740B2 (en) | Failure detection device | |
JP3892836B2 (en) | Failure estimation apparatus and failure estimation method | |
CN115967968A (en) | Cell abnormity judging and recovering method, device, base station equipment and storage medium | |
KR100521739B1 (en) | Method for optimization of knowledge data on network management system by input of operator | |
WO2025017658A1 (en) | Method and system for detecting anomalies in a communication network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5421831 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |