CN103081407A - 故障分析装置、故障分析系统及故障分析方法 - Google Patents
故障分析装置、故障分析系统及故障分析方法 Download PDFInfo
- Publication number
- CN103081407A CN103081407A CN2011800422915A CN201180042291A CN103081407A CN 103081407 A CN103081407 A CN 103081407A CN 2011800422915 A CN2011800422915 A CN 2011800422915A CN 201180042291 A CN201180042291 A CN 201180042291A CN 103081407 A CN103081407 A CN 103081407A
- Authority
- CN
- China
- Prior art keywords
- benchmark
- router
- distributes
- mahalanobis generalised
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 78
- 238000000034 method Methods 0.000 title description 19
- 238000009826 distribution Methods 0.000 claims abstract description 96
- 230000005856 abnormality Effects 0.000 claims abstract description 61
- 238000004891 communication Methods 0.000 claims description 54
- 238000005096 rolling process Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 abstract description 20
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract description 5
- 238000003325 tomography Methods 0.000 abstract description 5
- 238000004220 aggregation Methods 0.000 abstract 1
- 230000002776 aggregation Effects 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 17
- 230000001419 dependent effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000000523 sample Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 3
- 238000010205 computational analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 101000666730 Homo sapiens T-complex protein 1 subunit alpha Proteins 0.000 description 2
- 102100038410 T-complex protein 1 subunit alpha Human genes 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001562081 Ikeda Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/28—Routing or path finding of packets in data switching networks using route fault recovery
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
在网络断层扫描技术中,不能确定出发生故障的部位、故障原因,并且由于信息量较少,误检测也比较多。IMF(102)使用AFM聚合流挖掘等从作为被检对象的各个路由器(105)取得每个流的信息,按照每个路由器取得每个流的差分或吞吐量等统计信息的分布,针对各个分布计算相对于基准分布的期待值的马哈拉诺比斯距离,对分布进行总括性判定来进行异常判定。在进行异常判定时,从AFM取得作为比较对象的分布的正常值,并随时进行反馈及更新。在判定了其它路由器的异常判定结果后,进行作为比较对象的基准分布的期待值及标准偏差的期待值的更新。
Description
技术领域
本发明涉及处理大量的有线节点来进行故障分析的装置。
背景技术
当今,在大规模的分布式处理(Distributed Processing)网络系统中最大的问题是可用性。如果不是24小时365天实质上不停止地工作,则很难在主干业务中使用分布式处理网络系统。尤其为了提高分布式处理网络系统的可用性,必须实现针对分布式处理网络系统的可靠性及信息处理的快速响应性的提高。
当前为了实现通信的可靠性的提高,应用被实施分布式处理,并且作为网络系统,大部分系统采取冗余结构。但是,使用分布式处理网络系统的服务的扩大导致通信流(Traffic)的飞跃性增大,在进行分布式处理而且采取冗余结构的数据中心及网络系统中,今后将担忧功耗的增大。因此,为了实现低功耗化,需要确保可靠性同时有效缩减臃肿化的网络,重新配置最佳的虚拟服务器或虚拟交换机(Switch),为此故障分析技术是必需的技术。作为这种故障分析方法的现有技术,可以列举公开了使用网络断层扫描(Network Tomography)来探测状态变化的技术的专利文献1、或专利文献2。
现有技术文献
专利文献
专利文献1:日本特开2007-201646号公报
专利文献2:日本特开2005-189163号公报
专利文献3:日本特开2006-314077号公报
发明概要
发明要解决的问题
通过上述的管理服务器的控制,作为用于定期地重新配置最佳的虚拟服务器或虚拟交换机的控制触发器之一,能够采用通信效率。因为在通信效率较差的网络中重传增多,如果在这种网络上重新配置虚拟服务器或虚拟交换机,将担忧功耗的增大。因此,需要在网络系统中快速确定出作为故障部位的路由器及服务器等,将作为故障部位的路由器或服务器通知给进行虚拟服务器或虚拟交换机的重新配置的管理服务器,管理服务器进行虚拟服务器或虚拟交换机的重新配置,避免无用的功耗的浪费。
所谓有关故障分析的专利文献1的网络断层扫描,是指从外部发送探测包(Probe Packet),使用探测包的延迟等分析参数探测状态变化。该网络断层扫描中的技术问题是,通过从网络拓扑的外部发送探测包来估计网络拓扑内部的事件,由于能够取得的分析参数较少而且不是实际流(Flow)的信息,因而能够分析的故障或事件受限,而且有可能检测结果不是故障。
以利用延迟数据检测状态变化的情况为例。在仅利用延迟数据探测状态变化并发送警报的情况下,在网络系统中,作为延迟增大的原因,有可能是各个路由器排队而产生的延迟,有可能检测结果不是故障。并且,由于仅根据延迟的变动来判定状态变化并发送警报,因而在应用的发送开始、应用的发送停止等产生急剧的状态变化的情况等非故障的情况时,也发送警报。这样在仅根据延迟的急剧的状态变化向管理服务器发送警报的情况下,在没有发生故障时也发生警报,因而陷入管理服务器管理的警报过多的状态,使得管理服务器对系统的异常判定比较困难。并且,也难以确定出故障部位,管理服务器难以使用断层扫描的结果进行虚拟服务器或虚拟交换机的重新配置。
另外,在专利文献2记载的异常判定装置中,在检测异常时,消除控制的复杂化,但是需要事前保持正常时的数据。在如网络系统那样通信流的状况始终变化而产生多样化的故障的系统中,很难事前测定能够判定为正常的参数。这样在判定为异常时,很难定义作为比较对象的基准值。
发明内容
本发明的目的在于,提供一种故障分析装置、系统及方法,能够减少故障部位的具体确定以及针对故障检测的错误检测率,避免警报过多状态,而且正确地进行针对系统的异常判定。
用于解决问题的手段
为了达到上述目的,本发明提供一种故障分析装置,与网络上的多个路由器连接,其特征在于,该故障分析装置具有:接收部,接收各个路由器取得的在通信流中流过的每个流的信息作为数据组;蓄积部,蓄积所接收的数据组;以及故障分析部,将所蓄积的每个路由器的数据组作为对于每个故障的至少一个分析参数,计算分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于基准分布的马哈拉诺比斯距离进行异常判定,在各个路由器的异常判定时,通过移动平均来进行在所有路由器的异常判定中使用的基准分布的平均值及标准偏差的期待值的更新。
并且,为了达到上述目的,本发明提供一种网络的故障分析系统,其特征在于,在网络上具有与节点连接的多个路由器、和与多个路由器连接的故障分析装置,故障分析装置具有:接收部,接收各个路由器取得的在通信流中流过的每个流的信息作为数据组;以及故障分析部,将所接收的每个路由器的数据组作为对于每个故障的至少一个分析参数,计算分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于基准分布的马哈拉诺比斯距离进行异常判定。
并且,为了达到上述目的,本发明提供一种与网络上的多个路由器连接的节点中的故障分析方法,其特征在于,节点接收各个路由器取得的在通信流中流过的每个流的信息作为数据组,节点将所接收的每个路由器的数据组作为对于每个故障的至少一个分析参数,计算分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于基准分布的马哈拉诺比斯距离进行异常判定。
发明效果
根据本发明,将大量发送的数据组作为至少一个分析参数,对于该分析参数的分布,计算相对于基准分布的期待值的马哈拉诺比斯距离,使用分析参数分布中的相对于基准分布的期待值的马哈拉诺比斯距离进行总括性的异常判定,因而能够恰当进行判定。
并且,在进行异常判定时,根据信息收集故障分析装置所管理的每个路由器的异常判定结果,判定作为比较对象的基准分布的期待值并加以更新。由于判定系统整体的状态来进行作为比较对象的基准分布的期待值的更新,因而能够进行更恰当的异常判定。
另外,根据有无从线性事件向非线性事件的过渡来进行异常判定,因而不需要将作为比较对象的基准值固定。
附图说明
图1是实施例1的数据中心内的系统概要图。
图2是实施例1的WAN上的系统概要图。
图3是表示实施例1的AFM的包的一例的概要图。
图4是说明用于进行实施例1的比较验证的概要的图。
图5是对实施例1的改进结构的基准分布进行反馈的方法的概要说明图。
图6是实施例1的检测异常流的概要图。
图7是实施例2的检查三维马哈拉诺比斯距离的方法的概要说明图。
图8是用于说明各个实施例的故障分析系统中的IMF的一个功能结构的功能框图。
图9是各个实施例的IMF的流程图。
图10是表示各个实施例的IMF内部的块结构的一例的图。
图11是表示各个实施例的IMF管理的表的一例的图。
图12A是表示各个实施例的废弃率的数据的曲线的图。
图12B是各个实施例的废弃率的数据的表图。
图13A是表示各个实施例的吞吐量的数据的曲线的图。
图13B是表示各个实施例的吞吐量的数据的图。
图14A是表示各个实施例的平均包大小的数据的曲线的图。
图14B是表示各个实施例的平均包大小的数据的图。
图15A是表示各个实施例的三维马哈拉诺比斯距离的数据的曲线图的图。
图15B是表示各个实施例的三维马哈拉诺比斯距离的数据的图。
图16A是各个实施例的废弃率的数据的曲线的图。
图16B是表示各个实施例的废弃率的数据的图。
图17A是表示各个实施例的吞吐量的数据的曲线的图。
图17B是表示各个实施例的吞吐量的数据的图。
图18A是表示各个实施例的平均包大小的数据的曲线的图。
图18B是表示各个实施例的平均包大小的数据的图。
图19A是表示各个实施例的三维马哈拉诺比斯距离的数据的曲线的图。
图19B是表示各个实施例的三维马哈拉诺比斯距离的数据的图。
图20A是说明实施例5的AFM的参数即差异数的图。
图20B是说明实施例5的AFM的参数即差异数的图。
图21A是在将实施例5的(源IP地址,协议)固定的情况下,作为差异数来说明每个源IP地址的吞吐量的曲线图。
图21B是在将实施例5的(源IP地址,协议)固定的情况下,作为差异数来说明每个源IP地址的吞吐量的图。
图22A是在将实施例5的(源IP地址,协议)固定的情况下,作为差异数来说明每个目的地IP地址的吞吐量的曲线图。
图22B是在将实施例5的(源IP地址,协议)固定的情况下,作为差异数来说明每个目的地IP地址的吞吐量的图。
具体实施方式
下面,根据附图说明本发明的具体实施例。
实施例1
图1表示在第1实施例的数据中心内执行故障分析的管理系统的结构概要图。在本说明书中,将收集从作为被检对象的各个路由器发送的AFM(Aggregated Flow Mining:聚合流挖掘)等信息并进行分析的故障分析装置定义为IMF(Integrated Mining ofFlow:流的集成挖掘)。另外,关于AFM技术,可以参照池田等的“大規模エツジル一タよ高速トラヒツクモニタリング”、信学会技報、vol.109、no.421、IA2009-90、PP47-52、Feb.2010,或者渡边等的日本特开2006-314077号公报等。
图1的结构表示由综合管理服务器控制并管理数据中心内部的虚拟服务器及虚拟交换机的系统,101表示客户端(Client),102表示故障分析装置(Integrated Mining of Flow:IMF),103表示综合管理服务器,104表示服务器,105表示路由器。在该管理系统中,管理服务器103在检测到路由器105或服务器104等装置的异常后进行系统的控制。在此,为了探测各个路由器105或服务器104的状态变化,需要取得在某个时间内经由路由器105的包量等、用于分析各个路由器105的状态变化的统计参数。
另外,在图1中,管理系统中的客户端101、IMF102、综合管理服务器103、服务器104、路由器105等之间的各种连线中,双向的细实线表示相互间的通信线,粗实线表示各种信息在通信线中的传递。根据该图可知,表示从各个路由器105经由通信线向IMF102发送AFM。并且,表示向客户端101、服务器104、路由器105发送各种控制命令(Control Command)。在本说明书中,关于这些网络中的各个要素,有时将作为通信控制装置发挥作用的路由器以外的要素统称为节点。只要没有特殊说明,则这一点同样适用于图2以后的系统结构图。
在本实施例的管理系统中,作为取得用于分析各个路由器105的状态变化的统计参数的手段,列举了AFM(Aggregated Flow Mining)的例子。关于AFM如在上述的文献等中公开的那样,便于路由器等通信控制装置提供统计信息,用于使运用者尽快从大量的通信流中发现妨碍网络的正常运用的异常流或特征性的流。另外,作为取得统计信息的其它方法还有SNMP(Simple Network Management Protocol:简单网络管理协议)。但是,由于SNMP使用MIB(Management Information Base:管理信息库),所以在向管理员发送统计信息时,SNMP与MIB的信息交换比较低速,因而不能向管理员发送实时的统计信息。另外,SNMP的统计信息多是路由器105的队列的信息等,作为信息是粗糙的信息。
AFM与SNMP不同,是从通信流中确定出向管理员发送与异常流或特征流相关的统计信息的通信协议,不具有如SNMP的MIB那样的数据库,而是在作为存储部的RAM(RandomAccess Memory:随机存取存储器)中具有数据库,使用散列(hash)函数检索统计信息来进行快速的信息交换,因而在进行控制时动作的开销较少,能够处理大容量的通信流。并且,AFM用于处理每个流的信息,因而能够取得比SNMP更详细的信息。
本实施例的系统由综合管理系统整体的综合管理服务器103、收集从多个路由器105发送的AFM并根据AFM的信息探测通信流的状态变化的IMF 102、客户端101、和服务器104构成。各个路由器105向IMF 102发送AFM。AFM对路由器具有的各个端口进行镜像,汇集被镜像后的信息并存储在包中向IMF 102发送,因而不会对经由路由器105的通信流产生影响。
IMF 102按照每个路由器105收集AFM,通过对AFM的数据进行差分化来进行每个路由器的故障分析。其中,IMF 102的硬性能是有限的,因而IMF 102能够管理的路由器的台数也是有限的。因此,假设在系统中存在多个IMF 102。IMF 102在进行故障分析时,考虑IMF 102管理的路由器105的因果关系,根据所管理的所有路由器105的故障判定,在进行故障判定时进行作为比较对象的基准分布的期待值的更新。各个IMF 102收集从作为通信控制装置的各个路由器发送的AFM,对于每个路由器105进行故障分析,并向综合管理服务器103发送警报(Alert)。接收到警报的综合管理服务器103进行用于在网络中配置最佳的虚拟交换机或虚拟服务器的控制。图1所示的数据中心内部的管理服务器103进行在服务器104之间或数据中心之间重新配置虚拟服务器或虚拟交换机的控制。
图2是表示本实施例的WAN上的管理系统的一例的结构图。综合管理服务器201是控制并管理WAN上的虚拟服务器及虚拟交换机的系统。与图1相同地,在图2中,综合管理服务器201根据用粗实线表示的从IMF 203发送的警报(Alert),进行在数据中心204A、204B之间或服务器之间配置最佳的虚拟服务器及虚拟交换机的控制。另外,在图2中,双向箭头的虚线表示各个客户端205与数据中心204A、204B之间的流(FlowA、Flow B、Flow C:流A,流B,流C)。
作为系统整体,图1所示的数据中心内部的综合管理服务器103、图2所示的WAN上的综合管理服务器201相互取得协作,进行网络整体的控制。将WAN上的综合管理服务器201定义为综合管理服务器的母管理服务器,将位于数据中心侧的管理服务器103定义为子管理服务器。在母管理服务器201中仅选择优化用的控制手段,控制本身由子管理服务器103进行。母管理服务器201定期询问子管理服务器103,以便根据从IMF 203发送的信息等执行优化的算法。
图3表示传递在本实施例中使用的AFM的信息的AFM包的格式的一例。一般的流(Flow),多定义为IP头或TCP/UDP(Transmission ControlProtocol/User Datagram Protocol:传输控制协议/用户数据报协议)头中包含的项目(item)中、5元组(5-tuple)(发送源IP地址、目的地IP地址、协议、发送源端口号码、目的地端口号码)的值一致的包的集合。在AFM中将该思考方式进行扩展,将任意的n元组一致的包的集合定义为汇集流,按照该汇集流单位收集包数或字节数等统计信息。如果导入汇集流的概念,则例如将DDoS(Distribute Denial of Service:分布式拒绝服务)攻击或诸如网络扫描那样在1对n主机之间流过的通信流视为单一的流来得到其统计信息,能够更容易掌握在网络上流过的通信流的状态。
图3中的AFM包300由流类别301、项目数302、有效载荷长度303、包数304、字节数305、测定时间306、取得时刻307等构成,在探测异常流时,向IMF 102、203发送必要的信息。
图4是用于说明本实施例的IMF 102、203进行故障分析时的异常判定方法的图。另外,关于IMF 102、203的内部结构的具体实施例,将在后面使用图10进行说明。IFM在分析故障时,需要判定在网络上流过的通信流正常还是异常。在本实施例中采用判定在网络上流过的流整体的状态正常还是异常的方法。在图4中示出了在某个时刻的网络中使用所有流的分析参数测定值绘制得到的分布。图4的横轴表示数据值,纵轴表示概率密度。
首先,在图4中,将作为比较对象的基准分布401的平均值和标准偏差设定为初始值。这些分布表示每个流的分布。例如,在将网络通信流定义为分析参数的情况下,将网络通信流的平均值设定为32[kbit/s](千比特/秒)、将标准偏差设定为32[kbit/s]。该值依据于2010年9月日本总务省的“総合通信基盤局”披露的、日本平均每一名签约者的通信流的量——即约为32[kbit/s]的值。
然后,IMF 102、203从各个路由器105的AFM取得必要的统计信息,以便进行在网络上流过的通信流的异常判定。然后,对于所取得的各个数据,计算相对于基准分布的马哈拉诺比斯距离的绝对值。
马哈拉诺比斯距离的算式如下式所示。
D=(x-平均)/标准偏差[a.u.]……(1)
根据式(1),如果马哈拉诺比斯距离的值是足够远离0的值,则可以理解为是脱离作为比较对象的基准分布的数据。关于分布,在计算各个流的马哈拉诺比斯距离后,计算所有流的马哈拉诺比斯距离的平均值。计算出的马哈拉诺比斯距离的平均值如图4的分布402所示,对于2以上的分布,如果分布是依据正态分布的,则可以推测显著性水平为5%是非显著性的。即,能够视为是以5%的概率发生的异常分布。这样,通过探测分布的异常,能够根据在发送了AFM的路由器中流过的通信流整体的分布检测是否异常。
图5是用于说明使用以上说明的实施例1的马哈拉诺比斯距离的通信流的异常判定方法的精度提高用的变形实施例的图。由于通信流在时时刻刻变化着,因而很难定义通信流中的正常值。本变形例涉及在由后面说明的IMF 102、203的处理部进行的异常判定中,始终对作为比较基准的基准分布进行反馈并更新的方法。即,更新作为比较对象的基准分布501的期待值的方法。在本变形例中,对于实时收集的数据的分布,将根据过去的数据定义的基准分布的分布的平均值和标准偏差进行比较,并计算出马哈拉诺比斯距离。
由IMF 102、203收集AFM的数据,并对收集到的数据的分布计算平均和标准偏差,取得基准分布的平均值和标准偏差的移动平均。
移动平均的计算式如下式2、3所示。
平均的移动平均=(基准分布的平均+在AFM中取得的数据分布的平均)/2 ……(2)
标准偏差的移动平均=(基准分布的标准偏差+在AFM中取得的数据分布的标准偏差)/2 ……(3)
根据上述求出的式2、3,将反馈后的平均的移动平均定义为新的基准分布的平均,将标准偏差的移动平均定义为新的基准分布的标准偏差。图5示例了反馈后的期待值平均(圆圈1、圆圈2),并示例了相对于期待值平均(圆圈2)的异常分布的平均。
以根据该过去的数据重新定义的基准分布501为基础,与重新实时取得的AFM的数据进行比较验证。在进行比较验证时,根据所设定的基准分布的平均和标准偏差,对新取得的AFM的数据进行马哈拉诺比斯距离的计算。对于计算出的马哈拉诺比斯距离的平均值为2以上的分布,如果分布是依据于正态分布的分布,则可以推测显著性水平为5%是非显著性的,并推测为是以5%的概率发生的异常分布502。
这样,通过对基准分布的平均值和标准偏差进行反馈,取得移动平均并进行更新,将大幅偏离移动平均的分布推定为异常分布,能够推定为发生了大幅偏离线性现象的异常事件。通常呼叫的发生等事件基本上是独立发生的。但是,在事件的相关性急剧升高的情况下,能够捕捉为发生了通常未能考虑到的事件。例如,在以通信流为轴的示例中,发生了通常不发生的事件,多个通信流急剧上升。作为这种通常不发生的事件,例如在新年的上午0时在明治神宫利用便携电话一齐向家人或朋友通信而导致便携电话处于音信不通的、相关值急剧上升的事件。
在本变形例中,在进行反馈时,作为基准分布定义了线性事件,因此对于作为非线性事件的异常事件不更新移动平均。即,在判定为发生了异常的情况下,对根据测定出的值将基准分布更新进行抑制。并且,在IMF102、203管理的各个路由器中,如果在路由器中即使是一个路由器发生了异常事件,也不进行所管理的其它路由器的基准分布的平均值和标准偏差值的反馈。即,考虑与系统内的其它路由器的因果关系来进行作为比较对象的基准分布的平均值和标准偏差值的期待值的更新。并且,在进行基准分布的平均值和标准偏差值的期待值的更新时,在IMF 102、203管理的路由器是一台的情况下,根据该一台路由器的异常判定进行基准分布的期待值的更新。根据本变形例,能够实时追踪通信流来更新通信流的正常值,能够对在网络上流过的通信流整体的分布进行正确的异常判定。
下面,使用图6说明当在通信流整体中判定为状态异常的情况下,确定引发异常的故障原因的方法。图6是说明从由AFM取得的统计数据中确定异常通信流的方法的图。在该图中,横轴表示流号码,纵轴表示各个流的数据值。
用于确定异常流(603)的评价式如下式所示。
Avg(基准分布)+2σ(基准分布)<流的数据 ……(4)
在将使用AFM测定的分布判定为异常分布的情况下,如上式所示,根据基准分布的平均值601和标准偏差σ602,将相对于基准分布的平均值601为2σ以上的通信流估计为异常通信流。在图6中,在确定该异常流603时,示例了2σ为阈值,但是该值是IMF 102、203的管理员能够设定的参数。此次列举了2σ为主要的阈值的示例,但如果分布是依据于正态分布的分布,则显著性水平为5%,并且是相对于假设的通信流模式仅以5%的概率发生的流,将该流估计为异常流。即,在本实施例中,判定为以这些异常流为原因而产生异常分布。
这样,始终监视通信流的状况,对于该通信流状况进行反馈并进行学习,将该学习到的基准分布和实时的通信流进行比较。在进行比较验证时,对于每个参数进行。
实施例2
下面,作为实施例2说明基于多维分析的故障分析系统。在故障分析系统的异常判定方法中,需要提高异常判定精度以防止误检测。在误检测较多的分析中,向管理服务器发送的警报(Alert)过多,导致引发管理服务器的误动作或死机的可能性增大。
图7是表示基于使用马哈拉诺比斯距离的三维分析的方法的故障分析系统的概要图的图。关于在该图中采用的轴,是将吞吐量701、平均包大小702、废弃率703设为三个轴。对于这些轴中的每个轴,如前面所述,针对在AFM中取得的数据,使用基准分布的平均值和标准偏差进行马哈拉诺比斯距离的计算。再对按照每个轴求出的马哈拉诺比斯距离计算三维的距离。
在本实施例中,将计算式定义为下式。
三维马哈拉诺比斯距离=sqrt(α*x2+β*y2+γ*z2) ……(5)
α+β+γ=3 ……(6)
在此,将x轴定义为废弃率的马哈拉诺比斯距离,将y轴定义为平均包大小的马哈拉诺比斯距离,将z轴定义为吞吐量的马哈拉诺比斯距离。其中,α、β、γ表示各个轴的权重,通过针对各个故障改变各个轴的权重的参数,能够实现针对故障的更正确的检测。根据上式计算出三维马哈拉诺比斯距离,然后使用三维马哈拉诺比斯距离进行异常判定。将3.5定义为三维马哈拉诺比斯距离的阈值。
对于各个轴,视为异常的阈值是2.0,在将该阈值换算为三维时能够定义为下式。
在本实施例中,在使用该阈值计算三维马哈拉诺比斯距离的平均值的情况下,根据平均值是否超过3.5进行异常判定。这样通过增加进行异常判定的维数,能够总括地进行故障判定。
对于在一维的轴的异常判定中发生的误检测,也利用多维的轴总括地进行异常判定,因而能够进行正确的判定。例如,在某一个轴的分布被判定为异常、其它两个轴的分布未被判定为异常的情况下,如果总括地进行三维判定,则判定为不是异常。这样,通过以三维方式进行异常判定,能够防止以一维方式进行异常判定时发生的误检测。在以上说明的实施例2中,列举了以三维方式进行异常判定的示例,但也能够缩小为二维,还能够扩展为四维、五维等多维。
下面,使用图8~图10说明上述的各个实施例中的IMF 102、203的具体的结构示例及其动作处理。
图8是用于说明IMF 102、203的功能处理的一例的框图。首先,在IMF进行控制时,设定作为比较对象的基准分布的初始值(801)。然后,IMF收集用于使用各个路由器的AFM进行统计处理的数据(802)。针对各个轴,按照每个路由器进行相对于基准分布的马哈拉诺比斯距离的计算,然后进行所管理的每个路由器的异常判定(803)。如果在所管理的路由器内存在检测到异常分布的路由器,则不对IMF所管理的所有路由器进行基准分布的期待值的更新。然后,如果检测到异常,则向管理服务器发送警报(804)。或者,如果在所管理的所有路由器中没有检测到异常,则进行基准分布的期待值的更新(805)。另外,这种基准分布的期待值的更新(805)当然也对应上述实施例1的使用反馈的变形例。这样根据所管理的路由器的相互关系,考虑依存关系来决定在各个路由器中有无用于进行比较验证的基准分布的期待值的更新,由此进一步减少误检测。
图9表示用于说明IMF 102、203的控制方式的一例的流程图。IMF 102、203在进行控制时,首先作为初始值,设定作为各个路由器的各个轴的基准值的平均及标准偏差(901)。在设定后起动IMF,从各个路由器由AFM取得每个流的数据(902)。AFM收集各个路由器的统计信息,将该信息发送给IMF。IMF将取得的信息存储在内部的数据库中。存储在N秒钟期间从各个路由器发送的AFM的信息(903)。使用对每个路由器分配的分析参数求出M维马哈拉诺比斯距离并进行异常判定,根据异常判定的结果,在所管理的路由器中即使有一台路由器异常,也不进行基准分布的期待值的更新(905)。在此,M维是指1以上的所有维数,2以上则对应于实施例2的多维。如果检测到异常,则向管理服务器发送警报(907)。当在所管理的路由器中所有路由器在异常判定中均是正常的情况下,进行基准分布的期待值的更新(906)。该更新(906)对应于图8的更新(805)。
图10表示各个实施例的故障分析系统的IMF 102、203的一个实施例的结构图。IMF 1000是服务器,具有通常的计算机结构,具有构成处理部的中央处理部(Central Processing Unit:CPU)1002、构成存储部的RAM(Random Access Memory:随机存取存储器)1003和HDD(Hard Disk Drive:硬盘驱动器)1009、以及NIF(Network Interface:网络接口)1001。在RAM1003中存储作为接收部发挥作用的接收程序1007、作为发送部发挥作用的发送程序1008、作为存储部发挥作用的存储程序1006、作为故障分析部发挥作用的故障分析程序1004、作为警报生成部发挥作用的警报生成程序1005。CPU 1002从存储在HDD1009中的程序1011逐次读出在IMF 1000中构成这些功能部的各个程序,并在RAM 1003中展开进行驱动。
另外,在本说明书中,省略上述的IMF以外的、构成图1、图2中的故障分析系统的各个要素的内部结构的说明,但是客户端101、205、管理服务器103、201、服务器104、以及路由器105、202等均具有图10所示的计算机的基本结构。另外,将两个以上的不同网络相互连接的通信控制装置即路由器105、202,除了包缓冲器、路径表、流控制部等作为通常的网络上的通信控制装置的结构之外,还具有用于实现生成上述的发送给IMF 102、203的AFM的功能的功能块、程序,通过由处理部执行程序来生成AFM并发送给IMF 102、203。具有这种AFM生成功能的通信控制装置的结构的一例被详细记述在上述的日本特开2006-314077号公报中。
图10的接收程序1007是作为经由NIF(Network Interface)1001接收从各个路由器发送的AFM的接收部发挥作用的单元。发送程序1008是作为发送对管理服务器发出的警报(Alert)或对路由器发出的命令的发送部发挥作用的单元。存储程序1006将从AFM接收到的统计信息加工为与数据库1010中的管理表对应的数据后存储在数据库1010中。作为管理表中的参数,按每个路由器分配统计信息,对于所分配的统计信息,按照每个故障来分配分析参数,并生成管理表。并且,将网络整体的拓扑信息从NMS(Network Management System:网络管理系统)存储到数据库中,以便了解IMF 1000管理的路由器之间的因果关系。
故障分析程序1004从位于数据库1010中的管理表取得分析参数,并计算每个分析参数的相对于基准分布的马哈拉诺比斯距离,然后对每个故障进行总括性的分析。对各个路由器进行异常判定,如果在所管理的路由器中存在即使是一个有异常的路由器,则如上所述不进行所管理的所有路由器的基准值的期待值的更新。并且,在所管理的所有路由器没有被判定为异常的情况下,进行所有路由器的基准分布的期待值的更新。
作为警报生成部发挥作用的警报生成程序1005,将由故障分析程序1004判定为异常的路由器的IP地址、引发异常的流的源的IP地址、目的地的IP地址包含在警报包中发送给管理服务器。并且,对于警报定义并决定警报的级别/等级。作为决定的警报级别的示例,在被划分为三个等级的情况下,对于诸如网络因拥堵而被切断、或者布线因恶化而断线的故障,发送警报级别最高的危险警报,对于产生流的微小的废弃的事件或吞吐量上升等事件,发送提醒警报,对于网络没有发生特殊故障的情况,发送安全警报。
图11表示由IMF 1000利用数据库1010管理的管理表1101的一例。管理表1101按照每个路由器由作为每个路由器的比较对象的基准分布和经由路由器的流的数据组构成。作为基准分布记载了各种分析参数的分布的平均及标准偏差。此次关于分析参数1102,列举平均包大小(Average PacketSize)、吞吐量(Throughput)、废弃率(Drop Ratio)的示例。关于这些分布,在表1101中对作为基准分布的平均及标准偏差进行管理。
并且,也存储每个流(Flow 1、Flow 2……)的信息。作为每个流的信息,除作为分析参数的平均包大小(Average Packet Size)、吞吐量(Throughput)、废弃率(Drop Ratio)之外,还将Source IP(源IP)、DestinationIP(目的地IP)、Source Port(源端口)、Destination Port(目的地端口)作为信息进行存储。根据每个流的这些信息,在IMF的存储程序部1006中对现状的分析参数计算统计分布并更新管理表1101。
图12A、图12B~图15A、图15B表示通过上述的各个实施例,作为从AFM发送的统计信息的废弃率、吞吐量、平均包大小的数据、以及在IMF内计算出的相对于基准分布的马哈拉诺比斯距离的计算结果。计算结果全部是绝对值。
图12A、图12B分别示出了表示废弃率的结果的曲线1201和数据1202。下面,除图20A、图20B之外,同样是表示曲线及其数据。作为试样列举出9条流。并且,作为基准分布,将平均值设定为0.2、将标准偏差设定为0.2。关于在此次示例中列举的废弃率,相对于基准分布的马哈拉诺比斯距离的平均值是0.99。在分布中2σ时的马哈拉诺比斯距离的值是2,因此,如果假设分布依据于正态分布,并且是以显著性水平为5%以上的概率发生的分布,因而废弃率的分布被判定为正常。此次将基准分布的平均值设定为0.2、将标准偏差设定为0.2,但此次的理论依据不在于该值。另外,作为异常流,流号码为9的流的马哈拉诺比斯距离是2.5,取2以上的值,因而确定为异常的流。
图13A、图13B表示吞吐量的结果1301、1302。作为试样列举出9条流。并且,作为基准分布,将平均值设定为200[Mbit/s](兆比特/秒)、将标准偏差设定为200[Mbit/s]。关于在此次示例中列举的吞吐量,马哈拉诺比斯距离的平均值是2.59。在分布中2σ时的马哈拉诺比斯距离的值是2,因此,如果假设分布依据于正态分布,并且是以显著性水平为5%以下的概率发生的分布,因而吞吐量的分布被判定为异常。另外,作为异常流,流号码为2、3、4的流的马哈拉诺比斯距离是6.5,取2以上的值,因而确定为异常的流。
图14A、图14B表示平均包大小的结果1401、1402。作为试样列举出9条流。并且,作为基准分布,将平均值设定为300、将标准偏差设定为300。关于在此次示例中列举的平均包大小,马哈拉诺比斯距离的平均值是0.88。在分布中2σ时的马哈拉诺比斯距离的值是2,如果假设分布依据于正态分布,并且是以显著性水平为5%以上的概率发生的分布,因而吞吐量的分布被判定为正常。另外,作为异常流,流号码为2的流的马哈拉诺比斯距离取2以上的值,因而确定为异常的流。
图15A、图15B表示用于说明使用废弃率、吞吐量、平均包大小这三个轴的马哈拉诺比斯距离进行总括性的而且是三维的异常判定的方法的曲线1501及其数据1502。关于在此次示例中列举的马哈拉诺比斯距离的三维化,将马哈拉诺比斯距离三维化后的值的平均值是3.41。当在一维分布中将异常判定用的阈值设为2σ的情况下,三维的马哈拉诺比斯距离的阈值数值是因此,如果假设分布依据于正态分布,并且是以显著性水平为95%的概率发生的分布,因而此次的状态分布被判定为正常。另外,在判定为异常的情况下,向管理服务器发送包含原因及检测到的对象路由器的IP的包(警报)。IMF使用路由器发送的AFM的统计信息,对每个路由器进行总括性的故障分析,并考虑其它路由器的因果关系,在IMF管理的所有路由器被判定为正常时,更新基准分布的平均值及标准偏差的期待值,由此能够更准确地判定异常。
图16A、图16B~图19A、图19B是表示在进行异常判定的情况下更新了基准分布的平均值及标准偏差的期待值时的、相对于基准分布的马哈拉诺比斯距离的计算结果的曲线和数据。计算结果全部是绝对值。上述的结果是基于预测的试样结果,不是实测值。
图16A、图16B表示废弃率的结果1601、1602。关于废弃率,在更新了基准分布的平均值及标准偏差的期待值的情况下,相对于前一次数据的平均的马哈拉诺比斯距离是0.95。相对于前一次期待值的马哈拉诺比斯距离是0.99。如果马哈拉诺比斯距离是比0足够大的值,则能够视为脱离基准分布的平均和标准偏差的值。此次由于基准分布的平均值的期待值及标准偏差的期待值被更新,因而认为相对于各个数据的马哈拉诺比斯距离已减小。另外,对于被更新后的基准分布的期待值,也示出了被判定为异常时的废弃率的数据。因为更新了基准分布的期待值,为了判定为异常,需要脱离相当远的值。作为脱离的值,是在9条流中4~9这6条流的废弃率表示值0.9的时候。
图17A、图17B表示吞吐量的结果1701、1702。关于吞吐量,在更新了基准分布的平均值及标准偏差的期待值的情况下,相对于前一次数据的平均的马哈拉诺比斯距离是1.27。相对于更新前的期待值的马哈拉诺比斯距离是2.62。此次由于基准分布的平均值及标准偏差的期待值被更新,因而认为马哈拉诺比斯距离已减小。另外,在更新基准分布的平均值及标准偏差的期待值之前,吞吐量被判定为异常分布,但是在即使是相同分布也更新了期待值时被判定为正常。另外,对于被更新后的基准分布,也示出了表示异常时的吞吐量的数据。因为更新了基准分布的期待值,为了判定为异常,需要脱离相当远的值。作为脱离的值,是在9条流中2~8这7条流的吞吐量表示值1.5[Gbit/s]的时候。
图18A、图18B表示平均包大小的结果1801、1802。关于平均包大小,在更新了基准分布的平均值及标准偏差的期待值的情况下,相对于前一次数据的平均的马哈拉诺比斯距离是0.82。相对于前一次的期待值的马哈拉诺比斯距离是0.88。此次由于基准分布的平均值及标准偏差的期待值被更新,因而认为马哈拉诺比斯距离减小。另外,对于被更新后的基准分布,也示出了表示异常时的平均包大小的数据。因为更新了基准分布的期待值,为了判定为异常,需要脱离相当远的值。作为脱离的值,是在9条流中2~4这3条流的平均包大小表示值1000[byte]的时候。
图19A、图19B表示三维马哈拉诺比斯距离的评价结果1901、1902。关于三维马哈拉诺比斯距离,在更新了基准分布的平均值及标准偏差的期待值的情况下,与更新前相比,为了判定为相对于基准分布的平均值偏离了2σ的异常分布,作为数据是需要脱离了相当远的值。此次由于基准分布的平均值及标准偏差的期待值被更新,因而可知在更新基准分布的平均值及标准偏差的期待值之前计算出的马哈拉诺比斯距离较大的值,在此次的判定中马哈拉诺比斯距离的值减小。即,可知相对于前一次包含了误检测的可能性的结果,此次通过使接近更正常的值并进行反馈,能够进行更加恰当的异常判定。
如以上说明的那样,从路由器等被检对象得到的数据组是被分割为多个分析参数的时间序列的数据组,根据这些时间序列的数据组,对相对于每个分析参数的基准分布的平均值及标准偏差的期待值进行反馈并更新。关于基准分布的平均值及标准偏差的期待值,初始参数是根据经验规律而设定的。另外,按每个故障分配分析参数,计算被分配的三维等多个分析参数的相对于基准分布的马哈拉诺比斯距离,并进行总括性的异常判定。
这样,使用多个参数进行异常判定,并考虑各个路由器之间的因果关系,在此基础上根据各个路由器的判定结果再对基准分布的平均值及标准偏差的期待值进行反馈并更新,因而能够防止成为这种状态,即在某一个路由器进行了异常检测的情况下,其它路由器也一齐输出异常检测,导致从信息收集故障分析装置向管理服务器发送的警报过多。并且,通过将分析参数数值增加为三维以上,能够得到非常恰当的判定,而且没有误检测。
实施例3
下面,对第3实施例进行说明。在本实施例中,当在上述的故障分析装置/系统中更新基准分布的平均值及标准偏差的期待值的情况下,对基准分布的平均值及标准偏差,使用接下来各个路由器发送的AFM的统计信息,通过加权移动平均取代简单移动平均来重新进行更新。
基准分布的平均及标准偏差的期待值的移动平均用下式表示。
基准分布的平均的期待值的移动平均=(α*基准分布的平均的期待值+β*在AFM中取得的数据分布的平均)/2 ……(8)
基准分布的标准偏差的期待值的移动平均=(α*基准分布的标准偏差的期待值+β*在AFM中取得的数据分布的标准偏差)/2 ……(9)
α+β=1 ……(10)
使用上述的算式更新基准分布的平均值及标准偏差的期待值。在更新上述算式的平均值及标准偏差的期待值的情况下,考虑IMF管理的路由器之间的因果关系,仅在所管理的所有路由器正常时更新基准分布的平均值及标准偏差的期待值。对该实施例的动作进行说明。系统结构与上述的实施例1、2相同,因而省略说明。
在使用式(8)~(10)更新基准分布的平均值及标准偏差的期待值时,使α值、β值、各自的比率变化。关于α、β表示如下:
β=1/马哈拉诺比斯距离 ……(11)
如果(马哈拉诺比斯距离<1)马哈拉诺比斯距离=1……(11a)
α=1-β ……(12)
使用上述的算式取得基准分布的平均值及标准偏差的加权平均。通过这样获取加权平均,对于作为比较基准的基准分布的平均值及标准偏差,不需要重视脱离程度较高的数据,而是重视更接近基准分布的平均值及标准偏差的数据。这样,通过获取与偏离程度对应的移动平均,能够将作为比较基准的基准分布视为正常分布。在更新上述算式的平均值及标准偏差的期待值的情况下,考虑IMF管理的路由器之间的因果关系,仅在所管理的所有路由器正常时更新基准分布的平均值及标准偏差的期待值。
实施例4
在本实施例中,不对实施例1的故障分析装置、系统设定基准分布的平均及标准偏差的期待值,而是连接网络,使用AFM来掌握N秒期间网络的状态,将此时取得的AFM的数据设定为基准分布的平均及标准偏差的期待值。这样在学习了网络的状况的基础上,自动设定基准分布的平均值及标准偏差的期待值,不需要管理员在推测系统的状况后设定基准分布的平均值及标准偏差的期待值。另外,作为基准分布的初始值,可以考虑将平均值设为0、将系统的最大允许值设定为标准偏差的方法。在这种情况下,在取得N秒期间基准分布的移动平均时,认为基准分布有可能从最大允许值收敛于在当前驱动的值的分布。
实施例5
下面,对第5实施例进行说明。在本实施例中,在实施例1、2说明的故障分析装置/系统中,在IMF进行故障分析时,用下式定义在异常判定中使用的分析参数。
TCP的吞吐量/差异数[Mbit/s] ……(13)
在此对差异数进行说明。图20A、图20B是说明差异数的图。关于从路由器取得用于检测状态变化的分析参数的方法,列举了AFM的例子。在AFM中导入汇集流的概念。例如,列举在5元组(发送源IP地址、目的地IP地址、协议、发送源端口号码、目的地端口号码)中如图20A、图20B所示、由2元组一致的包构成的汇集流的示例。这样将1对n通信视为一个汇集流时,能够定义在2元组中不包含的项目中出现了几种不同的值这样的被称为“差异数”的新的统计量。在AFM中,该差异数也作为统计信息的一部分来收集。图20A、图20B分别表示作为汇集流的、一致的2元组的组的(发送源IP地址、协议)2001或者(目的地IP地址、协议)2002的情况。在作为2元组的组的(发送源IP地址、协议)的情况下,假设某个PC通过TCP通信与多个服务器连接。在作为2元组的组的(目的地IP地址、协议)的情况下,假设服务器接收从多个客户端发送的TCP通信。在上述的参数的概念中,差异数是针对(发送源IP地址、协议为TCP)的差异数或针对(目的地IP地址、协议为TCP)的差异数。在差异数是针对(发送源IP地址、协议为TCP)的差异数的情况下,客户端与某个PC连接,在所连接的TCP通信中,是每TCP1通信的平均吞吐量。如果该值表示较大的值,则假设某个PC在通过大容量的TCP通信与多个服务器连接。
在这样通过大容量的TCP通信来访问多个服务器的情况下,将使网络的效率显著降低。并且,导致连接对象的服务器死机的可能性增大。通过定义如上所述的参数,能够确定出具有恶意的用户或者进行通常用户不可能进行的通信的用户。在差异数是针对(目的地IP地址、协议为TCP)的差异数的情况下,在连接服务器的TCP通信中,是每TCP1通信的平均吞吐量。这样在通过多个而且是大容量的TCP通信来访问多个服务器的情况下,服务器死机的可能性增大。通过定义如上所述的参数,能够确定出有可能死机的服务器。
在上述的实施例中,也考虑定义如下式所述的参数的实施例。
UDP的吞吐量/差异数[Mbit/s] ……(14)
并且,在上述的实施例中,也考虑定义如下式所述的参数的实施例。
TCP的吞吐量/差异数[Mbit/s]+UDP的吞吐量/差异数[Mbit/s] ……(15)
图21A、图21B表示有关式(13)的结果2101、2102。在将(源IP地址,协议)固定的情况下,图21A、图21B所示的结果是相对于目的地IP地址的每个差异数的吞吐量的结果。该结果表示在假设客户端连接多个服务器的状况下,连接服务器的流的平均吞吐量。如果该值表示较高的值,则假设是连接多个服务器的大容量的客户端,客户端有可能引发系统整体的性能恶化。在对于每个差异数的吞吐量更新基准分布的平均值及标准偏差的期待值的情况下,相对于前一次的数据的平均的马哈拉诺比斯距离是1.592。在分布中2σ时的马哈拉诺比斯距离的值是2,因此,如果假设分布依据于正态分布,并且是以显著性水平为5%以上的概率发生的分布,因而吞吐量的分布被判定为正常。
另外,作为异常流,源IP地址=192.168.30.6、源IP地址=192.168.30.7的流的马哈拉诺比斯距离取2以上的值,因而确定为异常的流。将图21A、图21B所示的结果在先前示出的多维分析中定义为一维。
图22A、图22B表示有关式(13)的结果2201、2202。在将(目的地IP地址,协议)固定的情况下,图22A、图22B 1所示的结果是相对于源IP地址的每个差异数的吞吐量的结果。该结果表示在假设服务器连接多个客户端的状况下,服务器连接客户端的流的平均吞吐量。如果该值表示较高的值,则假设是大容量地连接多个客户端的服务器,该服务器有可能引发系统整体的性能恶化。在对于每个差异数的吞吐量更新基准分布的平均值及标准偏差的期待值的情况下,相对于前一次的数据的平均的马哈拉诺比斯距离是2.81。在分布中2σ时的马哈拉诺比斯距离的值为2,因此,如果假设分布依据于正态分布,并且是以显著性水平为5%以下的概率发生的分布,因而吞吐量的分布被判定为异常。
另外,作为异常流,源IP地址=192.168.10.1、源IP地址=192.168.10.2、源IP地址=192.168.10.8的流的马哈拉诺比斯距离取2以上的值,因而确定为异常的流。将图22A、图22B所示的结果在先前示出的多维分析中定义为一维。
以上详细叙述的本发明不限于上述的实施例,包括各种变形例。例如,上述的实施例是为了更好地理解本发明而详细说明的实施例,不一定限定为具有说明的全部结构。
另外,能够将某个实施例的结构的一部分置换为其它实施例的结构,并且也能够对某个实施例的结构追加其它实施例的结构。并且,能够对各个实施例的结构的一部分进行其它结构的追加、删除、置换。
另外,上述的各个结构、功能、处理部等当然也可以通过利用例如集成电路设计它们的一部分或者全部,以硬件来实现。
标号说明
101客户端PC;102 IMF;103综合管理服务器;104服务器PC;105路由器;201综合管理服务器;202路由器;203 IMF;204数据中心;205客户端PC;301 UDP头;302 AFM头;303 AFM统计有效载荷;304版本序号;305统计有效载荷数;306保留;307版本序号;308 AFM代理ID;401基准分布;402异常分布;501基准分布;502异常分布;601基准分布的平均;602基准分布的标准偏差;603异常流;701吞吐量的马哈拉诺比斯距离;702平均包大小的马哈拉诺比斯距离;703废弃率的马哈拉诺比斯距离;801基准分布的初始设定;802在N秒钟内从AFM取得数据;803管理的所有路由器的异常判定;804警报发送;805基准分布的期待值的更新
901作为初始值,设定作为各个路由器的各个轴的基准值的平均及标准偏差
902从各个路由器由AFM取得数据
903经过N秒?
904按照每个轴测定分布的马哈拉诺比斯距离
905每个路由器的M维马哈拉诺比斯距离的测定异常或者全部正常?
906向管理服务器发送警报
907按照每个路由器更新作为每个轴的基准值的平均及标准偏差
1001 NIF;1002 MPU;1003 RAM;1004故障分析程序;1005警报生成程序;1006蓄积程序;1007接收程序;1008发送程序;1009 HDD;1010DB;1101废弃率曲线;1102废弃率的数据;1201废弃率曲线;1202废弃率的数据;1301吞吐量曲线;1302吞吐量的数据;1401平均包大小曲线;1402平均包大小的数据;1501三维马哈拉诺比斯距离的曲线;1502三维马哈拉诺比斯距离的数据表;1601废弃率曲线;1602废弃率的数据;1701吞吐量曲线;1702吞吐量的数据;1801平均包大小曲线;1802平均包大小的数据;1901三维马哈拉诺比斯距离的曲线;1902三维马哈拉诺比斯距离的数据表;2001将发送源IP地址固定时的差异数;2002将目的地IP地址固定时的差异数;
2101在将(源IP地址,协议)固定的情况下,作为差异数的每个源IP地址的吞吐量
2102在将(源IP地址,协议)固定的情况下,作为差异数的每个源IP地址的吞吐量的数据
2201在将(源IP地址,协议)固定的情况下,作为差异数的每个目的地IP地址的吞吐量
2202在将(源IP地址,协议)固定的情况下,作为差异数的每个目的地IP地址的吞吐量的数据
Claims (15)
1.一种故障分析装置,与网络上的多个路由器连接,其特征在于,
该故障分析装置具有:
接收部,接收各个所述路由器取得的在通信流中流过的每个流的信息作为数据组;
蓄积部,蓄积所接收的所述数据组;以及
故障分析部,将所蓄积的每个路由器的所述数据组作为对于每个故障的至少一个分析参数,计算所述分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定。
2.根据权利要求1所述的故障分析装置,其特征在于,
所述故障分析部在使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定时,通过简单移动平均或者加权移动平均来进行在所述路由器异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新。
3.根据权利要求1所述的故障分析装置,其特征在于,
所述故障分析装置还具有警报生成部,
所述警报生成部根据所述故障分析部通过所述异常判定而确定出的故障原因和故障部位,决定发送到外部的警报的等级。
4.根据权利要求2所述的故障分析装置,其特征在于,
所述故障分析部在通过加权移动平均来进行在异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新时,利用与所述马哈拉诺比斯距离成反比例的值进行针对取加权平均的数据的加权。
5.根据权利要求1所述的故障分析装置,其特征在于,
所述故障分析部在对每个所述路由器进行异常判定时,在一定期间从所述路由器收集所述数据组,根据收集到的所述数据组计算在异常判定中使用的所述基准分布的平均值及标准偏差,并作为所述基准分布的初始值。
6.根据权利要求1所述的故障分析装置,其特征在于,
所述故障分析部使用所取得的每个路由器的所述数据组,按照每个故障对多个分析参数进行分割,作为多个所述分析参数中的一个分析参数,根据TCP吞吐量/差异数Mbit/s计算相对于所述基准分布的马哈拉诺比斯距离。
7.根据权利要求1所述的故障分析装置,其特征在于,
所述故障分析部使用所取得的每个路由器的数据组,按照每个故障对多个分析参数进行分割,作为多个所述分析参数中的一个分析参数,根据UDP吞吐量/差异数Mbit/s计算相对于所述基准分布的马哈拉诺比斯距离。
8.根据权利要求1所述的故障分析装置,其特征在于,
所述故障分析部使用所取得的每个路由器的所述数据组,按照每个故障对多个分析参数进行分割,作为多个所述分析参数中的一个分析参数,根据(TCP吞吐量+UDP吞吐量)/差异数Mbit/s计算相对于所述基准分布的马哈拉诺比斯距离。
9.一种网络的故障分析系统,其特征在于,
在所述网络上具有与节点连接的多个路由器、和与多个所述路由器连接的故障分析装置,
所述故障分析装置具有:
接收部,接收各个所述路由器取得的在通信流中流过的每个流的信息作为数据组;以及
故障分析部,将所接收的每个路由器的所述数据组作为对于每个故障的至少一个分析参数,计算所述分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定。
10.根据权利要求9所述的故障分析系统,其特征在于,
所述故障分析部在使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定时,通过简单移动平均或者加权移动平均来进行在所述路由器异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新。
11.根据权利要求9所述的故障分析系统,其特征在于,
具有所述故障分析部的所述节点还具有警报生成部,
所述警报生成部根据所述故障分析部通过所述异常判定而确定出的故障原因和故障部位,决定发送的警报的等级。
12.根据权利要求11所述的故障分析系统,其特征在于,
在所述网络上还具备与具有所述故障分析部的所述节点连接的管理服务器,
具有所述警报生成部的所述节点具备:
发送部,向所述管理服务器发送由所述警报生成部决定了等级的所述警报。
13.一种与网络上的多个路由器连接的节点中的故障分析方法,其特征在于,
所述节点接收各个所述路由器取得的在通信流中流过的每个流的信息作为数据组,
所述节点将所接收的每个路由器的所述数据组作为对于每个故障的至少一个分析参数,计算所述分析参数的相对于基准分布的马哈拉诺比斯距离,按照每个路由器使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定。
14.根据权利要求13所述的故障分析方法,其特征在于,
所述节点在使用相对于所述基准分布的马哈拉诺比斯距离进行异常判定时,通过简单移动平均或者加权移动平均来进行在所述路由器异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新。
15.根据权利要求14所述的故障分析方法,其特征在于,
所述节点在通过加权移动平均来进行在异常判定中使用的所述基准分布的平均值及标准偏差的期待值的更新时,利用与所述马哈拉诺比斯距离成反比例的值进行针对取加权平均的数据的加权。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2011/054886 WO2012117549A1 (ja) | 2011-03-03 | 2011-03-03 | 障害解析装置、そのシステム、およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103081407A true CN103081407A (zh) | 2013-05-01 |
CN103081407B CN103081407B (zh) | 2015-11-25 |
Family
ID=46757509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180042291.5A Expired - Fee Related CN103081407B (zh) | 2011-03-03 | 2011-03-03 | 故障分析装置、故障分析系统及故障分析方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9065728B2 (zh) |
JP (1) | JP5666685B2 (zh) |
CN (1) | CN103081407B (zh) |
WO (1) | WO2012117549A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104903866A (zh) * | 2013-11-29 | 2015-09-09 | 株式会社日立制作所 | 对事件根本原因的分析予以支援的管理系统以及方法 |
CN106662417A (zh) * | 2014-10-20 | 2017-05-10 | 三菱日立电力系统株式会社 | 热交换器的监视装置及热交换器的监视方法 |
CN110207996A (zh) * | 2019-04-19 | 2019-09-06 | 中国神华能源股份有限公司 | 燃气轮机故障预警方法和装置 |
CN110928264A (zh) * | 2018-09-20 | 2020-03-27 | 株式会社斯库林集团 | 数据处理、数据处理装置以及计算机可读取记录介质 |
CN113348420A (zh) * | 2019-03-28 | 2021-09-03 | 三菱动力株式会社 | 成套设备监视装置、成套设备监视方法及程序 |
US20220263737A1 (en) * | 2019-07-23 | 2022-08-18 | Nippon Telegraph And Telephone Corporation | Anomaly detection device, anomaly detection method and anomaly detection program |
TWI785718B (zh) * | 2021-08-04 | 2022-12-01 | 中華電信股份有限公司 | 電信網路的自我修復系統和自我修復方法 |
CN116662794A (zh) * | 2023-08-02 | 2023-08-29 | 成都凯天电子股份有限公司 | 一种考虑数据分布更新的振动异常监测方法 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9898317B2 (en) | 2012-06-06 | 2018-02-20 | Juniper Networks, Inc. | Physical path determination for virtual network packet flows |
US8953441B2 (en) * | 2012-06-06 | 2015-02-10 | Juniper Networks, Inc. | Re-routing network traffic after link failure |
JP5987701B2 (ja) * | 2013-01-16 | 2016-09-07 | 富士通株式会社 | 通信監視装置、予測方法及び予測プログラム |
JP5958354B2 (ja) | 2013-01-16 | 2016-07-27 | 富士通株式会社 | 通信監視装置、発生予測方法及び発生予測プログラム |
US9276871B1 (en) * | 2014-03-20 | 2016-03-01 | Cisco Technology, Inc. | LISP stretched subnet mode for data center migrations |
US9479457B2 (en) | 2014-03-31 | 2016-10-25 | Juniper Networks, Inc. | High-performance, scalable and drop-free data center switch fabric |
US20150333998A1 (en) * | 2014-05-15 | 2015-11-19 | Futurewei Technologies, Inc. | System and Method for Anomaly Detection |
JP6317685B2 (ja) * | 2015-02-09 | 2018-04-25 | 日本電信電話株式会社 | 通信監視システム、通信監視方法およびプログラム |
JP6440203B2 (ja) | 2015-09-02 | 2018-12-19 | Kddi株式会社 | ネットワーク監視システム、ネットワーク監視方法およびプログラム |
US10958559B2 (en) | 2016-06-15 | 2021-03-23 | Juniper Networks, Inc. | Scaled inter-domain metrics for link state protocols |
US10243840B2 (en) | 2017-03-01 | 2019-03-26 | Juniper Networks, Inc. | Network interface card switching for virtual networks |
WO2020227985A1 (en) * | 2019-05-15 | 2020-11-19 | Alibaba Group Holding Limited | Real-time fault detection on network devices and circuits based on traffic volume statistics |
US10999183B2 (en) | 2019-08-12 | 2021-05-04 | Juniper Networks, Inc. | Link state routing protocol adjacency state machine |
JP7396454B2 (ja) * | 2020-02-27 | 2023-12-12 | 日本電信電話株式会社 | 付与装置、付与方法及び付与プログラム |
CN112636974B (zh) * | 2020-12-22 | 2022-08-02 | 安徽飞凯电子技术有限公司 | 一种基于大数据的通信设备智能监管系统 |
JP7667385B2 (ja) | 2021-02-02 | 2025-04-23 | 日本電気株式会社 | 推定装置、推定方法、およびプログラム |
CN114528135B (zh) * | 2021-12-28 | 2025-04-29 | 北京天一恩华科技股份有限公司 | 一种网络故障根因分析方法、终端设备及存储介质 |
CN114666577B (zh) * | 2022-05-24 | 2022-09-02 | 杭州海康威视数字技术股份有限公司 | 一种基于视频行为距离的设备异常检测方法和装置 |
CN117270610B (zh) * | 2023-10-07 | 2024-12-10 | 国投融合科技股份有限公司 | 餐厨垃圾分布式处理的控制方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11177549A (ja) * | 1997-12-09 | 1999-07-02 | Fujitsu Ltd | トラフィック監視装置及びトラフィック監視方法 |
JP2008118242A (ja) * | 2006-11-01 | 2008-05-22 | Nippon Telegr & Teleph Corp <Ntt> | 異常トラヒック検出方法およびその装置およびプログラム |
US20080186234A1 (en) * | 2007-02-05 | 2008-08-07 | Commscope, Inc. Of North Carolina | Method to modify calibration data used to locate a mobile unit |
KR20090089034A (ko) * | 2008-02-18 | 2009-08-21 | 삼성전자주식회사 | 아이피 통신 시스템에서 비정상동작 아이피 패킷 검출을위한 장치 및 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1682990B1 (en) * | 2003-11-12 | 2013-05-29 | The Trustees of Columbia University in the City of New York | Apparatus method and medium for detecting payload anomaly using n-gram distribution of normal data |
JP4250075B2 (ja) | 2003-12-26 | 2009-04-08 | 株式会社リコー | 画像形成装置 |
US7203431B2 (en) | 2003-12-26 | 2007-04-10 | Ricoh Company, Ltd. | Abnormality determining method, abnormality determining apparatus, and image forming apparatus |
JP4547342B2 (ja) | 2005-04-06 | 2010-09-22 | アラクサラネットワークス株式会社 | ネットワーク制御装置と制御システム並びに制御方法 |
US7694338B1 (en) * | 2005-06-03 | 2010-04-06 | Sprint Communications Company L.P. | Shared tap DOS-attack protection |
JP4089719B2 (ja) * | 2005-09-09 | 2008-05-28 | 沖電気工業株式会社 | 異常検出システム,異常管理装置,異常管理方法,プローブおよびそのプログラム |
JP4594869B2 (ja) | 2006-01-24 | 2010-12-08 | 富士通株式会社 | 状態監視装置 |
US7742404B2 (en) * | 2006-02-23 | 2010-06-22 | Asankya Networks, Inc. | Systems and methods of network monitoring |
US8533819B2 (en) * | 2006-09-29 | 2013-09-10 | At&T Intellectual Property Ii, L.P. | Method and apparatus for detecting compromised host computers |
WO2008052291A2 (en) * | 2006-11-03 | 2008-05-08 | Intelliguard I.T. Pty Ltd | System and process for detecting anomalous network traffic |
-
2011
- 2011-03-03 CN CN201180042291.5A patent/CN103081407B/zh not_active Expired - Fee Related
- 2011-03-03 US US13/819,563 patent/US9065728B2/en not_active Expired - Fee Related
- 2011-03-03 WO PCT/JP2011/054886 patent/WO2012117549A1/ja active Application Filing
- 2011-03-03 JP JP2013502114A patent/JP5666685B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11177549A (ja) * | 1997-12-09 | 1999-07-02 | Fujitsu Ltd | トラフィック監視装置及びトラフィック監視方法 |
JP2008118242A (ja) * | 2006-11-01 | 2008-05-22 | Nippon Telegr & Teleph Corp <Ntt> | 異常トラヒック検出方法およびその装置およびプログラム |
US20080186234A1 (en) * | 2007-02-05 | 2008-08-07 | Commscope, Inc. Of North Carolina | Method to modify calibration data used to locate a mobile unit |
KR20090089034A (ko) * | 2008-02-18 | 2009-08-21 | 삼성전자주식회사 | 아이피 통신 시스템에서 비정상동작 아이피 패킷 검출을위한 장치 및 방법 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104903866B (zh) * | 2013-11-29 | 2017-12-15 | 株式会社日立制作所 | 对事件根本原因的分析予以支援的管理系统以及方法 |
CN104903866A (zh) * | 2013-11-29 | 2015-09-09 | 株式会社日立制作所 | 对事件根本原因的分析予以支援的管理系统以及方法 |
CN106662417A (zh) * | 2014-10-20 | 2017-05-10 | 三菱日立电力系统株式会社 | 热交换器的监视装置及热交换器的监视方法 |
CN106662417B (zh) * | 2014-10-20 | 2018-12-07 | 三菱日立电力系统株式会社 | 热交换器的监视装置及热交换器的监视方法 |
US11474150B2 (en) | 2018-09-20 | 2022-10-18 | SCREEN Holdings Co., Ltd. | Data processing method, data processing device, and non-transitory computer-readable recording medium |
CN110928264B (zh) * | 2018-09-20 | 2023-08-01 | 株式会社斯库林集团 | 数据处理、数据处理装置以及计算机可读取记录介质 |
CN110928264A (zh) * | 2018-09-20 | 2020-03-27 | 株式会社斯库林集团 | 数据处理、数据处理装置以及计算机可读取记录介质 |
CN113348420A (zh) * | 2019-03-28 | 2021-09-03 | 三菱动力株式会社 | 成套设备监视装置、成套设备监视方法及程序 |
CN110207996A (zh) * | 2019-04-19 | 2019-09-06 | 中国神华能源股份有限公司 | 燃气轮机故障预警方法和装置 |
US20220263737A1 (en) * | 2019-07-23 | 2022-08-18 | Nippon Telegraph And Telephone Corporation | Anomaly detection device, anomaly detection method and anomaly detection program |
US12113816B2 (en) * | 2019-07-23 | 2024-10-08 | Nippon Telegraph And Telephone Corporation | Anomaly detection device, anomaly detection method and anomaly detection program |
TWI785718B (zh) * | 2021-08-04 | 2022-12-01 | 中華電信股份有限公司 | 電信網路的自我修復系統和自我修復方法 |
CN116662794A (zh) * | 2023-08-02 | 2023-08-29 | 成都凯天电子股份有限公司 | 一种考虑数据分布更新的振动异常监测方法 |
CN116662794B (zh) * | 2023-08-02 | 2023-11-10 | 成都凯天电子股份有限公司 | 一种考虑数据分布更新的振动异常监测方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2012117549A1 (ja) | 2014-07-07 |
CN103081407B (zh) | 2015-11-25 |
US20130329571A1 (en) | 2013-12-12 |
WO2012117549A1 (ja) | 2012-09-07 |
JP5666685B2 (ja) | 2015-02-12 |
US9065728B2 (en) | 2015-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103081407A (zh) | 故障分析装置、故障分析系统及故障分析方法 | |
US7036049B2 (en) | System and method for collecting statistics for a communication network | |
US7050931B2 (en) | Computing performance thresholds based on variations in network traffic patterns | |
US7281172B2 (en) | Fault information collection program and apparatus | |
US8601155B2 (en) | Telemetry stream performance analysis and optimization | |
CN106685676B (zh) | 一种节点切换方法及装置 | |
Francois et al. | Towards a cognitive routing engine for software defined networks | |
US9219621B2 (en) | Dynamic rate heartbeating for inter-node status updating | |
US6633834B2 (en) | Baselining of data collector data | |
WO2015090098A1 (zh) | 一种实现故障定位的方法及装置 | |
JP6692178B2 (ja) | 通信システム | |
CN111817911A (zh) | 一种探测网络质量的方法、装置、计算设备及存储介质 | |
JP4412031B2 (ja) | ネットワーク監視システム及びその方法、プログラム | |
CN102333007B (zh) | 在线Web服务质量监测系统及方法 | |
Bapat et al. | Analyzing the yield of exscal, a large-scale wireless sensor network experiment | |
CN106412113A (zh) | 一种能源云服务系统及其通信方法 | |
US7564796B2 (en) | Method and system for managing a network slowdown | |
CN110929896A (zh) | 一种系统设备的安全分析方法及装置 | |
CN112636979A (zh) | 一种集群告警方法及相关装置 | |
CN107294767A (zh) | 一种直播网络传输故障监测方法及系统 | |
CN106161339B (zh) | 获取ip访问关系的方法及装置 | |
JP2004086522A (ja) | 通信ネットワーク監視システム | |
CN117714325A (zh) | 服务器集群的网络监测方法、装置、电子设备及存储介质 | |
CN114422324B (zh) | 一种告警信息的处理方法、装置、电子设备及存储介质 | |
CN102567470A (zh) | 系统级性能数据的处理方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151125 Termination date: 20170303 |