CN111045866A - 一种bmc故障处理方法、装置、电子设备及存储介质 - Google Patents
一种bmc故障处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111045866A CN111045866A CN201911242793.7A CN201911242793A CN111045866A CN 111045866 A CN111045866 A CN 111045866A CN 201911242793 A CN201911242793 A CN 201911242793A CN 111045866 A CN111045866 A CN 111045866A
- Authority
- CN
- China
- Prior art keywords
- bmc
- flash memory
- fault
- cpld
- software version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 230000015654 memory Effects 0.000 claims abstract description 116
- 238000012544 monitoring process Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000002159 abnormal effect Effects 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 claims 2
- 230000036541 health Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
- G06F11/143—Reconfiguring to eliminate the error with loss of software functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
- G06F8/654—Updates using techniques specially adapted for alterable solid state memories, e.g. for EEPROM or flash memories
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施例提供一种BMC故障处理方法、装置、电子设备及存储介质。所述方法包括:按预设周期监控BMC,根据监控结果判断BMC是否出现故障;若确定BMC出现故障,则向与BMC连接的CPLD发送BMC故障处理指令,以便CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过闪存更新BMC的软件版本。本发明实施例提供的BMC故障处理方法,能够在主机上监控BMC的健康状况,在BMC出现异常时能够自动对其进行恢复处理,从而保证BMC能够正常运行,使得设备可以进行正常的管理。
Description
技术领域
本发明实施例涉及通信技术领域,具体涉及一种BMC(Baseboard ManagementController,基板管理控制器)故障处理方法、装置、电子设备及存储介质。
背景技术
基板管理控制器(Baseboard Management Controller,BMC)管理软件是实现服务器管理的控制单元,主要包含如下功能:
1)远程控制:通过局域网串联(Serial Over LAN,SOL)能够通过网络远程登录被管服务器的主机中央处理器(Host-CPU)的串口,从而对设备进行远程控制。
2)外设健康度监控:能够监控设备上的电源、风扇、温度传感器、电压电流等外设的信息,对于异常状况实时告警。
3)设备信息管理:提供设备固件版本、板卡型号、资产信息等查询。
4)设备上下电管理:能够在设备异常后,对Host-CPU进行上下电,从而恢复设备正常运行。
5)监控Host-CPU的健康状况:BMC会监控Host-CPU的健康状况,出现Host-CPU异常后可以提供告警、重启等手段。
在传统使用中,BMC往往应用于服务器上。近年来,数据中心引入白盒交换机,为了让交换机能够和服务器进行一样的管理,在白盒交换机中也引入了BMC系统。
图1为现有技术中白盒交换机系统架构示意图,如图1所示:交换机设备中存在Host-CPU和BMC两个子系统,在Host-CPU上一般运行Linux操作系统,其中运行的是传统的网络操作系统NOS,主要包含的路由协议例如边界网关协议(Border Gateway Protocol,BGP)、开放最短路径优先(Open Shortest Path First,OSPF)、路由信息协议(RoutingInformation Protocol,RIP)等。而另一个子系统则是BMC,其上主要运行上述所介绍的BMC功能。Host-CPU和BMC之间通过智能平台管理接口(Intelligent Platform ManagementInterface,IPMI)协议进行交互,从而能够在Host-CPU上对BMC进行配置以及信息查询。此外,BMC还提供了通过网络接口对它进行访问的方式,即,外部PC能够使用网络通信的方式通过IPMI协议来配置和查询BMC。
如上述BMC功能介绍,BMC有一个监控Host-CPU健康状况的功能,该功能是通过IPMI喂狗(watchdog)机制实现的。Host-CPU上会启动IPMI-watchdog,周期性地向BMC设置watchdog。当Host-CPU出现故障时,它就会停止向BMC设置,BMC中维护的定时器就会超时,从而感知到Host-CPU出现故障。
然而,BMC也是一个Linux操作系统,运行于BMC芯片上,其本质上是一个ARM架构的CPU,因此,BMC系统也会出现故障,从而导致管理员无法管理这台交换机。BMC芯片有一个硬件watchdog机制,当前的实现一般是在BMC系统的内核中对这个watchdog进行喂狗,如果BMC出现故障无法喂狗,则BMC系统会重启。然而,使用BMC自带的watchdog机制时,是在内核喂狗,有时候会出现应用空间的故障,导致IPMI等都连不上的情况,在这种情况下,远程的管理服务器没有办法连上BMC进行控制,但是BMC又不会自动重启,故障就会持续存在。
现有技术中在出现BMC故障之后,远程管理服务器连到Host-CPU上的Linux系统,通过控制CPLD将BMC进行复位,从而恢复BMC。然而,此时的复位是复位整个BMC芯片,而BMC每次启动都会默认从主BMC运行起来,在主BMC的版本有故障时,仍然会出现IPMI连不上的情况。
发明内容
针对现有技术中的缺陷,本发明实施例提供了一种BMC故障处理方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一种BMC故障处理方法,应用于主机中,所述主机通过IPMI连接BMC,所述BMC通过CPLD连接主备闪存中的其中一个,所述主备闪存中存储有不同BMC软件版本,所述方法包括:
按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;
若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
如上述方法,可选地,所述按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障,包括:
按预设周期向所述BMC发送喂狗消息;
若发送预设监控次数的所述喂狗消息之后,仍未接收到所述BMC发送的反馈消息,则确定所述BMC出现故障。
如上述方法,可选地,所述向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本,包括:
向所述CPLD发送BMC第一故障处理指令,以便所述CPLD选择主闪存,通过所述主闪存更新所述BMC的软件版本。
如上述方法,可选地,还包括:
记录所述主闪存更新次数;
若监控到所述BMC出现故障,且所述更新次数等于预设更新次数,则向所述CPLD发送BMC第二故障处理指令,以便所述CPLD从所述主备闪存中选择备闪存,通过所述备闪存更新所述BMC的软件版本;
清零所述更新次数;
其中,所述备闪存中存储的BMC软件版本为基础软件版本。
如上述方法,可选地,还包括:
若所述BMC恢复正常,则清零所述更新次数。
如上述方法,可选地,还包括:
生成告警消息,所述告警消息用于指示所述主闪存版本异常。
第二方面,本发明实施例提供一种BMC故障处理装置,应用于主机中,所述主机通过IPMI连接BMC,所述BMC通过CPLD连接主备闪存中的其中一个,所述主备闪存中存储有不同BMC软件版本,所述装置包括:
监控模块,用于按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;
处理模块,用于若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
如上述装置,可选地,所述监控模块具体用于:
按预设周期向所述BMC发送喂狗消息;
若发送预设监控次数的所述喂狗消息之后,仍未接收到所述BMC发送的反馈消息,则确定所述BMC出现故障。
第三方面,本发明实施例提供一种电子设备,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
本发明实施例提供的BMC故障处理方法,能够在主机上监控BMC的健康状况,在BMC出现异常时能够自动对其进行恢复处理,从而保证BMC能够正常运行,使得设备可以进行正常的管理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中白盒交换机系统架构示意图;
图2为本发明实施例提供的BMC故障处理系统的结构示意图;
图3为本发明实施例提供的BMC故障处理方法流程示意图;
图4为本发明实施例提供的BMC故障处理装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图2为本发明实施例提供的BMC故障处理系统的结构示意图,如图2所示,该系统应用于交换机中,包括主机,主机中包含Host-CPU,主机与复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD)相连,并通过IPMI连接BMC,在硬件板上有两块FLASH,即主闪存和被闪存,分别存放主备BMC的软件版本,在BMC芯片上电运行的时候,它会从其中一片FLASH读取出软件版本,然后运行BMC系统,至于从哪一片FLASH读取软件版本,可以通过CPLD进行片选。如图2中所示,CPLD允许将片选开关拨到FLASH1时,BMC芯片从FLASH1读取软件版本;片选开关拨到FLASH2时,BMC芯片从FLASH2读取软件版本。当BMC芯片安装主闪存存储的软件版本时,BMC芯片作为主BMC,当BMC芯片安装备闪存中存储的软件版本,BMC芯片作为备BMC,由此,可以通过一个BMC芯片就实现主备BMC功能。基于上述BMC故障处理系统,本发明实施例提供一种BMC故障处理方法,如图3所示,包括:
步骤S31、按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;
具体地,主机中的Host-CPU按预设周期监控BMC,根据BMC反馈的结果判断BMC是否出现故障。例如Host-CPU每隔5秒监控BMC一次,例如,Host-CPU监控BMC当中想要监控的关键应用,如安全外壳协议(Secure Shell,SSH)等,当这些应用出现问题的时候,确定BMC出现故障,需要进行恢复。
步骤S32、若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
具体地,当Host-CPU确定BMC出现故障后,向CPLD发送BMC故障处理指令,CPLD接收到指令之后,片选FLASH1或FLASH2,使得BMC获取FLASH中存储的软件版本安装包,更新软件版本,使BMC恢复正常。
本发明实施例提供的BMC故障处理方法,能够在主机上监控BMC的健康状况,在BMC出现异常时能够自动对其进行恢复处理,从而保证BMC能够正常运行,使得设备可以进行正常的管理。
在上述实施例的基础上,进一步地,所述按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障,包括:
按预设周期向所述BMC发送喂狗消息;
若发送预设监控次数的所述喂狗消息之后,仍未接收到所述BMC发送的反馈消息,则确定所述BMC出现故障。
具体地,Host-CPU上有一个IPMI-watchdog模块,与BMC上的IPMI-watchdog模块交互,BMC上的IPMI-watchdog模块接收Host-CPU的IPMI-watchdog消息,从而监控Host-CPU的健康状况。在交换机系统中,存在主备两个BMC,同一个时刻只会有一个BMC启动运行。
在标准的Linux实现当中,Host-CPU上的IPMI-watchdog模块向BMC喂狗的通信过程如下:Host-CPU的IPMI-watchdog模块会周期性地向BMC设置watchdog,即通常所说的“喂狗”。BMC的IPMI-watchdog在收到Host-CPU的watchdog设置命令时,会向其应答,表示已处理好这条设置命令。Host-CPU的IPMI-watchdog收到回复消息后不做处理,只是知道消息已被BMC正常处理。本发明实施例中对Host-CPU端的IPMI-watchdog模块进行修改,使其根据BMC的应答情况来监控BMC的健康状况。当BMC出现故障时,它将不会应答Host-CPU的消息。Host-CPU每间隔预设周期发送一条watchdog设置消息,发送之后会等待BMC的答复,在等待一定次数之后将超时不再等待,例如Host-CPU是每5s检测一次,一共检测10次,等待50s后仍未收到BMC的答复,此时,Host-CPU发现BMC无应答,则认为BMC出现了故障。本发明实施例对Host-CPU上的IPMI-watchdog模块进行改造,使其也可用于监控BMC的健康状况。得知BMC的健康状况之后,再根据情况做可靠性的处理。
在上述各实施例的基础上,进一步地,所述向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本,包括:
向所述CPLD发送BMC第一故障处理指令,以便所述CPLD从所述主备闪存中选择主闪存,通过所述主闪存更新所述BMC的软件版本。
具体地,当Host-CPU的IPMI-watchdog模块探测到BMC出现故障之后,首先向CPLD发送第一故障处理指令,CPLD片选主闪存,BMC通过主闪存更新BMC的软件版本,使得BMC从主闪存再次重启,并且继续正常的IPMI-watchdog设置过程。
在上述各实施例的基础上,进一步地,还包括:
记录所述主闪存更新次数;
若监控到所述BMC出现故障,且所述更新次数等于预设更新次数,则向所述CPLD发送BMC第二故障处理指令,以便所述CPLD从所述主备闪存中选择备闪存,通过所述备闪存更新所述BMC的软件版本;
清零所述更新次数;
其中,所述备闪存中存储的BMC软件版本为基础软件版本。
生成告警消息,所述告警消息用于指示所述主闪存版本异常。
具体地,当BMC出现故障后,CPLD控制BMC从主闪存再次重启,并记录闪存更新次数,之后继续正常的IPMI-watchdog设置过程,当再次出现故障后,CPLD控制BMC从主闪存再次重启,并更新闪存更新次数,当监控到BMC出现故障,且更新次数等于预设更新次数,例如连续三次无法进行正常的IPMI-watchdog设置,则表示主闪存已经无法正常工作。此时,Host-CPU向CPLD发送BMC第二故障处理指令,控制CPLD让BMC从备闪存重启,并清零之前记录的主闪存更新次数。由于备闪存所存放的是基础版本软件,记为golden backup版本,该版本是基础功能稳定的版本,能够保证BMC正常起来运行。本发明实施例中,当BMC出现故障时,能够检测出来,并且能够选择合适的BMC进行启动,使得BMC最终能够正常工作。
同时,Host-CPU需要发出告警事件,告知管理员主BMC出现了异常,通过上述步骤,能够让BMC系统在出现异常之后,进入能够稳定运行的版本。管理员发现异常之后,将会通过升级BMC版本的方式来处理异常,使得主闪存上的BMC功能再次可用。
在上述各实施例的基础上,进一步地,还包括:
若所述BMC恢复正常,则清零所述更新次数。
当使用主闪存恢复BMC之后,能够进行正常的IPMI-watchdog设置,则清零主闪存更新次数。后续出现故障后,重新开始计数。
本发明实施例提供的BMC故障处理方法,能够在Host-CPU上监控BMC的健康状况,在BMC出现异常时能够自动对其进行恢复处理,使得BMC不会因为异常导致设备无法进行远程管理。
基于同一发明构思,本发明实施例还提供一种BMC故障处理装置,应用于主机中,所述主机通过IPMI连接BMC,所述BMC通过CPLD连接主备闪存中的其中一个,所述主备闪存中存储有不同BMC软件版本,所述装置包括:监控模块41和处理模块42,其中:
监控模块41用于按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;处理模块42用于若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
如上述装置,进一步地,所述监控模块具体用于:
按预设周期向所述BMC发送喂狗消息;
若发送预设监控次数的所述喂狗消息之后,仍未接收到所述BMC发送的反馈消息,则确定所述BMC出现故障。
如上述装置,进一步地,所述处理模块具体用于:
向所述CPLD发送BMC第一故障处理指令,以便所述CPLD从所述主备闪存中选择主闪存,通过所述主闪存更新所述BMC的软件版本。
如上述装置,进一步地,还包括:
记数模块,用于记录所述主闪存更新次数;
相应地,所述处理模块用于若监控到所述BMC出现故障,且所述更新次数等于预设更新次数,则向所述CPLD发送BMC第二故障处理指令,以便所述CPLD从所述主备闪存中选择备闪存,通过所述备闪存更新所述BMC的软件版本;
相应地,所述计数模块还用于清零所述更新次数;
其中,所述备闪存中存储的BMC软件版本为基础软件版本。
如上述装置,进一步地,所述计数模块还用于若所述BMC恢复正常,则清零所述更新次数。
如上述装置,进一步地,还包括:
告警模块,用于生成告警消息,所述告警消息用于指示所述主闪存版本异常。
图5为本发明实施例提供的电子设备的结构示意图,如图5所示,所述设备包括:处理器(processor)51、存储器(memory)52和总线53;
其中,处理器51和存储器52通过所述总线53完成相互间的通信;
处理器51用于调用存储器52中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的各实施例技术方案的范围。
Claims (10)
1.一种BMC故障处理方法,其特征在于,应用于主机中,所述主机通过IPMI连接BMC,所述BMC通过CPLD连接主备闪存中的其中一个,所述主备闪存中存储有不同BMC软件版本,所述方法包括:
按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;
若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
2.根据权利要求1所述的方法,其特征在于,所述按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障,包括:
按预设周期向所述BMC发送喂狗消息;
若发送预设监控次数的所述喂狗消息之后,仍未接收到所述BMC发送的反馈消息,则确定所述BMC出现故障。
3.根据权利要求1所述的方法,其特征在于,所述向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本,包括:
向所述CPLD发送BMC第一故障处理指令,以便所述CPLD选择主闪存,通过所述主闪存更新所述BMC的软件版本。
4.根据权利要求3所述的方法,其特征在于,还包括:
记录所述主闪存更新次数;
若监控到所述BMC出现故障,且所述更新次数等于预设更新次数,则向所述CPLD发送BMC第二故障处理指令,以便所述CPLD从所述主备闪存中选择备闪存,通过所述备闪存更新所述BMC的软件版本;
清零所述更新次数;
其中,所述备闪存中存储的BMC软件版本为基础软件版本。
5.根据权利要求4所述的方法,其特征在于,还包括:
若所述BMC恢复正常,则清零所述更新次数。
6.根据权利要求4所述的方法,其特征在于,还包括:
生成告警消息,所述告警消息用于指示所述主闪存版本异常。
7.一种BMC故障处理装置,其特征在于,应用于主机中,所述主机通过IPMI连接BMC,所述BMC通过CPLD连接主备闪存中的其中一个,所述主备闪存中存储有不同BMC软件版本,所述装置包括:
监控模块,用于按预设周期监控所述BMC,根据监控结果判断所述BMC是否出现故障;
处理模块,用于若确定所述BMC出现故障,则向与所述BMC连接的CPLD发送BMC故障处理指令,以便所述CPLD从所述主备闪存中选择对应的存储BMC软件版本的闪存,通过所述闪存更新所述BMC的软件版本。
8.根据权利要求7所述的装置,其特征在于,所述监控模块具体用于:
按预设周期向所述BMC发送喂狗消息;
若发送预设监控次数的所述喂狗消息之后,仍未接收到所述BMC发送的反馈消息,则确定所述BMC出现故障。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911242793.7A CN111045866B (zh) | 2019-12-06 | 2019-12-06 | 一种bmc故障处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911242793.7A CN111045866B (zh) | 2019-12-06 | 2019-12-06 | 一种bmc故障处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111045866A true CN111045866A (zh) | 2020-04-21 |
CN111045866B CN111045866B (zh) | 2023-06-16 |
Family
ID=70233555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911242793.7A Active CN111045866B (zh) | 2019-12-06 | 2019-12-06 | 一种bmc故障处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111045866B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737064A (zh) * | 2020-06-29 | 2020-10-02 | 深圳市同泰怡信息技术有限公司 | 一种bmc系统控制方法、装置、存储介质和计算机设备 |
CN112181526A (zh) * | 2020-09-30 | 2021-01-05 | 锐捷网络股份有限公司 | 设备启动方法及装置 |
CN112380083A (zh) * | 2020-10-23 | 2021-02-19 | 浪潮电子信息产业股份有限公司 | 一种bmc主备切换稳定性测试方法和系统 |
CN113391961A (zh) * | 2021-06-11 | 2021-09-14 | 深圳市同泰怡信息技术有限公司 | 记录基板管理控制器信息的方法、装置、计算机设备 |
CN113791668A (zh) * | 2021-09-01 | 2021-12-14 | 加弘科技咨询(上海)有限公司 | 基板管理控制器时间同步的方法、系统及电子设备 |
CN114489716A (zh) * | 2021-12-28 | 2022-05-13 | 上海芯希信息技术有限公司 | 基板管理控制器及其更新方法、连接器 |
CN115858251A (zh) * | 2023-01-18 | 2023-03-28 | 苏州浪潮智能科技有限公司 | 一种基板控制单元控制方法、装置及电子设备和存储介质 |
CN117041172A (zh) * | 2023-10-09 | 2023-11-10 | 苏州元脑智能科技有限公司 | 一种白盒交换机接口请求处理方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160328300A1 (en) * | 2015-05-07 | 2016-11-10 | Dell Products, Lp | System and Method for Self-Healing Basic Input/Output System Boot Image and Secure Recovery |
CN108089964A (zh) * | 2017-12-07 | 2018-05-29 | 郑州云海信息技术有限公司 | 一种通过bmc监控服务器cpld状态的装置及方法 |
CN109471770A (zh) * | 2018-09-11 | 2019-03-15 | 华为技术有限公司 | 一种系统管理方法和装置 |
CN109508279A (zh) * | 2018-11-28 | 2019-03-22 | 郑州云海信息技术有限公司 | 一种服务器监控装置、方法及其系统 |
CN109683696A (zh) * | 2018-12-25 | 2019-04-26 | 浪潮电子信息产业股份有限公司 | 服务器电源故障检测系统、方法、装置、设备及介质 |
CN109976949A (zh) * | 2019-03-28 | 2019-07-05 | 苏州浪潮智能科技有限公司 | 一种bmc故障镜像回滚刷新方法、装置、终端及存储介质 |
CN110321265A (zh) * | 2019-05-09 | 2019-10-11 | 苏州浪潮智能科技有限公司 | 一种服务器监控管理装置、方法及系统 |
CN110377296A (zh) * | 2019-06-27 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种支持服务器主控板Flash烧录的系统及方法 |
CN110442386A (zh) * | 2019-06-25 | 2019-11-12 | 苏州浪潮智能科技有限公司 | 一种bmc启动方法、系统、电子设备及计算机存储介质 |
-
2019
- 2019-12-06 CN CN201911242793.7A patent/CN111045866B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160328300A1 (en) * | 2015-05-07 | 2016-11-10 | Dell Products, Lp | System and Method for Self-Healing Basic Input/Output System Boot Image and Secure Recovery |
US20180107558A1 (en) * | 2015-05-07 | 2018-04-19 | Dell Products, Lp | System and Method for Self-Healing Basic Input/Output System Boot Image and Secure Recovery |
CN108089964A (zh) * | 2017-12-07 | 2018-05-29 | 郑州云海信息技术有限公司 | 一种通过bmc监控服务器cpld状态的装置及方法 |
CN109471770A (zh) * | 2018-09-11 | 2019-03-15 | 华为技术有限公司 | 一种系统管理方法和装置 |
CN109508279A (zh) * | 2018-11-28 | 2019-03-22 | 郑州云海信息技术有限公司 | 一种服务器监控装置、方法及其系统 |
CN109683696A (zh) * | 2018-12-25 | 2019-04-26 | 浪潮电子信息产业股份有限公司 | 服务器电源故障检测系统、方法、装置、设备及介质 |
CN109976949A (zh) * | 2019-03-28 | 2019-07-05 | 苏州浪潮智能科技有限公司 | 一种bmc故障镜像回滚刷新方法、装置、终端及存储介质 |
CN110321265A (zh) * | 2019-05-09 | 2019-10-11 | 苏州浪潮智能科技有限公司 | 一种服务器监控管理装置、方法及系统 |
CN110442386A (zh) * | 2019-06-25 | 2019-11-12 | 苏州浪潮智能科技有限公司 | 一种bmc启动方法、系统、电子设备及计算机存储介质 |
CN110377296A (zh) * | 2019-06-27 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种支持服务器主控板Flash烧录的系统及方法 |
Non-Patent Citations (2)
Title |
---|
RAGHUNATH RAJACHANDRASEKAR; XAVIER BESSERON; DHABALESWAR K. PAND: "Monitoring and Predicting Hardware Failures in HPC Clusters with FTB-IPMI", 《2012 IEEE 26TH INTERNATIONAL PARALLEL AND DISTRIBUTED PROCESSING SYMPOSIUM WORKSHOPS & PHD FORUM》 * |
郭利文: "基于FPGA的多节点服务器集群的均衡系统管理设计", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737064A (zh) * | 2020-06-29 | 2020-10-02 | 深圳市同泰怡信息技术有限公司 | 一种bmc系统控制方法、装置、存储介质和计算机设备 |
CN112181526A (zh) * | 2020-09-30 | 2021-01-05 | 锐捷网络股份有限公司 | 设备启动方法及装置 |
CN112380083A (zh) * | 2020-10-23 | 2021-02-19 | 浪潮电子信息产业股份有限公司 | 一种bmc主备切换稳定性测试方法和系统 |
CN112380083B (zh) * | 2020-10-23 | 2023-01-06 | 浪潮电子信息产业股份有限公司 | 一种bmc主备切换稳定性测试方法和系统 |
CN113391961A (zh) * | 2021-06-11 | 2021-09-14 | 深圳市同泰怡信息技术有限公司 | 记录基板管理控制器信息的方法、装置、计算机设备 |
CN113791668A (zh) * | 2021-09-01 | 2021-12-14 | 加弘科技咨询(上海)有限公司 | 基板管理控制器时间同步的方法、系统及电子设备 |
CN114489716A (zh) * | 2021-12-28 | 2022-05-13 | 上海芯希信息技术有限公司 | 基板管理控制器及其更新方法、连接器 |
CN115858251A (zh) * | 2023-01-18 | 2023-03-28 | 苏州浪潮智能科技有限公司 | 一种基板控制单元控制方法、装置及电子设备和存储介质 |
CN117041172A (zh) * | 2023-10-09 | 2023-11-10 | 苏州元脑智能科技有限公司 | 一种白盒交换机接口请求处理方法和装置 |
CN117041172B (zh) * | 2023-10-09 | 2024-02-02 | 苏州元脑智能科技有限公司 | 一种白盒交换机接口请求处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111045866B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111045866B (zh) | 一种bmc故障处理方法、装置、电子设备及存储介质 | |
JP6491299B2 (ja) | サーバ装置のファームウェア及びカスタム設定の自動的なプロビジョニング | |
US9110843B2 (en) | Rack and method thereof for simultaneously updating basic input output systems | |
US20130159039A1 (en) | Data center infrastructure management system for maintenance | |
CN109976949B (zh) | 一种bmc故障镜像回滚刷新方法、装置、终端及存储介质 | |
US20240289243A1 (en) | Server and control method therefor | |
CN110618864A (zh) | 一种中断任务恢复方法及装置 | |
EP2590072A1 (en) | System control device, information processing system, and data migration and restoration method for information processing system | |
CN116483613B (zh) | 故障内存条的处理方法及装置、电子设备及存储介质 | |
EP2784677A1 (en) | Processing apparatus, program and method for logically separating an abnormal device based on abnormality count and a threshold | |
CN110109772B (zh) | 一种cpu的重启方法、通信设备及可读存储介质 | |
JP5056504B2 (ja) | 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム | |
TWI509421B (zh) | 用於運算節點之可編程式件更新技術 | |
US10754722B1 (en) | Method for remotely clearing abnormal status of racks applied in data center | |
US20200305301A1 (en) | Method for remotely clearing abnormal status of racks applied in data center | |
CN106407081B (zh) | 一种机箱管理系统及服务器 | |
CN106411643B (zh) | Bmc检测方法以及装置 | |
CN117453036A (zh) | 调整服务器中的设备的功耗的方法、系统及装置 | |
KR102262942B1 (ko) | 무선 네트워크 시스템의 무선 브리지에 의한 게이트웨이 자가 복구방법 | |
JP2009211279A (ja) | 操業データ管理サーバシステム | |
CN114442786B (zh) | 一种电源故障告警及恢复方法、装置及存储介质 | |
TW201926035A (zh) | 韌體更新方法及可更新韌體的基板管理控制器 | |
CN111416721A (zh) | 运用于数据中心的机柜异常状态的远端排除方法 | |
CN118363676A (zh) | 一种基板管理控制器bmc的配置方法及相关设备 | |
CN107678764A (zh) | 一种基于issu升级vsm系统的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |