CN109491867A - 一种通讯自动恢复方法和装置 - Google Patents
一种通讯自动恢复方法和装置 Download PDFInfo
- Publication number
- CN109491867A CN109491867A CN201811339485.1A CN201811339485A CN109491867A CN 109491867 A CN109491867 A CN 109491867A CN 201811339485 A CN201811339485 A CN 201811339485A CN 109491867 A CN109491867 A CN 109491867A
- Authority
- CN
- China
- Prior art keywords
- management controller
- baseboard management
- communication
- middle plate
- restarted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004891 communication Methods 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000011084 recovery Methods 0.000 title claims abstract description 25
- 230000007257 malfunction Effects 0.000 claims description 23
- 239000000758 substrate Substances 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 11
- 230000002159 abnormal effect Effects 0.000 abstract description 9
- 238000001816 cooling Methods 0.000 abstract description 5
- 230000009897 systematic effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3031—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种通讯自动恢复方法和装置,在该方法中,在整机柜管理单元监测到整机柜管理单元与基板管理控制器之间的通讯状态处于故障后,能够控制基板管理控制器进行重启,从而恢复该基板管理控制器与中板、整机柜管理单元之间的通讯。如此,整机柜管理单元能够实时获取到基板管理控制器发送来的服务器节点的实时运行状态,避免了RMC因获取不到服务器节点的实时运行状态,有可能导致整个机柜风扇散热调速异常、功耗监控异常等等产生的系统性风险,从而使服务器机柜监控和运行变得更加稳定。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种通讯自动恢复方法和装置。
背景技术
随着云计算、大数据等新型技术的发展,对柜式服务器的需求越来越多,随之而来,对整机柜服务器散热稳定性需求越来越高。
为了满足这些需求,整机柜上集成的结点越来越密集,结点类型(包括计算结点、存储结点和GPUBOX结点等等)越来越多,用户对整机柜管理单元(简称RMC)与服务器节点之间的通讯稳定性要求越来越高。这是因为,当其间的通讯出现故障后,将导致RMC无法正常获取基板管理控制器(Baseboard Management Controler,简称BMC)监控并发送给RMC的结点实时运行信息,由于整机柜的风扇散热调速,功耗,以及电源模块(PSU)等等都是由RMC通过获取各个结点的实时温度,电压,功耗等等信息进行调节,如果通讯出现故障,则会导致整个机柜运行出现风险及不稳定性的可能。
发明内容
有鉴于此,本申请提供了一种通讯自动恢复方法和装置,以实现在RMC与BMC之间的通讯出现故障后,能够自动恢复通讯,从而保证整机柜运行的稳定性。
为了达到上述发明目的,本申请采用了如下技术方案:
一种通讯自动恢复方法,包括:
接收中板上报的整机柜管理单元与基板管理控制器之间的通讯状态;
判断所述通讯状态是否处于故障状态;
当所述通讯状态处于故障状态时,判断持续处于所述故障状态的时间是否超过第一预设时长,如果是,控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。
可选地,所述控制所述基板管理控制器进行重启,具体包括:
控制所述基板管理控制器重新初始化自身的智能平台管理总线的服务驱动及进程。
可选地,所述控制所述基板管理控制器进行重启,具体包括:
向所述中板发送所述基板管理控制器的重启指令,以使所述中板根据所述重启指令控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。
可选地,所述通讯状态为智能平台管理总线的通讯状态。
可选地,所述中板根据所述重启指令控制所述基板管理控制器进行重启,具体包括:
所述中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚来控制所述基板管理控制器进行重启。
一种通讯自动恢复装置,包括:
接收单元,用于接收中板上报的整机柜管理单元与基板管理控制器之间的通讯状态;
第一判断单元,用于判断所述通讯状态是否处于故障状态;
第二判断单元,用于当所述通讯状态处于故障状态时,判断持续处于所述故障状态的时间是否超过第一预设时长,
控制单元,用于当持续处于故障状态的时间超过第一预设时长时,控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。
可选地,所述控制单元,具体包括:
控制所述基板管理控制器重新初始化自身的智能平台管理总线的服务驱动及进程。
可选地,所述控制单元,具体包括:
向所述中板发送所述基板管理控制器的重启指令,以使所述中板根据所述重启指令控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。
可选地,所述通讯状态为智能平台管理总线的通讯状态。
可选地,所述中板根据所述重启指令控制所述基板管理控制器进行重启,具体包括:
所述中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚来控制所述基板管理控制器进行重启。
相较于现有技术,本申请具有以下有益效果:
基于以上技术方案可知,本申请提供的通讯自动恢复方法中,在整机柜管理单元监测到整机柜管理单元与基板管理控制器之间的通讯状态处于故障后,能够控制基板管理控制器进行重启,从而恢复该基板管理控制器与中板、整机柜管理单元之间的通讯。如此,整机柜管理单元能够实时获取到基板管理控制器发送来的服务器节点的实时运行状态,避免了RMC因获取不到服务器节点的实时运行状态,有可能导致整个机柜风扇散热调速异常、功耗监控异常等等产生的系统性风险,从而使服务器机柜监控和运行变得更加稳定。
附图说明
为了清楚地理解本申请的具体实施方式,下面将描述本申请具体实施方式时用到的附图做一简要说明。显而易见地,这些附图仅是本申请的部分实施例。
图1是本申请实施例提供的通讯自动恢复方法的应用系统架构示意图;
图2是本申请实施例提供的通讯自动恢复方法流程示意图;
图3是本申请实施例提供的通讯自动恢复方法信令示意图;
图4是本申请实施例提供的通讯自动恢复装置结构示意图。
具体实施方式
基于背景技术部分可知,当整机柜管理单元与基板管理控制器之间的通讯出现故障后,整机柜管理单元无法正常获取基板管理控制器监控并发送给RMC的结点实时运行信息,从而导致整个机柜运行出现风险及不稳定性的可能。
为了解决上述技术问题,本申请提供了一种通讯自动恢复方法,利用该方法,在整机柜管理单元监测到整机柜管理单元与基板管理控制器之间的通讯状态处于故障后,能够控制基板管理控制器进行重启,从而恢复该基板管理控制器与中板、整机柜管理单元之间的通讯。如此,整机柜管理单元能够实时获取到基板管理控制器发送来的服务器节点的实时运行状态,避免了RMC因获取不到服务器节点的实时运行状态,有可能导致整个机柜风扇散热调速异常、功耗监控异常等等产生的系统性风险,从而使服务器机柜监控和运行变得更加稳定。
为了更清楚地理解本申请的具体实施方式,下面结合附图对本申请的具体实施方式进行详细描述。
图1是本申请实施例提供的通讯自动恢复方法的应用系统架构示意图。该在应用系统架构中,包括整机柜管理单元(以下简称RMC)11、中板12以及基板管理控制器(以下简称BMC)13;
其中,BMC 13用于监测服务器节点的实时运行信息,例如,服务器节点的实时温度、电压和功耗等等,并将其监测到的实时运行信息上报至中板12。
中板12将其接收到的实时运行信息上报至RMC 11。可以认为,中板12为RMC 11和BMC 13的桥接设备。
RMC 11用于根据其接收到的实时运行信息对整机柜的运行参数进行调节,例如整机柜的风扇散热调速、功耗、以及电源模块的调节等等。
基于图1所示的应用系统架构,如图2所示,本申请实施例提供的通讯自动恢复方法包括以下步骤:
S201:RMC 11接收中板上报的RMC与BMC之间的通讯状态。
需要说明,在图1所示的应用系统架构中,中板12会监测其与各个BMC之间的通讯状态,并且会将其监测到的各个通讯状态上报至RMC 11。
此外,中板12与各个BMC 13之间通讯可以通过智能平台管理总线IPMB实现。因此,中板与各个BMC之间的通讯状态可以为各个IPMB的通讯状态。需要说明,智能平台管理总线IPMB,是ATCA(Advanced Telecom Computing Architecture)先进的电信计算平台的各FRU背板通讯的两组冗余I2C总线的总称。
此外,中板12还可以根据BMC 13是否在第二预设时长内返回IPMI命令来判断其与BMC之间的通讯状态是否发生异常。具体地,若BMC 13在第二预设时长内返回IPMI命令,则中板与BMC之间的IPMB通讯状态正常,反之,中板与BMC之间的IPMB通讯状态异常,此时,中板将该通讯状态异常的BMC的通讯状态设置为故障状态。
S202:RMC 11判断所述通讯状态是否处于故障状态。
RMC 11判断其接收到的各个IPMB的通讯状态是否处于故障状态,如果是,执行S203,如果否,返回S201。
S203:RMC 11判断持续处于所述故障状态的时间是否超过第一预设时长,如果是,执行S204。
需要说明,中板12会实时监测各个IPMB的通讯状态,并该实时监测到的IPMB的通讯状态上报至RMC 11,如此,RMC 11可以根据中板12持续上报的各个IPMB的通讯状态来判断每个BMC对应的IPMB持续处于所述故障状态的时间是否超过第一预设时长,如果是,执行S204。
作为示例,该第一预设时长可以为预先设定的时间,例如可以为90S。
S204:RMC 11控制所述BMC进行重启,从而恢复所述BMC与所述中板、所述RMC之间的通讯。
需要说明的是,控制BMC重启具体为可以为控制BMC重新初始化自身的智能平台管理总线的服务驱动及进程。另外,BMC重启可以实现BMC的芯片级修复。
本步骤可以具体为:RMC 11向所述中板发送所述BMC的重启指令,以使所述中板根据所述重启指令控制BMC进行重启,使所述BMC重新初始化自身的智能平台管理总线的服务驱动及进程,从而恢复所述BMC与所述中板、所述RMC之间的通讯。
需要说明,中板根据所述重启指令控制BMC进行重启,可以具体为:中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚(general purpose inputoutput,GPIO)来控制所述基板管理控制器进行重启,如此,该控制BMC重启过程不依赖于IPMB协议,而是通过与硬件电路的配合对BMC强制进行芯片级修复。
以上为本申请实施例提供的通讯自动恢复方法的具体实现方式。在该具体实现方式中,在RMC监测到RMC与BMC之间的通讯状态处于故障后,能够控制BMC进行重启,从而恢复该BMC与中板、RMC之间的通讯,如此,RMC能够实时获取到BMC发送来的服务器节点的实时运行状态,避免了RMC因获取不到服务器节点的实时运行状态,有可能导致整个机柜风扇散热调速异常、功耗监控异常等等产生的系统性风险,从而使服务器机柜监控和运行变得更加稳定。
需要说明,本申请实施例提供的通讯自动恢复方法可以适用于SmartRack平台的大型集成服务器机柜架构,但该方法不限于大型整机柜服务器,其可以适用于拥有RMC的所有服务器架构。
为了更清楚地理解本申请实施例提供的通讯自动恢复方法,基于图1所示的应用系统架构,本申请实施例提供的通讯自动恢复方法的信令示意图如图3所示,其包括以下步骤:
S301:中板将其检测到的中板与BMC之间的通讯状态上报至RMC。
S302:RMC接收中板上报的通讯状态;
S303:RMC判断该通讯状态是否处于故障状态,如果是,执行S304,如果否,返回S302;
S304:判断中板与BMC之间的通讯状态持续处于所述故障状态的时间是否超过第一预设时长,如果是,执行S305,如果否,返回S302。
S305:向所述中板发送通讯出现故障的BMC的重启指令;
S306:中板判断是否接收到重启指令,如果是,执行S307,如果否,不执行任何操作。
S307:中板控制通讯出现故障的BMC重新初始化自身的智能平台管理总线的服务驱动及进程,从而恢复通讯出现故障的BMC与所述中板、所述RMC之间的通讯。
本步骤可以具体为:中板通过操作BMC的通用输入/输出管脚实现BMC的重启,从而使BMC重新初始化自身的智能平台管理总线的服务驱动及进程,从而恢复所述BMC与所述中板、所述RMC之间的通讯。
基于上述实施例提供的通讯自动恢复方法,本申请实施例还提供了一种通讯自动恢复装置。
请参见图4,本申请实施例提供的一种通讯自动恢复装置包括:
接收单元41,用于接收中板上报的RMC与BMC之间的通讯状态;
第一判断单元42,用于判断所述通讯状态是否处于故障状态;
第二判断单元43,用于当所述通讯状态处于故障状态时,判断持续处于所述故障状态的时间是否超过第一预设时长,
控制单元44,用于当持续处于故障状态的时间超过第一预设时长时,控制所述BMC进行重启,从而恢复所述BMC与所述中板、所述RMC之间的通讯。
作为本申请的一示例,控制单元44可以具体包括:
控制所述BMC重新初始化自身的智能平台管理总线的服务驱动及进程。
作为本申请的另一示例,控制单元44也可以具体包括:
向所述中板发送BMC的重启指令,以使所述中板根据所述重启指令控制BMC进行重启,从而恢复所述BMC与所述中板、RMC之间的通讯。
作为本申请的又一示例,所述通讯状态为智能平台管理总线的通讯状态。
作为本申请的又一示例,所述中板根据所述重启指令控制所述基板管理控制器进行重启,具体包括:
所述中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚来控制所述基板管理控制器进行重启。
以上为本申请实施例提供的通讯自动恢复方法和装置的具体实现方式。
Claims (10)
1.一种通讯自动恢复方法,其特征在于,包括:
接收中板上报的整机柜管理单元与基板管理控制器之间的通讯状态;
判断所述通讯状态是否处于故障状态;
当所述通讯状态处于故障状态时,判断持续处于所述故障状态的时间是否超过第一预设时长,如果是,控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。
2.根据权利要求1所述的方法,其特征在于,所述控制所述基板管理控制器进行重启,具体包括:
控制所述基板管理控制器重新初始化自身的智能平台管理总线的服务驱动及进程。
3.根据权利要求1所述的方法,其特征在于,所述控制所述基板管理控制器进行重启,具体包括:
向所述中板发送所述基板管理控制器的重启指令,以使所述中板根据所述重启指令控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。
4.根据权利要求1所述的方法,其特征在于,所述通讯状态为智能平台管理总线的通讯状态。
5.根据权利要求3所述的方法,其特征在于,所述中板根据所述重启指令控制所述基板管理控制器进行重启,具体包括:
所述中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚来控制所述基板管理控制器进行重启。
6.一种通讯自动恢复装置,其特征在于,包括:
接收单元,用于接收中板上报的整机柜管理单元与基板管理控制器之间的通讯状态;
第一判断单元,用于判断所述通讯状态是否处于故障状态;
第二判断单元,用于当所述通讯状态处于故障状态时,判断持续处于所述故障状态的时间是否超过第一预设时长,
控制单元,用于当持续处于故障状态的时间超过第一预设时长时,控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。
7.根据权利要求6所述的装置,其特征在于,所述控制单元,具体包括:
控制所述基板管理控制器重新初始化自身的智能平台管理总线的服务驱动及进程。
8.根据权利要求6所述的装置,其特征在于,所述控制单元,具体包括:
向所述中板发送所述基板管理控制器的重启指令,以使所述中板根据所述重启指令控制所述基板管理控制器进行重启,从而恢复所述基板管理控制器与所述中板、所述整机柜管理单元之间的通讯。
9.根据权利要求6所述的装置,其特征在于,所述通讯状态为智能平台管理总线的通讯状态。
10.根据权利要求8所述的装置,其特征在于,所述中板根据所述重启指令控制所述基板管理控制器进行重启,具体包括:
所述中板根据所述重启指令通过操作所述基板管理控制器的通用输入输出管脚来控制所述基板管理控制器进行重启。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811339485.1A CN109491867A (zh) | 2018-11-12 | 2018-11-12 | 一种通讯自动恢复方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811339485.1A CN109491867A (zh) | 2018-11-12 | 2018-11-12 | 一种通讯自动恢复方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109491867A true CN109491867A (zh) | 2019-03-19 |
Family
ID=65695550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811339485.1A Withdrawn CN109491867A (zh) | 2018-11-12 | 2018-11-12 | 一种通讯自动恢复方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109491867A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110198065A (zh) * | 2019-06-21 | 2019-09-03 | 深圳市小兔充充科技有限公司 | 充电站的检测电路及充电站的检测装置 |
CN111694710A (zh) * | 2020-06-10 | 2020-09-22 | 浪潮商用机器有限公司 | 基板管理控制器故障监控方法、装置、设备及存储介质 |
-
2018
- 2018-11-12 CN CN201811339485.1A patent/CN109491867A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110198065A (zh) * | 2019-06-21 | 2019-09-03 | 深圳市小兔充充科技有限公司 | 充电站的检测电路及充电站的检测装置 |
CN111694710A (zh) * | 2020-06-10 | 2020-09-22 | 浪潮商用机器有限公司 | 基板管理控制器故障监控方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9141491B2 (en) | Highly available server system based on cloud computing | |
US8656003B2 (en) | Method for controlling rack system using RMC to determine type of node based on FRU's message when status of chassis is changed | |
US9747183B2 (en) | Method and system for intelligent distributed health monitoring in switching system equipment | |
CN103473152B (zh) | 一种刀片服务器主备管理模块备份及更新方法 | |
CN103324495A (zh) | 数据中心服务器开机管理方法及系统 | |
CN103905247B (zh) | 一种基于多客户裁决的双机备份方法及系统 | |
CN114691408B (zh) | 一种基板管理控制器故障检测装置 | |
CN111106944B (zh) | 一种故障告警信息处理方法及设备 | |
CN109101400A (zh) | 一种云计算数据中心整机柜服务器的监控系统 | |
CN117992270A (zh) | 一种内存资源管理系统、方法、装置、设备及存储介质 | |
CN101178673A (zh) | 一种并行计算机系统管理控制器的容错备份方法及系统 | |
CN109491867A (zh) | 一种通讯自动恢复方法和装置 | |
CN110413435A (zh) | 一种通信故障恢复方法、系统及相关组件 | |
CN105068763A (zh) | 一种针对存储故障的虚拟机容错系统和方法 | |
CN118245269B (zh) | Pci设备的故障处理方法及装置、故障处理系统 | |
CN117331425B (zh) | 功耗管理系统、功耗管理方法、存储介质及电子设备 | |
CN114218004A (zh) | 基于BMC的Kubernetes集群物理节点的故障处理方法和系统 | |
CN117453036A (zh) | 调整服务器中的设备的功耗的方法、系统及装置 | |
CN106095642A (zh) | 一种基于rmc管理的风扇故障解决方法 | |
TW202026879A (zh) | 運用於資料中心的機櫃異常狀態的遠端排除方法(三) | |
CN101410808A (zh) | 检查管理网络的潜在故障的方法 | |
US20130138803A1 (en) | Method for monitoring a plurality of rack systems | |
TWI685740B (zh) | 運用於資料中心的機櫃異常狀態的遠端排除方法(一) | |
WO2015040690A1 (ja) | 情報処理装置及び方法 | |
CN111083003A (zh) | 监控系统及方法、存储介质、处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190319 |
|
WW01 | Invention patent application withdrawn after publication |