[go: up one dir, main page]

CN119311518A - 2u2节点服务器的故障检测方法及2u2节点服务器 - Google Patents

2u2节点服务器的故障检测方法及2u2节点服务器 Download PDF

Info

Publication number
CN119311518A
CN119311518A CN202411382062.3A CN202411382062A CN119311518A CN 119311518 A CN119311518 A CN 119311518A CN 202411382062 A CN202411382062 A CN 202411382062A CN 119311518 A CN119311518 A CN 119311518A
Authority
CN
China
Prior art keywords
computing node
node
detection chip
counter
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411382062.3A
Other languages
English (en)
Inventor
吴微勇
米张华
廖家志
詹骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Cloud Technologies Co Ltd
Original Assignee
New H3C Cloud Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Cloud Technologies Co Ltd filed Critical New H3C Cloud Technologies Co Ltd
Priority to CN202411382062.3A priority Critical patent/CN119311518A/zh
Publication of CN119311518A publication Critical patent/CN119311518A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本说明书提供一种2U2节点服务器的故障检测方法及2U2节点服务器。所述2U2节点服务器包括第一计算节点、第二计算节点、第一检测芯片和第二检测芯片,所述方法包括:每隔第一时间周期,第一计算节点重置第一计数器;每隔第二时间周期,第一检测芯片对第一计数器执行自增操作,并检测第一计数器是否达到第一超时阈值;如果第一计数器达到第一超时阈值,则第一检测芯片向第二检测芯片发送第一故障信号;第二检测芯片在接收到第一故障信号后,向第二计算节点发送第一中断信号;第二计算节点在接收到第一中断信号后,向管理节点发送第一故障事件,第一故障事件用于指示第一计算节点故障。

Description

2U2节点服务器的故障检测方法及2U2节点服务器
技术领域
本说明书涉及计算机技术领域,尤其涉及2U2节点服务器的故障检测方法及2U2节点服务器。
背景技术
传统的主机故障虚拟机迁移过程通常会持续数分钟甚至更长时间,这种耗时严重影响了业务的连续性和稳定性。企业的业务运营对于时间的敏感度愈发提高,因此,对于主机故障后的快速响应和恢复变得至关重要。
发明内容
为克服相关技术中存在的问题,本说明书提供了2U2节点服务器的故障检测方法及2U2节点服务器。
根据本说明书实施例的第一方面,提供一种2U2节点服务器的故障检测方法,所述2U2节点服务器包括第一计算节点、第二计算节点、第一检测芯片和第二检测芯片,所述方法包括:每隔第一时间周期,所述第一计算节点重置第一计数器;每隔第二时间周期,所述第一检测芯片对所述第一计数器执行自增操作,并检测所述第一计数器是否达到第一超时阈值;如果所述第一计数器达到第一超时阈值,则所述第一检测芯片向第二检测芯片发送第一故障信号;所述第二检测芯片在接收到所述第一故障信号后,向所述第二计算节点发送所述第一中断信号;所述第二计算节点在接收到所述第一中断信号后,向管理节点发送第一故障事件,所述第一故障事件用于指示第一计算节点故障。
根据本说明书实施例的第二方面,提供一种2U2节点服务器,包括:
第一计算节点,用于每隔第一时间周期,重置第一计数器;
第一检测芯片,用于每隔第二时间周期,对所述第一计数器执行自增操作,并检测所述第一计数器是否达到第一超时阈值;如果所述第一计数器达到第一超时阈值,则向第二检测芯片发送第一故障信号;
第二检测芯片,用于在接收到所述第一故障信号后,向所述第二计算节点发送所述第一中断信号;
第二计算节点,用于在接收到所述第一中断信号后,向管理节点发送第一故障事件,所述第一故障事件用于指示第一计算节点故障。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例中,第一检测芯片定期检测第二计算节点是否故障,并在检测到第二计算节点故障时通知第一计算节点,第一计算节点再上报给管理节点。管理节点可以根据上报的故障,及时将第二计算节点中的虚拟机迁移至其他节点,响应速度较快,从而可以降低对业务的连续性和稳定性的影响。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书根据一示例性实施例示出的一种2U2节点服务器的故障检测方法的流程图。
图2是本说明书根据一示例性实施例示出的系统架构的示意图。
图3是本说明书根据一示例性实施例示出的2U2节点服务器的故障检测方法的示意图。
图4是本说明书根据一示例性实施例示出的2U2节点服务器所在计算机设备的一种硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
接下来对本说明书实施例进行详细说明。
下面对本说明书实施例提供的2U2节点服务器的故障检测方法进行详细地说明。2U2节点服务器是指一台2U机架内包含两个独立的计算节点的服务器。这种设计可以节省机架空间,并提高数据中心能效。这种服务器通常用于虚拟化、高性能计算和存储等应用场景。充分利用2U2节点集成的特性。
如图1所示,图1是本说明书根据一示例性实施例示出的一种2U2节点服务器的故障检测方法的流程图,该方法可以应用于2U2节点服务器,2U2节点服务器包括第一计算节点、第二计算节点、第一检测芯片和第二检测芯片,本说明书实施例提供的2U2节点服务器的故障检测方法可包括如下所示步骤。
在步骤110、每隔第一时间周期,第一计算节点重置第一计数器。
根据本公开的实施例,可以预先设置与第一计算节点对应的计数器,即第二计数器。第一计算节点可以通过周期性地重置第一计数器。如果第一计算节点发生了故障,则无法及时重置计数器。基于此,可以根据第一计数器是否及时重置来判断第一节点是否故障。如果第一计算节点及时重置计数器,则表示第一计算节点正常。如果第一计算节点没有及时重置计数器,则表示第一计算节点发生了故障。示例性地,故障例如可以包括掉电、挂起(hung)、崩溃(crash)等。
根据本说明书的实施例,第一时间周期可以根据实际需要设置。
在步骤120、每隔第二时间周期,第一检测芯片对第一计数器执行自增操作,并检测第一计数器是否达到第一超时阈值。
根据本说明书的实施例,第一检测芯片与第一计算节点相连接,可以周期性地对第一计数器进行自增操作,并检测第一计数器是否超过第一超时阈值,如果超过第一超时阈值,则表示第一计算节点故障。第一超时阈值可以根据实际需要设置。
示例性地,本实施例中,第一检测芯片每隔第二时间周期可以将第一计数器的值增加1,用公式表示即为n=n+1,其中n为第一计数器的值。
根据本说明书的实施例,第二时间周期可以根据实际需要设置。第二时间周期可以大于或等于第一时间周期。
在步骤130、如果第一计数器达到第一超时阈值,则第一检测芯片向第二检测芯片发送第一故障信号。
根据本说明书的实施例,第一检测芯片和第二检测芯片相连接。第一检测芯片可以通过该连接将第一故障信号发送至第二检测芯片。根据本说明书的实施例,第一超时阈值可以根据实际需要设置。
在步骤140、第二检测芯片在接收到第一故障信号后,向第二计算节点发送第一中断信号。
根据本说明书的实施例,第二检测芯片与第二计算节点连接。第二检测芯片可以通过该连接将第一中断信号发送至第二计算节点。
在步骤150、第二计算节点在接收到第一中断信号后,向管理节点发送第一故障事件,第一故障事件用于指示第一计算节点故障。
根据本说明书的实施例,管理节点可以为2U2节点服务器之外的其他服务器。管理节点可以通过第二计算节点上报的第一故障事件,获知第一计算节点故障,然后可以将第一计算节点中的虚拟机迁移至其他正常运行的计算节点中,例如迁移到第二计算节点中。
根据本说明书的实施例,第一检测芯片定期检测第二计算节点是否故障,并在检测到第二计算节点故障时通知第一计算节点,第一计算节点再上报给管理节点。管理节点可以根据上报的故障,及时将第二计算节点中的虚拟机迁移至其他节点,响应速度较快,从而可以降低对业务的连续性和稳定性的影响。
可选地,与检测第一计算节点是否故障类似地,也可以检测第二计算节点是否故障。
示例性地,本实施例中,可以预先设置与第二计算节点对应的计数器,即第二计数器。每隔第三时间周期,第二计算节点可以重置第二计数器。每隔第四时间周期,第二检测芯片可以对第二计数器执行自增操作,并检测第二计数器是否达到第二超时阈值。如果第二计数器达到第二超时阈值,则第二检测芯片可以向第一检测芯片发送第二故障信号。第一检测芯片在接收到第二故障信号后,可以向第一计算节点发送第二中断信号。第一计算节点在接收到第二中断信号后,可以向管理节点发送第二故障事件,第二故障事件用于指示第二计算节点故障。管理节点可以通过第一计算节点上报的第二故障事件,获知第二计算节点故障,然后可以将第二计算节点中的虚拟机迁移至其他正常运行的计算节点中,例如迁移到第一计算节点中。
根据本说明书的实施例,第三时间周期和第四时间周期可以分别根据实际需要设置。第四时间周期可以大于或等于第三时间周期。
根据本说明书的实施例,第二超时阈值可以根据实际需要设置。第二超时阈值和第一超时阈值可以相同也可以不同。
可选地,还可以对第一计算节点的电源状态进行检测,并在第一计算节点电源状态异常的情况下,通知管理节点。示例性地,本实施例中,每隔第五时间周期,第一检测芯片可以检测第一计算节点的电源状态,并根据第一计算节点的电源状态,设置第一电源状态数据。每隔第六时间周期,第二检测芯片可以检测第一电源状态数据。如果检测到第一电源状态数据指示电源状态异常,则第二检测芯片可以向第二计算节点发送第三中断信号。第二计算节点在接收到第三中断信号后,可以向管理节点发送与第三故障事件,第三故障事件用于指示第一计算节点电源状态异常。管理节点可以通过第二计算节点上报的第三故障事件,获知第一计算节点电源状态异常,然后可以将第一计算节点中的虚拟机迁移至其他正常运行的计算节点中,例如迁移到第二计算节点中。
根据本说明书的实施例,第五时间周期和第六时间周期可以分别根据实际需要设置。第五时间周期和第六时间周期可以相同也可以不同。
可选地,与检测第一计算节点电源状态类似的,还可以检测第二计算节点的电源状态,并在第二计算节点电源状态异常的情况下,通知管理节点。示例性地,本实施例中,每隔第七时间周期,第二检测芯片可以检测第二计算节点的电源状态,并根据第二计算节点的电源状态,设置第二电源状态数据。每隔第八时间周期,第一检测芯片可以检测第二电源状态数据。如果检测到第二电源状态数据指示电源状态异常,则第一检测芯片可以向第一计算节点发送第四中断信号。第一计算节点在接收到第四中断信号后,可以向管理节点发送与第四故障事件,第四故障事件用于指示第二计算节点电源状态异常。管理节点可以通过第一计算节点上报的第四故障事件,获知第四计算节点电源状态异常,然后可以将第二计算节点中的虚拟机迁移至其他正常运行的计算节点中,例如迁移到第一计算节点中。
根据本说明书的实施例,第七时间周期和第八时间周期可以分别根据实际需要设置。第七时间周期和第八时间周期可以相同也可以不同。
可选地,第一检测芯片可以包括内部寄存器,即第一内部寄存器。基于此,可以将第一计数器设置在第一内部寄存器中。示例性地,本实施例中,可以由第一计算节点控制第一检测芯片在第一内部寄存器中设置第一计数器,并配置与第一计数器对应的超时阈值,即第一超时阈值。
可选地,第二检测芯片可以包括内部寄存器,即第二内部寄存器。基于此,可以将第二计数器设置在第二内部寄存器中。示例性地,本实施例中,可以由第二计算节点控制第二检测芯片在第二内部寄存器中设置第二计数器,并配置与第二计数器对应的超时阈值,即第二超时阈值。
可选地,第一检测芯片和第二检测芯片之间还可以设置共享寄存器,第一检测芯片和第二检测芯片均可以对共享寄存器进行读写。基于此,第一检测芯片例如可以将第一电源状态数据写入共享寄存器中,以便第二检测芯片读取。对应地,第二检测芯片例如可以将第二电源状态数据写入共享寄存器中,以便第一检测芯片读取。
可选地,第一检测芯片和第二检测芯片例如可以包括CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑器件)。
以下结合图2对本说明书实施例的可以应用2U2节点服务器的故障检测方法的系统架构进行说明。需要注意的是,图2示仅为可以应用本说明书实施例的系统架构的示例,以帮助本领域技术人员理解本说明书的技术内容,但并不意味着本说明书实施例不可以用于其他设备、系统、环境或场景。
图2是本说明书根据一示例性实施例示出的系统架构的示意图。
如图2所示,该系统架构例如可以包括管理节点服务器和2U2节点服务器。
根据本说明书的实施例,2U2节点服务器包含两个独立的计算节点,例如节点A和节点B。U2节点服务器中的每个计算节点可以连接有对应的检测芯片。例如,节点A连接的检测芯片可以称为第一检测芯片,节点B连接的检测芯片可以称为第二检测芯片。检测芯片可以用于检测计算节点的运行状态。示例性地,本实施例中,检测芯片例如可以包括CPLD。每个计算节点中可以运行有操作系统,操作系统可以包括驱动、与驱动对应的用户态程序(user)和虚拟机(VM)。计算节点可以通过驱动与连接的检测芯片通信。
两个计算节点分别有自己的检测芯片,该检测芯片包括内部寄存器。除了内部寄存器之外,两个检测芯片之间还设置有共享寄存器。两计算节点之间可以通过硬件逻辑代码交互状态等信息。
计算节点的驱动可以用于:
1.控制己方检测芯片设置其内部寄存器中的有效位,通过设置有效位可以使能喂狗和中断报警功能;
2.控制己方检测芯片在其内部寄存器中设置计数器,并配置计数器的超时阈值;
3.控制己方检测芯片清零计数器(即喂狗);
4.打开本节点的中断开关;
5.接收己方检测芯片上报的中断信号。
计算节点的驱动在寄存器的使能位打开后,可以在本节点检测芯片的内部寄存器中设置计数器并配置计数器的超时阈值。计算节点的驱动可以通过周期性地去写内部寄存器,让计数器值归零。如果计数器超过超时阈值,则说明驱动没有及时去清理寄存器或者驱动失效,表示该计算节点系统挂起或者故障。
计算节点的检测芯片在有效位设置为使能的情况下可以执行以下操作:
1.周期性地将计数器自增1;
2.判断计数器是否超过超时阈值,如果超过超时阈值,则生成故障信号发送给对方节点的检测芯片;
3.接收对方节点的检测芯片发送的故障信号,并触发中断信号上报给己方节点。示例性地,检测芯片例如可以通过拉高电平来触发中断信号。
共享寄存器中可以设置有两个计算节点的电源状态位,用于记录计算节点的电源状态。如果检测芯片检测到己方节点发生电源状态异常,例如发生AC掉电,则在共享寄存器中己方节点的电源状态位写入异常标识。对方检测芯片可以通过共享寄存器中的电源状态位获取到异常标识并拉高引脚电平触发中断信号,并将中断信号上报给对方节点的操作系统。对方节点的操作系统上报对应的故障事件至管理节点。
管理节点服务器(简称管理节点)可以包括管理器(manager)和控制器(controller),可以用于同步集群中各个计算节点的状态,还可以用于在计算节点之间迁移虚拟机。示例性地,本实施例中,管理节点可以接收计算节点上报的故障事件,通过故障事件获知故障节点,然后可以将故障节点中的虚拟机迁移至非故障的节点中。
图3是本说明书根据另一示例性实施例示出的2U2节点服务器的故障检测方法的示意图。
如图3所示,节点A的驱动每隔第一预定周期写寄存器,让计数器值归零。节点A的检测芯片每隔第二预定周期,将计数器自增1,并判断计数器是否超过超时阈值,如果超过超时阈值,则通过故障信号告知节点B的检测芯片节点A故障。节点B的检测芯片根据故障信号触发中断信号,上报给节点B的操作系统。节点B的操作系统上报对应的故障事件至管理节点。管理节点可以根据该故障信号确定节点A故障,进而将节点A中的虚拟机迁移至节点B。
对应地,节点B的驱动每隔第一预定周期写寄存器,让计数器值归零。节点B的检测芯片每隔第二预定周期,将计数器自增1,并判断计数器是否超过超时阈值,如果超过超时阈值,则通过故障信号告知节点A的检测芯片节点B故障。节点A的检测芯片根据故障信号触发中断信号上报给节点A的操作系统。节点A的操作系统上报对应的故障事件至管理节点。管理节点可以根据该故障信号确定节点B故障,进而将节点B中的虚拟机迁移至节点A。
在节点A因发生AC掉电等因素导致电源状态异常的情况下,检测芯片检测到节点A电源状态异常后,将异常标识写入共享寄存器中节点A的电源状态位。节点B的检测芯片读取共享寄存器中节点A的电源状态位,获取到异常标识并触发中断信号上报给节点B的操作系统,再由操作系统上报对应的故障事件至管理节点。管理节点可以根据该故障事件确定节点A故障,进而将节点A中的虚拟机迁移至节点B。
对应地,在节点B因发生AC掉电等因素导致电源状态异常的情况下,检测芯片检测到节点B电源状态异常后,将异常标识写入共享寄存器中节点B的电源状态位。节点A的检测芯片读取共享寄存器中节点B的电源状态位,获取到异常标识并触发中断信号上报给节点A的操作系统,再由操作系统上报对应的故障事件至管理节点。管理节点可以根据该故障事件确定节点B故障,进而将节点B中的虚拟机迁移至节点A。
根据本说明书的实施例,通过2U2节点服务器软硬件结合的方式,可以实现快速故障检测并迁移故障节点中的虚拟机,可靠性高,故障检测迅速,业务恢复快。
与前述方法的实施例相对应,本说明书还提供了2U2节点服务器及其所应用的终端的实施例。
本说明书2U2节点服务器的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本说明书实施例2U2节点服务器所在计算机设备的一种硬件结构图,除了图4所示的处理器410、内存430、网络接口420、以及非易失性存储器440之外,实施例中装置431所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本说明书还提供一种2U2节点服务器的故障检测装置,该装置包括有处理器;用于存储处理器可执行指令的存储器;其中,该处理器被配置为执行本说明书实施例示出的各种方法。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (12)

1.一种2U2节点服务器的故障检测方法,其特征在于,所述2U2节点服务器包括第一计算节点、第二计算节点、第一检测芯片和第二检测芯片,所述方法包括:
每隔第一时间周期,所述第一计算节点重置第一计数器;
每隔第二时间周期,所述第一检测芯片对所述第一计数器执行自增操作,并检测所述第一计数器是否达到第一超时阈值;
如果所述第一计数器达到第一超时阈值,则所述第一检测芯片向第二检测芯片发送第一故障信号;
所述第二检测芯片在接收到所述第一故障信号后,向所述第二计算节点发送所述第一中断信号;
所述第二计算节点在接收到所述第一中断信号后,向管理节点发送第一故障事件,所述第一故障事件用于指示第一计算节点故障。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每隔第三时间周期,所述第二计算节点重置第二计数器;
每隔第四时间周期,所述第二检测芯片对所述第二计数器执行自增操作,并检测所述第二计数器是否达到第二超时阈值;
如果所述第二计数器达到第二超时阈值,则所述第二检测芯片向第一检测芯片发送第二故障信号;
所述第一检测芯片在接收到所述第二故障信号后,向所述第一计算节点发送所述第二中断信号;
所述第一计算节点在接收到所述第二中断信号后,向管理节点发送第二故障事件,所述第二故障事件用于指示第二计算节点故障。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每隔第五时间周期,所述第一检测芯片检测第一计算节点的电源状态,并根据所述第一计算节点的电源状态,设置第一电源状态数据;
每隔第六时间周期,所述第二检测芯片检测所述第一电源状态数据;
如果检测到所述第一电源状态数据指示电源状态异常,则所述第二检测芯片向第二计算节点发送第三中断信号;
所述第二计算节点在接收到所述第三中断信号后,向管理节点发送与所述第三故障事件,所述第三故障事件用于指示第一计算节点电源状态异常。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每隔第七时间周期,所述第二检测芯片检测第二计算节点的电源状态,并根据所述第二计算节点的电源状态,设置第二电源状态数据;
每隔第八时间周期,所述第一检测芯片检测所述第二电源状态数据;
如果检测到所述第二电源状态数据指示电源状态异常,则所述第一检测芯片向第一计算节点发送第四中断信号;
所述第一计算节点在接收到所述第四中断信号后,向管理节点发送与所述第四故障事件,所述第四故障事件用于指示第二计算节点电源状态异常。
5.根据权利要求1所述的方法,其特征在于,所述第一检测芯片包括第一内部寄存器;所述方法还包括:
所述第一计算节点控制所述第一检测芯片在第一内部寄存器中设置第一计数器,并配置与所述第一计数器对应的第一超时阈值。
6.根据权利要求2所述的方法,其特征在于,第二检测芯片包括第二内部寄存器;所述方法还包括:
所述第二计算节点控制所述第二检测芯片在第二内部寄存器中设置第二计数器,并配置与所述第二计数器对应的第二超时阈值。
7.一种2U2节点服务器,其特征在于,所述2U2节点服务器包括:
第一计算节点,用于每隔第一时间周期,重置第一计数器;
第一检测芯片,用于每隔第二时间周期,对所述第一计数器执行自增操作,并检测所述第一计数器是否达到第一超时阈值;如果所述第一计数器达到第一超时阈值,则向第二检测芯片发送第一故障信号;
第二检测芯片,用于在接收到所述第一故障信号后,向所述第二计算节点发送所述第一中断信号;
第二计算节点,用于在接收到所述第一中断信号后,向管理节点发送第一故障事件,所述第一故障事件用于指示第一计算节点故障。
8.根据权利要求7所述的2U2节点服务器,其特征在于,
所述第二计算节点,还用于每隔第三时间周期,重置第二计数器;
所述第二检测芯片,还用于每隔第四时间周期,对所述第二计数器执行自增操作,并检测所述第二计数器是否达到第二超时阈值;如果所述第二计数器达到第二超时阈值,则向第一检测芯片发送第二故障信号;
所述第一检测芯片,还用于在接收到所述第二故障信号后,向所述第一计算节点发送所述第二中断信号;
所述第一计算节点,还用于在接收到所述第二中断信号后,向管理节点发送第二故障事件,所述第二故障事件用于指示第二计算节点故障。
9.根据权利要求7所述的2U2节点服务器,其特征在于,
所述第一检测芯片,还用于每隔第五时间周期,检测第一计算节点的电源状态,并根据所述第一计算节点的电源状态,设置第一电源状态数据;
所述第二检测芯片,还用于每隔第六时间周期,检测所述第一电源状态数据;如果检测到所述第一电源状态数据指示电源状态异常,则向第二计算节点发送第三中断信号;
所述第二计算节点,还用于在接收到所述第三中断信号后,向管理节点发送与所述第三故障事件,所述第三故障事件用于指示第一计算节点电源状态异常。
10.根据权利要求7所述的2U2节点服务器,其特征在于,所述2U2节点服务器还包括:
所述第二检测芯片,还用于每隔第七时间周期,检测第二计算节点的电源状态,并根据所述第二计算节点的电源状态,设置第二电源状态数据;
所述第一检测芯片,还用于每隔第八时间周期,检测所述第二电源状态数据;如果检测到所述第二电源状态数据指示电源状态异常,则向第一计算节点发送第四中断信号;
所述第一计算节点,还用于在接收到所述第四中断信号后,向管理节点发送与所述第四故障事件,所述第四故障事件用于指示第二计算节点电源状态异常。
11.根据权利要求7所述的2U2节点服务器,其特征在于,所述第一检测芯片包括第一内部寄存器;
所述第一计算节点,还用于控制所述第一检测芯片在第一内部寄存器中设置第一计数器,并配置与所述第一计数器对应的第一超时阈值。
12.根据权利要求8所述的2U2节点服务器,其特征在于,第二检测芯片包括第二内部寄存器;
所述第二计算节点,还用于控制所述第二检测芯片在第二内部寄存器中设置第二计数器,并配置与所述第二计数器对应的第二超时阈值。
CN202411382062.3A 2024-09-30 2024-09-30 2u2节点服务器的故障检测方法及2u2节点服务器 Pending CN119311518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411382062.3A CN119311518A (zh) 2024-09-30 2024-09-30 2u2节点服务器的故障检测方法及2u2节点服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411382062.3A CN119311518A (zh) 2024-09-30 2024-09-30 2u2节点服务器的故障检测方法及2u2节点服务器

Publications (1)

Publication Number Publication Date
CN119311518A true CN119311518A (zh) 2025-01-14

Family

ID=94183746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411382062.3A Pending CN119311518A (zh) 2024-09-30 2024-09-30 2u2节点服务器的故障检测方法及2u2节点服务器

Country Status (1)

Country Link
CN (1) CN119311518A (zh)

Similar Documents

Publication Publication Date Title
JP6530774B2 (ja) ハードウェア障害回復システム
JP5160085B2 (ja) ストレージ・デバイスの障害を予測するための装置、システム、および方法
US8839032B2 (en) Managing errors in a data processing system
CN111414268B (zh) 故障处理方法、装置及服务器
US8713350B2 (en) Handling errors in a data processing system
US7313717B2 (en) Error management
US8782469B2 (en) Request processing system provided with multi-core processor
CN103415840A (zh) 跨硬件层和软件层的错误管理
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
US6725396B2 (en) Identifying field replaceable units responsible for faults detected with processor timeouts utilizing IPL boot progress indicator status
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
US10360115B2 (en) Monitoring device, fault-tolerant system, and control method
US11360839B1 (en) Systems and methods for storing error data from a crash dump in a computer system
CN103186435B (zh) 系统错误处理方法与使用该方法的服务器系统
US20210342213A1 (en) Processing Device, Control Unit, Electronic Device, Method and Computer Program
US11742054B2 (en) Memory power fault resilience in information handling systems
JPH1091289A (ja) メモリの初期化装置及び方法
CN119311518A (zh) 2u2节点服务器的故障检测方法及2u2节点服务器
US7533297B2 (en) Fault isolation in a microcontroller based computer
CN113312198B (zh) 监控及复原异质性元件的系统及方法
CN114978891B (zh) 网络设备bios配置的处理方法、设备及存储介质
US11797368B2 (en) Attributing errors to input/output peripheral drivers
Lee et al. NCU-HA: A lightweight HA system for kernel-based virtual machine
US7895493B2 (en) Bus failure management method and system
US20240159812A1 (en) Method for monitoring in a distributed system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination