[go: up one dir, main page]

CN118606118A - 服务器的硬盘故障识别系统、方法、装置、服务器及介质 - Google Patents

服务器的硬盘故障识别系统、方法、装置、服务器及介质 Download PDF

Info

Publication number
CN118606118A
CN118606118A CN202410659125.9A CN202410659125A CN118606118A CN 118606118 A CN118606118 A CN 118606118A CN 202410659125 A CN202410659125 A CN 202410659125A CN 118606118 A CN118606118 A CN 118606118A
Authority
CN
China
Prior art keywords
hard disk
chassis
lighting
volatile storage
storage chip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410659125.9A
Other languages
English (en)
Inventor
董宜清
张秀波
袁传博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202410659125.9A priority Critical patent/CN118606118A/zh
Publication of CN118606118A publication Critical patent/CN118606118A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/25Testing of logic operation, e.g. by logic analysers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器的硬盘故障识别系统、方法、装置、服务器及介质,涉及服务器技术领域。非易失性存储芯片通过与BMC的连接,且通过转换装置与CPLD的连接,实现BMC和CPLD均可访问。BMC访问RAID卡的硬盘操作和CPLD读取机箱外部丝印标识的任务分离,以此减少两个任务之间的强依赖,缩短匹配时间。CPLD将机箱外部丝印标识的信息写入至非易失性存储芯片,同时,非易失性存储芯片的特性也避免因BMC刷新过程中对应配置信息的丢失,保证数据的持久性。BMC读取非易失性存储芯片的硬件信息和机箱外部丝印标识,以此建立两者的直观映射关系,保证匹配的准确性,提高配置和管理过程的效率。

Description

服务器的硬盘故障识别系统、方法、装置、服务器及介质
技术领域
本发明涉及服务器技术领域,特别是涉及一种服务器的硬盘故障识别系统、方法、装置、服务器及介质。
背景技术
独立磁盘冗余阵列(Redundant Array of Independent Disks,RAID),用多个独立的磁盘组成在一起形成一个大的磁盘系统,从而实现比单块磁盘更好的存储性能和更高的可靠性。
服务器内部配置多个硬盘插槽,该插槽会通过RAID卡或者内置的控制器管理与机箱外部丝印标识之间的关系,以此实现故障物理硬盘位置的快速识别和定位。由于RAID卡或者内置的控制器管理与机箱外部丝印标识之间的映射关系并非可以直观体现,导致在基板管理控制器(Baseboard Management Controller,BMC)刷新过程中读取到的硬盘故障无法直接对应到正确的机箱外部丝印,或者由于映射关系错误进而上报错误信息,使得维护难度加大、故障响应时间较长和资源调配效率下降。另外,BMC刷新过程中对应内部存储的非直观的映射关系的数据信息容易丢失,进一步降低配置效率。
因此,如何直观映射RAID卡管理下的物理硬盘插槽与机箱外部丝印标识关系以提高服务器的可维护性和管理效率,是本领域技术人员亟需要解决的。
发明内容
本发明的目的是提供一种服务器的硬盘故障识别系统、方法、装置、服务器及介质,以解决BMC刷新过程中读取到的硬盘故障无法直接对应到正确的机箱外部丝印,或者由于映射关系错误进而上报错误信息,使得维护难度加大、故障响应时间较长和资源调配效率下降。另外,BMC刷新过程中对应内部存储的非直观的映射关系的数据信息容易丢失,进一步降低配置效率的问题。
为解决上述技术问题,本发明提供一种服务器的硬盘故障识别系统,包括基板管理控制器、独立磁盘冗余阵列卡、复杂可编程逻辑器件、转换装置和非易失性存储芯片;各物理硬盘上夹带对应的机箱外部丝印标识;
所述复杂可编程逻辑器件和所述独立磁盘冗余阵列卡连接,且均与各物理硬盘连接;所述独立磁盘冗余阵列卡、所述复杂可编程逻辑器件和所述转换装置均与所述基板管理控制器连接;所述复杂可编程逻辑器件经所述转换装置与所述非易失性存储芯片连接;
所述复杂可编程逻辑器件,用于通过所述转换装置获取到所述非易失性存储芯片的写入权限时,根据点灯中断处理机制将点亮灯对应的所述机箱外部丝印标识写入至所述非易失性存储芯片;
所述基板管理控制器,用于根据点灯操作机制控制所述独立磁盘冗余阵列卡读取对应的硬盘信息;并在获取到读取权限时,读取所述非易失性存储芯片的所述机箱外部丝印标识,以建立所述硬盘信息和所述机箱外部丝印标识对应的映射关系,实现故障物理硬盘的定位。
为解决上述技术问题,本发明还提供一种服务器的硬盘故障识别方法,应用于基板管理控制器,其中,所述基板管理控制器处于上述所述的服务器的硬盘故障识别系统,所述方法包括:
获取匹配指令,并将匹配指令发送至复杂可编程逻辑器件进行读取机箱外部丝印标识,并写入至非易失性存储芯片;
根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内;
待所述独立磁盘冗余阵列卡读取对应的硬盘信息完毕后且获取到读取权限时,读取所述非易失性存储芯片的所述机箱外部丝印标识;
建立所述机箱外部丝印标识和所述硬盘信息的映射关系,以实现故障物理硬盘的定位。
一方面,获取匹配指令,包括:
判断独立磁盘冗余阵列卡访问的硬盘信息和复杂可编程逻辑器件记录的机箱外部丝印标识是否匹配;
若否,则生成匹配指令;其中,所述匹配指令为所述复杂可编程逻辑器件点灯中断机制的触发指令。
另一方面,根据点灯操作机制控制所述独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内,包括:
获取所述独立磁盘冗余阵列卡访问各物理硬盘对应的访问顺序;
根据所述访问顺序对所述独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理;
将点灯操作处理对应的硬盘信息保存至所述基板管理控制器的存储空间;其中,所述硬盘信息用于表征各物理硬盘对应的标志信息;所述硬盘信息至少包括高速串行计算机扩展总线标准位置信息、附件身份标识号码和硬盘位置信息的一种信息;
预先获取当前物理硬盘的点灯操作处理的预设时间;
在预设时间内判断当前物理硬盘的点灯操作是否结束;
若结束,则返回至所述根据所述访问顺序对所述独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理的步骤进行下一个物理硬盘的点灯操作处理,直至所有的物理硬盘点灯操作处理结束;
若超出预设时间且当前物理硬盘的点灯操作处理还未结束,则标记当前物理硬盘,且强制返回至所述根据所述访问顺序对所述独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理的步骤进行下一个物理硬盘的点灯操作处理,直至所有的物理硬盘点灯操作处理结束。
为解决上述技术问题,本发明提供一种服务器的硬盘故障识别方法,应用于复杂可编程逻辑器件,其中,所述复杂可编程逻辑器件处于上述所述的服务器的硬盘故障识别系统,所述方法包括:
接收由基板管理控制器发送的匹配指令;
启动点灯中断处理机制;
预先通过转换装置获取到非易失性存储芯片的写入权限,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识写入至所述非易失性存储芯片;
在全部所述机箱外部丝印标识写入后,接收由所述基板管理控制器发送的匹配结束指令执行结束,以便于所述基板管理控制器读取所述非易失性存储芯片的所述机箱外部丝印标识,建立所述机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
一方面,所述根据点灯中断处理机制将点亮灯对应的所述机箱外部丝印标识写入至所述非易失性存储芯片,包括:
启用所述点灯中断处理机制;
判断是否存在点灯中断;
若存在点灯中断,则确定点灯中断对应的目标物理硬盘;
判断是否为第一次中断;
若是第一次中断,则记录目标物理硬盘的当前时间和目标物理硬盘点亮灯对应的所述机箱外部丝印标识,且写入至所述非易失性存储芯片;
若不是第一次中断,则记录目标物理硬盘点亮灯对应的所述机箱外部丝印标识,且写入至所述非易失性存储芯片。
另一方面,在所述接收由所述基板管理控制器发送的匹配结束指令执行结束之前,还包括:
判断是否结束所述点灯中断处理机制;
若是,则执行结束;
若否,则返回所述判断是否存在点灯中断的步骤。
为解决上述技术问题,本发明提供一种服务器的硬盘故障识别装置,应用于基板管理控制器,其中,所述基板管理控制器处于上述所述的服务器的硬盘故障识别系统,所述装置包括:
第一获取模块,用于获取匹配指令,并将匹配指令发送至复杂可编程逻辑器件进行读取机箱外部丝印标识,并写入至非易失性存储芯片;
第一存储模块,用于根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内;
第一读取模块,用于待所述独立磁盘冗余阵列卡读取对应的硬盘信息完毕后且获取到读取权限时,读取所述非易失性存储芯片的所述机箱外部丝印标识;
第一建立模块,用于建立所述机箱外部丝印标识和所述硬盘信息的映射关系,以实现故障物理硬盘的定位。
为解决上述技术问题,本发明提供一种服务器的硬盘故障识别装置,应用于复杂可编程逻辑器件,其中,所述复杂可编程逻辑器件处于上述所述的服务器的硬盘故障识别系统,所述装置包括:
第一接收模块,用于接收由基板管理控制器发送的匹配指令;
启动模块,用于启动点灯中断处理机制;
第二获取模块,用于预先通过转换装置获取到非易失性存储芯片的写入权限,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识写入至所述非易失性存储芯片;
第二接收模块,用于在全部所述机箱外部丝印标识写入后,接收由所述基板管理控制器发送的匹配结束指令执行结束,以便于所述基板管理控制器读取所述非易失性存储芯片的所述机箱外部丝印标识,建立所述机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
为解决上述技术问题,本发明提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述的服务器的硬盘故障识别方法的步骤。
为解决上述技术问题,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的服务器的硬盘故障识别方法的步骤。
本发明提供的一种服务器的硬盘故障识别系统,各物理硬盘上夹带对应的机箱外部丝印标识;复杂可编程逻辑器件和独立磁盘冗余阵列卡连接,且均与各物理硬盘连接;独立磁盘冗余阵列卡、复杂可编程逻辑器件和转换装置均与基板管理控制器连接;复杂可编程逻辑器件经转换装置与非易失性存储芯片连接;复杂可编程逻辑器件,用于通过转换装置获取到非易失性存储芯片的写入权限时,根据点灯中断处理机制将点亮灯对应的所述机箱外部丝印标识写入至非易失性存储芯片;基板管理控制器,用于根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息;并在获取到读取权限时,读取非易失性存储芯片的机箱外部丝印标识,以建立硬盘信息和机箱外部丝印标识对应的映射关系,实现故障物理硬盘的定位。
本发明的有益效果在于非易失性存储芯片通过与BMC的连接,且通过转换装置与CPLD的连接,实现BMC和CPLD均可访问且同一时间仅能BMC或者CPLD访问非易失性存储芯片。BMC访问RAID卡的硬盘操作和CPLD读取机箱外部丝印标识的任务分离,以此减少两个任务之间的强依赖,缩短匹配时间。CPLD将机箱外部丝印标识的信息写入至非易失性存储芯片,同时,非易失性存储芯片的特性也避免因BMC刷新过程中对应配置信息的丢失,保证数据的持久性。BMC读取非易失性存储芯片的硬件信息和机箱外部丝印标识,以此建立两者的直观映射关系,保证匹配的准确性,提高配置和管理过程的效率。
其次,BMC负责的RAID卡硬盘点灯操作和CPLD记录点灯丝印顺序的操作分离,形成两个独立协调的任务,减少任务减的强依赖;匹配指令的获取,象征BMC和CPLD两个分别执行对应的任务的触发,以便于后续点灯匹配机制(点灯操作机制和点灯中断机制)的实施;BMC进程内根据点灯操作机制通过RAID卡实现硬盘信息的获取,优化点灯匹配机制,分离BMC和CPLD的任务,减少匹配时间,即使在硬盘数量增加的同时也能保持较高的生产效率;点灯中断处理机制的优化,使得CPLD的任务与BMC的任务分离,减少依赖关系,缩短匹配时间。
另外,本发明还提供了一种服务器的硬盘故障识别方法、装置、服务器及介质,具有如上述服务器的硬盘故障识别方法相同的有益效果。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种服务器的硬盘故障识别系统的结构图;
图2为传统的服务器的故障硬盘识别系统的结构图;
图3为本发明实施例提供的一种数据存储方案示意图;
图4为本发明实施例提供的一种应用于基板管理控制器的服务器的硬盘故障识别方法的流程图;
图5为本发明实施例提供的一种应用于复杂可编程逻辑器件的服务器的硬盘故障识别方法的流程图;
图6为本发明提供的另一种服务器的硬盘故障识别方法的流程图;
图7为本发明实施例提供的一种应用于基板管理控制器的服务器的硬盘故障识别装置的结构图;
图8为本发明实施例提供的一种应用于复杂可编程逻辑器件的服务器的硬盘故障识别装置的结构图;
图9为本发明实施例提供的一种服务器的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种服务器的硬盘故障识别系统、方法、装置、服务器及介质,以解决BMC刷新过程中读取到的硬盘故障无法直接对应到正确的机箱外部丝印,或者由于映射关系错误进而上报错误信息,使得维护难度加大、故障响应时间较长和资源调配效率下降。另外,BMC刷新过程中对应内部存储的非直观的映射关系的数据信息容易丢失,进一步降低配置效率的问题。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
随着业务需求的不断增长和技术的快速进步,服务器的设计和管理变得日益复杂,尤其在存储系统方面。独立磁盘冗余阵列技术被广泛应用于提升数据可靠性和存储性能。RAID通过将多个物理硬盘组合成一个逻辑单元,实现数据冗余、读取速度优化以及容量扩展等功能。特别是在高密度服务器设计中,物理硬盘的管理与维护面临挑战。服务器内部通常配备有多个硬盘插槽,这些插槽通过RAID卡或内置控制器管理,与外部可见的机箱丝印位置(slot)标识(机箱上标注的硬盘插槽位置标识)之间可能存在间接或非直观的对应关系。
这种不直接的对应性给运维人员带来了以下问题:
1、BMC异常上报困难:服务器故障一般通过BMC进行上报,硬盘故障一般为了维护方便会按照机箱丝印slot进行上报,硬盘故障除了通过背板复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD)进行收集外,大多需要通过RAID进行收集,但这种不对应关系导致从RAID读取到的硬盘故障无法对应到机箱丝印上,导致异常无法上报。
2、维护难度增加:在需要更换故障硬盘或进行硬件升级时,运维人员必须首先确定故障硬盘在RAID阵列中的逻辑位置,然后找到它对应的物理插槽位置。这一过程往往需要参考复杂的配置文档或通过系统管理软件查询,增加了维护时间成本和出错概率。
3、故障响应缓慢:在面对硬盘故障等紧急情况时,如果不能迅速定位到具体的物理硬盘位置,可能会延长系统的停机时间,影响业务连续性。
4、资源调配效率低下:随着服务器规模的扩大,同型号机型存在大量不同RAID和多种物理硬盘之间的配置(如NF5280M6机型有100多种配置),手动管理和记录每个服务器的硬盘布局变得越来越不可行,影响了资源调配的灵活性和效率。
本发明提供的服务器的硬盘故障识别系统可以解决上述技术问题。
图1为本发明实施例提供的一种服务器的硬盘故障识别系统的结构图,如图1所示,该系统包括基板管理控制器1、独立磁盘冗余阵列卡2、复杂可编程逻辑器件3、转换装置4和非易失性存储芯片5;各物理硬盘7上夹带对应的机箱外部丝印标识6;
复杂可编程逻辑器件3和独立磁盘冗余阵列卡2连接,且均与各物理硬盘7连接;独立磁盘冗余阵列卡2、复杂可编程逻辑器件3和转换装置4均与基板管理控制器1连接;复杂可编程逻辑器件3经转换装置4与非易失性存储芯片5连接;
复杂可编程逻辑器件3,用于通过转换装置4获取到非易失性存储芯片5的写入权限时,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识6写入至非易失性存储芯片5;
基板管理控制器1,用于根据点灯操作机制控制独立磁盘冗余阵列卡2读取对应的硬盘信息;并在获取到读取权限时,读取非易失性存储芯片5的机箱外部丝印标识6,以建立硬盘信息和机箱外部丝印标识6对应的映射关系,实现故障物理硬盘7的定位。
具体地,各物理硬盘7上夹带对应的机箱外部丝印标识6,为服务器机箱上的丝印信息,可以用来显示外部设备的位置,该丝印标识的个数与物理硬盘7的数量相同,且一一对应。机箱外部丝印标识6可以是丝印类型、丝印在服务器机箱上的位置、编号或者丝印的特征信息等,在此不做限定。
复杂可编程逻辑器件3和独立磁盘冗余阵列卡2连接,是通过光驱接口8(slim接口)和通用输入/输出端口(General Purpose I/O Ports,GPIO)引脚连接。
转换装置4和非易失性存储芯片5连接,用于在同一时刻仅能通过一个控制装置访问非易失性存储芯片5,起到切换控制装置的作用。转换装置4的具体芯片模式不做限定,只要在不同的电压电平间转换通信信号即可。可以是总线桥接器,也可以是其他的转换芯片。若为总线桥接器时,可以和本系统内的各器件之间的通信总线的类型相同,例如,各器件之间的通信总线以集成电路总线(Inter Integrated Circuit,I2C),这里的总线桥接器则为I2C总线桥接器,具体型号可以是PCA9641。该款芯片支持菊花链(I2C daisy chaining)功能。这款芯片设计用于在不同的电压电平间转换I2C信号,使得低电压设备能够与高电压设备通过I2C总线通信,反之亦然。这对于确保不同电源电压要求的系统组件之间的兼容性和互操作性非常有用。它还具备增强的静电放电(Electrostatics Discharge,ESD)保护和灵活的地址选择功能,增强了系统的稳定性和设计灵活性。
非易失性存储芯片5,其特性是掉电后数据不丢失,可以是非只读存储器(ReadOnly Memory,ROM)型,也可以是ROM型,如可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可重编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable read onlymemory,EEPRAM)等,在此不做限定。
如图1所示,本发明将其非易失性存储芯片5内存储配置信息,配置信息主要包括独立磁盘冗余阵列卡2卡和物理硬盘7之间的硬盘信息、复杂可编程逻辑器件3与物理硬盘7对应的机箱外部丝印标识6信息。传统的存储是将该配置信息存储在基板管理控制器1中,若基板管理控制器1进行刷新时,会将存储的配置信息丢失,进而会重新进行识别,导致识别时间增加。本发明通过配置信息存储在非易失性存储芯片5内,基板管理控制器1刷新不影响数据丢失,同时,可以被基板管理控制器1和复杂可编程逻辑器件3灵活读写,旨在强化系统对机箱外部丝印标识6的管理能力,提升硬件配置的灵活性和系统的可靠性。另外,也确保信息的准确性和持久性。
复杂可编程逻辑器件3通过转换装置4,将其权限切换到复杂可编程逻辑器件3,使得复杂可编程逻辑器件3根据点灯中断处理机制将其点亮灯对应的机箱外部丝印标识6写入至非易失性存储芯片5。基板管理控制器1根据点灯操作机制控制独立磁盘冗余阵列卡2卡读取对应的硬盘信息,在将读取非易失性存储芯片5的权限通过转换装置4转换至基板管理控制器1时,再读取非易失性存储芯片5的机箱外部丝印标识6,以建立硬盘信息和机箱外部丝印标识6对应的映射关系,实现故障物理硬盘7的定位。
图2为传统的服务器的故障硬盘识别系统的结构图,如图2所示,基板管理控制器1通过I2C与背板复杂可编程逻辑器件3连接;基板管理控制器1通过I2C与独立磁盘冗余阵列卡2卡进行连接及管理独立磁盘冗余阵列卡2卡;独立磁盘冗余阵列卡2卡通过光驱接口8与硬盘背板连接,独立磁盘冗余阵列卡2与背板复杂可编程逻辑器件3之间通过光驱接口8和GPIO引脚连接用来上报一些硬盘异常。
传统的点灯方式是硬盘异常后,硬盘点灯告警,基板管理控制器1控制背板复杂可编程逻辑器件3正常点灯功能停止,然后通过独立磁盘冗余阵列卡2卡点亮硬盘loacte灯,再通过背板复杂可编程逻辑器件3读取哪个硬盘被点亮了locate灯,通过此方法把机箱丝印与独立磁盘冗余阵列卡2卡下物理槽位对应起来。但是基于生成的对应关系数据存放在基板管理控制器1内,如果使用socflash进行基板管理控制器1刷新,配置会丢失,需要重新识别。如果在生成配置过程中出现硬盘异常,复杂可编程逻辑器件3无法对异常硬盘进行点灯和异常上报。这里的点灯和读取位置都需要由基板管理控制器1来完成,而且在不同进程里操作,顺序不能混乱,故需要加较长的延时来保证不乱序,会随着硬盘数量的增加耗时变长,极大影响生产效率。
图3为本发明实施例提供的一种数据存储方案示意图,如图3所示,在基板管理控制器1的存储空间(不限于共享内存,配置文件、基板管理控制器1flash空间)分配一段空间用于存放独立磁盘冗余阵列卡2卡硬盘slot与机箱丝印的对应关系,首先独立磁盘冗余阵列卡2卡按照独立磁盘冗余阵列卡2卡访问顺序(不限于PCIE slot顺序,I2C连接顺序,只要按照固定顺序即可)读取硬盘数据,再把硬盘对应的信息(包括计算机扩展总线标准位置信息(Peripheral Component Interconnect Express slot,PCIE slot)、附件身份标识号码(Enclosure Identity,EID)和硬盘slot等,通过这些数据可唯一确定某个硬盘)按照访问顺序放入分配存储空间内,再从背板的非易失性存储芯片5里把复杂可编程逻辑器件3写入的机箱丝印信息读出顺序放入分配的存储空间内。
本实施例中的BMC负责的RAID卡硬盘点灯操作和CPLD记录点灯丝印顺序的操作分离,形成两个独立协调的任务,减少任务减的强依赖。点灯中断处理机制和点灯操作机制可以和常规的点灯功能相同,也可以不同,在此不做限定。
本发明实施例提供的一种服务器的硬盘故障识别系统,各物理硬盘上夹带对应的机箱外部丝印标识;复杂可编程逻辑器件和独立磁盘冗余阵列卡连接,且均与各物理硬盘连接;独立磁盘冗余阵列卡、复杂可编程逻辑器件和转换装置均与基板管理控制器连接;复杂可编程逻辑器件经转换装置与非易失性存储芯片连接;复杂可编程逻辑器件,用于通过转换装置获取到非易失性存储芯片的写入权限时,根据点灯中断处理机制将点亮灯对应的所述机箱外部丝印标识写入至非易失性存储芯片;基板管理控制器,用于根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息;并在获取到读取权限时,读取非易失性存储芯片的机箱外部丝印标识,以建立硬盘信息和机箱外部丝印标识对应的映射关系,实现故障物理硬盘的定位。非易失性存储芯片通过与BMC的连接,且通过转换装置与CPLD的连接,实现BMC和CPLD均可访问且同一时间仅能BMC或者CPLD访问非易失性存储芯片。BMC访问RAID卡的硬盘操作和CPLD读取机箱外部丝印标识的任务分离,以此减少两个任务之间的强依赖,缩短匹配时间。CPLD将机箱外部丝印标识的信息写入至非易失性存储芯片,同时,非易失性存储芯片的特性也避免因BMC刷新过程中对应配置信息的丢失,保证数据的持久性。BMC读取非易失性存储芯片的硬件信息和机箱外部丝印标识,以此建立两者的直观映射关系,保证匹配的准确性,提高配置和管理过程的效率。
图4为本发明实施例提供的一种应用于基板管理控制器的服务器的硬盘故障识别方法的流程图,如图4所示,基板管理控制器处于上述服务器的硬盘故障识别系统,方法包括:
S11:获取匹配指令,并将匹配指令发送至复杂可编程逻辑器件进行读取机箱外部丝印标识,并写入至非易失性存储芯片;
S12:根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内;
S13:待独立磁盘冗余阵列卡读取对应的硬盘信息完毕后且获取到读取权限时,读取非易失性存储芯片的机箱外部丝印标识;
S14:建立机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
具体地,匹配指令,是用于触发CPLD进行后续读取被点亮灯对应的机箱外部丝印标识,也就是将匹配指令发送至CPLD,以便于读取机箱外部丝印标识,并写入至非易失性存储芯片。
匹配指令的触发条件可以是用户主动发出,也可以是基于未匹配的情况下生成匹配指令。在一些实施例中,获取匹配指令,包括:
判断独立磁盘冗余阵列卡访问的硬盘信息和复杂可编程逻辑器件记录的机箱外部丝印标识是否匹配;
若否,则生成匹配指令;其中,匹配指令为复杂可编程逻辑器件点灯中断机制的触发指令。
具体地,在BMC判断是否配置信息(独立磁盘冗余阵列卡访问的硬盘信息和复杂可编程逻辑器件记录的机箱外部丝印标识)是否匹配完成,若是,则结束,若否,则生成匹配指令;其中,匹配指令为复杂可编程逻辑器件点灯中断机制的触发指令。
本实施例中的匹配指令的获取,象征BMC和CPLD两个分别执行对应的任务的触发,以便于后续点灯匹配机制(点灯操作机制和点灯中断机制)的实施。
步骤S12中的根据点灯操作机制控制RAID卡读取对应的硬盘信息,并存储至对应的存储空间,BMC内进程只负责按RAID卡访问顺序通过RAID卡对硬盘进行点灯操作。
在一些实施例中,根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内,包括:
获取独立磁盘冗余阵列卡访问各物理硬盘对应的访问顺序;
根据访问顺序对独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理;
将点灯操作处理对应的硬盘信息保存至基板管理控制器的存储空间;其中,硬盘信息用于表征各物理硬盘对应的标志信息;硬盘信息至少包括高速串行计算机扩展总线标准位置信息、附件身份标识号码和硬盘位置信息的一种信息;
预先获取当前物理硬盘的点灯操作处理的预设时间;
在预设时间内判断当前物理硬盘的点灯操作是否结束;
若结束,则返回至根据访问顺序对独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理的步骤进行下一个物理硬盘的点灯操作处理,直至所有的物理硬盘点灯操作处理结束;
若超出预设时间且当前物理硬盘的点灯操作处理还未结束,则标记当前物理硬盘,且强制返回至根据访问顺序对独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理的步骤进行下一个物理硬盘的点灯操作处理,直至所有的物理硬盘点灯操作处理结束。
具体地,根据访问顺序对当前物理硬盘进行点灯操作处理,处理完后将对应的硬盘信息保存至BMC的存储空间。这里的硬盘信息是用于表征各物理硬盘对应的标志信息,表示唯一性。硬盘信息至少包括PCIE slot、EID和硬盘slot的一种,当前,还可以包括其他表示唯一性的信息,在此不做限定。
在预设时间内判断当前物理硬盘的点灯操作是否结束,若结束,则需要按照访问顺序对下一个物理硬盘进行点灯操作处理,直至所有物理硬盘的点灯操作处理结束。若超出预设时间且当前物理硬盘的点灯操作处理还未结束,则需要标记当前物理硬盘,为了不耽误后续的物理硬盘,则强制进行下一个物理硬盘的点灯操作处理。
在另一些实施例中,若超出预设时间且当前物理硬盘的点灯操作处理还未结束时,还包括:
标记当前物理硬盘;
若当前物理硬盘为最后一个物理硬盘时,获取设定时间;
根据设定时间对当前物理硬盘进行点灯操作处理;
若在设定时间内当前物理硬盘的点灯操作处理未结束,则强制结束点灯操作处理。
具体地,为了使得所有物理硬盘全部进行点灯操作处理,本实施例在原有的预设时间基础上,再额外申请设定时间,在设定时间内继续对当前物理硬盘进行点灯操作处理,以提高数据处理的有效性和准确性,同时保证所有物理硬盘的硬盘信息的完整性。
本实施例提供的BMC进程内根据点灯操作机制通过RAID卡实现硬盘信息的获取,优化点灯匹配机制,分离BMC和CPLD的任务,减少匹配时间,即使在硬盘数量增加的同时也能保持较高的生产效率。
步骤S13中的在RAID卡读取硬盘信息结束后,且获取到读取非易失性存储芯片的读取权限后,读取非易失性存储芯片内存储的机箱外部丝印标识,以便于将机箱外部丝印标识和硬盘信息建立映射关系,也就自动形成映射关系,提高运维的效率和准确性,同时,根据当前的映射关系,减少对复杂配置文档的依赖,通过自动化的映射表和直观的指示,使得运维人员快速定位和处理故障硬盘。
具体地映射关系,表1为匹配数据表,如表1所示,以BMC的RAID卡的slot作为参考依据,实际配置得到与CPLD丝印的映射关系。
表1
如表1所示,RAID卡数据的ctrl id是基于阵列卡的配置步骤;EID为附件身份标识号码;slot对应RAID的硬盘位置信息。
本发明实施例提供的一种服务器的硬盘故障识别方法,获取匹配指令,并将匹配指令发送至复杂可编程逻辑器件进行读取机箱外部丝印标识,并写入至非易失性存储芯片;根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内;待独立磁盘冗余阵列卡读取对应的硬盘信息完毕后且获取到读取权限时,读取非易失性存储芯片的机箱外部丝印标识;建立机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。非易失性存储芯片通过与BMC的连接,且通过转换装置与CPLD的连接,实现BMC和CPLD均可访问且同一时间仅能BMC或者CPLD访问非易失性存储芯片。BMC访问RAID卡的硬盘操作和CPLD读取机箱外部丝印标识的任务分离,以此减少两个任务之间的强依赖,缩短匹配时间。CPLD将机箱外部丝印标识的信息写入至非易失性存储芯片,同时,非易失性存储芯片的特性也避免因BMC刷新过程中对应配置信息的丢失,保证数据的持久性。BMC读取非易失性存储芯片的硬件信息和机箱外部丝印标识,以此建立两者的直观映射关系,保证匹配的准确性,提高配置和管理过程的效率。
图5为本发明实施例提供的一种应用于复杂可编程逻辑器件的服务器的硬盘故障识别方法的流程图,如图5所示,复杂可编程逻辑器件处于上述的服务器的硬盘故障识别系统,方法包括:
S21:接收由基板管理控制器发送的匹配指令;
S22:启动点灯中断处理机制;
S23:预先通过转换装置获取到非易失性存储芯片的写入权限,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识写入至非易失性存储芯片;
S24:在全部机箱外部丝印标识写入后,接收由基板管理控制器发送的匹配结束指令执行结束,以便于基板管理控制器读取非易失性存储芯片的机箱外部丝印标识,建立机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
具体地,接收由BMC发送的匹配指令,启动点灯中断处理机制,此时的BMC控制RAID卡灯后会触发CPLD中断。CPLD触发点灯中断后,将其被点亮灯对应的机箱外部丝印标识写入至非易失性存储芯片。这里写入过程,需要通过转换装置获取到非易失性存储芯片的写入权限以便于写入。需要说明的是,本实施例中具体需要考虑第一次中断的情况,在一些实施例中,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识写入至非易失性存储芯片,包括:
启用点灯中断处理机制;
判断是否存在点灯中断;
若存在点灯中断,则确定点灯中断对应的目标物理硬盘;
判断是否为第一次中断;
若是第一次中断,则记录目标物理硬盘的当前时间和目标物理硬盘点亮灯对应的机箱外部丝印标识,且写入至非易失性存储芯片;
若不是第一次中断,则记录目标物理硬盘点亮灯对应的机箱外部丝印标识,且写入至非易失性存储芯片。
具体地,开启点灯中断处理机制,判断是否存在点灯中断,若存在,则确定点灯中断对应的目标物理硬盘,并判断是否为第一次中断,如果是第一次中断,则需要记录目标物理硬盘的当前时间和对应点亮灯的机箱外部丝印标识,写入至非易失性存储芯片中。若不是第一次中断,则仅将目标物理硬盘中点亮灯对应的机箱外部丝印标识写入至非易失性存储芯片。另外,如果不存在点灯中断,则等待下一次的点灯中断到来,此时不做任何处理,当前的点灯中断处理机制仅是针对于点亮灯的目标物理硬盘进行处理,一次点灯中断处理机制仅实现一个目标物理硬盘对应的机箱外部丝印标识的写入。若想查看所有点亮灯对应的各目标物理硬盘,则需要判断是否结束点灯中断,若否,则返回判断是否存在点灯中断的步骤执行,若是,则结束。
需要说明的是,背板的数量可以是一个或者多个,若存在多个背板的情况下,则需要开启点灯中断处理机制的计时时间,以保证每个背板的点灯中断处理机制在计时时间内完成。
本实施例中的点灯中断处理机制的优化,使得CPLD的任务与BMC的任务分离,减少依赖关系,缩短匹配时间。
在步骤S24中的将全部机箱外部丝印标识写入后,接收由BMC发送的匹配结束指令执行结束。当前CPLD的任务已经完成,此时执行结束后,BMC读取机箱外部丝印标识,建立机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
本发明实施例提供的一种服务器的硬盘故障识别方法,接收由基板管理控制器发送的匹配指令,启动点灯中断处理机制,预先通过转换装置获取到非易失性存储芯片的写入权限,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识写入至非易失性存储芯片,在全部机箱外部丝印标识写入后,接收由基板管理控制器发送的匹配结束指令执行结束,以便于基板管理控制器读取非易失性存储芯片的机箱外部丝印标识,建立机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。非易失性存储芯片通过与BMC的连接,且通过转换装置与CPLD的连接,实现BMC和CPLD均可访问且同一时间仅能BMC或者CPLD访问非易失性存储芯片。BMC访问RAID卡的硬盘操作和CPLD读取机箱外部丝印标识的任务分离,以此减少两个任务之间的强依赖,缩短匹配时间。CPLD将机箱外部丝印标识的信息写入至非易失性存储芯片,同时,非易失性存储芯片的特性也避免因BMC刷新过程中对应配置信息的丢失,保证数据的持久性。BMC读取非易失性存储芯片的硬件信息和机箱外部丝印标识,以此建立两者的直观映射关系,保证匹配的准确性,提高配置和管理过程的效率。
在一些实施例中,在接收由基板管理控制器发送的匹配结束指令执行结束之前,还包括:
判断是否结束点灯中断处理机制;
若是,则执行结束;
若否,则返回判断是否存在点灯中断的步骤。
具体地,判断是否结束点灯中断处理机制,若未结束,则返回判断是否存在点灯中断的步骤继续执行,若结束,则执行结束。本实施例提供的再次确认点灯中断处理机制是否结束的过程,提高匹配的准确性。
图6为本发明提供的另一种服务器的硬盘故障识别方法的流程图,如图6所示:
执行主体为基板管理控制器:
S31:判断独立磁盘冗余阵列卡访问的硬盘信息和复杂可编程逻辑器件记录的机箱外部丝印标识是否匹配;若是,则结束,若否,则进入步骤S32;
S32:基板管理控制器给复杂可编程逻辑器件发送开始匹配命令;
S33:通过转换装置切换至复杂可编程逻辑器件;
S35:基板管理控制器按照固定顺序对独立磁盘冗余阵列卡硬盘点灯并保存数据;
S36:判断是否点灯结束;若是,则进入步骤S37,若否,则返回步骤S35;
S37:通过转换装置切换至基板管理控制器;
S38:基板管理控制器给复杂可编程逻辑器件发送结束匹配命令;
S39:读取非易失性存储芯片的存储数据;
S40:判断硬盘信息的数量和机箱外部丝印标识的数量是否一致;若是,则进入步骤S41,若否,则返回步骤S32;
S41:将非易失性存储芯片的存储数据迁移至基板管理控制器的存储空间内;
执行主体为复杂可编程逻辑器件:
在步骤S32后,进入步骤S34:检查基板管理控制器是否发送命令;若是,则进入步骤S42;若否,则返回步骤S34;
S42:启用点灯中断并开始计时;
S43:判断是否存在点灯中断;若是,则进入步骤S44;
S44:处理点灯中断;
S45:判断是否为第一次中断;若是,则进入步骤S46;若否,则进入步骤S47;
S46:记录当前时间到非易失性存储芯片的指定位置,并进入至步骤S47;
S47:记录当前被点灯丝印到非易失性存储芯片的指定位置;
S48:判断是否结束点灯中断;若是,则结束,若否,则返回步骤S43。
上述详细描述了服务器的硬盘故障识别方法对应的各个实施例,在此基础上,本发明还公开与上述方法对应的服务器的硬盘故障识别装置,图7为本发明实施例提供的一种应用于基板管理控制器的服务器的硬盘故障识别装置的结构图。如图7所示,该装置包括:
第一获取模块11,用于获取匹配指令,并将匹配指令发送至复杂可编程逻辑器件进行读取机箱外部丝印标识,并写入至非易失性存储芯片;
第一存储模块12,用于根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内;
第一读取模块13,用于待独立磁盘冗余阵列卡读取对应的硬盘信息完毕后且获取到读取权限时,读取非易失性存储芯片的机箱外部丝印标识;
第一建立模块14,用于建立机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
进一步地,图8为本发明实施例提供的一种应用于复杂可编程逻辑器件的服务器的硬盘故障识别装置的结构图。如图8所示,该装置包括:
第一接收模块15,用于接收由基板管理控制器发送的匹配指令;
启动模块16,用于启动点灯中断处理机制;
第二获取模块17,用于预先通过转换装置获取到非易失性存储芯片的写入权限,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识写入至非易失性存储芯片;
第二接收模块18,用于在全部机箱外部丝印标识写入后,接收由基板管理控制器发送的匹配结束指令执行结束,以便于基板管理控制器读取非易失性存储芯片的机箱外部丝印标识,建立机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
由于装置部分的实施例与上述的实施例相互对应,因此装置部分的实施例请参照上述方法部分的实施例描述,在此不再赘述。
对于本发明提供的一种服务器的硬盘故障识别装置的介绍请参照上述方法实施例,本发明在此不再赘述,其具有上述服务器的硬盘故障识别方法相同的有益效果。
图9为本发明实施例提供的一种服务器的结构图,如图9所示,包括:
存储器21,用于存储计算机程序;
处理器22,用于执行计算机程序时实现服务器的硬盘故障识别方法的步骤。
其中,处理器22可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器22可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器22也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器22可以集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器22还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器21可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器21还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器21至少用于存储以下计算机程序211,其中,该计算机程序被处理器22加载并执行之后,能够实现前述任一实施例公开的服务器的硬盘故障识别方法的相关步骤。另外,存储器21所存储的资源还可以包括操作系统212和数据213等,存储方式可以是短暂存储或者永久存储。其中,操作系统212可以包括Windows、Unix、Linux等。数据213可以包括但不限于服务器的硬盘故障识别方法所涉及到的数据等等。
在一些实施例中,服务器还可包括有显示屏23、输入输出接口24、通信接口25、电源26以及通信总线27。
领域技术人员可以理解,图9中示出的结构并不构成对服务器的限定,可以包括比图示更多或更少的组件。
处理器22通过调用存储于存储器21中的指令以实现上述任一实施例所提供的服务器的硬盘故障识别方法。
对于本发明提供的一种服务器的介绍请参照上述方法实施例,本发明在此不再赘述,其具有上述服务器的硬盘故障识别方法相同的有益效果。
进一步的,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器22执行时实现如上述服务器的硬盘故障识别方法的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的一种计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不再赘述,其具有上述服务器的硬盘故障识别方法相同的有益效果。
进一步地,本发明还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述服务器的硬盘故障识别方法的步骤。
对于本发明提供的一种计算机程序产品的介绍请参照上述方法实施例,本发明在此不再赘述,其具有上述服务器的硬盘故障识别方法相同的有益效果。
以上对本发明所提供的一种服务器的硬盘故障识别系统、方法、装置、服务器及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (11)

1.一种服务器的硬盘故障识别系统,其特征在于,包括基板管理控制器、独立磁盘冗余阵列卡、复杂可编程逻辑器件、转换装置和非易失性存储芯片;各物理硬盘上夹带对应的机箱外部丝印标识;
所述复杂可编程逻辑器件和所述独立磁盘冗余阵列卡连接,且均与各物理硬盘连接;所述独立磁盘冗余阵列卡、所述复杂可编程逻辑器件和所述转换装置均与所述基板管理控制器连接;所述复杂可编程逻辑器件经所述转换装置与所述非易失性存储芯片连接;
所述复杂可编程逻辑器件,用于通过所述转换装置获取到所述非易失性存储芯片的写入权限时,根据点灯中断处理机制将点亮灯对应的所述机箱外部丝印标识写入至所述非易失性存储芯片;
所述基板管理控制器,用于根据点灯操作机制控制所述独立磁盘冗余阵列卡读取对应的硬盘信息;并在获取到读取权限时,读取所述非易失性存储芯片的所述机箱外部丝印标识,以建立所述硬盘信息和所述机箱外部丝印标识对应的映射关系,实现故障物理硬盘的定位。
2.一种服务器的硬盘故障识别方法,其特征在于,应用于基板管理控制器,其中,所述基板管理控制器处于上述权利要求1所述的服务器的硬盘故障识别系统,所述方法包括:
获取匹配指令,并将匹配指令发送至复杂可编程逻辑器件进行读取机箱外部丝印标识,并写入至非易失性存储芯片;
根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内;
待所述独立磁盘冗余阵列卡读取对应的硬盘信息完毕后且获取到读取权限时,读取所述非易失性存储芯片的所述机箱外部丝印标识;
建立所述机箱外部丝印标识和所述硬盘信息的映射关系,以实现故障物理硬盘的定位。
3.根据权利要求2所述的服务器的硬盘故障识别方法,其特征在于,获取匹配指令,包括:
判断独立磁盘冗余阵列卡访问的硬盘信息和复杂可编程逻辑器件记录的机箱外部丝印标识是否匹配;
若否,则生成匹配指令;其中,所述匹配指令为所述复杂可编程逻辑器件点灯中断机制的触发指令。
4.根据权利要求3所述的服务器的硬盘故障识别方法,其特征在于,根据点灯操作机制控制所述独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内,包括:
获取所述独立磁盘冗余阵列卡访问各物理硬盘对应的访问顺序;
根据所述访问顺序对所述独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理;
将点灯操作处理对应的硬盘信息保存至所述基板管理控制器的存储空间;其中,所述硬盘信息用于表征各物理硬盘对应的标志信息;所述硬盘信息至少包括高速串行计算机扩展总线标准位置信息、附件身份标识号码和硬盘位置信息的一种信息;
预先获取当前物理硬盘的点灯操作处理的预设时间;
在预设时间内判断当前物理硬盘的点灯操作是否结束;
若结束,则返回至所述根据所述访问顺序对所述独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理的步骤进行下一个物理硬盘的点灯操作处理,直至所有的物理硬盘点灯操作处理结束;
若超出预设时间且当前物理硬盘的点灯操作处理还未结束,则标记当前物理硬盘,且强制返回至所述根据所述访问顺序对所述独立磁盘冗余阵列卡对应的当前物理硬盘进行点灯操作处理的步骤进行下一个物理硬盘的点灯操作处理,直至所有的物理硬盘点灯操作处理结束。
5.一种服务器的硬盘故障识别方法,其特征在于,应用于复杂可编程逻辑器件,其中,所述复杂可编程逻辑器件处于上述权利要求1所述的服务器的硬盘故障识别系统,所述方法包括:
接收由基板管理控制器发送的匹配指令;
启动点灯中断处理机制;
预先通过转换装置获取到非易失性存储芯片的写入权限,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识写入至所述非易失性存储芯片;
在全部所述机箱外部丝印标识写入后,接收由所述基板管理控制器发送的匹配结束指令执行结束,以便于所述基板管理控制器读取所述非易失性存储芯片的所述机箱外部丝印标识,建立所述机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
6.根据权利要求5所述的服务器的硬盘故障识别方法,其特征在于,所述根据点灯中断处理机制将点亮灯对应的所述机箱外部丝印标识写入至所述非易失性存储芯片,包括:
启用所述点灯中断处理机制;
判断是否存在点灯中断;
若存在点灯中断,则确定点灯中断对应的目标物理硬盘;
判断是否为第一次中断;
若是第一次中断,则记录目标物理硬盘的当前时间和目标物理硬盘点亮灯对应的所述机箱外部丝印标识,且写入至所述非易失性存储芯片;
若不是第一次中断,则记录目标物理硬盘点亮灯对应的所述机箱外部丝印标识,且写入至所述非易失性存储芯片。
7.根据权利要求6所述的服务器的硬盘故障识别方法,其特征在于,在所述接收由所述基板管理控制器发送的匹配结束指令执行结束之前,还包括:
判断是否结束所述点灯中断处理机制;
若是,则执行结束;
若否,则返回所述判断是否存在点灯中断的步骤。
8.一种服务器的硬盘故障识别装置,其特征在于,应用于基板管理控制器,其中,所述基板管理控制器处于上述权利要求1所述的服务器的硬盘故障识别系统,所述装置包括:
第一获取模块,用于获取匹配指令,并将匹配指令发送至复杂可编程逻辑器件进行读取机箱外部丝印标识,并写入至非易失性存储芯片;
第一存储模块,用于根据点灯操作机制控制独立磁盘冗余阵列卡读取对应的硬盘信息,并存储至对应的存储空间内;
第一读取模块,用于待所述独立磁盘冗余阵列卡读取对应的硬盘信息完毕后且获取到读取权限时,读取所述非易失性存储芯片的所述机箱外部丝印标识;
第一建立模块,用于建立所述机箱外部丝印标识和所述硬盘信息的映射关系,以实现故障物理硬盘的定位。
9.一种服务器的硬盘故障识别装置,其特征在于,应用于复杂可编程逻辑器件,其中,所述复杂可编程逻辑器件处于上述权利要求1所述的服务器的硬盘故障识别系统,所述装置包括:
第一接收模块,用于接收由基板管理控制器发送的匹配指令;
启动模块,用于启动点灯中断处理机制;
第二获取模块,用于预先通过转换装置获取到非易失性存储芯片的写入权限,根据点灯中断处理机制将点亮灯对应的机箱外部丝印标识写入至所述非易失性存储芯片;
第二接收模块,用于在全部所述机箱外部丝印标识写入后,接收由所述基板管理控制器发送的匹配结束指令执行结束,以便于所述基板管理控制器读取所述非易失性存储芯片的所述机箱外部丝印标识,建立所述机箱外部丝印标识和硬盘信息的映射关系,以实现故障物理硬盘的定位。
10.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求2至7任一项所述的服务器的硬盘故障识别方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求2至7任一项所述的服务器的硬盘故障识别方法的步骤。
CN202410659125.9A 2024-05-26 2024-05-26 服务器的硬盘故障识别系统、方法、装置、服务器及介质 Pending CN118606118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410659125.9A CN118606118A (zh) 2024-05-26 2024-05-26 服务器的硬盘故障识别系统、方法、装置、服务器及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410659125.9A CN118606118A (zh) 2024-05-26 2024-05-26 服务器的硬盘故障识别系统、方法、装置、服务器及介质

Publications (1)

Publication Number Publication Date
CN118606118A true CN118606118A (zh) 2024-09-06

Family

ID=92562374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410659125.9A Pending CN118606118A (zh) 2024-05-26 2024-05-26 服务器的硬盘故障识别系统、方法、装置、服务器及介质

Country Status (1)

Country Link
CN (1) CN118606118A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118885324A (zh) * 2024-09-29 2024-11-01 苏州元脑智能科技有限公司 服务器系统及故障设备定位方法、计算机系统、程序产品及存储介质
CN120047930A (zh) * 2024-12-31 2025-05-27 苏州元脑智能科技有限公司 匹配丝印信息的方法及装置
CN120216309A (zh) * 2025-03-10 2025-06-27 联想长风科技(北京)有限公司 一种基于cpld的服务器异常日志管理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118885324A (zh) * 2024-09-29 2024-11-01 苏州元脑智能科技有限公司 服务器系统及故障设备定位方法、计算机系统、程序产品及存储介质
CN120047930A (zh) * 2024-12-31 2025-05-27 苏州元脑智能科技有限公司 匹配丝印信息的方法及装置
CN120216309A (zh) * 2025-03-10 2025-06-27 联想长风科技(北京)有限公司 一种基于cpld的服务器异常日志管理方法
CN120216309B (zh) * 2025-03-10 2025-11-11 联想长风科技(北京)有限公司 一种基于cpld的服务器异常日志管理方法

Similar Documents

Publication Publication Date Title
CN118606118A (zh) 服务器的硬盘故障识别系统、方法、装置、服务器及介质
US9448889B2 (en) BIOS failover update with service processor
US9448808B2 (en) BIOS update with service processor without serial peripheral interface (SPI) access
CN110941395A (zh) 动态随机存取存储器、内存管理方法、系统及存储介质
US20160011646A1 (en) Service processor (sp) intiateed data transaction with bios utilizing power off commands
WO2021259058A1 (zh) 存储盘检测方法、装置、终端设备和存储介质
US20130185549A1 (en) Electronic device and bios updating device thereof
WO2025213531A1 (zh) 内存数据的访问方法、装置、电子设备及可读存储介质
CN118069562A (zh) 双节点服务器硬盘背板管理方法、装置、设备和存储介质
CN118132458A (zh) Mmio地址资源分配方法、装置、计算设备和存储介质
CN115905083A (zh) 硬盘点灯装置、方法、系统、计算机设备和存储介质
CN111177027A (zh) 动态随机存取存储器、内存管理方法、系统及存储介质
CN108334453B (zh) 一种文件调试方法、装置、终端设备及存储介质
CN117055923A (zh) 一种固件升级系统、方法、装置、电子设备及存储介质
CN113704177B (zh) 一种服务器固件升级文件的存储方法、系统及相关组件
CN106919525A (zh) 一种usb设备集群控制装置及系统
CN118819424A (zh) 一种数据处理方法、装置、设备及介质
US11822793B2 (en) Complete and fast protection against CID conflict
CN118093031A (zh) 一种接线检查方法、装置、设备及机器可读存储介质
TWI795950B (zh) 硬碟監控方法、電子裝置及存儲介質
US12008253B2 (en) Embedded system and method for updating firmware
US10656843B2 (en) Systems and methods for wear levelling in a storage array
CN117234431B (zh) 缓存管理方法、装置、电子设备及存储介质
US20250298508A1 (en) Memory controllers, operation methods thereof, and electronic apparatuses
CN111190543A (zh) 一种线程间共享nvdimm存储资源的存储方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination