CN110968456A - 分布式存储系统中故障磁盘的处理方法及装置 - Google Patents
分布式存储系统中故障磁盘的处理方法及装置 Download PDFInfo
- Publication number
- CN110968456A CN110968456A CN201811156593.5A CN201811156593A CN110968456A CN 110968456 A CN110968456 A CN 110968456A CN 201811156593 A CN201811156593 A CN 201811156593A CN 110968456 A CN110968456 A CN 110968456A
- Authority
- CN
- China
- Prior art keywords
- target disk
- disk
- offline
- processing
- storage system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000008569 process Effects 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims description 26
- 238000003672 processing method Methods 0.000 claims description 19
- 238000012423 maintenance Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000007726 management method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/78—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data
- G06F21/80—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data in storage media based on magnetic or optical technology, e.g. disks with sectors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种分布式存储系统中故障磁盘的处理方法及装置。其中,该方法包括:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;基于上述处理优先级在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。本发明解决了现有技术中在对分布式存储系统中磁盘故障处理时,难以保证数据安全性的技术问题。
Description
技术领域
本发明涉及分布式存储系统的故障处理领域,具体而言,涉及一种分布式存储系统中故障磁盘的处理方法及装置。
背景技术
在大规模部署分布式存储系统的情况下,即便小概率的故障(例如,磁盘年化1%-2%,机器年化7%),每天都会有相当数据量的磁盘、机器出现故障。这些故障设备一方面影响了系统的可靠性,另一方面,系统的可用资源减少,也造成成本的浪费。
为了解决这个问题,相关技术中提供了一种基于状态机自动处理故障的方法,但对于磁盘故障的处理,该方法简单地归结为机器的故障,采取的措施是把机器进行重新格式化,重装操作系统,或者替换掉整台机器。这种粗粒度的处理方法对于一台机器有几十块大容量的盘过于粗暴,会引起大量数据复制,给系统带来极大影响,并且,该方案没有解决备份数据和控制数据安全性这两个磁盘处理的关键问题。
另外,现有技术中的FBAR(薄膜腔声谐振滤波器)系统是一个工作流系统,是一个单独的系统,比如当出现机器故障时,FBAR系统会把机器标识成“待维修”,然后由一个维修流程来执行后续的操作,FBAR系统没有考虑如果有其它的运维操作时的并发处理,容易引发数据可用性问题和并发效率问题。另外,FBAR系统也没有解决存储系统中如何保证数据安全的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种分布式存储系统中故障磁盘的处理方法及装置,以至少解决现有技术中在对分布式存储系统中磁盘故障处理时,难以保证数据安全性的技术问题。
根据本发明实施例的一个方面,提供了一种分布式存储系统中故障磁盘的处理方法,包括:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
根据本发明实施例的另一方面,还提供了一种分布式存储系统中故障磁盘的处理装置,包括:生成模块,用于在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;第一确定模块,用于确定上述下线任务的处理优先级;第二确定模块,用于在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;处理模块,用于若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
根据本发明实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行以下步骤:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
根据本发明实施例的另一方面,还提供了一种计算机系统,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
在本发明实施例中,通过在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
基于上述分布式存储系统中故障磁盘的处理方法,通过面向磁盘处理的方式实现故障磁盘的下线处理,基于磁盘状态的处理方式可以避免在故障磁盘的下线处理中出现错误,保证了分布式存储系统的鲁棒性,本申请方案还可以确保分布式存储系统的处理可重入性,保证了处理逻辑的正确性。
由此,本申请达到了在对分布式存储系统中磁盘故障处理时,保证数据安全性的目的,实现了提高故障磁盘下线处理的效率的技术效果,进而解决了现有技术中在对分布式存储系统中磁盘故障处理时,难以保证数据安全性的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种用于实现分布式存储系统中故障磁盘的处理方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例的一种分布式存储系统中故障磁盘的处理方法的流程图;
图3是根据本发明实施例的一种可选的分布式存储系统中故障磁盘的处理方法的流程图;
图4是根据本发明实施例的一种可选的分布式存储系统中故障磁盘的处理方法的流程图;
图5是根据本发明实施例的一种可选的分布式存储系统中故障磁盘的处理方法的流程图;
图6是根据本发明实施例的一种可选的分布式存储系统中故障磁盘的处理方法的流程图;
图7是根据本发明实施例的一种分布式存储系统中故障磁盘的处理装置的示意图;以及
图8是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
配置管理数据库CMDB:用于存储与管理企业IT架构中设备的各种配置信息,与所有服务支持和服务交付流程均紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。
存储节点:是指用于保存应用数据的机器,一般可以包括若干个存储介质。
分布式存储系统:是指包括若干个存储节点的存储系统,通常采用分布式算法来提供高可用性、容错性和高性能性。
故障:是指可能导致分布式存储系统或其功能失效的异常条件。
事件:可以被分布式系统识别的磁盘状态的显著变化。
任务:可以用于描述需要处理的事务性工作。
实施例1
根据本发明实施例,还提供了一种分布式存储系统中故障磁盘的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现分布式存储系统中故障磁盘的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的分布式存储系统中故障磁盘的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的分布式存储系统中故障磁盘的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的一种分布式存储系统中故障磁盘的处理方法,图2是根据本发明实施例的一种分布式存储系统中故障磁盘的处理方法的流程图,如图2所示,该方法包括如下方法步骤:
步骤S202,在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务。
在一种可选的实施例中,上述目标磁盘存在故障的情况可以包括但不限于为如下任意之一:间断性故障:无法成功读写;介质损坏:例如,一个或多个二进制位永久损坏,无法正确读;写故障:写扇区时,既不能正确写也不能检索之前写入的扇区,例如,在写扇区的过程中断电;磁盘崩溃:整个磁盘永久不可读。
需要说明的是,本申请实施例可以通过分布式存储系统中的配置管理数据库记录各个组件的目标状态,并采用分布式存储系统中运行的磁盘检测程序检测上述目标磁盘是否存在故障,例如,上述磁盘检测程序可以但不限于不断扫描各个目标磁盘的状态,并在检测到上述目标磁盘的状态存在异常的情况下,上报该目标磁盘存在故障的事件至配置管理数据库,配置管理数据库记录该事件,分布式存储系统中运行的事件派发程序根据上述事件,生成针对上述目标磁盘的下线任务。
步骤S204,确定上述下线任务的处理优先级。
在本申请实施例中,可以但不限于依据分布式存储系统中运行的审批程序,确定上述下线任务的处理优先级。
作为一种可选的实施例,上述审批程序用于负责处理运维任务的操作审批,通过上述审批程序可以不断从配置管理数据库中获取当前待处理的任务,并确定每个任务的处理优先级。
在上述审批程序获取到的任务为目标磁盘的下线任务的情况下,上述审批程序可以但不限于综合考虑每一个当前待处理的任务的处理优先级,并依据上述处理优先级来确定处理每个任务的先后顺序和处理每个任务的处理时间。
步骤S206,在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平。
需要说明的是,在轮到处理上述下线任务时,上述审批程序可以通过检测目标磁盘的数据信息是否已进行备份,确定该目标磁盘的数据信息的冗余水平是否符合下线条件;如果目标磁盘的数据信息的冗余水平符合下线条件,则该目标磁盘的数据信息已进行备份,该目标磁盘下线后不影响数据信息的读写。
步骤S208,若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
在本申请实施例中,在目标磁盘的冗余水平符合下线条件的情况下,上述审批程序可以将目标磁盘的本地属性状态修改为下线状态,以保证及时遇到程序重启的情况,该目标磁盘也不会被误用;同时审批程序将配置管理数据库中的目标磁盘的下线任务的状态修改为下线状态。
进而,分布式存储系统中运行的磁盘处理程序在确认上述目标磁盘的下线任务处理可以处理的情况下,可以将属性状态为下线状态的目标磁盘从分布式存储系统中移除,同时将目标磁盘的下线任务的状态改为已完成状态,并且,上述磁盘处理程序同时生成并发起一个工单,通知工作人员随时拨走上述目标磁盘,对上述目标磁盘进行维修。
需要说明的是,本申请实施例中的分布式存储系统中运行的各个程序,可以但不限于只根据目标磁盘是否处于某个状态进行独立处理,当任意一个软件遇到异常重新拉起时,随时根据目标磁盘当前的状态进行处理。
在本发明实施例中,通过在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
基于上述分布式存储系统中故障磁盘的处理方法,通过面向磁盘处理的方式实现故障磁盘的下线处理,基于磁盘状态的处理方式可以避免在故障磁盘的下线处理中出现错误,保证了分布式存储系统的鲁棒性,本申请方案还可以确保分布式存储系统的处理可重入性,保证了处理逻辑的正确性。
由此,本申请达到了在对分布式存储系统中磁盘故障处理时,保证数据安全性的目的,实现了提高故障磁盘下线处理的效率的技术效果,进而解决了现有技术中在对分布式存储系统中磁盘故障处理时,难以保证数据安全性的技术问题。
在一种可选的实施例中,在检测到分布式存储系统下的目标磁盘存在故障之前,上述方法还包括如下方法步骤:
扫描各个磁盘的工作状态,根据故障判定规则确定各个磁盘是否存在故障。
作为一种可选的实施例,本申请实施例中的分布式存储系统可以预先定义一组用于检测磁盘故障的故障判定规则,例如,检测在磁盘进行数据读写的状态,确定是否可以成功读写数据,是否存在读故障或者写故障等;分布式存储系统中运行的磁盘检测程序扫描到的各个磁盘的工作状态,根据故障判定规则确定各个磁盘是否存在故障。
在一种可选的实施例中,上述步骤S202,在检测到分布式存储系统下的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务,可以通过如下步骤实现:
步骤S2020,将上述目标磁盘存在故障的事件上报至配置管理数据库;
步骤S2022,根据上述事件生成上述目标磁盘的下线任务,并发布上述下线任务。
在一种可选的实施例中,可以但不限于通过分布式存储系统中运行的磁盘检测程序检测上述目标磁盘是否存在故障,在检测到分布式存储系统下的目标磁盘存在故障的情况下,上报该目标磁盘存在故障的事件至分布式存储系统中的配置管理数据库,配置管理数据库记录该事件,分布式存储系统中运行的事件派发程序根据上述事件,生成针对上述目标磁盘的下线任务,并发布上述下线任务。
在一种可选的实施例中,图3是根据本发明实施例的一种可选的分布式存储系统中故障磁盘的处理方法的流程图,如图3所示,上述步骤S204,确定上述下线任务的处理优先级,可以通过如下步骤实现:
步骤S302,确定上述分布式存储系统下的任务运维操作间中待处理的任务;
步骤S304,确定上述目标磁盘下线后的数据影响范围;
步骤S306,确定上述目标磁盘的备份状态;
步骤S308,基于上述待处理的任务、上述目标磁盘的数据影响范围和上述目标磁盘的备份状态确定上述下线任务的处理优先级。
在本申请实施例中,可以但不限于依据分布式存储系统中运行的审批程序,从上述分布式存储系统下的任务运维操作间获取当前待处理的任务,并确定目标磁盘下线后的数据影响范围、目标磁盘的备份状态,综合考虑上述待处理的任务、上述目标磁盘的数据影响范围和上述目标磁盘的备份状态,确定上述下线任务的处理优先级。
在上述审批程序获取到的任务为目标磁盘的下线任务的情况下,上述审批程序可以但不限于综合考虑每一个当前待处理的任务的处理优先级,并依据上述处理优先级来确定处理每个任务的先后顺序和处理每个任务的处理时间。
在一种可选的实施例中,图4是根据本发明实施例的一种可选的分布式存储系统中故障磁盘的处理方法的流程图,如图4所示,若上述目标磁盘的冗余水平符合下线条件,通过磁盘处理程序对上述目标磁盘进行下线处理包括:
步骤S402,在对上述目标磁盘进行下线后不会影响数据读写的情况下,确定上述目标磁盘的冗余水平符合下线条件;
步骤S404,将上述目标磁盘的属性状态修改为下线状态,通过磁盘处理程序对属性状态为下线状态的目标磁盘进行下线处理。
在一种可选的实施例中,如果对目标磁盘进行下线后不会影响数据读写,例如,上述目标磁盘的数据信息已进行备份,则确定该目标磁盘包含的数据信息的冗余水平符合下线条件;如果对目标磁盘进行下线后会影响数据读写,则确定该目标磁盘包含的数据信息的冗余水平不符合下线条件。
在本申请实施例中,在目标磁盘的冗余水平符合下线条件的情况下,上述审批程序可以将目标磁盘的本地属性状态修改为下线状态,以保证及时遇到程序重启的情况,该目标磁盘也不会被误用;同时审批程序将配置管理数据库中的目标磁盘的下线任务的状态修改为下线状态。
进而,分布式存储系统中运行的磁盘处理程序在确认上述目标磁盘的下线任务处理可以处理的情况下,可以将属性状态为下线状态的目标磁盘从分布式存储系统中移除,同时将目标磁盘的下线任务的状态改为已完成状态,并且,上述磁盘处理程序同时生成并发起一个工单,通知工作人员随时拨走上述目标磁盘,对上述目标磁盘进行维修。
在一种可选的实施例中,对上述目标磁盘进行下线后不会影响数据读写的情况,可以但不限于通过如下步骤实现:
步骤S2062,若上述分布式存储系统中的故障监测模块监测到上述目标磁盘出现故障时,采用除上述目标磁盘之外的磁盘对上述目标磁盘的数据信息进行了备份,或者,
步骤S2064,在上述目标磁盘不能正常工作的概率大于预设概率的情况下,将上述目标磁盘的数据信息备份至上述分布式存储系统中除上述目标磁盘之外的磁盘中。
在一种可选的实施例中,可以但不限于通过以下两种方式至少之一确定上述目标磁盘进行下线后不会影响数据读写:
一种是分布式存储系统中的故障监测模块监测到目标磁盘出现故障时,采用除上述目标磁盘之外的磁盘对上述目标磁盘的数据信息进行了备份,此时已经可以确定该目标磁盘的数据信息的冗余水平符合下线条件,对上述目标磁盘进行下线后不会影响数据读写,直接对目标磁盘进行下线处理即可。
另一种是上述目标磁盘仍处于正常工作状态,但存在不能正常工作的潜在风险,例如,在上述目标磁盘不能正常工作的概率大于预设概率的情况下,则上述审批程序可以主动将上述目标磁盘中的数据信息备份到其它存储节点上,例如,备份至上述分布式存储系统中除上述目标磁盘外的磁盘中,以保证该目标磁盘的数据信息的冗余水平符合下线条件。
基于本申请实施例提供的可选方案,通过审批程序检测对上述目标磁盘进行下线后不会影响数据读写,如果目标磁盘的数据信息的冗余水平符合下线条件,则对上述目标磁盘进行下线后不会影响数据读写,可以实现目标磁盘在下线后不影响其数据信息的读写的技术效果。
在一种可选的实施例中,图5是根据本发明实施例的一种可选的分布式存储系统中故障磁盘的处理方法的流程图,如图5所示,在检测到分布式存储系统下的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务之后,上述方法还包括:
步骤S502,根据上述目标磁盘下线后的数据影响范围确定备份策略;
步骤S504,采用上述备份策略将上述目标磁盘的数据信息备份至上述分布式存储系统中除上述目标磁盘之外的磁盘。
在本申请实施例中,基于上述数据信息的冗余性计算数据影响范围。
可选的,上述数据影响范围为故障磁盘下线后所影响的数据信息读写的范围,可以根据目标磁盘包含的数据信息的冗余性进行计算得到。
需要说明的是,在本申请实施例中,若上述数据信息的冗余水平越高,则对应的数据影响范围越小;若上述数据信息的冗余水平越低,则对应的数据影响范围越大。
在一种可选的实施例中,若上述影响范围较大,表明上述数据信息的冗余水平较低,需要对上述目标磁盘的数据信息进行备份,则可以确定用于对上述目标磁盘的数据信息进行备份的备份策略。在另一种可选的实施例中,若上述影响范围较小,表明上述数据信息的冗余水平较高,无需再对上述目标磁盘的数据信息进行备份,则可以确定无需对上述目标磁盘的数据信息进行备份的备份策略。
在上述可选的实施例中,由于上述目标磁盘出现故障,需要对目标磁盘进行下线处理,因而,可以将上述目标磁盘中所包含的数据信息备份至其他磁盘,上述其他磁盘为上述分布式存储系统中除上述目标磁盘外的磁盘。
在一种可选的实施例中,在上述目标磁盘的数据信息已进行备份之后,将上述目标磁盘的属性状态修改为下线状态;通过磁盘处理程序对属性状态为下线状态的目标磁盘进行下线处理。
在上述可选的实施例中,在上述目标磁盘的数据信息已进行备份的情况下,上述审批程序可以将目标磁盘的属性状态修改为下线状态,以保证及时遇到程序重启的情况,该目标磁盘也不会被误用;同时审批程序将配置管理数据库中的目标磁盘的下线任务的状态修改为下线状态。
在一种可选的实施例中,在通过磁盘处理程序对属性状态为下线状态的目标磁盘进行下线处理之后,上述方法还包括:
步骤S602,将上述处于下线状态的目标磁盘从上述分布式存储系统中移除。
在一种可选的实施例中,上述磁盘处理程序在确认上述目标磁盘的下线任务处理可以处理的情况下,可以将属性状态为下线状态的目标磁盘从分布式存储系统中移除,可选的,还可以将目标磁盘的下线任务的状态改为目标状态,例如,已完成状态,可以用于指示执行完成上述下线任务。
作为一种可选的实施例,在将上述处于下线状态的目标磁盘从上述分布式存储系统中移除之后,在上述可选的实施例中,上述磁盘处理程序同时生成并发起一个工单,通知工作人员随时拨走上述目标磁盘,对上述目标磁盘进行维修。
以下通过一种可选的实施方式,对本申请实施例提供的分布式存储系统中故障磁盘的处理方法进行解释说明,以便于理解本申请实施例,图6是根据本发明实施例的一种可选的分布式存储系统中故障磁盘的处理方法的流程图,如图6所示,上述方法还可以但不限于通过如下方法步骤实现:
步骤S60,确定检测磁盘故障的故障判定规则。
需要说明的是,本申请实施例的执行主体可以但不限于为分布式存储系统,用于对分布式存储系统中的故障磁盘进行处理,以达到在对分布式存储系统中磁盘故障处理时,保证数据安全性的目的。
在一种可选的实施例中,上述规则为上述分布式存储系统预先定义的用于检测磁盘故障的故障判定规则,上述故障判定规则包括以下至少之一:在磁盘进行数据读写的状态、磁盘检测程序扫描到的各个磁盘的工作状态。
步骤S61,扫描各个磁盘的工作状态,根据故障判定规则确定各个磁盘是否存在故障。
例如,通过检测在磁盘进行数据读写的状态,确定是否可以成功读写数据,是否存在读故障或者写故障等;分布式存储系统中运行的磁盘检测程序扫描到的各个磁盘的工作状态,根据故障判定规则确定各个磁盘是否存在故障。
步骤S62,在检测到分布式存储系统下的目标磁盘存在故障的情况下,将上述目标磁盘存在故障的事件上报至配置管理数据库;
步骤S63,根据上述事件生成目标磁盘的下线任务,并发布上述下线任务。
在上述可选的实施例中,采用分布式存储系统中运行的磁盘检测程序检测上述目标磁盘是否存在故障,例如,上述磁盘检测程序可以但不限于不断扫描各个目标磁盘的状态,并在检测到上述目标磁盘的状态存在异常的情况下,上报该目标磁盘存在故障的事件至配置管理数据库,以便于配置管理数据库记录该事件。
步骤S64,确定上述下线任务的处理优先级。
在本申请实施例中,可以但不限于依据分布式存储系统中运行的审批程序,从上述配置管理数据库获取当前待处理的任务,并确定每个任务的处理优先级。
在上述审批程序获取到的任务为目标磁盘的下线任务的情况下,上述审批程序可以但不限于综合考虑每一个当前待处理的任务的处理优先级,并依据上述处理优先级来确定处理每个任务的先后顺序和处理每个任务的处理时间。
步骤S65,在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平。
需要说明的是,在轮到处理上述下线任务时,上述审批程序可以通过检测目标磁盘的数据信息是否已进行备份,确定该目标磁盘的数据信息的冗余水平是否符合下线条件;如果目标磁盘的数据信息的冗余水平符合下线条件,则该目标磁盘的数据信息已进行备份,该目标磁盘下线后不影响数据信息的读写。
步骤S66,若上述目标磁盘的冗余水平符合下线条件,通过磁盘处理程序对上述目标磁盘进行下线处理。
在本申请实施例中,在目标磁盘的冗余水平符合下线条件的情况下,上述审批程序可以将目标磁盘的本地属性状态修改为下线状态,以保证及时遇到程序重启的情况,该目标磁盘也不会被误用;同时审批程序将配置管理数据库中的目标磁盘的下线任务的状态修改为下线状态。
进而,分布式存储系统中运行的磁盘处理程序在确认上述目标磁盘的下线任务处理可以处理的情况下,可以将属性状态为下线状态的目标磁盘从分布式存储系统中移除,同时将目标磁盘的下线任务的状态改为已完成状态,并且,上述磁盘处理程序同时生成并发起一个工单,通知工作人员随时拨走上述目标磁盘,对上述目标磁盘进行维修。
步骤S67,将上述处于下线状态的目标磁盘从上述分布式存储系统中移除。
在一种可选的实施例中,上述磁盘处理程序在确认上述目标磁盘的下线任务处理可以处理的情况下,可以将属性状态为下线状态的目标磁盘从分布式存储系统中移除,可选的,还可以将目标磁盘的下线任务的状态改为目标状态,例如,已完成状态,可以用于指示执行完成上述下线任务。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例上述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述分布式存储系统中故障磁盘的处理方法的装置实施例,图7是根据本发明实施例的一种分布式存储系统中故障磁盘的处理装置的示意图,如图7所示,该装置700包括:生成模块702、第一确定模块704、第二确定模块706和处理模块708,其中:
生成模块702,用于在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;第一确定模块704,用于确定上述下线任务的处理优先级;第二确定模块706,用于在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;处理模块708,用于若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
此处需要说明的是,上述生成模块702、第一确定模块704、第二确定模块706和处理模块708对应于实施例1中的步骤S202至步骤S208,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
在本发明实施例中,通过在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
基于上述分布式存储系统中故障磁盘的处理方法,通过面向磁盘处理的方式实现故障磁盘的下线处理,基于磁盘状态的处理方式可以避免在故障磁盘的下线处理中出现错误,保证了分布式存储系统的鲁棒性,本申请方案还可以确保分布式存储系统的处理可重入性,保证了处理逻辑的正确性。
由此,本申请达到了在对分布式存储系统中磁盘故障处理时,保证数据安全性的目的,实现了提高故障磁盘下线处理的效率的技术效果,进而解决了现有技术中在对分布式存储系统中磁盘故障处理时,难以保证数据安全性的技术问题。
此外,仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例3
根据本发明实施例,还提供了一种计算机系统的实施例,该系统可执行实施例1中的任意一种可选或优选的分布式存储系统中故障磁盘的处理方法,上述计算机系统,包括:处理器和存储器,其中:
处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
在本发明实施例中,通过在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
基于上述分布式存储系统中故障磁盘的处理方法,通过面向磁盘处理的方式实现故障磁盘的下线处理,基于磁盘状态的处理方式可以避免在故障磁盘的下线处理中出现错误,保证了分布式存储系统的鲁棒性,本申请方案还可以确保分布式存储系统的处理可重入性,保证了处理逻辑的正确性。
由此,本申请达到了在对分布式存储系统中磁盘故障处理时,保证数据安全性的目的,实现了提高故障磁盘下线处理的效率的技术效果,进而解决了现有技术中在对分布式存储系统中磁盘故障处理时,难以保证数据安全性的技术问题。
此外,仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例4
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的分布式存储系统中故障磁盘的处理方法中以下步骤的程序代码:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
可选地,图8是根据本发明实施例的一种计算机终端的结构框图,如图8所示,该计算机终端800可以包括:一个或多个(图中仅示出一个)处理器802、存储器804、以及外设接口806。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的分布式存储系统中故障磁盘的处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的分布式存储系统中故障磁盘的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端800。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
可选的,上述处理器还可以执行如下步骤的程序代码:扫描各个磁盘的工作状态,根据故障判定规则确定各个磁盘是否存在故障。
可选的,上述处理器还可以执行如下步骤的程序代码:将上述目标磁盘存在故障的事件上报至配置管理数据库;根据上述事件生成上述目标磁盘的下线任务,并发布上述下线任务。
可选的,上述处理器还可以执行如下步骤的程序代码:根据上述目标磁盘下线后的数据影响范围确定备份策略;采用上述备份策略将上述目标磁盘的数据信息备份至上述分布式存储系统中除上述目标磁盘之外的磁盘。
可选的,上述处理器还可以执行如下步骤的程序代码:确定上述分布式存储系统下的任务运维操作间中待处理的任务;确定上述目标磁盘下线后的数据影响范围;确定上述目标磁盘的备份状态;基于上述待处理的任务、上述目标磁盘的数据影响范围和上述目标磁盘的备份状态确定上述下线任务的处理优先级。
可选的,上述处理器还可以执行如下步骤的程序代码:在对上述目标磁盘进行下线后不会影响数据读写的情况下,确定上述目标磁盘的冗余水平符合下线条件;将上述目标磁盘的属性状态修改为下线状态,通过磁盘处理程序对属性状态为下线状态的目标磁盘进行下线处理。
可选的,上述处理器还可以执行如下步骤的程序代码:若上述分布式存储系统中的故障监测模块监测到上述目标磁盘出现故障时,采用除上述目标磁盘之外的磁盘对上述目标磁盘的数据信息进行了备份,或者,在上述目标磁盘不能正常工作的概率大于预设概率的情况下,将上述目标磁盘的数据信息备份至上述分布式存储系统中除上述目标磁盘之外的磁盘中。
可选的,上述处理器还可以执行如下步骤的程序代码:将上述处于下线状态的目标磁盘从上述分布式存储系统中移除。
采用本发明实施例,提供了一种分布式存储系统中故障磁盘的处理的方案。通过在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理,从而达到了在对分布式存储系统中磁盘故障处理时,保证数据安全性的目的,进而解决了现有技术中在对分布式存储系统中磁盘故障处理时,难以保证数据安全性的技术问题。
本领域普通技术人员可以理解,图8所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,计算机终端800还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例5
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例1所提供的分布式存储系统中故障磁盘的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对上述目标磁盘的下线任务;确定上述下线任务的处理优先级;在轮到处理上述下线任务时,确定上述目标磁盘的冗余水平;若上述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对上述目标磁盘进行下线处理。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:扫描各个磁盘的工作状态,根据故障判定规则确定各个磁盘是否存在故障。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将上述目标磁盘存在故障的事件上报至配置管理数据库;根据上述事件生成上述目标磁盘的下线任务,并发布上述下线任务。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据上述目标磁盘下线后的数据影响范围确定备份策略;采用上述备份策略将上述目标磁盘的数据信息备份至上述分布式存储系统中除上述目标磁盘之外的磁盘。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定上述分布式存储系统下的任务运维操作间中待处理的任务;确定上述目标磁盘下线后的数据影响范围;确定上述目标磁盘的备份状态;基于上述待处理的任务、上述目标磁盘的数据影响范围和上述目标磁盘的备份状态确定上述下线任务的处理优先级。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在对上述目标磁盘进行下线后不会影响数据读写的情况下,确定上述目标磁盘的冗余水平符合下线条件;将上述目标磁盘的属性状态修改为下线状态,通过磁盘处理程序对属性状态为下线状态的目标磁盘进行下线处理。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:若上述分布式存储系统中的故障监测模块监测到上述目标磁盘出现故障时,采用除上述目标磁盘之外的磁盘对上述目标磁盘的数据信息进行了备份,或者,在上述目标磁盘不能正常工作的概率大于预设概率的情况下,将上述目标磁盘的数据信息备份至上述分布式存储系统中除上述目标磁盘之外的磁盘中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将上述处于下线状态的目标磁盘从上述分布式存储系统中移除。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种分布式存储系统中故障磁盘的处理方法,包括:
在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对所述目标磁盘的下线任务;
确定所述下线任务的处理优先级;
基于所述处理优先级在轮到处理所述下线任务时,确定所述目标磁盘的冗余水平;
若所述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对所述目标磁盘进行下线处理。
2.根据权利要求1所述的处理方法,其中,在检测到分布式存储系统下的目标磁盘存在故障之前,所述方法还包括:
扫描各个磁盘的工作状态,根据故障判定规则确定各个磁盘是否存在故障。
3.根据权利要求1所述的处理方法,其中,在检测到分布式存储系统下的目标磁盘存在故障的情况下,生成针对所述目标磁盘的下线任务包括:
将所述目标磁盘存在故障的事件上报至配置管理数据库;
根据所述事件生成所述目标磁盘的下线任务,并发布所述下线任务。
4.根据权利要求1所述的处理方法,其中,在检测到分布式存储系统下的目标磁盘存在故障的情况下,生成针对所述目标磁盘的下线任务之后,所述方法还包括:
根据所述目标磁盘下线后的数据影响范围确定备份策略;
采用所述备份策略将所述目标磁盘的数据信息备份至所述分布式存储系统中除所述目标磁盘之外的磁盘。
5.根据权利要求1所述的处理方法,其中,确定所述下线任务的处理优先级包括:
确定所述分布式存储系统下的任务运维操作间中待处理的任务;
确定所述目标磁盘下线后的数据影响范围;
确定所述目标磁盘的备份状态;
基于所述待处理的任务、所述目标磁盘的数据影响范围和所述目标磁盘的备份状态确定所述下线任务的处理优先级。
6.根据权利要求1所述的处理方法,其中,若所述目标磁盘的冗余水平符合下线条件,通过磁盘处理程序对所述目标磁盘进行下线处理包括:
在对所述目标磁盘进行下线后不会影响数据读写的情况下,确定所述目标磁盘的冗余水平符合下线条件;
将所述目标磁盘的属性状态修改为下线状态,通过磁盘处理程序对属性状态为下线状态的目标磁盘进行下线处理。
7.根据权利要求6所述的处理方法,其中,对所述目标磁盘进行下线后不会影响数据读写的情况包括:
若所述分布式存储系统中的故障监测模块监测到所述目标磁盘出现故障时,采用除所述目标磁盘之外的磁盘对所述目标磁盘的数据信息进行了备份,
或者,在所述目标磁盘不能正常工作的概率大于预设概率的情况下,将所述目标磁盘的数据信息备份至所述分布式存储系统中除所述目标磁盘之外的磁盘中。
8.根据权利要求6所述的处理方法,其中,在通过磁盘处理程序对属性状态为下线状态的目标磁盘进行下线处理之后,所述方法还包括:
将处于下线状态的所述目标磁盘从所述分布式存储系统中移除。
9.一种分布式存储系统中故障磁盘的处理装置,包括:
生成模块,用于在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对所述目标磁盘的下线任务;
第一确定模块,用于确定所述下线任务的处理优先级;
第二确定模块,用于基于所述处理优先级在轮到处理所述下线任务时,确定所述目标磁盘的冗余水平;
处理模块,用于若所述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对所述目标磁盘进行下线处理。
10.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行以下步骤:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对所述目标磁盘的下线任务;确定所述下线任务的处理优先级;基于所述处理优先级在轮到处理所述下线任务时,确定所述目标磁盘的冗余水平;若所述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对所述目标磁盘进行下线处理。
11.一种计算机系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:在检测到分布式存储系统中的目标磁盘存在故障的情况下,生成针对所述目标磁盘的下线任务;确定所述下线任务的处理优先级;基于所述处理优先级在轮到处理所述下线任务时,确定所述目标磁盘的冗余水平;若所述目标磁盘的冗余水平符合下线条件,则通过磁盘处理程序对所述目标磁盘进行下线处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811156593.5A CN110968456B (zh) | 2018-09-30 | 2018-09-30 | 分布式存储系统中故障磁盘的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811156593.5A CN110968456B (zh) | 2018-09-30 | 2018-09-30 | 分布式存储系统中故障磁盘的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968456A true CN110968456A (zh) | 2020-04-07 |
CN110968456B CN110968456B (zh) | 2023-05-02 |
Family
ID=70028848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811156593.5A Active CN110968456B (zh) | 2018-09-30 | 2018-09-30 | 分布式存储系统中故障磁盘的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968456B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966056A (zh) * | 2021-04-19 | 2021-06-15 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、设备、系统及可读存储介质 |
CN113672437A (zh) * | 2021-07-31 | 2021-11-19 | 济南浪潮数据技术有限公司 | 一种分布式存储系统的磁盘故障处理方法及装置 |
CN114265728A (zh) * | 2021-12-28 | 2022-04-01 | 湖南麒麟信安科技股份有限公司 | 存储系统故障恢复方法、装置、计算机设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5295258A (en) * | 1989-12-22 | 1994-03-15 | Tandem Computers Incorporated | Fault-tolerant computer system with online recovery and reintegration of redundant components |
US20050015657A1 (en) * | 2003-06-27 | 2005-01-20 | Hitachi, Ltd. | Data center system and method for controlling the same |
CN102799543A (zh) * | 2012-08-10 | 2012-11-28 | 杭州极云网络技术有限公司 | 在动态变化的存储介质上分散存储数据及恢复方法 |
CN103812881A (zh) * | 2012-11-06 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 离线下载控制方法及装置 |
US20140172783A1 (en) * | 2012-12-17 | 2014-06-19 | Prowess Consulting, Llc | System and method for providing computing environment delivery service with offline operations |
CN105138425A (zh) * | 2015-08-13 | 2015-12-09 | 浪潮(北京)电子信息产业有限公司 | 一种磁盘健康状态检测方法与系统 |
CN105279057A (zh) * | 2015-11-10 | 2016-01-27 | 浪潮(北京)电子信息产业有限公司 | 一种磁盘坏道检测方法与系统 |
CN108170375A (zh) * | 2017-12-21 | 2018-06-15 | 创新科存储技术有限公司 | 一种分布式存储系统中的超限保护方法和装置 |
-
2018
- 2018-09-30 CN CN201811156593.5A patent/CN110968456B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5295258A (en) * | 1989-12-22 | 1994-03-15 | Tandem Computers Incorporated | Fault-tolerant computer system with online recovery and reintegration of redundant components |
US20050015657A1 (en) * | 2003-06-27 | 2005-01-20 | Hitachi, Ltd. | Data center system and method for controlling the same |
CN102799543A (zh) * | 2012-08-10 | 2012-11-28 | 杭州极云网络技术有限公司 | 在动态变化的存储介质上分散存储数据及恢复方法 |
CN103812881A (zh) * | 2012-11-06 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 离线下载控制方法及装置 |
US20140172783A1 (en) * | 2012-12-17 | 2014-06-19 | Prowess Consulting, Llc | System and method for providing computing environment delivery service with offline operations |
CN105138425A (zh) * | 2015-08-13 | 2015-12-09 | 浪潮(北京)电子信息产业有限公司 | 一种磁盘健康状态检测方法与系统 |
CN105279057A (zh) * | 2015-11-10 | 2016-01-27 | 浪潮(北京)电子信息产业有限公司 | 一种磁盘坏道检测方法与系统 |
CN108170375A (zh) * | 2017-12-21 | 2018-06-15 | 创新科存储技术有限公司 | 一种分布式存储系统中的超限保护方法和装置 |
Non-Patent Citations (1)
Title |
---|
毕亚辉;姜苏洋;王志刚;冷芳玲;鲍玉斌;于戈;钱岭;: "面向磁盘驻留的类Pregel系统的多级容错处理机制" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966056A (zh) * | 2021-04-19 | 2021-06-15 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、设备、系统及可读存储介质 |
CN113672437A (zh) * | 2021-07-31 | 2021-11-19 | 济南浪潮数据技术有限公司 | 一种分布式存储系统的磁盘故障处理方法及装置 |
CN114265728A (zh) * | 2021-12-28 | 2022-04-01 | 湖南麒麟信安科技股份有限公司 | 存储系统故障恢复方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110968456B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112596951B (zh) | 一种nas数据容灾方法、装置、设备及存储介质 | |
CN103164523A (zh) | 数据一致性检查方法、装置及系统 | |
CN110178121A (zh) | 一种数据库的检测方法及其终端 | |
CN105607973B (zh) | 一种虚拟机系统中设备故障处理的方法、装置及系统 | |
CN109947585A (zh) | Pcie设备故障的处理方法及装置 | |
WO2017220013A1 (zh) | 业务处理方法及装置、存储介质 | |
CN111897697B (zh) | 服务器硬件故障修复方法和装置 | |
CN110968456B (zh) | 分布式存储系统中故障磁盘的处理方法及装置 | |
CN111399879A (zh) | 一种cpld的固件升级系统和方法 | |
CN111796959A (zh) | 宿主机容器自愈方法、装置及系统 | |
CN109324918A (zh) | 应用程序异常的处理方法及装置、终端及存储介质 | |
CN105094010B (zh) | 一种继电保护装置即插即用管理方法及系统 | |
CN111124722A (zh) | 一种隔离故障内存的方法、设备及介质 | |
CN111130856A (zh) | 一种服务器配置方法、系统、设备及计算机可读存储介质 | |
CN113760608B (zh) | 数据恢复方法和装置、电子设备和存储介质 | |
JP5352027B2 (ja) | 計算機システムの管理方法及び管理装置 | |
CN109271270A (zh) | 存储系统中底层硬件的故障排除方法、系统及相关装置 | |
CN111090491B (zh) | 虚拟机任务状态的恢复方法、装置及电子设备 | |
CN104407806A (zh) | 独立磁盘冗余阵列组硬盘信息的修改方法和装置 | |
CN116015425B (zh) | 光模块的控制方法和装置、存储介质及电子装置 | |
CN105224416A (zh) | 修复方法及相关电子装置 | |
CN116401118A (zh) | 一种文件共享服务Samba监测方法及装置 | |
CN115373916A (zh) | 异常检测方法、装置、电子设备及计算机可读存储介质 | |
CN114968641A (zh) | 一种日志管理方法、装置、设备及机器可读存储介质 | |
CN110955556B (zh) | 数据库恢复方法及装置、存储介质、数据库系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |