CN112684973A - 具有固态储存器的服务器系统及其相关控制方法 - Google Patents
具有固态储存器的服务器系统及其相关控制方法 Download PDFInfo
- Publication number
- CN112684973A CN112684973A CN201910994037.3A CN201910994037A CN112684973A CN 112684973 A CN112684973 A CN 112684973A CN 201910994037 A CN201910994037 A CN 201910994037A CN 112684973 A CN112684973 A CN 112684973A
- Authority
- CN
- China
- Prior art keywords
- solid
- state storage
- controller
- prediction module
- processing circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims description 14
- 230000015654 memory Effects 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims description 40
- 239000007787 solid Substances 0.000 claims description 40
- 230000014759 maintenance of location Effects 0.000 claims description 12
- 230000001133 acceleration Effects 0.000 description 20
- 238000012360 testing method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000036541 health Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 230000005526 G1 to G0 transition Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0683—Plurality of storage devices
- G06F3/0688—Non-volatile semiconductor memory arrays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
- G06F3/0616—Improving the reliability of storage systems in relation to life time, e.g. increasing Mean Time Between Failures [MTBF]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0632—Configuration or reconfiguration of storage systems by initialisation or re-initialisation of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0653—Monitoring storage devices or systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
一种服务系统,包括一处理电路;以及多个固态储存器,连接至该处理电路。该些固态储存器中的一第一固态储存器包括:一控制器与一非易失性存储器,该控制器连接至该处理电路,该非易失性存储器连接至该控制器,该控制器内更包括一预测模块。该预测模块预估该第一固态储存器的一生命周期。当该预测模块预测出该第一固态储存器在一特定时间后即将损毁时,该控制器发出一警告至处理电路。
Description
技术领域
本发明是有关于一种服务器系统(server system)及其相关控制方法,且特别是有关于一种具有固态储存器的服务器系统及其相关控制方法。
背景技术
一般来说,数据中心(data center)可以储存大量的数据。而数据中心是由多个机柜(rack)组合成一个网络节点(node),网络节点可通过互联网(internet)连接至其他的网络节点用来接收或者传递数据中心内的数据。举例来说,数据中心中由1000个机柜组合成一个网络节点。
另外,在数据中心内,每个机柜更包括多个刀锋服务器(blade server)来组成一服务器系统。举例来说,每一个机柜中由44台刀锋服务器组成服务器系统。根据刀锋服务器的各种功能,各刀锋服务器内可连接至多个固态储存器(solid state storage drive,简称SSD)。举例来说,作为运算用途(computing)的刀锋服务器可连接至6台固态储存器,作为数据储存用途的刀锋服务器可连接至48台固态储存器。
请参照图1,其所示为习知刀锋服务器示意图。刀锋服务器100中包括一处理电路(processing circuit)110连接至多台固态储存器120、130、140。举例来说,处理电路110利用快速周边元件内连接总线(Peripheral Component Interconnect Express Bus,简称PCIe总线)111、112、113分别连接至固态储存器120、130、140。
由于固态储存器120、130、140的结构相同,以下仅介绍固态储存器120。固态储存器120包括控制器122与非易失性存储器124。其中,非易失性存储器124为反及闸闪存(NANDflash memory)。非易失性存储器124由多个晶粒(die)126a~126n所组成。每个晶粒126a~126n中皆包括多个存储单元(memory cell),而所有的存储单元可构成存储单元阵列(memory cell array)。在非易失性存储器124中,存储单元阵列可划分成多个区块(block),而每个区块再分成多个页(page)。
另外,处理电路110可对任一固态储存器发出写入命令或者读取命令。举例来说,在固态储存器120中,控制器122连接至非易失性存储器124。控制器122可以根据处理电路110所发出的写入命令进一步将处理电路110的写入数据储存至非易失性存储器124。或者,控制器122可以根据处理电路110所发出的读取命令由非易失性存储器124中取得读取数据,经由控制器122传递至处理电路110。
当数据中心(data center)开始运作时,每个机柜中的刀锋服务器皆会运作。以图1的刀锋服务器100为例,所有的固态储存器120~130皆会持续的运作,用来储存处理电路110的写入数据。或者,输出处理电路110要求的读取数据。
众所周知,当处理电路110将写入数据储存至固态储存器120时,控制器122会对晶粒126a~126n内的存储单元进行编程动作(program action),使得写入数据储存至非易失性存储器124。另外,控制器122会对非易失性存储器124中储存无效数据的存储单元进行擦除动作(erase action)。因此,在固态储存器120经过长时间的运作过程后,由于编程/擦除次数(program/erase count,简称P/E次数)过多,晶粒126a~126n内的部分存储单元会损坏并产生坏区块(bad block),进而影响固态储存器120的读写效率及寿命。
为了要维持固态储存器120的读写效率及寿命,非易失性存储器124中更包括备用的晶粒(spare die)。当特定的晶粒内坏区块数目过多时,控制器132可利用备用晶粒来取代上述特定的晶粒。如此,可以延长固态储存器120的生命周期(life time)。
即便如此,固态储存器120仍会有一定的生命周期。当固态储存器120经过长时间的运作(例如3年)后,非易失性存储器124发生受损情况严重时,固态储存器120即无法再使用。此时,需要将固态储存器120由刀锋服务器100上卸除,并安装新的固态储存器120,使得刀锋服务器100可以继续运作。
然而,由于旧的固态储存器120已经损坏,非易失性存储器124中的储存数据无法完全恢复,所以将造成数据中心的储存数据遗失。
为了防止固态储存器120损坏造成数据中心的储存数据遗失,固态储存器120可根据处理电路110的命令来输出固态储存器120内的健康信息(healthy information),并根据健康信息来判断固态储存器120的状态,并决定是否更换固态储存器120。
举例来说,现今的固态储存器120具备自我监测、分析及报告技术(Self-Monitoring Analysis and Reporting Technology,简称S.M.A.R.T)。当处理电路110发出检测命令至固态储存器120时,控制器122可对非易失性存储器124进行监控并产生对应的记录数据(log data)传递至处理电路110。例如,控制器122产生512byte的记录数据传递至处理电路110,而记录数据即可视为固态储存器120内的健康信息,其内容包括非易失性存储器124的坏区块数目、编程时间、抹除时间等等。
再者,处理电路110可根据健康信息来判断固态储存器120的状态。或者,处理电路110更可将固态储存器120的健康信息回传至固态储存器120的制造商,让固态储存器120的制造商根据健康信息来判断固态储存器120的状态。当固态储存器120被判定为状态不良时,即可更换固态储存器120。
然而,由于健康信息的内容有限,处理电路110并无法准确地判断固态储存器120的状态。相同地,固态储存器120的制造商也无法即时准确地判断出固态储存器120的状态。
发明内容
本发明有关于一种服务系统,包括一处理电路;以及多个固态储存器,连接至该处理电路;其中,该些固态储存器中的一第一固态储存器包括:一控制器与一非易失性存储器,该控制器连接至该处理电路,该非易失性存储器连接至该控制器,该控制器内更包括一预测模块;其中,该预测模块预估该第一固态储存器的一生命周期;当该预测模块预测出该第一固态储存器在一特定时间后即将损毁时,该控制器发出一警告至处理电路。
本发明有关于一种服务器系统的控制方法,该服务系统包括一处理电路与多个固态储存器,且该些固态储存器中的一第一固态储存器包括一控制器与一非易失性存储器,该控制方法包括下列步骤:利用该第一固态储存器中的一预测模块,对该第一固态储存器进行一次生命周期预测;该控制器搜集该非易失性存储器中的多个参数并输入该预测模块;以及,如果该预测模块预测该第一固态储存器在一特定时间后即将损毁时,该控制器发出一警告至该处理电路。
本发明有关于一种服务器系统,包括:一处理电路;以及多个固态储存器,连接至该处理电路;其中,每一该些固态储存器包括:一控制器与一非易失性存储器,该控制器连接至该处理电路,该非易失性存储器连接至该控制器,且该控制器内更包括一预测模块;其中,该预测模块预估对应的该固态储存器的一生命周期;以及,当该预测模块预测出对应的该固态储存器在一特定时间后即将损毁时,对应的该控制器发出一警告至该处理电路。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1为习知刀锋服务器示意图。
图2为本发明刀锋服务器示意图。
图3为本发明刀锋服务器中固态储存器的生命周期预测流程示意图。
图4A与图4B为不同形状参数m的失效机率密度函数(PDF)fT(t)与危险函数h(t)示意图。
图4C为不同大小参数η的危险函数h(t)示意图。
图5为浴缸曲线示意图。
图6A与图6B为固态储存器于45℃时进行测试后的危险函数h(t)示意图。
图7A与图7B为固态储存器于70℃时进行测试后的危险函数h(t)示意图。
具体实施方式
下面结合附图对本发明的结构原理和工作原理作具体的描述:
根据本发明的实施例,为了防止数据中心的储存数据遗失,本发明在刀锋服务器的固态储存器中皆内建一预测模块,用来预测固态储存器的状态。
当预测模块预测出固态储存器在一特定时间(例如二个星期或者一个月)后即将损毁时,固态储存器会发出紧急警告(critical warning)至处理电路。因此,在固态储存器真正完全损坏之前,即可由刀锋服务器上卸除并更换新的固态储存器。由于旧的固态储存器尚未完全损坏,所以其储存数据也可以完全复制到新的固态储存器,不会造成数据中心的储存数据遗失。
请参照图2,其所示为本发明刀锋服务器示意图。刀锋服务器200中包括一处理电路110连接至多台固态储存器220、230、240。举例来说,处理电路110利用快速周边元件内连接总线(PCIe总线)111、112、113分别连接至固态储存器220、230、240。
相同地,将本发明的多个刀锋服务器组装在机柜内可成为一服务器系统。举例来说,每一个机柜中由44台刀锋服务器组成服务器系统。
由于固态储存器220、230、240的结构相同,以下仅介绍固态储存器220。固态储存器220包括控制器222与非易失性存储器224。其中,非易失性存储器224为反及闸闪存。非易失性存储器224由多个晶粒226a~226n所组成。每个晶粒226a~226n中皆包括多个存储单元,而所有的存储单元可构成存储单元阵列。在非易失性存储器224中,存储单元阵列可划分成多个区块,而每个区块再分成多个页。
在刀锋服务器200中,处理电路110可对任一固态储存器发出写入命令或者读取命令。举例来说,在固态储存器220中,控制器222连接至非易失性存储器224。控制器222可以根据处理电路110所发出的写入命令进一步将处理电路110的写入数据储存至非易失性存储器224。或者,控制器222可以根据处理电路110所发出的读取命令由非易失性存储器224中取得读取数据,经由控制器222传递至处理电路110。
根据本发明的实施例,每一个固态储存器220、230、240中皆内建一预测模块(prediction model)228、238、248,用以预测固态储存器的状态。举例来说,固态储存器220的控制器222中内建一预测模块228,其可根据非易失性存储器224的多个参数来进行生命周期预测(life time prediction)。其中,非易失性存储器224的参数可为操作温度、操作电压、编程/擦除次数、坏区块数目、编程时间、擦除时间、数据错误率(data error rate)等等。
于刀锋服务器200的运作过程,当控制器222的预测模块228预测出固态储存器220在一特定时间后即将损毁时,固态储存器220会发出紧急警告至处理电路110。因此,在固态储存器220真正完全损坏之前,即可由刀锋服务器200上卸除并更换新的固态储存器。由于旧的固态储存器220尚未完全损坏,所以其储存数据也可以完全复制到新的固态储存器,不会造成数据中心的储存数据遗失。
请参照图3,其所示为本发明刀锋服务器中固态储存器的生命周期预测流程示意图。根据本发明的实施例,固态储存器220经过一段运作时间(例如运作12小时或者24小时)后,控制器222即开始进行一次生命周期预测(步骤S320)。接着,控制器222搜集非易失性存储器224中的多个参数并输入预测模块228(步骤S312)。如果预测模块228预测出固态储存器220在一特定时间后即将损毁时(步骤S314),控制器222发出紧急警告至处理电路110(步骤S316)。反之,如果预测模块228预测出固态储存器220在一特定时间后仍不会损毁时(步骤S314),则控制器222结束此次的生命周期预测。之后,当固态储存器220再次经过一段运作时间后,控制器222进行另一次生命周期预测(步骤S320)。
根据闪存的物理特性,闪存中的区块的生命周期是有限的(limited life time)。对于使用环境来说,固态储存器操作于高温的使用环境会使得区块的生命周期提早结束。
为了能够表示闪存生命周期中的失效率(failure rate),具有指数分布(exponential distribution)的韦布分布(Weibull Distribution),其失效率可随着时间而改变,非常适合用于预测非易失性存储器的生命周期。
根据本发明的实施例,控制器222、232、242中的预测模块228、238、248,为韦布分布预测模块(Weibull Distribution Prediction Model)。换言之,本发明利用韦布分布预测模块来预测非易失性存储器(亦即闪存)224、234、244,并利用失效函数(failurefunction)来预测闪存区块的生命周期。以下详细介绍。
上述的式子中,m称为形状参数(shape parameter),形状参数m可决定式子的分布形状(shape of the distribution)。如图4A与图4B所示,其为不同形状参数m的失效机率密度函数(PDF)fT(t)与危险函数h(t)示意图。由图4A与图4B可知,随着形状参数m的数值改变,失效机率密度函数(PDF)fT(t)与危险函数h(t)的分布形状也会改变。
另外,η称为大小参数(scale parameter),大小参数η相关于平均生命周期(average life time)。基本上,大小参数η会随着环境变化而改变,例如操作温度。举例来说,假设形状参数m为0.5。由已知25℃时的大小参数η25以及已知60℃时的大小参数η60,可进一步预测出45℃时的大小参数η45的数值,且η60<η45<η25。而图4C即示出不同大小参数η的危险函数h(t)示意图。
一般来说,固态储存器的危险函数(Hazard Function)会呈现出类似浴缸的形状,称之为浴缸曲线(Bathtub Curve)。请参照图5,其所示为浴缸曲线示意图。以固态储存器运作时间来作区分,可分为早期失效期(Infant Mortality)、稳定期(Steady State)与磨损期(Wear out)。例如,固态储存器开始运作的前半年为早期失效期,半年至5年为稳定期,5年之后为磨损期。
早期失效期发生于固态储存器使用初期,其失效率(failure rate)初始值很高,随着时间增加而下降。早期失效期的失效主要源于固态储存器中非易失性存储器或者控制器先天性的缺陷。稳定期的失效率很稳定,几乎维持一常数,失效的原因往往是随机意外的发生。磨耗期发生于固态储存器产品生命周期的末期,由于固态储存器经由长期读写而逐渐退化,所以失效率随着时间增加而快速上升,直到固态储存器损坏。
利用韦伯分布(Weibull Distribution),可以用来模拟固态储存器的浴缸曲线的三个区间。由图4B可知,当危险函数的形状参数m<1时,其类似浴缸曲线的早期失效期。当危险函数的m=1时,其类似浴缸曲线的稳定期。当危险函数的m>1时,其类似浴缸曲线的磨损期。换言之,利用m>1的危险函数可用来预测固态储存器的生命周期。
另外,为了得出符合固态储存器的危险函数h(t)来作为预测模块,可利用加速因子(Acceleration Factor)并通过加速测试(Accelerated Test),来模拟出危险函数h(t)中的大小参数η。举例来说,温度加速因子(temperature acceleration factor)电压加速因子(voltage acceleration factor)压力加速因子(stress accelerationfactor)大气压加速因子(atmospheric pressure acceleration factor)而利用阿瑞尼斯模型(Arrhenius Model)可推导出上述的加速因子。
其中Lnormal为正常状况下固态储存器的生命周期、Lstress为加速状况下固态储存器的生命周期、Ea为活化能(activation energy),k为波兹曼常数(boltzmann's constant)、Tu为正常状况下的绝对温度(absolutetemperature)、TA为加速状况下的绝对温度。
而根据上述的参数,即可以模拟出大小参数η,以及对应的危险函数h(t),用来预测固态储存器的生命周期。
请参照图6A与图6B,其所示为固态储存器于45℃时进行加速测试后的危险函数h(t)示意图。请参照图7A与图7B,其所示为固态储存器于70℃时进行加速测试后的危险函数h(t)示意图。
一般而言,当非易失性存储器中的坏区块超过一定数量时,非易失性存储器即会发生损毁。因此,在图6A与图7A的加速测试中,是以温度作为加速因子为例,并以坏区块数目作为评估非易失性存储器的失效因子。如图6A与图7A所示,非易失性存储器中,坏区块的数目会随着编程/擦除次数(P/E count)增加而递增。在70℃的测试条件下,当区块的编程/擦除次数超过5000次之后,坏区块数目明显有开始增长的倾向,而此倾向比45℃的测试条件还早发生。
而利用图6A与图7A的测试结果即可获得图6B与图7B所示的基于韦伯分布的危险函数(Weibull based Hazard function),其为非易失性存储器分别于70℃及45℃时的危险函数h(t)。再者,利用图6B与图7B所示的危险函数,更可推导出其他温度时的危险函数,并建立于控制器的预测模块中。如前所述,其他温度的危险函数h(t)即为不同的大小参数η的危险函数h(t),其可由70℃及45℃时的危险函数h(t)推导而出。
除了温度之外,亦可使用不同或多个参数作为加速因子并进行加速测试,例如,操作温度、操作电压、读写频率、大气压、数据错误率及编程/擦除次数等参数,以得出对应的危险函数h(t)作为预测模块。因此,当固态储存器进行生命周期预测时,控制器即可搜集非易失性存储器中的多个参数(例如,操作温度、操作电压、读写频率、大气压、数据错误率及编程/擦除次数),并输入预测模块。而预测模块即根据对应的危险函数计算出固态储存器的生命周期,并当固态储存器在特定时间后即将损毁时发出紧急警告至处理电路。
由以上的说明可知,本发明提出一具有固态储存器的服务器系统及其相关控制方法。此服务系统为刀锋服务器,并运用于数据中心。服务系统中包括多个固态储存器,固态储存器中的控制器内建一预测模块,用以预测本身固态储存器的生生命周期。当预测模块预测出固态储存器在一特定时间(例如二个星期或者一个月)后即将损毁时,固态储存器会发出紧急警告(critical warning)。因此,在固态储存器真正完全损坏之前,即可由刀锋服务器上卸除并更换新的固态储存器。因此,可以有效地防止数据中心的储存数据遗失。
此外,本发明提出服务器系统是通过在各固态储存器中内建预测模块来预测本身固态储存器的生命周期,与通过服务器系统的处理电路来预测各固态储存器的生命周期相比,由于各固态储存器中内建预测模块可取得各固态储存器本身更实际的状态参数,并提供予预测模块,因而可得出更准确的预测结果。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种服务器系统,其特征在于,包括:
一处理电路;以及
多个固态储存器,连接至该处理电路;
其中,该些固态储存器中的一第一固态储存器包括:一控制器与一非易失性存储器,该控制器连接至该处理电路,该非易失性存储器连接至该控制器,且该控制器内更包括一预测模块;
其中,该预测模块预估该第一固态储存器的一生命周期;以及,当该预测模块预测出该第一固态储存器在一特定时间后即将损毁时,该控制器发出一警告至该处理电路。
2.如权利要求1所述的服务器系统,其特征在于,于该处理电路接收到该警告后,将该第一固态储存器由该服务系统卸除,并将另一固态储存器连接至该控制器用以取代该第一固态储存器,且该第一固态储存器中的储存数据复制至该另一固态储存器。
3.如权利要求1所述的服务器系统,其特征在于,该预测模块为一韦布分布预测模块,且该韦布分布预测模块中包括一危险函数,用以预估该固态储存器的该生命周期。
4.如权利要求3所述的服务器系统,其特征在于,该控制器搜集该非易失性存储器的多个参数并输入该韦布分布预测模块,用以预估该固态储存器的该生命周期。
5.如权利要求4所述的服务器系统,其特征在于,该些参数包括一操作温度、一操作电压、一编程/擦除次数、一坏区块数目、一编程时间、一擦除时间或一数据错误率。
6.一种服务器系统的控制方法,该服务系统包括:一处理电路与多个固态储存器,且该些固态储存器中的一第一固态储存器包括:一控制器与一非易失性存储器,其特征在于,该控制方法包括下列步骤:
利用该第一固态储存器中的一预测模块,对该第一固态储存器进行一次生命周期预测;
该控制器搜集该非易失性存储器中的多个参数并输入该预测模块;以及
如果该预测模块预测该第一固态储存器在一特定时间后即将损毁时,该控制器发出一警告至该处理电路。
7.如权利要求6所述的服务器系统的控制方法,其特征在于,于该处理电路接收到该警告后,将该第一固态储存器由该服务系统卸除,并将另一固态储存器连接至该控制器用以取代该第一固态储存器,且将该第一固态储存器中的储存数据复制至该另一固态储存器。
8.如权利要求6项述的服务器系统的控制方法,其特征在于,该预测模块为一韦布分布预测模块,且该韦布分布预测模块中包括一危险函数,用以预估该固态储存器的一生命周期。
9.如权利要求8所述的服务器系统的控制方法,其特征在于,该些参数包括一操作温度、一操作电压、一编程/擦除次数、一坏区块数目、一编程时间、一擦除时间或一数据错误率。
10.一种服务器系统,其特征在于,包括:
一处理电路;以及
多个固态储存器,连接至该处理电路;
其中,每一该些固态储存器包括:一控制器与一非易失性存储器,该控制器连接至该处理电路,该非易失性存储器连接至该控制器,且该控制器内更包括一预测模块;
其中,该预测模块预估对应的该固态储存器的一生命周期;以及,当该预测模块预测出对应的该固态储存器在一特定时间后即将损毁时,对应的该控制器发出一警告至该处理电路。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910994037.3A CN112684973A (zh) | 2019-10-18 | 2019-10-18 | 具有固态储存器的服务器系统及其相关控制方法 |
US16/674,397 US20210117125A1 (en) | 2019-10-18 | 2019-11-05 | Server system with solid state drives and associated control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910994037.3A CN112684973A (zh) | 2019-10-18 | 2019-10-18 | 具有固态储存器的服务器系统及其相关控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112684973A true CN112684973A (zh) | 2021-04-20 |
Family
ID=75445104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910994037.3A Pending CN112684973A (zh) | 2019-10-18 | 2019-10-18 | 具有固态储存器的服务器系统及其相关控制方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210117125A1 (zh) |
CN (1) | CN112684973A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102716349B1 (ko) | 2019-06-14 | 2024-10-11 | 삼성전자주식회사 | 스토리지 장치의 구동 방법 및 이를 수행하는 스토리지 장치 |
KR102332589B1 (ko) * | 2021-08-18 | 2021-12-01 | 에스비유코리아 주식회사 | 디스크 세트의 상태 정보 관리 및 제어 방법, 장치 및 시스템 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070072315A1 (en) * | 2005-09-29 | 2007-03-29 | Semiconductor Manufacturing International (Shanghai) Corporation | Method and system for reliability similarity of semiconductor devices |
US20100306577A1 (en) * | 2009-05-28 | 2010-12-02 | Lsi Corporation | Systems and Methods for Managing End of Life in a Solid State Drive |
US20120124273A1 (en) * | 2010-11-12 | 2012-05-17 | Seagate Technology Llc | Estimating Wear of Non-Volatile, Solid State Memory |
CN102937935A (zh) * | 2012-09-04 | 2013-02-20 | 邹粤林 | 一种固态存储系统及控制器、提高闪存芯片寿命的方法 |
CN103559115A (zh) * | 2013-09-29 | 2014-02-05 | 记忆科技(深圳)有限公司 | 基于smart的ssd智能监控系统 |
US20140173268A1 (en) * | 2011-08-19 | 2014-06-19 | Kabushiki Kaisha Toshiba | Information processing apparatus, method for controlling information processing apparatus, non-transitory recording medium storing control tool, host device, non-transitory recording medium storing performance evaluation tool, and performance evaluation method for external memory device |
US20140201576A1 (en) * | 2013-01-17 | 2014-07-17 | Dell Products L.P. | System and Method for Improving Solid State Storage System Reliability |
CN106688044A (zh) * | 2014-12-22 | 2017-05-17 | 桑迪士克科技有限责任公司 | 基于单元电压分布单独测量存储器磨损和数据保持 |
CN106991019A (zh) * | 2015-12-18 | 2017-07-28 | 京瓷办公信息系统株式会社 | 电子设备及存储器寿命警报方法 |
CN107452421A (zh) * | 2016-05-31 | 2017-12-08 | 光宝电子(广州)有限公司 | 固态储存装置及其状态预测方法 |
CN109634527A (zh) * | 2018-12-12 | 2019-04-16 | 华中科技大学 | 一种ssd内实现的闪存寿命预测方法 |
CN110245093A (zh) * | 2018-03-08 | 2019-09-17 | 东芝存储器株式会社 | 固态存储驱动器阵列中的工作负荷自适应超额配置 |
-
2019
- 2019-10-18 CN CN201910994037.3A patent/CN112684973A/zh active Pending
- 2019-11-05 US US16/674,397 patent/US20210117125A1/en not_active Abandoned
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070072315A1 (en) * | 2005-09-29 | 2007-03-29 | Semiconductor Manufacturing International (Shanghai) Corporation | Method and system for reliability similarity of semiconductor devices |
US20100306577A1 (en) * | 2009-05-28 | 2010-12-02 | Lsi Corporation | Systems and Methods for Managing End of Life in a Solid State Drive |
US20120124273A1 (en) * | 2010-11-12 | 2012-05-17 | Seagate Technology Llc | Estimating Wear of Non-Volatile, Solid State Memory |
US20140173268A1 (en) * | 2011-08-19 | 2014-06-19 | Kabushiki Kaisha Toshiba | Information processing apparatus, method for controlling information processing apparatus, non-transitory recording medium storing control tool, host device, non-transitory recording medium storing performance evaluation tool, and performance evaluation method for external memory device |
CN102937935A (zh) * | 2012-09-04 | 2013-02-20 | 邹粤林 | 一种固态存储系统及控制器、提高闪存芯片寿命的方法 |
US20140201576A1 (en) * | 2013-01-17 | 2014-07-17 | Dell Products L.P. | System and Method for Improving Solid State Storage System Reliability |
CN103559115A (zh) * | 2013-09-29 | 2014-02-05 | 记忆科技(深圳)有限公司 | 基于smart的ssd智能监控系统 |
CN106688044A (zh) * | 2014-12-22 | 2017-05-17 | 桑迪士克科技有限责任公司 | 基于单元电压分布单独测量存储器磨损和数据保持 |
CN106991019A (zh) * | 2015-12-18 | 2017-07-28 | 京瓷办公信息系统株式会社 | 电子设备及存储器寿命警报方法 |
CN107452421A (zh) * | 2016-05-31 | 2017-12-08 | 光宝电子(广州)有限公司 | 固态储存装置及其状态预测方法 |
CN110245093A (zh) * | 2018-03-08 | 2019-09-17 | 东芝存储器株式会社 | 固态存储驱动器阵列中的工作负荷自适应超额配置 |
CN109634527A (zh) * | 2018-12-12 | 2019-04-16 | 华中科技大学 | 一种ssd内实现的闪存寿命预测方法 |
Non-Patent Citations (1)
Title |
---|
A.DUBI: "蒙特卡洛方法在系统工程中的应用", 30 September 2007, 西安交通大学出版社, pages: 17 - 18 * |
Also Published As
Publication number | Publication date |
---|---|
US20210117125A1 (en) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11119660B2 (en) | Determining when to replace a storage device by training a machine learning module | |
CN109634527B (zh) | 一种ssd内实现的闪存寿命预测方法 | |
TWI510916B (zh) | 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法 | |
CN111104293A (zh) | 用于支持盘故障预测的方法、设备和计算机程序产品 | |
US20130326284A1 (en) | Apparatus, system, and method for managing solid-state storage reliability | |
US11514994B1 (en) | Method and apparatus for outlier management | |
CN113129939B (zh) | 具有温度缓解机制的设备及其操作方法 | |
CN110543280A (zh) | 基于温度的存储器管理的装置和方法 | |
CN112684973A (zh) | 具有固态储存器的服务器系统及其相关控制方法 | |
CN114758714A (zh) | 一种硬盘故障预测方法、装置、电子设备及存储介质 | |
Li et al. | Reliability characterization and failure prediction of 3D TLC SSDs in large-scale storage systems | |
CN118093324A (zh) | 一种固态硬盘的寿命预测方法及系统 | |
Li et al. | From correctable memory errors to uncorrectable memory errors: What error bits tell | |
CN118394609B (zh) | 一种固态硬盘的坏块检测方法及系统 | |
CN114327241A (zh) | 管理磁盘的方法、电子设备和计算机程序产品 | |
KR20240065183A (ko) | 메모리 오류의 예측 방법, 전자 장치 및 컴퓨터 판독 가능한 저장 매체 | |
CN113302583A (zh) | 存储器子系统的温度的估计 | |
CN113032999B (zh) | 医疗设备使用寿命的预测方法及装置 | |
CN113936704A (zh) | 基于存储器子系统的存储器裸片的温度监测的异常条件检测 | |
WO2015081124A1 (en) | Dimm device controller supervisor | |
CN112906727A (zh) | 用于实时在线检测虚拟机状态的方法和系统 | |
CN117251327A (zh) | 模型训练方法、磁盘故障预测方法、相关装置及设备 | |
CN109542687B (zh) | 一种raid级别转换方法及装置 | |
CN118550759B (zh) | 一种基于数据内部迁移的闪存可靠性优化方法及相关装置 | |
CN117873760B (zh) | 一种失效率评估方法、装置、系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |