TWI587152B - 用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統 - Google Patents
用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統 Download PDFInfo
- Publication number
- TWI587152B TWI587152B TW105134472A TW105134472A TWI587152B TW I587152 B TWI587152 B TW I587152B TW 105134472 A TW105134472 A TW 105134472A TW 105134472 A TW105134472 A TW 105134472A TW I587152 B TWI587152 B TW I587152B
- Authority
- TW
- Taiwan
- Prior art keywords
- value
- performance
- disk
- unitless
- life
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000003860 storage Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 10
- 239000007787 solid Substances 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000605059 Bacteroidetes Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Description
本發明關於一種延長磁碟預期壽命值的方法及使用該方法的系統,特別是關於一種用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統。
電腦中的磁碟是用來儲存資料,供應用程式運作所需的主要設備。無論何種型態,比如硬碟、固態硬碟,甚或是磁帶,在一段長時間使用之後,該磁碟終究會故障而無法工作。如果並未於故障之前適當地執行資料備份或歸檔,磁碟中的資料會遺失,因為其中可能會包含重要資料,如磁碟中的作業系統與電腦系統組態資料,這將造成災難。通常,磁碟會於故障前顯現某些跡象。舉例來說,儲存的資料消失或程式運轉頻繁失常。使用者可容易地察覺這些跡象並採取行動替換磁碟及儲存其中的資料。因為該電腦可能僅有少數的磁碟,且該使用者可以透過電腦性能表現每天持續觀察磁碟,這做法是可行的。
對於運作雲端服務系統的架構來說,也會遭遇如同前述磁碟的相同問題。然而,比較複雜的情況是該架構通常包含大量用於資料存取的磁碟。因為儲存資料性質及內容的不同,某一磁碟可能會較其它磁碟更常被存取。經常性的磁碟存取是縮短磁碟壽命值的重要因素。然而,頻繁且持續地觀察每一磁碟的物理性能是非常困難的。對雲端服務系統的管理人員來說,常常執行資料備份並替換故障的磁碟並不是一種符合經濟效益的方法。因此,某些可監測叢集磁碟並預測磁碟壽值的技術已經公開,以提供解決方法。舉例來說,美國專利申請第US2016232450號提出一種儲存裝置壽命監控系統以及其儲存裝置壽命監控方法。該方法的步驟:包括蒐集對應此些儲存裝置的運作行為資訊;儲存多個具有運作行為資訊及對應運作壽命值的訓練資料;依據此些運作行為資訊及對應運作壽命值來架構儲存裝置壽命預測模型;將此些儲存裝置的運作行為資訊輸入至儲存裝置壽命預測模型以產生對應每一儲存裝置的預估壽命值;以及依據每一儲存裝置的運作行為資訊與預估壽命值來重新架構儲存裝置壽命預測模型。藉此,該方法能夠準確地預測儲存裝置的壽命。
前述專利申請案使用來自日誌的資料,如系統日誌、應用程式日誌,或資料庫日誌的資料(運作行為資訊),用於訓練以及預測壽命。雖然日誌中的資料可能不會告知磁碟的實際情況,但可由紀錄中獲得某些磁碟健康狀態的暗示,這
是因為紀錄內不正常的數值與對應磁碟的真實壽命值之間是有關聯的,可有效地使用歷史資料來進行預測。如果該方法能藉日誌所透漏內容,精確地為所有磁碟找出壽命值,對一特定型號的磁碟,基於相同的製造流程與品質要求,其真實壽命值應介於特定範圍內,例如,使用4,000至5,000小時。然而,事實上,某些相同型號的磁碟只能工作一段短的時間,某些工作較長的時間,而大多數磁碟的壽命值落於該預測的範圍內。即使兩個磁碟有相似的運作行為資訊,它們可能不會有相同的壽命值。這意味著分析中缺少一些關鍵因素。
對有相似的日誌卻有不同壽命值的二個磁碟來說,如果檢視某些性能資料,如IOPS(Input/Output Per Second,每秒輸入/輸出操作次數)、延遲時間,與流通量(Throughput),或相關資訊,如中央處理器(Central Processing Unit,CPU)負載或主機記憶體使用量,可以發現該二個磁碟運行方式不同,而這差異可能就是導致不同壽命值的因素。舉例來說,二個磁碟一年內有相似的存取及故障紀錄,一個在其中三個月內被密集地存取而另一個在一年內平均地被存取。因此,亟為需要一種用來提供雲端服務系統中磁碟更精確壽命的預測方法,可進一步由分析輸入/輸出模式,延長磁碟的預期壽命值。
本段文字提取和編譯本發明的某些特點。其它特點將被揭露於後續段落中。其目的在涵蓋附加的申請專利範圍之精神和範圍中,各式的修改和類似的排列。
本發明提出一種用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統。依照本發明的一種態樣,該方法包含步驟:A.由歷史資料中對一雲端服務系統中的每一磁碟蒐集性能資料;B.濾除性能資料,該些性能資料來自一故障的磁碟或一磁碟具有壽命值短於一預設值;C.依照壽命值級別,以對應的性能資料分組該些磁碟;D.常規化該些性能資料與壽命值為一無單位性能值與一無單位壽命值;E.對每一組中每一磁碟的無單位性能值執行LSTM(Long Short Term Memory)建模演算法,以得到每一磁碟在未來一段時間內該無單位性能值的預測走勢;F.基於該組中該些無單位性能值的預測走勢,分別對每一組中所有的磁碟指定一特定無單位性能值;G.執行k-平均叢集(k-means clustering)演算法,以輸入集來得到輸出集,其中每一輸入集代表一對應的磁碟並包含一特定無單位性能值與一無單位壽命值;H.反常規化每一輸出集以分別得到一性能極限與一目標壽命值;及I.為該些形成一儲存設備的磁碟設置一性能極限,以便每一磁碟在未來該段時間內具有的期望壽值不短於該目標壽命值。該方法可進一步包含一步驟J於步驟I後:J.為每一儲存設備配置一
工作負載,該工作負載具有的一性能需求匹配或低於該性能極限。
依照本發明,該性能資料可為延遲時間、流通量(Throughput)、中央處理器(Central Processing Unit,CPU)負載、記憶體使用量,或IOPS(Input/Output Per Second,每秒輸入/輸出操作次數)。該無單位性能值可將一性能資料值與所有性能資料值中最小者間的一第一差異值除以所有性能資料值中最大者與最小者間的一第二差異值而計算出。該無單位壽命值可將一壽命值與所有壽命值中的最大者間的一第三差異值除以所有壽命值中的最大者與最小者間的一第四差異值而計算出。該磁碟可為硬碟(Hard Disk Drive,HDD)或固態硬碟(Solid State Disk,SSD)。該些壽命值級別可均勻地分佈在所有壽命值中的最大者與最小者間的範圍內。該特定無單位性能值可由平均該組中在未來該段時間內該些預測的無單位性能值而得到。該歷史資料可來自系統日誌、應用程式日誌、資料庫日誌,或S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我監測分析和報告技術)日誌。步驟G中每一叢集的中央集可選為該輸出集。
本發明的另一種態樣是一種雲端服務系統。該系統包含:一主機,用於運作工作負載並執行資料存取;複數個磁碟,連接到該主機,用以儲存資料供工作負載存取;及一預期壽命延長模組,配置到或安裝於該主機,用以由歷史資料
中對每一磁碟蒐集性能資料;濾除性能資料,該些性能資料來自一故障的磁碟或一磁碟具有壽命值短於一預設值;依照壽命值級別,以對應的性能資料分組該些磁碟;常規化該些性能資料與壽命值為一無單位性能值與一無單位壽命值;對每一組中每一磁碟的無單位性能值執行LSTM建模演算法,以得到每一磁碟在未來一段時間內該無單位性能值的預測走勢;基於該組中該些無單位性能值的預測走勢,分別對每一組中所有的磁碟指定一特定無單位性能值;執行k-平均叢集演算法,以輸入集來得到輸出集,其中每一輸入集代表一對應的磁碟並包含一特定無單位性能值與一無單位壽命值;反常規化每一輸出集以分別得到一性能極限與一目標壽命值;及為該些形成一儲存設備的磁碟設置一性能極限,以便每一磁碟在未來該段時間內具有的期望壽值不短於該目標壽命值。該預期壽命延長模組可進一步用以為每一儲存設備配置一工作負載,該工作負載具有的一性能需求匹配或低於該性能極限。
依照本發明,該性能資料可為延遲時間、流通量、中央處理器負載、記憶體使用量,或IOPS。該無單位性能值可將一性能資料值與所有性能資料值中最小者間的一第一差異值除以所有性能資料值中最大者與最小者間的一第二差異值而計算出。該無單位壽命值可將一壽命值與所有壽命值中的最大者間的一第三差異值除以所有壽命值中的最大者與最小者間的一第四差異值而計算出。其中該磁碟可為硬碟或固態
硬碟。該些壽命值級別可均勻地分佈在所有壽命值中的最大者與最小者間的範圍內。該特定無單位性能值可由平均該組中在未來該段時間內該些預測的無單位性能值而得到。該歷史資料可來自系統日誌、應用程式日誌、資料庫日誌,或S.M.A.R.T.日誌。來自k-平均叢集演算法的每一叢集的中央集可選為該輸出集。
本發明使用LSTM建模及k-平均叢集演算法來找出性能極限與目標壽命值,以讓一叢集的磁碟可指定用於運行於雲端服務系統上的一特定工作負載。磁碟能被預測出其最小壽值,且可以滿足該工作負載的需求。此外,該最小壽值是該磁碟所能持續運作的最長壽命。
10‧‧‧雲端服務系統
100‧‧‧主機
101‧‧‧中央處理器
102‧‧‧記憶體
103‧‧‧預期壽命延長模組
201~230‧‧‧磁碟
第1圖為依照本發明,一種雲端儲存設備系統的示意圖。
第2圖為依照本發明,一種用於延長雲端服務系統中磁碟預期壽命值方法的流程圖。
第3圖為一顯示磁碟狀態的表單。
第4圖為一顯示分組結果的表單。
第5圖於上半部顯示一於過去時間內蒐集的無單位性能值的圖表,及於下半部顯示一未來24小時無單位性能值預測走勢的圖表。
第6圖顯示3個於一高組中磁碟的IOPS預測走勢。
第7圖為顯示輸入集分布的圖表。
本發明將藉由參照下列的實施方式而更具體地描述。
一種實現本發明的理想架構顯示於第1圖中。一雲端服務系統10包含一主機100與30個磁碟(該些磁碟依序由201到230編號,以供以下全面的說明之用)。主機100可以是一台伺服器,用來運作工作負載並為該工作負載執行資料存取。主機100是通過網際網路、區域網路(Local Area Network,LAN),或廣域網路(Wide Area Network,WAN),接收來自客戶端設備,如個人電腦、平板電腦,與智慧型手機,及其它遠端設備的需求的硬體。磁碟201到230連接到該主機100,用以儲存資料供工作負載存取。雖然本實施例中磁碟的數量為30個,但這不意味限制本發明的應用。事實上,只要能達到工作負載的需求,雲端服務系統10可以具有任何數量的磁碟。磁碟可以是硬碟(Hard Disk Drive,HDD)或固態硬碟(Solid State Disk,SSD)。在本實施例中,磁碟201到230都是固態硬碟。對本發明的應用而言,磁碟的型態應該一致。最好,磁碟的型號能相同(來自相同的製造商及具有一致的架構)。藉此,可以進行基於相同情況的統一比較。來自該提供方法的結果可以更精準。
主機100具有數個關鍵部件:一中央處理器(Central Processing Unit,CPU)101、一記憶體102,及一預期壽命延長模組103。中央處理器101負責主機100的運作。記憶體102可以是一個靜態隨機存取記憶體(Static Random Access Memory,SRAM)或動態隨機存取記憶體(Dynamic Random Access Memory,DRAM),用來暫時儲存資料或程式以運行雲端服務系統10。預期壽命延長模組103是實現本發明提供方法的設備,它配置到主機100中。預期壽命延長模組103的主要功能是由歷史資料中對每一磁碟蒐集性能資料;濾除性能資料,該些性能資料來自一故障的磁碟或一磁碟具有壽命值短於一預設值;依照壽命值級別,以對應的性能資料分組該些磁碟;常規化該些性能資料與壽命值為一無單位性能值與一無單位壽命值;對每一組中每一磁碟的無單位性能值執行LSTM(Long Short Term Memory)建模演算法,以得到每一磁碟在未來一段時間內該無單位性能值的預測走勢;基於該組中該些無單位性能值的預測走勢,分別對每一組中所有的磁碟指定一特定無單位性能值;執行k-平均叢集演算法,以輸入集來得到輸出集,其中每一輸入集代表一對應的磁碟並包含一特定無單位性能值與一無單位壽命值;反常規化每一輸出集以分別得到一性能極限與一目標壽命值;及為該些形成一儲存設備的磁碟設置一性能極限,以便每一磁碟在未來該段時間內具有的期望壽值不短於該目標壽命值。此外,預期
壽命延長模組103能進一步為每一儲存設備配置一工作負載,該工作負載具有的一性能需求匹配或低於該性能極限。這些功能將於之後配合本發明的方法而詳細地說明。應注意的是在其它實施例中,預期壽命延長模組可能是以軟體的型式,安裝於主機100(儲存於記憶體102中並由中央處理器101操作)中。在另外一些實施例中,預期壽命延長模組可以是獨立的設備並平行配置到主機100中。
請見第2圖,該圖為依照本發明,一種用於延長雲端服務系統10中磁碟預期壽命值方法的流程圖。該方法的第一步驟為由歷史資料中對雲端服務系統10中的每一磁碟蒐集性能資料(S01)。此處,該些性能資料能自雲端服務系統10的任何部件中蒐集,它們可不需要與磁碟的物理性能有關,但要和雲端服務系統10的一部分相關聯。舉例來說,性能資料可以是延遲時間、流通量、中央處理器負載、記憶體使用量或IOPS。歷史資料是過去連續蒐集的資料,包含性能資料、元資料或其它需要的資訊,它們可能來自系統日誌、應用程式日誌、資料庫日誌,或S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我監測分析和報告技術)日誌。這意味由上述的來源取得性能資料。在本實施例中,以IOPS來說明。此外,用於任一磁碟的性能資料是不可中斷的,比如於過去6個月連續且週期性地記錄,但漏失了第三個月中的某一周的性能資料,這樣是不行的。對中斷紀錄的性能資料
來說是沒有意義的,因為無法找出該性能的輸入/輸出模式。
接著,第二步驟為濾除性能資料,該些性能資料來自一故障的磁碟或一磁碟具有壽命值短於一預設值(S02)。為了有較好的理解,請參閱第3圖,該圖為一顯示磁碟201到230狀態的表單。很明顯地,由第3圖可知在分析進行的瞬間,某些磁碟的狀態是“故障的”。故障的磁碟可能是全然地失效等待更換,也可指的是具有較差性能的磁碟,諸如具有超過一定程度的死塊(dead blocks)或很容易過熱的磁碟。磁碟221到225被判定為“故障的”而無法由本發明所應用。剩餘的磁碟都是好的。然而,對所有磁碟來說紀錄的壽命值都不盡相同。壽命值指的是磁碟至今正常運作時間(天數),它可以繼續工作一段長時間或可能很快故障。壽命值(lifespan)不同於壽值(lifetime),後者定義為一磁碟在故障前所能工作的所有時間。易言之,壽值是一個確定的值而壽命值其範圍隨時會變動。除了來自“故障的”磁碟的性能資料無法使用,來自好的磁碟的性能資料但蒐集時間太短(壽命值)也不具代表性。壽命值短到如何的程度而導致該磁碟的資料不具代表性並不為本發明所限制。在本實施例中,將具有的壽命值短於50天的磁碟去除不用。因此,放棄使用磁碟226到230。
下一步驟是依照壽命值級別,以對應的性能資料分組該些磁碟(好的且具有壽命值長於50天的)(S03)。請見第
4圖,該圖為一顯示分組結果的表單。分組(grouping)或分級(binning),是一種資料預先處理技術,用來減少次要觀測誤差效應。組的數量不限制。在本實施例中,組的數量為5組,它們被分成較高、高、中等,低,與較低。在其它實施例中,組的數量可以是3組且分成高、中等,及低。壽命值級別是兩鄰近組的界限值。最好,該些壽命值級別均勻地分佈在所有壽命值中的最大者與最小者間的範圍內。此處,壽命值級別設定為122、187、252,及317(天)。藉此,由第4圖可知,磁碟214是在較高組中,磁碟213、215與208是在高組中,磁碟218、203、219,與204是在中等組中,磁碟216、201、220、212、211,217及202是在低組中,磁碟205、210、209、206,與207是在較低組中。性能資料與對應的磁碟歸類到前述各組的一組中。
本方法的第四步驟是常規化該些性能資料與壽命值為一無單位性能值與一無單位壽命值(S04)。依照本發明,無單位性能值由將一性能資料值與所有性能資料值中最小者間的一第一差異值除以所有性能資料值中最大者與最小者間的一第二差異值而計算出。而無單位壽命值由將一壽命值與所有壽命值中的最大者間的一第三差異值除以所有壽命值中的最大者與最小者間的一第四差異值而計算出。兩者的計算是類似的,但應用目標不同。請見第4圖。以壽命值的常規化作為例子。在第4圖中,所有壽命值中最小者為56,最大者為
382。第四差異值為326(由382減56而獲得)。對磁碟216來說,它的壽命值是154,第三差異值是98(由154減56而獲得)而無單位壽命值是0.301(由98除以326而獲得)。
接著,對每一組中每一磁碟的無單位性能值執行LSTM(Long Short Term Memory)建模演算法,以得到每一磁碟在未來一段時間內該無單位性能值的預測走勢(S05)。LSTM建模演算法是人工神經網絡(Artificial Neural Network,ANN)的一種類型,它每一個節點有特殊設計,適合預測長期數據的趨勢。LSTM建模演算法的詳細設計不是本發明之重點,任何的LSTM建模演算法都可應用,雖然其導出結果有某種程度的差異。請見第5圖,該圖於上半部顯示一於過去時間內蒐集的無單位性能值的圖表,及於下半部顯示一未來24小時無單位性能值預測走勢的圖表。二圖表是用於相同的磁碟,如在高組中的磁碟208。上半部圖中實線上的每一點是磁碟208的IOPS的紀錄。蒐集資料的間隔可能是5分鐘、10分鐘、30分鐘,或一小時,本發明並未限定之。下半部圖中的虛線顯示IOPS在未來24小時的預測走勢。有20個磁碟用來進行分析,在未來該段時間內無單位性能值預測走勢的圖就有20幅。
接著,基於該組中該些無單位性能值的預測走勢,分別對每一組中所有的磁碟指定一特定無單位性能值(S06)。應注意的是因為本發明的目的在預測磁碟在未來該段時間內
的預期壽命值,並配置最佳磁碟組合給不同的工作負載已延長所有磁碟的壽命值,其結果對磁碟來說,應於“未來該段時間”內可行。舉例來說,未來該段時間可指接下來的1小時、接下來的6小時、首6小時後的接下來的1小時等等。因此,該指定的特定無單位性能值可隨”未來該段時間”之不同定義而改變。為了對步驟S06有較佳理解,請參閱第6圖,該圖顯示3個於高組中磁碟的IOPS預測走勢。為了對接下來的6小時以本方法找出結果,分別由該些圖表中取樣3個預測的值(黑點)。特定無單位性能值由平均高組中第6小時(在接下來的6小時中任一時點都可被使用)該些預測的無單位性能值而獲得。如第4圖所示為0.43。對其它的組而言,特定無單位性能值也給定於第4圖中。當然,其它方式,如加權平均值或幾何平均值也可以用來找出該特定無單位性能值,本發明並未限定之。
本方法的第7步驟是執行k-平均叢集(k-means clustering)演算法,以輸入集來得到輸出集(S07)。此處,每一輸入集代表一對應的磁碟並包含一特定無單位性能值與一無單位壽命值。第7圖為顯示輸入集分布的圖表。橫軸值為特定無單位性能值(基於IOPS),縱軸值為無單位壽命值。輸入集由實心菱形所標示。在運算之後,k-平均叢集演算法可將輸入集分為3個或更多的叢集(在本實施例中,使用3個叢集)而不論每一輸入集可能屬於哪一組。步驟S07中每一叢集的中
央集被選作該輸出集。如第7圖所示,每一叢集的輸出集由一空心圓形所標示。
接著的步驟為反常規化每一輸出集以分別得到一性能極限與一目標壽命值(S08)。在步驟S08中,反常規化意味將輸出集中的值乘以對應的第二差異值與第四差異值,並加上各自的最小值,以得到一IOPS值與一壽命值。對高IOPS與高壽命值叢集而言,性能極限為1542的IOPS與284天的壽命值。對中等IOPS與較短壽命值叢集而言,性能極限為1150的IOPS與85天的壽命值。對於低IOPS與中等壽命值叢集而言,性能極限為544的IOPS與147天的壽命值。接著,為該些形成一儲存設備的磁碟設置一性能極限,以便每一磁碟在未來該段時間內具有的期望壽值不短於該目標壽命值(S09)。此處使用的“儲存設備”同於“叢集”,也就是數個磁碟連接起來用於特定的工作負載,勿與k-平均叢集演算法中的”叢集”混淆。如果一儲存設備中的磁碟設定具有1542的IOPS性能極限,這意味當具有最低IOPS低於1542的一工作負載應用時,該儲存設備中每一磁碟具有期望壽值284天。
當所有磁碟都設定了性能極限,本方法的最後一步驟為為每一儲存設備(數個磁碟)配置一工作負載,該工作負載具有的一性能需求匹配或低於該性能極限(S10)。在這樣的情況下,該些磁碟能被預測具有一最小壽值且工作負載(IOPS)的需求可以被滿足。此外,該最小壽值是磁碟能維
持運作的最長壽命。然而,要強調的是步驟S09的結果僅在“未來該段時間”內成立。當“未來該段時間”的定義改變,比如從接下來1小時改為6小時,步驟S09的結果也會隨之改變。儲存設備中的磁碟配置是動態的。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
Claims (20)
- 一種用於延長雲端服務系統中磁碟預期壽命值的方法,包含步驟:A.由歷史資料中對一雲端服務系統中的每一磁碟蒐集性能資料,以產生複數個性能資料;B.將來自一故障的磁碟或一具有壽命值短於一預設值的磁碟之性能資料從步驟A所蒐集到的該複數個性能資料中濾除;C.依照壽命值級別,以對應的性能資料分組該些磁碟;D.將性能資料與壽命值常規化為一無單位性能值與一無單位壽命值;E.對每一組中每一磁碟的無單位性能值執行LSTM(Long Short Term Memory)建模演算法,以得到每一磁碟在未來一段時間內該無單位性能值的預測走勢;F.基於該組中該些無單位性能值的預測走勢,分別對每一組中所有的磁碟指定一特定無單位性能值;G.執行k-平均叢集(k-means clustering)演算法,以輸入集來得到輸出集,其中每一輸入集代表一對應的磁碟並包含一特定無單位性能值與一無單位壽命值;H.反常規化每一輸出集以分別得到一性能極限與一目標壽命值;及I.為形成一儲存設備的該些磁碟設置一性能極限,以便每 一磁碟在未來該段時間內具有的期望壽值不短於該目標壽命值。
- 如申請專利範圍第1項所述之方法,進一步包含一步驟J於步驟I後:J.為每一儲存設備配置一工作負載,該工作負載具有的一性能需求匹配或低於該性能極限。
- 如申請專利範圍第1項所述之方法,其中該性能資料為延遲時間、流通量(Throughput)、中央處理器(Central Processing Unit,CPU)負載、記憶體使用量,或IOPS(Input/Output Per Second,每秒輸入/輸出操作次數)。
- 如申請專利範圍第1項所述之方法,其中該無單位性能值由將一性能資料值與所有性能資料值中最小者間的一第一差異值除以所有性能資料值中最大者與最小者間的一第二差異值而計算出。
- 如申請專利範圍第1項所述之方法,其中該無單位壽命值由將一壽命值與所有壽命值中的最大者間的一第三差異值除以所有壽命值中的最大者與最小者間的一第四差異值而計算出。
- 如申請專利範圍第1項所述之方法,其中該磁碟為硬碟(Hard Disk Drive,HDD)或固態硬碟(Solid State Disk,SSD)。
- 如申請專利範圍第1項所述之方法,其中該些壽命值級別均勻地分佈在所有壽命值中的最大者與最小者間的範圍 內。
- 如申請專利範圍第1項所述之方法,其中該特定無單位性能值由平均該組中在未來該段時間內該些預測的無單位性能值而得到。
- 如申請專利範圍第1項所述之方法,其中該歷史資料來自系統日誌、應用程式日誌、資料庫日誌,或S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我監測分析和報告技術)日誌。
- 如申請專利範圍第1項所述之方法,其中步驟G中每一叢集的中央集選為該輸出集。
- 一種雲端服務系統,包含:一主機,用於運作工作負載並執行資料存取;複數個磁碟,連接到該主機,用以儲存資料供工作負載存取;及一預期壽命延長模組,配置到或安裝於該主機,用以由歷史資料中對每一磁碟蒐集性能資料,以產生複數個性能資料;將來自一故障的磁碟或一具有壽命值短於一預設值的磁碟之性能資料從所蒐集到的該複數個性能資料中濾除;依照壽命值級別,以對應的性能資料分組該些磁碟;將性能資料與壽命值常規化為一無單位性能值與一無單位壽命值;對每一組中每一磁碟的無單位性能值執行LSTM建模演算法,以得到每一磁碟在 未來一段時間內該無單位性能值的預測走勢;基於該組中該些無單位性能值的預測走勢,分別對每一組中所有的磁碟指定一特定無單位性能值;執行k-平均叢集演算法,以輸入集來得到輸出集,其中每一輸入集代表一對應的磁碟並包含一特定無單位性能值與一無單位壽命值;反常規化每一輸出集以分別得到一性能極限與一目標壽命值;及為形成一儲存設備的該些磁碟設置一性能極限,以便每一磁碟在未來該段時間內具有的期望壽值不短於該目標壽命值。
- 如申請專利範圍第11項所述之雲端服務系統,其中該預期壽命延長模組進一步用以為每一儲存設備配置一工作負載,該工作負載具有的一性能需求匹配或低於該性能極限。
- 如申請專利範圍第11項所述之雲端服務系統,其中該性能資料為延遲時間、流通量、中央處理器負載、記憶體使用量,或IOPS。
- 如申請專利範圍第11項所述之雲端服務系統,其中該無單位性能值由將一性能資料值與所有性能資料值中最小者間的一第一差異值除以所有性能資料值中最大者與最小者間的一第二差異值而計算出。
- 如申請專利範圍第11項所述之雲端服務系統,其中該無單位壽命值由將一壽命值與所有壽命值中的最大者間的一 第三差異值除以所有壽命值中的最大者與最小者間的一第四差異值而計算出。
- 如申請專利範圍第11項所述之雲端服務系統,其中該磁碟為硬碟或固態硬碟。
- 如申請專利範圍第11項所述之雲端服務系統,其中該些壽命值級別均勻地分佈在所有壽命值中的最大者與最小者間的範圍內。
- 如申請專利範圍第11項所述之雲端服務系統,其中該特定無單位性能值由平均該組中在未來該段時間內該些預測的無單位性能值而得到。
- 如申請專利範圍第11項所述之雲端服務系統,其中該歷史資料來自系統日誌、應用程式日誌、資料庫日誌,或S.M.A.R.T.日誌。
- 如申請專利範圍第11項所述之雲端服務系統,其中來自k-平均叢集演算法的每一叢集的中央集選為該輸出集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105134472A TWI587152B (zh) | 2016-10-26 | 2016-10-26 | 用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105134472A TWI587152B (zh) | 2016-10-26 | 2016-10-26 | 用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI587152B true TWI587152B (zh) | 2017-06-11 |
TW201816625A TW201816625A (zh) | 2018-05-01 |
Family
ID=59687967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105134472A TWI587152B (zh) | 2016-10-26 | 2016-10-26 | 用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI587152B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101395A (zh) * | 2018-07-27 | 2018-12-28 | 曙光信息产业(北京)有限公司 | 一种基于lstm的高性能计算集群应用监控方法及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352799A (zh) * | 2020-02-20 | 2020-06-30 | 中国银联股份有限公司 | 一种巡检方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200901025A (en) * | 2007-03-08 | 2009-01-01 | Nec Lab America Inc | Method and system for a self managing and scalable grid storage |
TW201510725A (zh) * | 2009-01-23 | 2015-03-16 | Infortrend Technology Inc | 執行儲存虛擬化之儲存子系統及儲存系統架構及其方法 |
-
2016
- 2016-10-26 TW TW105134472A patent/TWI587152B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200901025A (en) * | 2007-03-08 | 2009-01-01 | Nec Lab America Inc | Method and system for a self managing and scalable grid storage |
TW201510725A (zh) * | 2009-01-23 | 2015-03-16 | Infortrend Technology Inc | 執行儲存虛擬化之儲存子系統及儲存系統架構及其方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101395A (zh) * | 2018-07-27 | 2018-12-28 | 曙光信息产业(北京)有限公司 | 一种基于lstm的高性能计算集群应用监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
TW201816625A (zh) | 2018-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10248332B2 (en) | Method for extending life expectancy of disks in cloud-based service system and system using the same | |
US20180032405A1 (en) | Method for data protection for cloud-based service system | |
US10606722B2 (en) | Method and system for diagnosing remaining lifetime of storages in data center | |
CN109558287B (zh) | 一种固态硬盘寿命预测方法、装置和系统 | |
US10147048B2 (en) | Storage device lifetime monitoring system and storage device lifetime monitoring method thereof | |
US20150205657A1 (en) | Predicting failure of a storage device | |
CN104699807A (zh) | 一种oracle数据表空间的自动监控扩容方法 | |
CN107392320A (zh) | 一种使用机器学习预测硬盘故障的方法 | |
US9396061B1 (en) | Automated repair of storage system components via data analytics | |
WO2017184157A1 (en) | Determining the health of a storage drive | |
CN108021484B (zh) | 云端服务系统中磁盘预期寿命值的延长方法及其系统 | |
Huang et al. | Characterizing disk failures with quantified disk degradation signatures: An early experience | |
US11734103B2 (en) | Behavior-driven die management on solid-state drives | |
Li et al. | ProCode: A proactive erasure coding scheme for cloud storage systems | |
TWI587152B (zh) | 用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統 | |
Zhang et al. | Multi-view feature-based {SSD} failure prediction: What, when, and why | |
US9892014B1 (en) | Automated identification of the source of RAID performance degradation | |
EP3202091B1 (en) | Operation of data network | |
Li et al. | Understanding data survivability in archival storage systems | |
Zhou et al. | A disk failure prediction method based on active semi-supervised learning | |
TWI751580B (zh) | 儲存空間暫存檔案的管理方法及用於儲存多個暫存檔案的記錄裝置 | |
CN115617604A (zh) | 基于图像模式匹配的磁盘故障预测方法及系统 | |
Bayram et al. | Improving reliability with dynamic syndrome allocation in intelligent software defined data centers | |
CN109800134A (zh) | 一种诊断数据中心储存设备的剩余寿命的方法和系统 | |
Yan et al. | Analysis of energy consumption of deduplication in storage systems |