JP2008250566A - ディスクアレイ装置、該装置の運用方法、およびプログラム - Google Patents
ディスクアレイ装置、該装置の運用方法、およびプログラム Download PDFInfo
- Publication number
- JP2008250566A JP2008250566A JP2007089703A JP2007089703A JP2008250566A JP 2008250566 A JP2008250566 A JP 2008250566A JP 2007089703 A JP2007089703 A JP 2007089703A JP 2007089703 A JP2007089703 A JP 2007089703A JP 2008250566 A JP2008250566 A JP 2008250566A
- Authority
- JP
- Japan
- Prior art keywords
- disk
- smart information
- hard
- disks
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
- G06F11/1662—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
【課題】例えばハードディスクの製造メーカや型番の違いなど、各ディスクによって故障可能性に個体差がある場合であっても、故障可能性の高いディスクを確実に判別し、運用するRAIDから外してホットスペアディスクとして待機させるようにすることで、ディスクアレイ装置としての故障可能性を低く保つことができるようにする。
【解決手段】各ディスクが持つスマート情報を元にして各ディスクの故障可能性を求め、故障可能性の低いディスクを運用中であるRAIDを構成するディスクに割り当て、故障可能性の高いディスクをRAIDから外してホットスペアディスクとして待機させることにより、常に故障可能性の低いディスクでRAIDが構成されている状態とし、ディスクアレイ装置の故障可能性を低く保つ。
【選択図】図4
【解決手段】各ディスクが持つスマート情報を元にして各ディスクの故障可能性を求め、故障可能性の低いディスクを運用中であるRAIDを構成するディスクに割り当て、故障可能性の高いディスクをRAIDから外してホットスペアディスクとして待機させることにより、常に故障可能性の低いディスクでRAIDが構成されている状態とし、ディスクアレイ装置の故障可能性を低く保つ。
【選択図】図4
Description
本発明は、ホットスペアディスクを備えることで信頼性を高めたディスクアレイ装置、該装置の運用方法、およびプログラムに関する。
一般に、ディスクアレイ装置におけるホットスペアディスクは、RAID(Redundant Array of Inexpensive Disks)を構成しているディスクが故障するまでの間は待機状態であり、故障が起きた時に、ホットスペアディスクを運用中のディスクと入れ替えるようになっている。
また、従来のディスクアレイ装置として、各ディスクの通電時間を元に定期的にホットスペアディスクの入れ替えを行うものがある。すなわち、ディスク制御部にて各ディスクの通電時間の管理を行い、最も通電時間の長いディスクがホットスペアディスクとなるように入れ替えを行うようになっている(例えば、特許文献1参照)。
また、各磁気ディスクの累積回転時間を元に、その累積回転時間を平均化するようにしたものがある(例えば、特許文献2参照)。
特開2000−293315号公報
特開平8−190762号公報
しかしながら、上述した従来のディスクアレイ装置では、故障が発生してから運用ディスクの入れ替えを行うため、故障が起きてから入れ替え処理が終わるまでの間はRAIDの冗長性が低下または失われるという問題があった。
また、RAIDを構成しているハードディスクのみが運用時間が長くなって故障可能性が高くなっていくのにもかかわらず、ホットスペアディスクは待機状態で新品同様のままであるという問題があった。
また、上述した特許文献1、2のものでは、例えばハードディスクの製造メーカや型番の違いなど、各ディスクの個体差による故障可能性のばらつきは考慮していないため、故障しやすいディスクと故障しにくいディスクの個体差が大きい場合は、通電時間や累積回転時間が短いハードディスクの方がより長いディスクよりも早く故障を起こすこともあり得、結果としてディスクアレイ装置としての故障可能性を低くする効果が小さくなってしまう虞があった。
本発明はこのような状況に鑑みてなされたものであり、例えばハードディスクの製造メーカや型番の違いなど、各ディスクによって故障可能性に個体差がある場合であっても、故障可能性の高いディスクを確実に判別し、運用するRAIDから外してホットスペアディスクとして待機させるようにすることで、ディスクアレイ装置としての故障可能性を低く保つことができるディスクアレイ装置、該装置の運用方法、およびプログラムを提供することを目的とする。
かかる目的を達成するために、本発明に係るディスクアレイ装置は、RAIDを構成する複数のハードディスクと、ホットスペアディスクとして予め定められた台数のハードディスクとを備えたディスクアレイ装置であって、上記ディスクアレイ装置に含まれるハードディスクのスマート情報を読み取るスマート情報読取手段と、上記スマート情報読取手段により読み取られた各ハードディスクのスマート情報に基づいて、故障可能性の高い順に上記予め定められた台数のハードディスクをホットスペアディスクとして割り当てるディスク制御手段と、を備えたことを特徴とする。
複数のハードディスクにより構成されるRAIDが複数設けられ、各RAIDへのアクセス頻度情報を取得するアクセス頻度取得手段を備え、上記ディスク制御手段は、上記アクセス頻度取得手段により取得された各RAIDへのアクセス頻度情報および、上記スマート情報読取手段により読み取られた各ハードディスクのスマート情報に基づいて、アクセス頻度が高いRAIDから順に、故障可能性の低いハードディスクを順次割り当て、最も故障可能性の高い順に上記予め定められた台数のハードディスクをホットスペアディスクとして割り当てることが好ましい。
上記ディスク制御手段は、ホットスペアディスクに割り当てるハードディスクの見直しを行う際、上記スマート情報読取手段により読み取られた各ハードディスクのスマート情報に基づいて、各ハードディスクについての最短の故障予想時刻を算出し、該故障予想時刻までの残り時間が最も短いものをホットスペアディスクとすることが好ましい。
上記スマート情報読取手段は、予め定められた一定の時間間隔で各ハードディスクのスマート情報を読み取ることが好ましい。
また、本発明に係るディスクアレイ装置の運用方法は、RAIDを構成する複数のハードディスクと、ホットスペアディスクとして予め定められた台数のハードディスクとを備えたディスクアレイ装置の運用方法であって、上記ディスクアレイ装置に含まれるハードディスクのスマート情報を読み取るスマート情報読取工程と、上記スマート情報読取工程により読み取られた各ハードディスクのスマート情報に基づいて、故障可能性の高い順に上記予め定められた台数のハードディスクをホットスペアディスクとして割り当てるディスク制御工程と、を備えたことを特徴とする。
上記ディスクアレイ装置には、複数のハードディスクにより構成されるRAIDが複数設けられ、各RAIDへのアクセス頻度情報を取得するアクセス頻度取得工程を備え、上記ディスク制御工程では、上記アクセス頻度取得工程により取得された各RAIDへのアクセス頻度情報および、上記スマート情報読取工程により読み取られた各ハードディスクのスマート情報に基づいて、アクセス頻度が高いRAIDから順に、故障可能性の低いハードディスクを順次割り当て、最も故障可能性の高い順に上記予め定められた台数のハードディスクをホットスペアディスクとして割り当てることが好ましい。
上記ディスク制御工程では、ホットスペアディスクに割り当てるハードディスクの見直しを行う際に、上記スマート情報読取工程により読み取られた各ハードディスクのスマート情報に基づいて、各ハードディスクについての最短の故障予想時刻を算出し、該故障予想時刻までの残り時間が最も短いものをホットスペアディスクとすることが好ましい。
上記スマート情報読取工程では、予め定められた一定の時間間隔で各ハードディスクのスマート情報を読み取ることが好ましい。
また、本発明に係るディスクアレイ装置の運用プログラムは、RAIDを構成する複数のハードディスクと、ホットスペアディスクとして予め定められた台数のハードディスクとを備えたディスクアレイ装置の運用プログラムであって、上記ディスクアレイ装置に含まれるハードディスクのスマート情報を読み取るスマート情報読取処理と、上記スマート情報読取処理により読み取られた各ハードディスクのスマート情報に基づいて、故障可能性の高い順に上記予め定められた台数のハードディスクをホットスペアディスクとして割り当てるディスク制御処理と、をコンピュータに実行させることを特徴とする。
上記ディスクアレイ装置には、複数のハードディスクにより構成されるRAIDが複数設けられ、各RAIDへのアクセス頻度情報を取得するアクセス頻度取得処理をコンピュータにさらに実行させ、上記ディスク制御処理では、上記アクセス頻度取得処理により取得された各RAIDへのアクセス頻度情報および、上記スマート情報読取処理により読み取られた各ハードディスクのスマート情報に基づいて、アクセス頻度が高いRAIDから順に、故障可能性の低いハードディスクを順次割り当て、最も故障可能性の高い順に上記予め定められた台数のハードディスクをホットスペアディスクとして割り当てることが好ましい。
上記ディスク制御処理では、ホットスペアディスクに割り当てるハードディスクの見直しを行う際に、上記スマート情報読取処理により読み取られた各ハードディスクのスマート情報に基づいて、各ハードディスクについての最短の故障予想時刻を算出し、該故障予想時刻までの残り時間が最も短いものをホットスペアディスクとすることが好ましい。
上記スマート情報読取処理では、予め定められた一定の時間間隔で各ハードディスクのスマート情報を読み取ることが好ましい。
以上のように、本発明によれば、例えばハードディスクの製造メーカや型番の違いなど、各ディスクによって故障可能性に個体差がある場合であっても、故障可能性の高いディスクを確実に判別し、運用するRAIDから外してホットスペアディスクとして待機させるようにすることで、ディスクアレイ装置としての故障可能性を低く保つことができる。
次に、本発明に係るディスクアレイ装置、該装置の運用方法、およびプログラムを適用した一実施形態について、図面を用いて詳細に説明する。
まず、本実施形態の主要な特徴について説明する。
まず、本実施形態の主要な特徴について説明する。
本実施形態は、ホットスペアディスクを有するディスクアレイ装置において、個々のハードディスクの持つスマート情報を元に最も故障可能性の高いディスクを選び、自動的にホットスペアディスクに変更して待機状態にすることにより、ディスクアレイ装置全体の故障可能性を低い状態に保つようにしたことを特徴としている。
また、待機状態のホットスペアディスクはディスクアレイ装置内で最も故障可能性の高いディスクであるため、定期的なメンテナンスでホットスペアディスクを交換する事により、その都度のデータの退避・復旧作業を行わずにディスクアレイ装置全体の故障可能性を低い状態に保つようにしたことを特徴としている。
図1において、ディスクアレイ装置(1)は、ディスク制御部(10)およびディスクエンクロージャ(30)から構成されており、接続されたホストコンピュータ(40)によりデータのリードおよびライトが行われる。ディスク制御部(10)はホットスペアディスク選定論理部(20)を有し、ディスクエンクロージャ(30)内の個々のディスクからスマート情報を読み取り、その情報を用いてホットスペアディスク(32)を選定する。(スマート情報読取手段、およびディスク制御手段)
スマート情報とは、ハードディスクに組み込まれている機能であるSelf-Monitoring, Analysis and Reporting Technology、略称S.M.A.R.T.から得られる情報で、多くのハードディスクがこの機能を有している。
ハードディスクからこのスマート情報を読み出すことで、ハードディスクの累計の通電時間や内部温度、内部エラー頻度、代替セクタ数、磁気ヘッドの退避回数などの各種情報が得られるため、これらの値の変化を監視する事で、ハードディスクの残寿命や故障確率を計算することができる。
ハードディスクからこのスマート情報を読み出すことで、ハードディスクの累計の通電時間や内部温度、内部エラー頻度、代替セクタ数、磁気ヘッドの退避回数などの各種情報が得られるため、これらの値の変化を監視する事で、ハードディスクの残寿命や故障確率を計算することができる。
ディスクエンクロージャ(30)は、RAIDを構成する複数のハードディスクからなるRAIDディスク部(31)と、RAIDに組み入れない状態で待機しているホットスペアディスク(32)で構成されており、ディスク制御部(10)により任意のハードディスクをRAID構成またはホットスペアディスクとすることが出来る。
また、ディスクエンクロージャ(30)は個々のディスクの状態を示すスマート情報をディスク制御部(10)に伝える機能を有する。
また、ディスクエンクロージャ(30)は個々のディスクの状態を示すスマート情報をディスク制御部(10)に伝える機能を有する。
ホットスペアディスク選定論理部(20)は、一定間隔で、ディスクエンクロージャ(30)から個々のディスクのスマート情報を受け取り、スマート情報に含まれる各ディスクの使用時間や内部エラー率の変化量の情報から故障可能性を計算し、その時点で最も故障可能性の高いディスクをホットスペアディスク(32)に変更し、待機状態とする。
このようにして、本実施形態では、一定間隔で、個々のディスクのスマート情報を読み取り、その時点で最も故障可能性の高いディスクをホットスペアディスクに変更して待機状態に変更することにより、常に故障可能性のより低いディスクでRAIDを構成する状態を保つことができ、ディスクアレイ装置全体の故障確率を低く保つことができるようにしている。
さらには、定期的なメンテナンスで、最も故障可能性の高いディスクであるホットスペアディスクを交換する事により、その都度のデータの退避・復旧作業を行わずにディスクアレイ装置全体の故障可能性を低い状態に保つようにしている。
次に、本実施形態の構成について、図1を参照して詳細に説明する。
図1に示すように、ディスクアレイ装置(1)は、ディスク制御部(10)およびディスクエンクロージャ(30)が接続されて構成されており、このディスクアレイ装置(1)に接続されたホストコンピュータ(40)により、データのリードおよびライトが行われる。
図1に示すように、ディスクアレイ装置(1)は、ディスク制御部(10)およびディスクエンクロージャ(30)が接続されて構成されており、このディスクアレイ装置(1)に接続されたホストコンピュータ(40)により、データのリードおよびライトが行われる。
ディスク制御部(10)は、ホットスペアディスク選定論理部(20)を有しており、ディスクエンクロージャ(30)内の個々のディスクからスマート情報を読み取り、その情報を用いてホットスペアディスク(32)を選定する。
ディスクエンクロージャ(30)は、RAIDが構成されているRAIDディスク部(31)と、RAIDディスク部(31)に組み入れない状態で待機しているホットスペアディスク(32)で構成されており、ディスク制御部(10)の制御により任意のディスクをRAID構成またはホットスペアディスクとすることが出来る。
また、ディスクエンクロージャ(30)は、個々のディスクの状態を示すスマート情報をディスク制御部(10)に伝える機能を有する。
また、ディスクエンクロージャ(30)は、個々のディスクの状態を示すスマート情報をディスク制御部(10)に伝える機能を有する。
ホットスペアディスク選定論理部(20)は、予め定められた一定の時間間隔で、ディスクエンクロージャ(30)から個々のディスクのスマート情報を受け取り、スマート情報に含まれる各ディスクの使用時間や内部エラー率の変化量の情報から故障可能性を計算し、その時点で最も故障可能性の高いディスクをホットスペアディスク(32)に変更し、待機状態とする。
このように、本実施形態としてのディスクアレイ装置は、ディスクエンクロージャ(30)内の各ディスクに対してデータの読み書きを行うディスク制御部(10)と、複数のディスクと接続されていて任意の組み合わせでのRAIDの構成やホットスペアディスクの割り当てが出来るディスクエンクロージャ(30)を有する。そして、ディスク制御部(10)は、各ディスクのスマート情報を読み取り、他より故障可能性の高いディスクをホットスペアディスクに選ぶホットスペアディスク選定論理部(20)を有している。
ホットスペアディスク選定論理部(20)は、スマート情報を元に各ディスクの故障可能性を計算し、最も故障可能性の高いディスクをホットスペアディスクとして選択する。
ディスク制御部(10)は、ディスクエンクロージャ(30)内の個々のディスクを制御する機能を有し、任意ディスクの組み合わせでRAIDディスク部(31)を構成することが出来、任意のディスクをホットスペアディスクとする機能を有している。
RAIDディスク部(31)を構成している複数のハードディスク内で故障が発生した場合は、故障したディスクをRAIDディスク部(31)から外し、ホットスペアディスク(32)の中で最も故障可能性の低い1台が新たにRAIDディスク部(31)へ組み入れられる。
RAIDディスク部(31)を構成している複数のハードディスク内で故障が発生した場合は、故障したディスクをRAIDディスク部(31)から外し、ホットスペアディスク(32)の中で最も故障可能性の低い1台が新たにRAIDディスク部(31)へ組み入れられる。
次に、本実施形態としてのディスクアレイ装置の動作について説明する。
ディスクアレイ装置(1)が正常に運用されている場合、ホットスペアディスク選定論理部(20)はディスクエンクロージャ(30)内の全てのディスクのスマート情報を一定時間ごとに収集する。この情報収集間隔は、例えば一週間に一度程度であってもよい。
ディスクアレイ装置(1)が正常に運用されている場合、ホットスペアディスク選定論理部(20)はディスクエンクロージャ(30)内の全てのディスクのスマート情報を一定時間ごとに収集する。この情報収集間隔は、例えば一週間に一度程度であってもよい。
ディスク制御部(10)は、各ディスクごとに過去のスマート情報と照らし合わせてその変化率を求め、そのディスクの故障可能性を求める。たとえば、新品時のMTBF(平均故障間隔)が分かっている場合は、スマート情報内の累計通電時間から、図2のようにして、故障予想時刻を求めることができる。
内部エラー頻度を用いる場合は、エラー頻度の変化履歴と、故障と判断するための故障頻度の上限値を用いて、図3のようにして故障予想時刻を求める事ができる。その他、ディスクのヘッド退避回数など、ディスクを稼動させると変化していく値とその上限値または下限値を用いる場合も同様にして故障予想時刻を求めることができる。
内部エラー頻度を用いる場合は、エラー頻度の変化履歴と、故障と判断するための故障頻度の上限値を用いて、図3のようにして故障予想時刻を求める事ができる。その他、ディスクのヘッド退避回数など、ディスクを稼動させると変化していく値とその上限値または下限値を用いる場合も同様にして故障予想時刻を求めることができる。
このように、本実施形態では、ハードディスクのスマート情報を用い、ディスクアレイ装置に含まれるハードディスク1台ごとに、スマート情報の各値の時間経過による変化と、メーカやディスクアレイベンダの設定した閾値を元に、ハードディスクの残寿命を予測する。
具体的には、図2、図3に例示するように、時間経過をX軸、各パラメータをY軸とするグラフを作成し、各パラメータの時間変化を近似する1次関数を求め、その1次関数と各パラメータの上限値(または下限値)との交点を求め、その交点における時間を故障予測時刻としている。
パラメータは1個ないし複数を用いることができ、複数のパラメータを用いる場合は、最も故障予測時刻が早い(残寿命が短い)値をそのハードディスクの残寿命(故障予想時刻までの残り時間)としている。
パラメータは1個ないし複数を用いることができ、複数のパラメータを用いる場合は、最も故障予測時刻が早い(残寿命が短い)値をそのハードディスクの残寿命(故障予想時刻までの残り時間)としている。
各パラメータの上限値・下限値には、ハードディスクメーカが各ハードディスク個別にスマート情報に登録してある閾値を用いることができる。
ハードディスクメーカや型番によってこの設定値を決定する基準が異なるため、場合によって、ディスクアレイ装置(1)にユーザが設定入力を行うことで、この値を補正してより条件を厳しくしたり、または緩和したりすることもできる。
通常、ハードディスクの型番やメーカ名は、SCSI(Small Computer System Interface)コマンド等で読み出し可能である。
ハードディスクメーカや型番によってこの設定値を決定する基準が異なるため、場合によって、ディスクアレイ装置(1)にユーザが設定入力を行うことで、この値を補正してより条件を厳しくしたり、または緩和したりすることもできる。
通常、ハードディスクの型番やメーカ名は、SCSI(Small Computer System Interface)コマンド等で読み出し可能である。
本実施形態では、以上のようにして故障予想時刻を算出するため、ディスクアレイ装置に含まれるハードディスクに、メーカや型番の異なるハードディスクが混在していても、個別のハードディスクの故障予想時刻を正しく予測することができる。
このようにして、ホットスペアディスク選定論理部(20)は、各ディスクについて、スマート情報の中の一つまたは複数の情報を元に最短の故障予想時刻を算出し、ホットスペアディスクに割り当てるハードディスクの見直しを行う際に、故障予想時刻までの残り時間が最も短いものを新たなホットスペアディスクとする。
ホットスペアディスクを複数台設ける場合は、故障予想時刻までの時間が短いものから順に、予め指定された台数分をホットスペアディスクとする。
ホットスペアディスクを複数台設ける場合は、故障予想時刻までの時間が短いものから順に、予め指定された台数分をホットスペアディスクとする。
前回選定されたホットスペアディスクと今回選定されたホットスペアディスクが異なる場合は、今回新たにホットスペアディスクに選定されたディスクの内容を、ホットスペアディスクからRAIDディスク部(31)に戻されるディスクへデータの同期を行いつつコピーを行った後、入れ替えを行う。
次に、運用中であるRAIDディスク部(31)内に故障のハードディスクが発生した場合の動作を、図1および図4を用いて説明する。
たとえば、RAIDディスク部(31)を構成する1つのハードディスクであるディスク(38)が故障した場合を例として説明すると、図1のホットスペアディスク選定論理部(20)は、ホットスペアディスク(32)の中で最も故障可能性の低いディスク(39)を選定し、RAIDディスク部(31)内に組み入れる。
ディスク(39)のデータは、図1のディスク制御部(10)により、RAIDディスク部(31)を構成する他のディスクのデータを用いて復旧処理が行われる。故障したディスク(38)は定期的もしくは臨時のメンテナンスにより正常なディスク(50)に交換され、ホットスペアディスク(32)に組み入れられる。交換された正常なディスク(50)が運用中のRAIDディスク部(31)より故障可能性が低い場合は、その後ホットスペアディスク選定論理部(20)により入れ替えが行われる。
次に、待機中であるホットスペアディスク(32)が故障した際の動作を説明する。
ホットスペアディスク(32)の中の1台が故障した場合は、データの退避および復旧処理は必要ではないため、故障直後には何も行われず、定期的もしくは臨時のメンテナンスの際に正常なディスクに交換され、はホットスペアディスク(32)に組み入れられる。交換された正常なディスクが運用中のRAIDディスク部(31)より故障可能性が低い場合は、その後ホットスペアディスク選定論理部(20)により入れ替えが行われる。
ホットスペアディスク(32)の中の1台が故障した場合は、データの退避および復旧処理は必要ではないため、故障直後には何も行われず、定期的もしくは臨時のメンテナンスの際に正常なディスクに交換され、はホットスペアディスク(32)に組み入れられる。交換された正常なディスクが運用中のRAIDディスク部(31)より故障可能性が低い場合は、その後ホットスペアディスク選定論理部(20)により入れ替えが行われる。
このため、運用中であるRAIDディスク部(31)は常に故障予想時刻までの時間が長いハードディスクで構成され、待機中であるホットスペアディスク(32)は常に故障予想時刻までの時間が比較的短いディスクで構成されるので、ディスクアレイ装置(1)の装置全体の故障確率を低く保つ事ができる。
以上説明のように、本実施形態によれば、以下に記載するような効果を奏する。
まず、各ディスクが持つスマート情報を元にして各ディスクの故障可能性を求め、故障可能性の低いディスクを運用中であるRAIDを構成するディスクに割り当て、故障可能性の高いディスクをRAIDから外してホットスペアディスクとして待機させることにより、常に故障可能性の低いディスクでRAIDが構成されている状態とすることができ、ディスクアレイ装置の故障可能性を低く保つことができる。
まず、各ディスクが持つスマート情報を元にして各ディスクの故障可能性を求め、故障可能性の低いディスクを運用中であるRAIDを構成するディスクに割り当て、故障可能性の高いディスクをRAIDから外してホットスペアディスクとして待機させることにより、常に故障可能性の低いディスクでRAIDが構成されている状態とすることができ、ディスクアレイ装置の故障可能性を低く保つことができる。
また、最も故障可能性の高いディスクがホットスペアディスクとなり待機状態になっているので、ディスクアレイ装置のメンテナンス時にホットスペアディスクを交換することにより、その都度のデータの退避・復旧の時間をかけずに、常にディスクアレイ装置全体の故障可能性を低く保つ事ができる。
さらに、こうした運用中ではなく故障可能性の高いホットスペアディスクを交換するメンテナンスを定期的に行うことで、ディスクアレイ装置の故障可能性を常に低く保つことができる。
さらに、こうした運用中ではなく故障可能性の高いホットスペアディスクを交換するメンテナンスを定期的に行うことで、ディスクアレイ装置の故障可能性を常に低く保つことができる。
また、そうした故障可能性を判定するために用いている故障予想時刻の算出を、各ハードディスクのスマート情報に基づいて行うことで、ディスクアレイ装置に含まれるハードディスクに、メーカや型番の異なるハードディスクが混在していても、個別のハードディスクの故障予想時刻を正しく予測することができ、ディスクアレイ装置全体の故障可能性を確実に低く保つ事ができる。
〔他の実施形態〕
次に、本発明の他の実施形態について説明する。
この他の実施形態は、その基本的構成は上述した実施形態と同様であるが、スマート情報によるディスクの入れ替えについてさらに工夫したものである。
次に、本発明の他の実施形態について説明する。
この他の実施形態は、その基本的構成は上述した実施形態と同様であるが、スマート情報によるディスクの入れ替えについてさらに工夫したものである。
図5のように、ディスクエンクロージャ(37)内のディスクの構成が第1のRAIDディスク部(33)、第2のRAIDディスク部(34)、第3のRAIDディスク部(35)、ホットスペアディスク(36)のように構成されており、各RAIDディスク部でディスクへのアクセス頻度が異なる場合は、最もアクセス頻度の高いRAIDディスク部に最も故障予想時刻までの時間が長いディスクを、2番目にアクセス頻度の高いRAIDディスク部はその次に故障予想時刻までの時間が長いディスクを、3番目にアクセス頻度の高いRAIDディスク部はさらにその次に故障予想時刻までの時間が長いディスクを割り当て、最も故障予想時刻までの時間が短いディスクをホットスペアディスク(36)に割り当てる。
このように、他の実施形態としてのディスクアレイ装置では、ディスク制御部(10)が各RAIDディスク部へのアクセス頻度情報を取得し、そのアクセス頻度が高い順に、故障予想時刻までの残り時間が長いハードディスクから順に割り当て、最も故障予想時刻までの時間が短い順に予め定められた台数のハードディスクを、ホットスペアディスク(36)に割り当てる。
以上により、本実施形態によれば、各RAIDディスク部の故障可能性を均等化することにより、アクセス頻度の高い特定のRAIDディスク部を構成するハードディスクのみが高頻度で故障してしまう問題を回避する事ができるので、ディスクアレイ装置全体の故障可能性が低くなるという効果が得られる。
なお、上述した他の実施形態は、RAIDの数は2つまたは4つ以上で構成されていても同様に適用することができ、同様の効果を得ることができる。
〔各実施形態について〕
なお、上述した各実施形態は本発明の好適な実施形態であり、本発明はこれに限定されることなく、本発明の技術的思想に基づいて種々変形して実施することが可能である。
例えば、上述した各実施形態としてのディスクアレイ装置を実現するための処理手順をプログラムとして記録媒体に記録することにより、本発明の各実施形態による上述した各機能を、その記録媒体から供給されるプログラムによって、システムを構成するコンピュータのCPUに処理を行わせて実現させることができる。
この場合、上記の記録媒体により、あるいはネットワークを介して外部の記録媒体から、プログラムを含む情報群を出力装置に供給される場合でも本発明は適用されるものである。
すなわち、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記録媒体および該記録媒体から読み出された信号は本発明を構成することになる。
この記録媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリーカード、ROM等を用いてよい。
なお、上述した各実施形態は本発明の好適な実施形態であり、本発明はこれに限定されることなく、本発明の技術的思想に基づいて種々変形して実施することが可能である。
例えば、上述した各実施形態としてのディスクアレイ装置を実現するための処理手順をプログラムとして記録媒体に記録することにより、本発明の各実施形態による上述した各機能を、その記録媒体から供給されるプログラムによって、システムを構成するコンピュータのCPUに処理を行わせて実現させることができる。
この場合、上記の記録媒体により、あるいはネットワークを介して外部の記録媒体から、プログラムを含む情報群を出力装置に供給される場合でも本発明は適用されるものである。
すなわち、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記録媒体および該記録媒体から読み出された信号は本発明を構成することになる。
この記録媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリーカード、ROM等を用いてよい。
この本発明に係るプログラムによれば、当該プログラムによって制御されるコンピュータに、上述した本発明に係る各実施形態としてのディスクアレイ装置における各機能を実現させることができる。
1 ディスクアレイ装置
10 ディスク制御部
20 ホットスペアディスク選定論理部
30 ディスクエンクロージャ
31 RAIDディスク部
32 ホットスペアディスク
10 ディスク制御部
20 ホットスペアディスク選定論理部
30 ディスクエンクロージャ
31 RAIDディスク部
32 ホットスペアディスク
Claims (12)
- RAIDを構成する複数のハードディスクと、ホットスペアディスクとして予め定められた台数のハードディスクとを備えたディスクアレイ装置であって、
前記ディスクアレイ装置に含まれるハードディスクのスマート情報を読み取るスマート情報読取手段と、
前記スマート情報読取手段により読み取られた各ハードディスクのスマート情報に基づいて、故障可能性の高い順に前記予め定められた台数のハードディスクをホットスペアディスクとして割り当てるディスク制御手段と、を備えたことを特徴とするディスクアレイ装置。 - 複数のハードディスクにより構成されるRAIDが複数設けられ、
各RAIDへのアクセス頻度情報を取得するアクセス頻度取得手段を備え、
前記ディスク制御手段は、前記アクセス頻度取得手段により取得された各RAIDへのアクセス頻度情報および、前記スマート情報読取手段により読み取られた各ハードディスクのスマート情報に基づいて、アクセス頻度が高いRAIDから順に、故障可能性の低いハードディスクを順次割り当て、最も故障可能性の高い順に前記予め定められた台数のハードディスクをホットスペアディスクとして割り当てることを特徴とする請求項1記載のディスクアレイ装置。 - 前記ディスク制御手段は、ホットスペアディスクに割り当てるハードディスクの見直しを行う際、前記スマート情報読取手段により読み取られた各ハードディスクのスマート情報に基づいて、各ハードディスクについての最短の故障予想時刻を算出し、該故障予想時刻までの残り時間が最も短いものをホットスペアディスクとすることを特徴とする請求項1または2記載のディスクアレイ装置。
- 前記スマート情報読取手段は、予め定められた一定の時間間隔で各ハードディスクのスマート情報を読み取ることを特徴とする請求項1から3の何れか1項に記載のディスクアレイ装置。
- RAIDを構成する複数のハードディスクと、ホットスペアディスクとして予め定められた台数のハードディスクとを備えたディスクアレイ装置の運用方法であって、
前記ディスクアレイ装置に含まれるハードディスクのスマート情報を読み取るスマート情報読取工程と、
前記スマート情報読取工程により読み取られた各ハードディスクのスマート情報に基づいて、故障可能性の高い順に前記予め定められた台数のハードディスクをホットスペアディスクとして割り当てるディスク制御工程と、を備えたことを特徴とするディスクアレイ装置の運用方法。 - 前記ディスクアレイ装置には、複数のハードディスクにより構成されるRAIDが複数設けられ、
各RAIDへのアクセス頻度情報を取得するアクセス頻度取得工程を備え、
前記ディスク制御工程では、前記アクセス頻度取得工程により取得された各RAIDへのアクセス頻度情報および、前記スマート情報読取工程により読み取られた各ハードディスクのスマート情報に基づいて、アクセス頻度が高いRAIDから順に、故障可能性の低いハードディスクを順次割り当て、最も故障可能性の高い順に前記予め定められた台数のハードディスクをホットスペアディスクとして割り当てることを特徴とする請求項5記載のディスクアレイ装置の運用方法。 - 前記ディスク制御工程では、ホットスペアディスクに割り当てるハードディスクの見直しを行う際に、前記スマート情報読取工程により読み取られた各ハードディスクのスマート情報に基づいて、各ハードディスクについての最短の故障予想時刻を算出し、該故障予想時刻までの残り時間が最も短いものをホットスペアディスクとすることを特徴とする請求項5または6記載のディスクアレイ装置の運用方法。
- 前記スマート情報読取工程では、予め定められた一定の時間間隔で各ハードディスクのスマート情報を読み取ることを特徴とする請求項5から7の何れか1項に記載のディスクアレイ装置の運用方法。
- RAIDを構成する複数のハードディスクと、ホットスペアディスクとして予め定められた台数のハードディスクとを備えたディスクアレイ装置の運用プログラムであって、
前記ディスクアレイ装置に含まれるハードディスクのスマート情報を読み取るスマート情報読取処理と、
前記スマート情報読取処理により読み取られた各ハードディスクのスマート情報に基づいて、故障可能性の高い順に前記予め定められた台数のハードディスクをホットスペアディスクとして割り当てるディスク制御処理と、をコンピュータに実行させることを特徴とするディスクアレイ装置の運用プログラム。 - 前記ディスクアレイ装置には、複数のハードディスクにより構成されるRAIDが複数設けられ、
各RAIDへのアクセス頻度情報を取得するアクセス頻度取得処理をコンピュータにさらに実行させ、
前記ディスク制御処理では、前記アクセス頻度取得処理により取得された各RAIDへのアクセス頻度情報および、前記スマート情報読取処理により読み取られた各ハードディスクのスマート情報に基づいて、アクセス頻度が高いRAIDから順に、故障可能性の低いハードディスクを順次割り当て、最も故障可能性の高い順に前記予め定められた台数のハードディスクをホットスペアディスクとして割り当てることを特徴とする請求項9記載のディスクアレイ装置の運用プログラム。 - 前記ディスク制御処理では、ホットスペアディスクに割り当てるハードディスクの見直しを行う際に、前記スマート情報読取処理により読み取られた各ハードディスクのスマート情報に基づいて、各ハードディスクについての最短の故障予想時刻を算出し、該故障予想時刻までの残り時間が最も短いものをホットスペアディスクとすることを特徴とする請求項9または10記載のディスクアレイ装置の運用プログラム。
- 前記スマート情報読取処理では、予め定められた一定の時間間隔で各ハードディスクのスマート情報を読み取ることを特徴とする請求項9から11の何れか1項に記載のディスクアレイ装置の運用プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007089703A JP2008250566A (ja) | 2007-03-29 | 2007-03-29 | ディスクアレイ装置、該装置の運用方法、およびプログラム |
US12/058,276 US7890791B2 (en) | 2007-03-29 | 2008-03-28 | Disk array device, operating method thereof and program-storing medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007089703A JP2008250566A (ja) | 2007-03-29 | 2007-03-29 | ディスクアレイ装置、該装置の運用方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008250566A true JP2008250566A (ja) | 2008-10-16 |
Family
ID=39796376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007089703A Pending JP2008250566A (ja) | 2007-03-29 | 2007-03-29 | ディスクアレイ装置、該装置の運用方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7890791B2 (ja) |
JP (1) | JP2008250566A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010160623A (ja) * | 2009-01-07 | 2010-07-22 | Nec Corp | ディスクアレイコントローラ及びディスクアレイの冗長化方法 |
JP2011227709A (ja) * | 2010-04-20 | 2011-11-10 | Nec Corp | Riadコントローラ装置、raid装置、raid装置の処理方法及びプログラム |
WO2012017641A1 (ja) * | 2010-08-03 | 2012-02-09 | パナソニック株式会社 | アレイ管理装置、方法、集積回路およびプログラム |
WO2014142134A1 (ja) * | 2013-03-14 | 2014-09-18 | 株式会社東芝 | コンテンツ配信装置、コンテンツ配信サーバ、および記録媒体 |
JP2018197922A (ja) * | 2017-05-23 | 2018-12-13 | 株式会社アイ・オー・データ機器 | 外部記憶装置 |
JP2019008814A (ja) * | 2018-08-31 | 2019-01-17 | 東芝メモリ株式会社 | 半導体記憶装置 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5052193B2 (ja) * | 2007-04-17 | 2012-10-17 | 株式会社日立製作所 | 記憶制御装置および記憶制御方法 |
US8495295B2 (en) * | 2009-05-10 | 2013-07-23 | Infinidat Ltd. | Mass storage system and method of operating thereof |
WO2015023201A2 (en) * | 2013-06-19 | 2015-02-19 | Continuware Corporation | Method and system for determining hardware life expectancy and failure prevention |
CN103440177A (zh) * | 2013-08-23 | 2013-12-11 | 浪潮电子信息产业股份有限公司 | 一种基于numa多物理层分区的存储控制冗余方法 |
CN103631691A (zh) * | 2013-11-26 | 2014-03-12 | 曙光信息产业股份有限公司 | 一种磁盘阵列监控系统及其方法 |
US9354971B2 (en) * | 2014-04-23 | 2016-05-31 | Facebook, Inc. | Systems and methods for data storage remediation |
US9542296B1 (en) * | 2014-12-01 | 2017-01-10 | Amazon Technologies, Inc. | Disk replacement using a predictive statistical model |
EP3048497A1 (de) * | 2015-01-21 | 2016-07-27 | Siemens Aktiengesellschaft | Verfahren zum Betreiben eines redundanten Automatisierungssystems und redundantes Automatisierungssystem |
CN105094706B (zh) * | 2015-07-27 | 2018-03-30 | 北京华胜天成软件技术有限公司 | 定时更新磁盘smart信息的方法及双控系统 |
US9612896B1 (en) * | 2015-08-24 | 2017-04-04 | EMC IP Holding Company LLC | Prediction of disk failure |
JP6957845B2 (ja) * | 2016-09-13 | 2021-11-02 | 富士通株式会社 | ストレージ制御装置及びストレージ装置 |
US11442826B2 (en) | 2019-06-15 | 2022-09-13 | International Business Machines Corporation | Reducing incidents of data loss in raid arrays having the same raid level |
US11074118B2 (en) | 2019-06-15 | 2021-07-27 | International Business Machines Corporation | Reporting incidents of data loss in RAID arrays |
CN114721585A (zh) * | 2021-01-06 | 2022-07-08 | 伊姆西Ip控股有限责任公司 | 存储管理方法、设备和计算机程序产品 |
CN113900594A (zh) * | 2021-10-12 | 2022-01-07 | 天津津航计算技术研究所 | 一种raid控制卡s·m·a·r·t·信息的预警方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08190762A (ja) | 1995-01-09 | 1996-07-23 | Hitachi Ltd | 磁気ディスク・アレイ記憶装置 |
JP3595099B2 (ja) * | 1997-03-17 | 2004-12-02 | 富士通株式会社 | デバイスアレイ・システム |
US6223252B1 (en) * | 1998-05-04 | 2001-04-24 | International Business Machines Corporation | Hot spare light weight mirror for raid system |
JPH11345095A (ja) | 1998-06-02 | 1999-12-14 | Toshiba Corp | ディスクアレイ装置およびその制御方法 |
JP2000293315A (ja) | 1999-04-05 | 2000-10-20 | Toshiba Corp | ディスクアレイ装置と予備ディスクのローテーション方法 |
JP2002116936A (ja) | 2000-10-05 | 2002-04-19 | Toshiba Corp | ディスクアレイ装置 |
US7434097B2 (en) * | 2003-06-05 | 2008-10-07 | Copan System, Inc. | Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems |
US7373559B2 (en) * | 2003-09-11 | 2008-05-13 | Copan Systems, Inc. | Method and system for proactive drive replacement for high availability storage systems |
JP4634049B2 (ja) | 2004-02-04 | 2011-02-16 | 株式会社日立製作所 | ディスクアレイ装置における異常通知制御 |
US7409582B2 (en) * | 2004-05-06 | 2008-08-05 | International Business Machines Corporation | Low cost raid with seamless disk failure recovery |
JP2006079219A (ja) | 2004-09-08 | 2006-03-23 | Matsushita Electric Ind Co Ltd | ディスクアレイ制御装置およびディスクアレイ制御方法 |
US7434090B2 (en) * | 2004-09-30 | 2008-10-07 | Copan System, Inc. | Method and apparatus for just in time RAID spare drive pool management |
JP4363349B2 (ja) | 2005-03-29 | 2009-11-11 | 日本電気株式会社 | ディスクアレイ装置およびその制御方法 |
US20070079170A1 (en) * | 2005-09-30 | 2007-04-05 | Zimmer Vincent J | Data migration in response to predicted disk failure |
-
2007
- 2007-03-29 JP JP2007089703A patent/JP2008250566A/ja active Pending
-
2008
- 2008-03-28 US US12/058,276 patent/US7890791B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010160623A (ja) * | 2009-01-07 | 2010-07-22 | Nec Corp | ディスクアレイコントローラ及びディスクアレイの冗長化方法 |
JP2011227709A (ja) * | 2010-04-20 | 2011-11-10 | Nec Corp | Riadコントローラ装置、raid装置、raid装置の処理方法及びプログラム |
WO2012017641A1 (ja) * | 2010-08-03 | 2012-02-09 | パナソニック株式会社 | アレイ管理装置、方法、集積回路およびプログラム |
WO2014142134A1 (ja) * | 2013-03-14 | 2014-09-18 | 株式会社東芝 | コンテンツ配信装置、コンテンツ配信サーバ、および記録媒体 |
JP2014178874A (ja) * | 2013-03-14 | 2014-09-25 | Toshiba Corp | コンテンツ配信装置、コンテンツ配信サーバ、およびプログラム |
JP2018197922A (ja) * | 2017-05-23 | 2018-12-13 | 株式会社アイ・オー・データ機器 | 外部記憶装置 |
JP7129148B2 (ja) | 2017-05-23 | 2022-09-01 | 株式会社アイ・オー・データ機器 | 外部記憶装置 |
JP2019008814A (ja) * | 2018-08-31 | 2019-01-17 | 東芝メモリ株式会社 | 半導体記憶装置 |
Also Published As
Publication number | Publication date |
---|---|
US7890791B2 (en) | 2011-02-15 |
US20080244309A1 (en) | 2008-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008250566A (ja) | ディスクアレイ装置、該装置の運用方法、およびプログラム | |
US7543178B2 (en) | Low cost RAID with seamless disk failure recovery | |
CN101246727B (zh) | 光学储存媒体记录方法及光学储存装置 | |
US9395938B2 (en) | Storage control device and method for controlling storage devices | |
JPWO2008114441A1 (ja) | ストレージ管理プログラム、ストレージ管理方法およびストレージ管理装置 | |
US20040103246A1 (en) | Increased data availability with SMART drives | |
JP2007310974A (ja) | 記憶装置および制御装置 | |
JP2005122338A (ja) | スペアディスクドライブをもつディスクアレイ装置及びデータスペアリング方法 | |
WO2014098872A1 (en) | Raid storage processing | |
US20140379983A1 (en) | Storage system, control apparatus, and control method | |
CN110058960B (zh) | 用于管理存储系统的方法、设备和计算机程序产品 | |
CN103502927A (zh) | 信息处理装置、信息处理方法及信息存储介质 | |
JP6515752B2 (ja) | ストレージ制御装置、制御方法、および制御プログラム | |
JP5217452B2 (ja) | 情報処理装置及びシステム、並びに、記憶領域管理方法及びプログラム | |
JP4933722B2 (ja) | ディスク制御装置、ディスクパトロール方法およびディスクパトロールプログラム | |
JP2008217141A (ja) | 制御装置および記憶装置 | |
JP2006079219A (ja) | ディスクアレイ制御装置およびディスクアレイ制御方法 | |
US9343113B2 (en) | Control apparatus and control method | |
JP2019053486A (ja) | 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム | |
JP2004127275A (ja) | データ記憶アレイを管理する方法およびraidコントローラを備えたコンピュータシステム | |
JP2012018481A (ja) | ディスクアレイ装置およびディスクアレイ制御方法 | |
JP6003364B2 (ja) | 制御装置,ストレージ装置,制御方法,及び制御プログラム | |
US6430701B1 (en) | Data recording and reproducing method and apparatus using plurality of data recording and reproducing units, and computer-readable recording medium | |
JP2009020703A (ja) | ストレージ装置、ストレージ管理装置、ストレージ管理方法、およびストレージ管理プログラム | |
JP2012174296A (ja) | 記録再生装置および記録再生方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090212 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090331 |