JP2015184823A - モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム - Google Patents
モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2015184823A JP2015184823A JP2014059031A JP2014059031A JP2015184823A JP 2015184823 A JP2015184823 A JP 2015184823A JP 2014059031 A JP2014059031 A JP 2014059031A JP 2014059031 A JP2014059031 A JP 2014059031A JP 2015184823 A JP2015184823 A JP 2015184823A
- Authority
- JP
- Japan
- Prior art keywords
- model
- terminal device
- operation data
- terminal
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 78
- 238000004590 computer program Methods 0.000 title claims description 3
- 238000007689 inspection Methods 0.000 claims abstract description 79
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 238000003860 storage Methods 0.000 claims description 85
- 238000009826 distribution Methods 0.000 claims description 16
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 239000007787 solid Substances 0.000 claims 1
- 230000002596 correlated effect Effects 0.000 abstract 3
- 230000000875 corresponding effect Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 85
- 238000000034 method Methods 0.000 description 28
- 238000013500 data storage Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 20
- 238000007726 management method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/36—Monitoring, i.e. supervising the progress of recording or reproducing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/11—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Geometry (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
Abstract
【課題】モデルパラメータを迅速に求める。
【解決手段】本発明の実施形態としてのモデルパラメータ算出装置において、比較部は、端末装置の稼働データに基づく特徴量が割り当てられる第1変数を含む第1パラメータと、第1出力変数とを対応づけた第1モデルおよび稼働データに基づいて算出される第1評価値と、稼働データに基づく特徴量が割り当てられる第2変数を含む第2パラメータと、第2出力変数とを関連付けた第2モデルおよび稼働データに基づき算出される第2評価値とを比較し、要求部は、比較部の比較結果に応じて、端末装置または端末装置を管理する管理装置に、端末装置の検査要求を送信し、パラメータ決定部は、端末装置の検査結果と、端末装置の稼働データに基づき、予め定めたモデル型に応じたモデル規範に従って、稼働データに基づく特徴量を割り当てられる第3変数、第3出力変数とを関連付けた第3モデルにおける第3変数を含む第3パラメータを決定する。
【選択図】図2
【解決手段】本発明の実施形態としてのモデルパラメータ算出装置において、比較部は、端末装置の稼働データに基づく特徴量が割り当てられる第1変数を含む第1パラメータと、第1出力変数とを対応づけた第1モデルおよび稼働データに基づいて算出される第1評価値と、稼働データに基づく特徴量が割り当てられる第2変数を含む第2パラメータと、第2出力変数とを関連付けた第2モデルおよび稼働データに基づき算出される第2評価値とを比較し、要求部は、比較部の比較結果に応じて、端末装置または端末装置を管理する管理装置に、端末装置の検査要求を送信し、パラメータ決定部は、端末装置の検査結果と、端末装置の稼働データに基づき、予め定めたモデル型に応じたモデル規範に従って、稼働データに基づく特徴量を割り当てられる第3変数、第3出力変数とを関連付けた第3モデルにおける第3変数を含む第3パラメータを決定する。
【選択図】図2
Description
本発明の実施形態は、モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラムに関する。
能動学習法と呼ばれる学習法が知られている。この学習法では、少ない教師信号を選択的に獲得することで、高い予測精度のモデルを学習する。具体的に、既に結果の分かっているデータを、訓練データとして使い、結果が未知のデータを予測用のデータとして使うことで、モデルを学習する。少ないデータ数で、高精度に予測を行うことが可能であり、非常に適用範囲が広い方法である。
この能動学習法を利用して、HDDの稼働データから、当該HDDの将来の故障発生を検知するモデル(故障予兆検知モデル)を構築できる。モデルの学習用データとして、故障したHDD(Hard Disk Drive)及び稼働中のHDDの稼働履歴データを用いる。この学習データを分析することで、故障予兆検知モデルを構築する。故障予兆検知モデルは、所定期間内に故障が発生する確率を計算する。確率が閾値以上であれば、故障予兆ありと判断できる。
ここで、新しい世代の新機種が登場したりすると、新たな機種の故障予兆検知モデルを生成する必要がある。これは、機種が変わると、故障の態様や、HDD内部情報の内容が変化するためである。新機種に対応したモデルを生成するためには、新機種での故障HDDの稼働履歴データが必要となる。しかしながら、新機種では、モデル生成に十分な件数のデータが蓄積するまでには、時間を要する。十分でない件数のデータで生成したモデルを使用すると、見逃しや誤検出が発生する問題がある。見逃しとは、故障予兆なしの予測結果が得られたにもかかわらず、所定期間内に故障が発生することであり、誤検出は、故障予兆ありとの予測結果が得られたにもかかわらず、所定期間内に故障が発生しなかったことである。
本発明の実施形態は、精度の高いモデルを迅速に構築可能にすることを目的とする。
本発明の実施形態としてのモデルパラメータ算出装置は、比較部と、要求部と、パラメータ決定部とを備える。
前記比較部は、端末装置の稼働データに基づく特徴量が割り当てられる第1変数を含む第1パラメータと、前記端末装置の故障の発生可能性の大きさに関する第1出力変数とを対応づけた第1モデルおよび前記稼働データに基づいて算出される第1評価値と、前記稼働データに基づく特徴量が割り当てられる第2変数を含む第2パラメータと、前記端末装置の故障の発生可能性の大きさに関する第2出力変数とを関連付けた第2モデルから前記稼働データに基づき算出される第2評価値とを比較する。
前記要求部は、前記比較部の比較結果に応じて、前記端末装置または前記端末装置を管理する管理装置に、前記端末装置の検査要求を送信する。
前記パラメータ決定部は、前記端末装置の検査結果と、前記端末装置の稼働データに基づき、予め定めたモデル型に応じたモデル規範に従って、前記稼働データに基づく特徴量を割り当てられる第3変数と、前記端末装置の故障の発生可能性の大きさに関する第3出力変数とを関連付けた第3モデルにおける前記第3変数を含む第3パラメータを決定する。
以下、図面を参照しながら、本発明の実施形態について説明する。
(第1の実施形態)
(第1の実施形態)
図1は、第1の実施形態に係るモデルパラメータ算出装置と、モデルパラメータ算出装置と通信する各端末装置(以下、端末)を示す図である。
モデルパラメータ算出装置101と各端末201は、ネットワーク301を介して接続されている。ネットワーク301は、無線ネットワーク、有線ネットワーク、またはこれらのハイブリッドのネットワークである。ネットワーク301は、ローカルエリアネットワークでも、インターネット等の広域エリアネットワークでもよい。
端末201は、PC(Personal Computer)、タブレット、スマートフォン、携帯端末等のユーザ端末である。端末は、CPU、メモリ、外部記憶装置、入力部、表示部、通信部など、一般的なコンピュータが備える要素を備えている。外部記憶装置として、HDD、SDD、SDカードなどがある。各端末201では、自装置の稼働状況を示す稼働データを取得し、内部に記録している。稼働データとして、例えばHDDやCPU等の部品のセンサデータ・ログ等がある。
各端末201は、端末の故障予兆を検知するための故障予兆検知モデル(以下、モデル)を2つ有する。一方を、更新前モデル、他方を更新後モデルと呼ぶ。本実施形態では、モデルとして、HDDの故障予兆を検知するモデルを想定する。モデルは、所定期間内にHDDが故障する可能性を評価するものである。端末は、各モデルに基づき、HDDの故障予兆検知を行う。具体的に、端末は、それぞれのモデルと、稼働データに基づき、HDDの故障の発生可能性の大きさ表す値を算出する。算出された値を故障予兆検知結果(以下、検知結果)とする。端末は、2つのモデルのうち、更新後モデルで得られた検知結果を、自装置の検知結果として用いる。例えば、更新後モデルの値が閾値以上のとき、故障予兆あり(所定期間内にHDDが故障する可能性がある)と判定する。この場合、ユーザにその旨を通知してもよい。HDDまたは端末の交換等を促すメッセージを通知してもよい。
モデルパラメータ算出装置101は、各端末201と通信するサーバであり、サービス事業者側の装置である。モデルパラメータ算出装置101は、各端末から、更新前モデルと更新後モデルの検知結果を受信する。またモデルパラメータ算出装置101は、また各端末から稼働データを収集する。モデルパラメータ算出装置101は、更新前モデルおよび更新後モデルの検知結果を比較する。比較結果に応じて、当該端末を、HDDの検査を行うサンプル端末として選択し、選択した端末にHDDの検査要求を送信する。モデルパラメータ算出装置101は、検査を要求した端末から検査結果を受信する。各端末の検査結果を教師データとし、各端末の稼働データに基づき、端末の機種ごとに、モデルを生成する。モデルの生成は、予め定めたモデル型のモデル規範に従って、モデルパラメータを決定することで行う。ここで、モデル型とは、ロジスティック回帰モデル、サポートベクターマシン、決定木モデルなどのモデルの型である。モデル規範とは、モデルを生成するために用いる規範(関数など)であり、規範の値が、生成されるモデルの良さを評価する指標となる。モデルパラメータ算出装置101は、生成したモデル(決定したパラメータとモデル型)を、該当機種の端末に配布する。端末では、今回モデルパラメータ算出装置101から配布されたモデルを更新後モデルとし、以前の更新後モデルを更新前モデルと置き換える。以上の処理を繰り返すことで、更新後モデルが収束していき、モデル精度が向上していく。よって、故障HDDの稼働履歴データの蓄積を待つことなく、精度の高いモデルを迅速に生成できる。
図2は、モデルパラメータ算出装置101および端末201の機能ブロックを示す。各装置内のブロック間を結ぶ線は、情報または制御の流れを示す。また、端末およびモデルパラメータ算出装置間のブロック同士を結ぶ線は、実際の物理的な結線を示すのではなく、ブロック間の情報の入出力関係を表すに過ぎない。
端末201は、故障予兆検知部211、検査処理部212、稼働データ記憶部213、更新前モデル記憶部214、更新後モデル記憶部215、更新部216、稼働データ取得部217を備える。
稼働データ取得部217は、所定の収集プログラムを実行することで、端末の稼動データを取得する。稼働データ取得部217は、稼動データ記憶部213に接続されており、取得した稼働データを、稼動データ記憶部213に格納する。稼働データ記憶部213は、稼働データ取得部217により取得された稼動データの履歴を記憶している。稼動データは、端末の稼働状況を示し、HDDおよびCPU等の部品のセンサ・ログデータを含み、その他、HDDの製品ID(シリアル番号)、稼働データの取得時刻(観測時刻)を含む。HDDのセンサ・ログデータは、例えばHDDのS.M.A.R.T.などがある。その他の部品として、例えばCPUの温度や、ボタン(入力部)の操作回数などのデータが含まれてもよい。
稼働データの例を図3に示す。図示の稼働データは1回分の取得データであり、このようなデータが、時系列に稼働データ記憶部213に記憶されている。時間の経過に応じて、逐次、データが蓄積されていく。稼働データの取得タイミングは、一定時間毎でもよいし、端末の起動時、終了時のタイミング、特定のイベントが発生したタイミングなど、任意に決めることができる。
更新後モデル記憶部215は、モデルパラメータ算出装置により提供された最新のモデル(モデルパラメータとモデル型)を記憶する。更新前モデル記憶部214は、モデルパラメータ算出装置により前回提供されたモデル(モデルパラメータと、モデル型)を記憶する。ただし、初期状態では、更新前モデル記憶部214および更新後モデル記憶部215には、それぞれ、初期モデル(初期モデルパラメータとモデル型)が記憶されている。
更新部216は、更新後モデル記憶部215および更新前モデル記憶部214に接続されている。更新部216は、モデルパラメータ算出装置からモデル(モデルパラメータとモデル型)を提供されると、更新後モデル記憶部215内のモデル(パラメータとモデル型)を読み出して、更新前モデル記憶部214に上書きし、モデルパラメータ算出装置から提供されたモデル(モデルパラメータとモデル型)を、更新後モデル記憶部215内に上書きする。
ここで、モデルパラメータの詳細を説明する。モデルパラメータは、複数の変数と、係数とを含む。係数には、変数にかけられるもののほか、定数項として存在する係数も含んでよい。変数には、稼働データに基づく値である特徴量が割り当てられる。特徴量は、例えば、稼働データの最新値や、稼働データの値を加工した値などが挙げられる。加工には、対数変換などの変換処理した値や、稼働データの複数の値に基づく演算値、複数の日時の稼働データ間での演算値(平均値、中央値、最大値、最小値、差分の最大値など)などがある。稼働データと特徴量の関係を図19に模式的に示す。z1、z2、・・・zmが稼働データの各項目の値を表す。s1、s2、・・・skが、稼働データから計算される特徴量を表す。例えばs1は、稼働データの項目z1の値であり、s4は、稼働データの項目z1、z3から計算される値である。このように特徴量は、稼働データから計算される。
上述したように、更新前モデル記憶部214および更新後モデル記憶部215には、初期状態では、初期モデル(初期モデルパラメータとモデル型)が記憶されている。更新前モデル記憶部214の初期モデルは、一例として、古い機種のHDDを搭載した端末の稼働データに基づき生成されたモデルである。このモデルは、十分なサンプルのデータから生成され、古い機種のHDDに対しては高い予測精度を有するが、新機種のHDDに対しては、予測精度が低い可能性がある。
一方、更新後モデル記憶部215の初期モデルは、一例として、自装置と同じ機種のHDDを搭載した端末の稼働データに基づき生成されたものである。例えば、同じ機種(新型番)のHDDで、最初に故障したHDDの稼働データに基づき生成されたものでよい。この場合、少ないサンプルから生成されたモデルのため、モデルの予測精度は低いことが想定される。
ここで述べた初期モデルの例は一例であり、これに限定されない。例えば更新前モデル記憶部214の初期モデルは、自装置とは別の最新機種のHDDを搭載した端末の稼働データに基づくものであってもよい。
ここで、モデルの例をいくつか示す。下記の式(1)は、ロジスティック回帰モデルを示す。この式の形が、モデル型そのものを示す。この式では、モデルパラメータとして、
を含む。係数a0は定数項とも呼ばれる。変数には、前述したように稼働データに基づく特徴量が割り当てられる。係数は任意の実数である。Pは出力変数であり、式(1)で計算される出力変数の値は評価値である。ロジスティック回帰モデルの場合、評価値は故障確率である。Pは0より大きく1より小さい値を取る。Pは、故障の発生可能性の大きさを表す値である。Pの値が大きいほど、所定期間内に故障の可能性が大きいことを意味する。Pの値が閾値以上のとき、故障予兆あり、閾値未満のとき、故障予兆無と判定することもできる。所定期間は任意に定めることができるが、例えば現在時刻から一定期間でもよいし、予め定めた次の端末リプレース時期までの期間でもよいし、その他の基準で定めた期間でもよい。
を含む。係数a0は定数項とも呼ばれる。変数には、前述したように稼働データに基づく特徴量が割り当てられる。係数は任意の実数である。Pは出力変数であり、式(1)で計算される出力変数の値は評価値である。ロジスティック回帰モデルの場合、評価値は故障確率である。Pは0より大きく1より小さい値を取る。Pは、故障の発生可能性の大きさを表す値である。Pの値が大きいほど、所定期間内に故障の可能性が大きいことを意味する。Pの値が閾値以上のとき、故障予兆あり、閾値未満のとき、故障予兆無と判定することもできる。所定期間は任意に定めることができるが、例えば現在時刻から一定期間でもよいし、予め定めた次の端末リプレース時期までの期間でもよいし、その他の基準で定めた期間でもよい。
また、故障確率Pの値に応じて、故障予兆ランクを算出してもよい。例えば、P>αの場合、「危険」、α≧P>βの場合、「注意」、P≦βの場合、「正常」とする。この場合、故障予兆ランクが評価値に対応する。
図4(A)に更新前パラメータの例を示す。図4(B)に更新後パラメータの例を示す。いずれも変数は5つであり、同じ種類(変数名)の変数である。ここでは、変数名として「HDD衝撃回数」「HDD温度」「HDDヘッドロード・アンロード回数」「HDD不良セクタ数」「HDDリードエラー率」があり、それぞれ式(1)の変数x1,x2,x3,x4,x5に対応する。この例では、いずれも図3に示した稼働データの項目に一致している。また、更新前パラメータの各係数は、「0.998」「1.002」「1.112」「1.213」「1.331」であり、式(1)のa1,a2,a3,a4,a5に対応する。また、更新後パラメータの各係数は、「1.998」「3.002」「-0.112」「1.314」「5.331」であり、式(1)のa1,a2,a3,a4,a5に対応する。図4(A)および図4(B)の例では、変数の個数が一致しているが、各々異なる変数が用いられてもよい。
ロジスティック回帰モデル以外のモデルの例としては、サポートベクターマシン、または、線形判別モデルなどがある。これらの場合、以下の式(2)でモデルを表すことができる。
は、式(1)と同様、変数および係数である。yが出力変数であり、式(2)から計算される出力変数の値が、評価値である。このモデルの場合、評価値、すなわち、yの値は、故障の発生可能性の大きさを示す。閾値を設けて、yの値が閾値以上のときは故障予兆あり、閾値未満のときは故障予兆なしと、判定することも可能である。例えば、y≧0のときに故障予兆あり、y<0のときに故障予兆なしとする。
故障予兆検知部211は、稼働データ記憶部213、更新前モデル記憶部214および更新後モデル記憶部215に接続されている。故障予兆検知部211は、稼働データ記憶部213内の稼働データに基づき、更新前モデルから、故障の発生可能性を表す値を算出する。同様に、故障予兆検知部211は、稼働データ記憶部213内の稼働データと、更新後モデルとを用いて、故障の発生可能性を表す値を算出する。ロジスティック回帰モデルの場合は、故障の発生可能性を表す値として、故障確率P、または故障予兆ランクなどを算出する。サポートベクターマシン、または、線形判別モデルなどでは、例えば「故障予兆あり」または「故障予兆なし」の判定結果を算出する。以下、更新前モデルで算出した値を“更新前検知結果”、更新前モデルで算出した値を“更新後検知結果”と呼ぶ。特に検知結果が故障確率の場合は、更新前故障確率および更新後故障確率、検知結果がランクの場合は、更新前ランクおよび更新後ランク、検知結果が判定結果の場合は、更新前判定結果および更新後判定結果と呼ぶ場合がある。
故障予兆検知部211は、更新前検知結果および更新後検知結果を、モデルパラメータ算出装置に送信する。送信の際、HDDの製品ID(シリアル番号など)も併せて送信する。これはモデルパラメータ算出装置側で、HDDの機種を、製品IDから特定するためである。HDD機種を示す情報が存在すれば、その機種情報をモデルパラメータ算出装置に送信する構成も可能である。またHDDの製品IDに加えて、端末の端末ID(端末のシリアル番号、ユーザのEメールアドレスなど)を送信してもよい。
検査処理部212は、モデルパラメータ算出装置から検査要求を受ける。検査処理部212は、検査要求に従って、検査プログラムをCPUにより実行することで、HDDの検査を行う。検査の方法は特定のものに限定しないが、一例として、全セクタのリードテスト(全面リードテスト)が挙げられる。検査では、予め指定された1つ以上の項目について検査する。例えば、リードエラーレート、回復不能セクタ数などがある。各項目の検査を総合判断して、検査結果とする。例えば、回復不能セクタ数が閾値以上であれば、(他の項目の検査結果に拘わらず)異常と判断する。また、リードエラーレートが閾値以下であれば、(他の項目の検査結果に拘わらず)異常と判断する。検査結果は、異常あり、異常なし(正常)、の2種類以外に、異常あり、注意、異常なし、など3段階以上でもよい。ここで述べた以外の方法で、判定をしてもよい。検査処理部212は、検査結果をモデルパラメータ装置に返す。
モデルパラメータ算出装置101は、比較部121、要求部122、パラメータ決定部123、機種ID記憶部124、教師データ記憶部125、取得部126を備える。
機種ID記憶部124は、端末IDと、HDDの製品IDと、機種IDとを対応づけた機種ID表を記憶している。機種ID表の例を図5に示す。各端末の端末IDと、HDDの製品IDが、この機種ID表に事前に登録されている。端末IDは、端末のシリアル番号や、IPアドレス、ユーザのEメールアドレスなどを、一例として含む。機種ID表を参照することで、HDDの製品IDから、HDDの機種を特定できる。機種は、型番、または製品名などによって区別される。
教師データ記憶部125は、製品IDごとに、教師データを記憶している。教師データは、製品ID、HDDの稼働状況、検査結果を含む。図6に、教師データ記憶部125に記憶されている教師データ表の例を示す。稼働状況は、HDDが稼働しているか、故障しているかを示す。この「稼働状況」の値により、HDDの稼働状況が把握される。検査結果は、端末でHDDをリード検査した結果を表す。「異常あり」は、HDDの状態が所定の基準を満たさないことを意味し、「異常なし」は、所定の基準を満たすことを意味する。なお、端末の検査結果が「注意」などの場合は、「異常あり」に含める構成、「異常なし」に含める構成のいずれも可能である。「検査未実施」は、まだHDDの検査結果を、まだ一度も取得してない(あるいはHDDの検査を、まだ一度も行っていない)ことを示す。「−」は、教師データ記憶部125へのデータ登録時に、既にHDDが故障していた場合を示す。この場合、当該HDDに対して検査を行う必要はない。
端末側で稼働中のHDDが故障した場合に、端末から故障通知がモデルパラメータ算出装置に送られる。モデルパラメータ算出装置では、教師データ表において、該当するHDDの稼働状況が「故障」に更新される。また、HDDが修理センター等に持ち込まれて故障と判断された場合に、修理センターのPC等の装置から故障通知が送られてもよい。修理センターで故障が修復された場合は、修理センターもしくは修理後のHDDを搭載した端末から、稼働を示す通知が送られてもよい。この場合、稼働状況を「故障」から「稼働」に更新してもよい。
比較部121は、教師データ記憶部125、機種ID記憶部124および要求部122に接続されている。比較部121は、更新前検知結果および更新後検知結果を教師データ表に追加した検知結果表を管理する。この検知結果表は、比較部121からアクセス可能な記憶部、または内部のバッファに格納されている。検知結果表の例を図7に示す。この例では、更新前検知結果として、更新前故障確率と更新前ランクが格納され、更新後検知結果として更新後故障確率と更新後ランクが格納されている。故障確率とランクのうちの一方のみが格納されてもよい。あるいは、更新前判定結果および更新後判定結果が格納されてもよい。図6の教師データ表が更新されたときは、この検知結果表の該当箇所も更新するものとする。
比較部121は、端末から受信した更新前検知結果と更新後検知結果を、この検知結果表に追加する。前回の値が存在するときは、前回の値を上書きしてもよい。また、比較部121は、端末から更新前検知結果と、更新後検知結果を受信すると、これらの結果を比較することで、当該端末に対してHDD検査を要求するか否かを判断する。比較部121は、HDD検査を要求すると判断したとき、この端末をサンプル端末として選択する。
サンプル端末の選択フローの例を、図8に示す。更新前検知結果と更新後検知結果に差異がある場合は、当該端末をサンプル端末として選択する(S101のYES、S102)。例えば、更新前故障確率および更新後故障確率の差の絶対値が大きい場合、当該端末をサンプル端末として選択する。または、更新前ランクおよび更新後ランクが異なる場合、当該端末を選択する。または、更新前判定結果あるいは更新後判定結果間で故障予兆の有無の違いがある場合、当該端末を選択する。
更新前検知結果と更新後検知結果に差異はないが、更新後検知結果と教師データの稼働状況に差異がある場合は、当該端末をサンプル端末として選択する(S103のYES、S104)。例えば、教師データの稼働状況と更新後ランクに差異がある場合を考える。ランクが「危険」、「注意」、「正常」の3つがあり、稼働状況の「故障」が「危険」「注意」が対応し、稼働状況の「稼働」が「正常」に対応するとする。この場合、稼働状況が「稼働」で、更新後のランクが「危険」または「注意」であれば、差異があると判断する(図7の最下行を参照)。または、稼働状況と更新後故障確率の差が大きい端末を、サンプル端末として選択してもよい(図7の最下行を参照)。例えば、「稼働」に0、「故障」に1を割り当て、割り当てた値と、更新後故障確率の差の絶対値が、一定値以上であれば、その端末を選択する。または、稼働状況と、更新後の判定結果に違いがある場合にも、当該端末を選択してよい。例えば稼働状況が「稼働」で、更新後の判定結果が「故障予兆あり」である場合は、当該端末をサンプル端末として選択する。
ここで、当該端末のHDDが、モデル更新対象機種に該当するかを調べ、該当する場合のみサンプル端末として選択してもよい。端末のHDDの機種が、モデル更新対象機種に該当するかは、当該HDDの製品IDと、機種ID記憶部124内の対応表から、HDDの機種を特定し、特定した機種が、モデル更新対象機種に一致するかで、判断可能である。
また図7の検知結果表に日時フィールドを追加し、比較を行った日時を追加してもよい。前回比較を行った日時から、一定期間内のときは、サンプル端末として選択しなくてもよい。これは、前回のHDD検査から短い期間で再度HDDを検査しても、検査結果が変わる可能性が低いためである。
要求部122は、比較部121で選択されたサンプル端末に、HDDの検査要求を送る。あるいは、検査要求を送る代わりに、検知頻度増加要求を送る構成も可能である。検査要求は、検査プログラムを端末のCPUにより実行して、HDDの検査を行うことの要求である。検知頻度増加要求は、故障予兆検知部211での故障予兆検知の実行頻度を上げることの要求である。
検査要求を受けた端末の故障予兆検知部211は、検査処理部212で、検査プログラムを実行することで、HDDの検査を行う。検査の方法は前述したとおりである。端末は、検査結果をモデルパラメータ算出装置に送信する。なお、端末から送信する検査結果は、検査要求の受信前に自発的に行われたものであってもかまわない。検査結果は、取得部126によって取得される。取得部126は、教師データ記憶部125に接続されており、取得した検査結果を、教師データ記憶部125の当該製品IDを有するエントリの検査結果フィールドに追加する。これにより新たな教師データが取得(教師データが更新)される。
検知頻度増加要求を受けた端末では、故障予兆検知の頻度を増加させる。例えば、稼働データの測定頻度を上げ、稼働データの測定毎に、故障予兆検知を行う。これにより、モデルパラメータ算出装置では、教師データの取得頻度(更新頻度)を高くでき、モデル精度を上昇させることができる。また、端末側では、更新後モデルでの故障予兆検知の機会を増大させることができる。検知頻度増加要求には期間を設定し、その期間のみ、故障予兆検知の頻度を増加させてもよい。当該期間の間には、重複して、検知頻度増加要求を送信しないようにしてもよい。あるいは、頻度を徐々に上げるように、端末に検知頻度増加を要求する構成も可能である。
ここで、要求部122は、検査要求と検知頻度増加要求のいずれを送信するかは、任意の方法で決定できる。要求部122の要求決定フローの例を、図9に示す。要求部122は、例えば、更新前検知結果および更新後検知結果に差異があるかを判断し、差異がある場合は、検査要求を送信する(S201のYES、S202)。具体的に、更新前故障確率および更新後故障確率の差の絶対値が大きい場合、更新前ランクおよび更新後ランクが異なる場合、更新前判定結果あるいは更新後判定結果合間で故障予兆の有無の違いがある場合が、これに相当する。
更新前検知結果および更新後検知結果に差異はないが、稼働中のHDDに対して、故障予兆が検出された場合も、検査要求を送信する(S201のNO、S203のYES、S204)。具体的に、稼働状況が「稼働」で、更新後(または更新前)のランクが、「危険」の場合がこれに相当する。あるいは、稼働状況が「稼働」で、更新後(または更新前)の故障確率と、「稼働」を示す値との差の絶対値が、一定値以上の場合、または、稼働状況が「稼働」で、更新後(または更新前)の判定結果が「故障予兆あり」である場合も、これに相当する。
一方、更新前検知結果および更新後検知結果に差異はないが、更新後モデルが、故障予兆を見逃している可能性があると考えられる場合は、検知頻度増加要求を送信する(S201のNO、S205のYES、S206)。故障を見逃している可能性があるとは、稼働状況が「故障」のHDD(故障HDD)に対して、更新後モデルで検査をした結果が、故障予兆なし(すなわち発生可能性が低い)であり、かつ、当該故障HDDの稼働データ履歴に対し、サンプル端末の稼働データ履歴が近似している場合である。故障予兆なし(発生可能性が低い)とは、例えば、ランクが「正常」の場合、あるいは、故障確率が閾値以下などである。
稼働データ履歴が近似しているかは、例えば、稼働データ間の距離を利用して判断できる。各変数に割り当てられる
をベクトル空間上で比較した時の、2点間の距離(例えばユークリッド距離やマンハッタン距離)を計算し、距離が閾値以下の場合に、両者の稼働データ履歴が近似していると判断する。
をベクトル空間上で比較した時の、2点間の距離(例えばユークリッド距離やマンハッタン距離)を計算し、距離が閾値以下の場合に、両者の稼働データ履歴が近似していると判断する。
判断対象とする故障HDDは、更新後モデルの検査結果が「故障予兆なし」の故障HDDの中から任意の1つを選択してもよい。あるいは、複数の故障HDDを選択し、いずれかの故障HDDと稼働データ履歴が近似しているかを判断してもよい。稼働データ履歴が近似している場合、当該端末に対して、故障予兆を見逃している可能性があると考えられるため、当該端末に検知頻度増加要求を送信する。
稼働データ履歴同士の近似を判断する別の方法として、例えば、故障予兆を見逃している可能性がある複数の故障HDDの稼働データ履歴から、故障判定を行う状態遷移機械を生成する方法も可能である。この状態遷移機械に、サンプル端末の稼働データ履歴を適用する。状態遷移機械で故障と判定された場合に、稼働データ履歴が近似していると判断する。ここで述べた方法以外にも、稼働データ履歴同士の近似を判断できる方法であれば、任意のものを使用してよい。
パラメータ決定部123は、教師データ記憶部125と機種ID記憶部124に接続されている。各端末から受信した稼働データを記憶する記憶部を、モデルパラメータ算出装置に設け、当該記憶部にパラメータ決定部123からアクセス可能にしてもよい。または、パラメータ決定部123は、各端末と逐次通信して、必要な稼働データを取得し、内部バッファや、アクセス可能な記憶手段に格納するようにしてもよい。パラメータ決定部123は、各端末の稼働データと、教師データ記憶部125内の教師データを用いて、モデルを生成する。具体的には、予め指定されたモデル型に応じたモデル規範に従って、モデルパラメータを決定する。モデルの生成(パラメータの決定)は、HDDの機種ごとに行う。このようなモデルを生成あるいはパラメータを決定する処理を、モデル更新処理またはパラメータ更新処理と呼ぶ。パラメータ更新処理のタイミングは、任意の方法で決定できる。例えば、教師データ記憶部125で、該当機種の教師データが1つ更新されるごとでもよいし、一定数の教師データが更新されるごとでもよいし、管理者が指定したタイミングなどでもよい。
モデル型は事前に指定されており、モデル型を示す情報が、パラメータ決定部123によりアクセス可能な記憶部、または予め内部のバッファに格納されていてもよい。パラメータ決定部123は、当該モデル型に応じたモデル規範に従って、パラメータを決定する。決定されたパラメータと、上記モデル型とから、新たなモデルが定まる。モデル型を変更する場合は、記憶部または内部バッファに、変更後のモデル型を表す情報を格納しておけばよい。
モデル型がロジスティック回帰モデルの場合、以下の式で計算される対数尤度L(モデル規範)を最大化するように、
を決定する。この問題を解くには、ニュートン法や最急降下法などの公知の手法を用いればよい。なお、対数尤度Lを最大化する代わりに、対数尤度Lを、閾値以上、または所定の範囲に収めるようにパラメータを決定してもよい。
を決定する。この問題を解くには、ニュートン法や最急降下法などの公知の手法を用いればよい。なお、対数尤度Lを最大化する代わりに、対数尤度Lを、閾値以上、または所定の範囲に収めるようにパラメータを決定してもよい。
ここで、nは、教師データが存在する端末のインデックスを表す。また、cは、稼働状況が「故障」または検査結果が「異常」の場合に1、そうでない場合に0となる変数である。Pは、式(1)で計算される故障確率である。ロジスティック回帰モデルの場合、モデル型に応じたモデル規範に従うとは、対数尤度を最大化、または閾値以上、または、所定の範囲に収めることを意味する。
式(3)に従って決定することで、モデルに含まれる変数の種類が変更される場合もあり得る。すなわち、複数の変数の組み合わせを生成し、各組み合わせで最も対数尤度が低い組み合わせを選択してもよい。もちろん、変数の種類を固定してもよく、その場合には、モデル更新処理の結果、変数の種類は変更されず、係数のみが更新される。
モデル型がサポートベクターマシンの場合、以下の損失関数Lを最小化するように
を決定する。なお、λは正の定数である。s.t.制約条件である。損失関数Lを最小化する代わりに、損失関数Lを、閾値以下、または所定の範囲に収めるようにパラメータを決定してもよい。
を決定する。なお、λは正の定数である。s.t.制約条件である。損失関数Lを最小化する代わりに、損失関数Lを、閾値以下、または所定の範囲に収めるようにパラメータを決定してもよい。
パラメータ決定部123は、HDD機種毎に、算出されたモデル(決定されたパラメータとモデル型)を、該当する機種のHDDを有する端末に送信する。当該モデルを受信した端末では、更新部216により、更新後モデル記憶部215内のモデル(モデルパラメータとモデル型)を読み出して、更新前モデル記憶部214に上書きし、今回受信したモデル(決定されたパラメータとモデル型)を、更新後モデル記憶部215に上書きする。
なお、使用するモデル型が予め固定されている場合は、パラメータ決定部123は、モデル型を示す情報の送信は省略してもよい。この場合、端末では、更新前モデル記憶部214および更新後モデル記憶部215にモデル型を記憶しなくてもよい。故障予兆検知部211が、モデル型を示す情報を予め与えられるか、あるいは、アクセス可能な別の記憶部からモデル型の情報を読み出させばよい。
図10は、端末のハードウェア構成例を示す。端末は、CPU401、入力部402、表示部403、通信部404、主記憶部405、外部記憶部406を備え、これらはバス407により相互に通信可能に接続される。
入力部402は、キーボード、マウス等の入力デバイスを備える。表示部403は、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)等の表示ディスプレイを含む。通信部404は、無線または有線の通信手段を有し、所定の通信方式で通信を行う。
外部記憶部406は、例えば、HDD、SSD、メモリ装置、CD−R、CD−RW、DVD−RAM、DVD−R等の記憶媒体等を含む。外部記憶部406は、故障予兆検知部211、検査処理部212、更新部216の処理を、CPU401に実行させるためのプログラムを記憶している。また、稼働データ記憶部213、更新前モデル記憶部214、更新後モデル記憶部215も、外部記憶部406に含まれる。ここでは、外部記憶部406を1つのみ示しているが、複数存在しても構わない。この場合、故障予兆検知は、1つの外部記憶部を対象としてもよいし、複数の外部記憶部ごとに行っても良い。
主記憶部405は、CPU401による制御の下で、外部記憶部406に記憶された制御プログラムを展開し、当該プログラムの実行時に必要なデータ、当該プログラムの実行により生じたデータ等を記憶する。主記憶部405は、例えば不揮発性メモリ等の任意のメモリを含む。
図11は、モデルパラメータ算出装置のハードウェア構成例を示す。モデルパラメータ算出装置は、CPU501、入力部502、表示部503、通信部504、主記憶部505、外部記憶部506を備え、これらはバス507により相互に通信可能に接続される。
入力部502は、キーボード、マウス等の入力デバイスを備える。表示部503は、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)等の表示ディスプレイを含む。通信部504は、無線または有線の通信手段を有し、所定の通信方式で通信を行う。
外部記憶部506は、例えば、HDD、SSD、メモリ装置、CD−R、CD−RW、DVD−RAM、DVD−R等の記憶媒体等を含む。外部記憶部506は、比較部121、要求部122、パラメータ決定部123の処理を、CPU501に実行させるためのプログラムを記憶している。また、機種ID記憶部124、教師データ記憶部125も、外部記憶部506に含まれる。前述したモデル型を格納する記憶部も、ここに含まれても良い。また、各端末から受信した稼働データを記憶する記憶部も、ここに含まれても良い。ここでは、外部記憶部506を1つのみ示しているが、複数存在しても構わない。
主記憶部505は、CPU501による制御の下で、外部記憶部506に記憶された制御プログラムを展開し、当該プログラムの実行時に必要なデータ、当該プログラムの実行により生じたデータ等を記憶する。主記憶部505は、例えば不揮発性メモリ等の任意のメモリを含む。
図12は、本実施形態に係るモデルパラメータ算出装置の動作フローチャートを示す。
比較部121が、端末から更新前検知結果と更新後検知結果を受信する(S301)。比較部121は、これらの検知結果を、図8に示した検知結果表に追加してもよい。
比較部121は、これらの検知結果を比較し、前述した図8に示したフローに従って、当該端末をサンプル端末として選択するかを判断する(S302)。端末をサンプル端末として選択しない場合は、ステップS301に戻る。
比較部121は、サンプル端末として選択する場合は、当該サンプル端末に対して検査要求、または検知頻度増加要求を送信するかを判断する(S303)。この判断は、前述した図9に示したフローに従って行えばよい。
要求部は、比較部121の決定に従って、検査要求または検知頻度増加要求を、端末に送信する(S304)。
取得部126は、端末の検査処理部212で行われたHDDの検査結果を取得し、取得した検査結果を、教師データ記憶部125の当該製品IDを有するエントリの検査結果フィールドに追加する(S305)。
パラメータ決定部123は、稼働データと教師データを用いて、予め定めたモデル型に応じたモデル規範に従って、パラメータを決定する(S306)。パラメータの決定は、機種ごとに行う。
パラメータ決定部123は、更新後のパラメータと、モデル型とを含むモデルを、該当する機種のHDDを有する端末に送信する(S307)。
図13に、本実施形態に係るモデルパラメータ算出装置および端末装置の変形例のブロック図を示す。図2と同一名称の要素には、同一の符号を付して、重複する説明を省略する。
図2の故障予兆検知部211、更新前モデル記憶部214、更新後モデル記憶部215、更新部216および稼働データ記憶部213を、端末からモデルパラメータ算出装置に移している。つまり、モデルパラメータ算出装置が、端末から稼働データの収集、更新前モデルおよび更新後モデルによる各故障予兆検知を行う。また、更新前モデル記憶部214および更新後モデル記憶部216の更新処理も、モデルパラメータ算出装置で行う。また、モデルパラメータ算出装置は、端末ごとに、該当機種の更新後モデルで故障検知処理を行う。故障予兆を検知した場合は、故障予兆を通知するメッセージを端末に送信する。このようにモデルパラメータ算出を行う装置に、本実施形態に係る端末の故障予兆検知を行う機構を搭載することも可能である。
図14は、本実施形態に係るネットワーク構成の変形例を示す図である。図1では、モデルパラメータ算出装置101は、各端末201とネットワーク301介して直接、接続されていたが、算出装置101は、各端末201を管理する管理装置601と接続されてもよい。管理装置601は、各端末201と、ネットワーク701を介して接続されている。ネットワーク701とネットワーク301は同じであっても、異なっても良い。
図13で端末からモデルパラメータ算出装置に移行した処理部を、ここでは管理装置601に移行した形になる。すなわち、管理装置601が、更新前モデル記憶部214、更新後モデル記憶部215、更新部216および稼働データ記憶部213を備え、端末から稼働データの収集、更新前モデルおよび更新後モデルによる各故障予兆検知を行う。モデルパラメータ算出装置101は、検査要求を管理装置601に行い、管理装置601が各端末に当該検査要求を転送し、検査結果を取得する。管理装置601は、検査結果をモデルパラメータ算出装置101にフィードバックする。またモデルパラメータ算出装置101は、更新したパラメータ等を管理装置601に送り、管理装置601内の更新部216により、更新前モデル記憶部214および更新後モデル記憶部216の更新処理を行う。管理装置601は、各端末のHDD機種に対応する更新後モデルで故障予兆を検知した場合は、故障予兆を通知するメッセージを端末に送信する。このように端末の故障予兆検知を管理装置で行う場合にも、本実施形態は適用可能である。
以上、本実施形態によれば、更新前検知結果と更新後検知結果を比較し、比較結果に差異のある端末からのみ、HDDの検査結果を取得することで、効率的な教師データの取得が可能となる。検知結果に差異がある場合、現在の故障予兆検知に用いているモデル(更新後モデル)がまだ十分に収束していない(精度が高くない)と判断できる。このような場合にのみ、HDDの検査を行うことで、モデル精度の向上に寄与できる教師データを効率的に収集できる。全ての端末でHDD検査を行うこと(検査プログラムの実施)はシステム全体として見たときの負荷が大きく、高コストにつながる可能性もある。また、実際に故障したHDDのデータの蓄積には、新規機種では故障数も少ないことから、時間がかかる。そこで、本実施形態では、上記の手法でHDD検査を行う端末を厳選し、その端末からの検査結果に基づき教師データを取得するため、迅速かつ低コストでモデルを更新できる。よって、新たな世代のHDD機種の見逃し・誤報を少なくするという効果を実現できる。
(第2の実施形態)
本実施形態では、検査結果を取得するHDDのバリエーションが多様になるようにする。本実施形態のブロック図は、第1の実施形態と同様であるため、図2のブロック図を用いる。
本実施形態では、検査結果を取得するHDDのバリエーションが多様になるようにする。本実施形態のブロック図は、第1の実施形態と同様であるため、図2のブロック図を用いる。
第1の実施形態では、図8のフローに従ってサンプル端末を選択したが、本実施形態では、さらに以下の条件を満たす端末のみ、サンプル端末として選択する。
比較部121は、図8のS101またはS103の条件を端末が満たした場合、当該端末と、同一機種のHDDを搭載する他の端末との間で、更新後モデル(あるいは更新前モデル)で使用する
を、ベクトル空間上で比較する。すなわち、当該端末の各変数の組が表す点と、他の端末の各変数の組が表す点間の距離(例えばユークリッド距離やマンハッタン距離)を計算する。計算した距離が、閾値以上の場合は、当該端末をサンプル端末として選択し、閾値未満の場合は選択しない。これによりパラメータ更新に利用するデータの偏りを抑えることができ、モデル更新の効率が向上する効果が得られる。
を、ベクトル空間上で比較する。すなわち、当該端末の各変数の組が表す点と、他の端末の各変数の組が表す点間の距離(例えばユークリッド距離やマンハッタン距離)を計算する。計算した距離が、閾値以上の場合は、当該端末をサンプル端末として選択し、閾値未満の場合は選択しない。これによりパラメータ更新に利用するデータの偏りを抑えることができ、モデル更新の効率が向上する効果が得られる。
別の方法として、例えば製造ロットが異なるように、サンプル端末を選択することも可能である。図15にHDDの製品IDとロットIDとを対応づけたロットID表を示す。この表は、機種ID記憶部124に、機種ID表とともに記憶させてもよいし、機種ID表にロットIDフィールドを追加してもよい。比較部121は、図8のS101またはS103の条件を端末が満たした場合、当該端末と同じロットIDの端末がサンプル端末として選択済みかを調べる。選択済みでなければ、当該端末を、サンプル端末として選択する。選択済みであれば、当該端末を、サンプル端末として選択しない。あるいは、各ロットで複数のサンプル端末を選択可能にし、ロット間でサンプル端末数の差が閾値以下になるように、すなわち、ロット間のばらつきを抑制するように、端末を選択してもよい。これによりパラメータ更新に利用するデータの偏りを抑えることができ、モデル更新を効率的に行うことができる。
(第3の実施形態)
本実施形態では、第1の実施形態におけるパラメータ更新処理(モデル更新処理)に、更新終了の判定処理を追加する。本実施形態のブロック図は、第1の実施形態と同様であるため、図2のブロック図を用いる。
本実施形態では、第1の実施形態におけるパラメータ更新処理(モデル更新処理)に、更新終了の判定処理を追加する。本実施形態のブロック図は、第1の実施形態と同様であるため、図2のブロック図を用いる。
図16に本実施形態に係るモデルパラメータ算出装置の動作フローを示す。第1の実施形態で用いた図12のステップS307の後に、終了判定に関するステップS308が追加されている。
ステップS308において、パラメータ決定部123は、該当する機種のモデルのパラメータが収束したかを、収束条件を満たしたか否かで判定する。例えば、パラメータ更新の際に、一定回数連続して変数の種類が同じであった場合は、収束条件を満たしたと判定する。または、使用する変数の種類を固定にする場合には、各変数の係数の値の更新前後の差が、全ての変数で閾値以下であれば、収束条件が満たされたと判定する。全ての変数ではなく、1つもしくは複数の変数で閾値以下であれば、収束条件が満たされたと判定してもよい。または、サンプル端末が一定以上集まった場合に、収束条件が満たされたと判定してもよい。
以上、本実施形態によれば、パラメータの収束条件が満たされた以降は、パラメータの更新(モデルの更新)を行わない。これにより、モデルパラメータ算出装置の負荷を下げることができる。また、稼働中のHDDの監視に用いるモデルを固定して、以降の運用が可能になる。
(第4の実施形態)
第1の実施形態で選択したサンプル端末集合は、ランダムに選択された標本ではない。このため、このサンプル端末集合の分布には、稼働中HDD全体の分布とは異なり、バイアスが存在する。本実施形態では、このバイアスを補正して、稼働中HDD全体の分布に沿ってサンプル端末を選択したのと同様の効果を得られるようにすることを特徴とする。本実施形態のブロック図は、第1の実施形態と同様であるため、図2のブロック図を用いる。
第1の実施形態で選択したサンプル端末集合は、ランダムに選択された標本ではない。このため、このサンプル端末集合の分布には、稼働中HDD全体の分布とは異なり、バイアスが存在する。本実施形態では、このバイアスを補正して、稼働中HDD全体の分布に沿ってサンプル端末を選択したのと同様の効果を得られるようにすることを特徴とする。本実施形態のブロック図は、第1の実施形態と同様であるため、図2のブロック図を用いる。
図17に示すように、稼働中HDDを搭載した全端末における特徴量nの確率分布をPとし、サンプル端末集合の特徴量の確率分布をQとする。このとき、サンプル端末nの荷重値wnを以下の式で計算する。xnは、サンプル端末nにおける特徴量nの値である。
この荷重値を用いて、モデル規範を修正する。例えば、モデル型がロジスティック回帰モデルであり、対数尤度の最大化によりパラメータ更新を行う場合は、第1の実施形態における式(3)を、以下の式(7)のように修正する。つまり、対数尤度のサンプル端末毎の成分に荷重値を掛ける。
式(7)を用いてパラメータ更新を行うことで、選択バイアスが補正されるため、モデル精度を向上させることができる。
ここで、分布Pの計算は、図6の教師データ表で、稼働状況が「稼働」のHDDを搭載した全端末を対象とすればよい。また、分布Qの計算は、これらの全端末のうち、検査結果が「検査未実施」以外のものを、サンプル端末集合として対象とすればよい。
また、分布P、Qの計算を行うタイミングは、一定期間ごとでもよいし、比較部121でサンプル端末が一定数選択されるごとでもよいし、パラメータ更新処理の直前でもよい。ここで述べた以外のタイミングでもよい。
図16は本実施形態に係るモデルパラメータ算出装置の動作のフローチャートである。第3の実施形態で用いた図18のフローチャートのステップS305とステップS305の間に、ステップS309が追加されている。
ステップS309において、パラメータ決定部123は、パラメータ更新(S306)の前に、端末の荷重値を計算する。荷重値の計算は、式(6)に従って行う。パラメータ決定部123は、事前に分布P、Qを計算し、P,Qと、端末の特徴量に基づき、荷重値を計算する。
以上、本実施形態によれば、端末ごとに荷重値を計算し、荷重値でモデル規範を修正して、パラメータ更新を行う。これにより、選択バイアスが補正されるため、モデル精度を向上させることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
101:モデルパラメータ算出装置
121:比較部
122:要求部
123:パラメータ決定部
124:機種ID記憶部
125:教師データ記憶部
126:取得部
201:端末
211:故障予兆検知部
212:検査処理部
213:稼働データ記憶部
214:更新前モデル記憶部
215:更新後モデル記憶部
216:更新部
217:稼働データ取得部
301:ネットワーク
121:比較部
122:要求部
123:パラメータ決定部
124:機種ID記憶部
125:教師データ記憶部
126:取得部
201:端末
211:故障予兆検知部
212:検査処理部
213:稼働データ記憶部
214:更新前モデル記憶部
215:更新後モデル記憶部
216:更新部
217:稼働データ取得部
301:ネットワーク
Claims (20)
- 端末装置の稼働データに基づく特徴量が割り当てられる第1変数を含む第1パラメータと、前記端末装置の故障の発生可能性の大きさに関する第1出力変数とを対応づけた第1モデルおよび前記稼働データに基づいて算出される第1評価値と、前記稼働データに基づく特徴量が割り当てられる第2変数を含む第2パラメータと、前記端末装置の故障の発生可能性の大きさに関する第2出力変数とを関連付けた第2モデルから前記稼働データに基づき算出される第2評価値とを比較する比較部と、
前記比較部の比較結果に応じて、前記端末装置または前記端末装置を管理する管理装置に、前記端末装置の検査要求を送信する要求部と、
前記端末装置の検査結果と、前記端末装置の稼働データに基づき、予め定めたモデル型に応じたモデル規範に従って、前記稼働データに基づく特徴量を割り当てられる第3変数と、前記端末装置の故障の発生可能性の大きさに関する第3出力変数とを関連付けた第3モデルにおける前記第3変数を含む第3パラメータを決定するパラメータ決定部と
を備えたモデルパラメータ算出装置。 - 前記第1モデルおよび前記第2モデルは、前記予め定めたモデル型を有し、
前記第1パラメータは前記第1変数に対する第1係数を含み、前記第2パラメータは前記第2変数に対する第2係数を含み、前記第3パラメータは前記第3変数に対する第3係数を含む
請求項1に記載のモデルパラメータ算出装置。 - 前記比較部は、前記端末装置の稼働データに基づき前記第2モデルから算出される第2評価値と、前記端末装置の稼働データに基づき前記第3モデルから算出される第3評価値を比較し、
前記要求部は、前記比較部の比較結果に応じて、前記検査要求を前記端末装置または前記管理装置に送信する
請求項1に記載のモデルパラメータ算出装置。 - 前記要求部は、前記第1評価値と前記第2評価値の差分が閾値以上の場合に、前記検査要求を送信する
請求項1ないし3のいずれか一項に記載のモデルパラメータ算出装置。 - 前記要求部は、前記第1評価値に応じて定まるランクと、前記第2評価値に応じて定まるランクが異なる場合に、前記検査要求を送信する
請求項1ないし3のいずれか一項に記載のモデルパラメータ算出装置。 - 前記比較部は、各端末装置間で前記第2変数に割り当てられる特徴量の差を比較することにより、前記検査要求を送信する端末装置を選択する
請求項1ないし5のいずれか一項に記載のモデルパラメータ算出装置。 - 前記比較部は、前記端末装置の稼働状況を把握しており、前記端末装置の稼働状況と、前記第2評価値とを比較することにより、前記端末装置に前記検査要求を送信するかを判断する
請求項1ないし6のいずれか一項に記載のモデルパラメータ算出装置。 - 前記要求部は、故障した端末装置の稼働データに基づき前記第2評価値を取得し、取得した第2評価値が前記故障した端末装置に故障の発生可能性が低いことを示している場合、前記端末装置と前記故障した端末装置の各前記第2変数に割り当てられる特徴量の差分に応じて、前記端末装置に対する前記第1および第2評価値の取得頻度を高めるように制御する
請求項1ないし7のいずれか一項に記載のモデルパラメータ算出装置。 - 複数の端末装置を対象に、前記第2変数に割り当てられる特徴量の発生確率分布である第1確率分布を計算し、
前記複数の端末装置のうち、前記検査要求を送信した端末装置を対象に、前記特徴量の発生確率分布である第2確率分布を計算し、
前記検査要求を送信した端末装置毎に、前記第1および第2確率分布から前記特徴量の発生確率を求め、前記第1および第2確率分布から求めた各発生確率の関係に応じた重みを求め、前記重みを用いて前記モデル規範を更新する
請求項1ないし8のいずれか一項に記載のモデルパラメータ算出装置。 - 前記予め定めたモデル型は、ロジスティック回帰モデル、サポートベクターマシン、または、線形判別モデルである
請求項1ないし9のいずれか一項に記載のモデルパラメータ算出装置。 - 前記パラメータ決定部は、前記決定した第3パラメータを、前記端末装置または前記管理装置に送信する
請求項1ないし10のいずれか一項に記載のモデルパラメータ算出装置。 - 前記比較部は、前記第1評価値と、前記第2評価値を前記端末装置または前記管理装置から、ネットワークを介して取得する
請求項1ないし11のいずれか一項に記載のモデルパラメータ算出装置。 - 前記比較部は、前記端末装置の稼働データと前記第1モデルとに基づき、前記第1評価値を計算し、前記端末装置の稼働データと前記第2モデルに基づき、前記第2評価値を計算する
請求項1ないし12のいずれか一項に記載のモデルパラメータ算出装置。 - 前記端末装置は記憶装置を備え、前記端末装置の故障とは前記記憶装置の故障のことである
請求項1ないし13のいずれか一項に記載のモデルパラメータ算出装置。 - 前記比較部は、前記記憶装置毎のロットを示す情報に基づき、前記ロット間で前記検査要求を送信する端末装置数のばらつきを抑制するように、前記検査要求を送信する端末装置を選択する
請求項14に記載のモデルパラメータ算出装置。 - 前記第1モデルは、前記端末装置と異なる機種の記憶装置を搭載した端末装置の稼働データに基づき生成されたモデルであり、前記第2モデルは、前記端末装置と同じ機種の記憶装置を搭載した端末装置の稼働データに基づき生成されたモデルである
請求項14または15に記載のモデルパラメータ算出装置。 - 前記検査要求は、前記端末装置の記憶装置を検査するための検査プログラムを前記端末装置で実行することの要求である
請求項14ないし16のいずれか一項に記載のモデルパラメータ算出装置。 - 前記記憶装置は、HDD(Hard Disk Drive)、またはSSD(Solid State Drive)である
請求項14ないし17のいずれか一項に記載のモデルパラメータ算出装置。 - 端末装置の稼働データに基づく特徴量が割り当てられる第1変数を含む第1パラメータと、前記端末装置の故障の発生可能性の大きさに関する第1出力変数とを対応づけた第1モデルおよび前記稼働データに基づいて算出される第1評価値と、前記稼働データに基づく特徴量が割り当てられる第2変数を含む第2パラメータと、前記端末装置の故障の発生可能性の大きさに関する第2出力変数とを関連付けた第2モデルから前記稼働データに基づき算出される第2評価値とを比較する比較ステップと、
前記比較ステップの比較結果に応じて、前記端末装置または前記端末装置を管理する管理装置に、前記端末装置の検査要求を送信する要求ステップと、
前記端末装置の検査結果と、前記端末装置の稼働データに基づき、予め定めたモデル型に応じたモデル規範に従って、前記稼働データに基づく特徴量を割り当てられる第3変数と、前記端末装置の故障の発生可能性の大きさに関する第3出力変数とを関連付けた第3モデルにおける前記第3変数を含む第3パラメータを決定するパラメータ算出ステップと
をコンピュータが実行するモデルパラメータ算出方法。 - 端末装置の稼働データに基づく特徴量が割り当てられる第1変数を含む第1パラメータと、前記端末装置の故障の発生可能性の大きさに関する第1出力変数とを対応づけた第1モデルおよび前記稼働データに基づいて算出される第1評価値と、前記稼働データに基づく特徴量が割り当てられる第2変数を含む第2パラメータと、前記端末装置の故障の発生可能性の大きさに関する第2出力変数とを関連付けた第2モデルから前記稼働データに基づき算出される第2評価値とを比較する比較ステップと、
前記比較ステップの比較結果に応じて、前記端末装置または前記端末装置を管理する管理装置に、前記端末装置の検査要求を送信する要求ステップと、
前記端末装置の検査結果と、前記端末装置の稼働データに基づき、予め定めたモデル型に応じたモデル規範に従って、前記稼働データに基づく特徴量を割り当てられる第3変数と、前記端末装置の故障の発生可能性の大きさに関する第3出力変数とを関連付けた第3モデルにおける前記第3変数を含む第3パラメータを決定するパラメータ算出ステップと
をコンピュータに実行させるためのコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014059031A JP2015184823A (ja) | 2014-03-20 | 2014-03-20 | モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム |
US14/659,922 US20150269120A1 (en) | 2014-03-20 | 2015-03-17 | Model parameter calculation device, model parameter calculating method and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014059031A JP2015184823A (ja) | 2014-03-20 | 2014-03-20 | モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015184823A true JP2015184823A (ja) | 2015-10-22 |
Family
ID=54142268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014059031A Pending JP2015184823A (ja) | 2014-03-20 | 2014-03-20 | モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20150269120A1 (ja) |
JP (1) | JP2015184823A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017215898A (ja) * | 2016-06-02 | 2017-12-07 | 株式会社マーズスピリット | 機械学習システム |
US10095225B2 (en) | 2014-09-17 | 2018-10-09 | Kabushiki Kaisha Toshiba | Quality controlling device and control method thereof |
JP2019049778A (ja) * | 2017-09-07 | 2019-03-28 | 日本電信電話株式会社 | 検知装置、検知方法及び検知プログラム |
JP2019528506A (ja) * | 2017-04-20 | 2019-10-10 | ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド | 学習ベースのグループタグ付けのためのシステムおよび方法 |
JP2019220046A (ja) * | 2018-06-22 | 2019-12-26 | カシオ計算機株式会社 | データ処理システム、サーバ装置、端末装置、データ処理方法及びプログラム |
WO2020189522A1 (ja) * | 2019-03-19 | 2020-09-24 | 日本電気株式会社 | スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム |
JP2020177344A (ja) * | 2019-04-16 | 2020-10-29 | 富士通株式会社 | 学習方法、学習プログラムおよび学習装置 |
JP2021002356A (ja) * | 2016-06-23 | 2021-01-07 | スリーエム イノベイティブ プロパティズ カンパニー | 安全イベント検出のための解析ストリーム処理を伴う個人用保護具(ppe) |
JPWO2021028970A1 (ja) * | 2019-08-09 | 2021-12-16 | 三菱電機株式会社 | 制御システム、サーバ、機器、制御方法およびプログラム |
JP2022508320A (ja) * | 2018-12-05 | 2022-01-19 | 中興通訊股▲ふん▼有限公司 | ハードディスク故障発生時期の予測方法、装置及び記憶媒体 |
WO2022196227A1 (ja) * | 2021-03-18 | 2022-09-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理システム、および、プログラム |
JP2023060335A (ja) * | 2018-12-28 | 2023-04-27 | 株式会社富士通ゼネラル | アダプタ |
US11740592B2 (en) | 2019-12-10 | 2023-08-29 | Canon Kabushiki Kaisha | Control method, control apparatus, mechanical equipment, and recording medium |
JP7651678B2 (ja) | 2020-07-17 | 2025-03-26 | グラム・ラブズ,インコーポレイテッド | コンテナ化されたアプリケーションの展開を最適化するためのシステム、方法、及びサーバ |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452467B2 (en) * | 2016-01-28 | 2019-10-22 | Intel Corporation | Automatic model-based computing environment performance monitoring |
US9998804B2 (en) | 2016-06-23 | 2018-06-12 | 3M Innovative Properties Company | Personal protective equipment (PPE) with analytical stream processing for safety event detection |
US11113624B2 (en) * | 2017-07-12 | 2021-09-07 | Sap Se | Distributed machine learning on heterogeneous data platforms |
CN109754105B (zh) * | 2017-11-07 | 2024-01-05 | 华为技术有限公司 | 一种预测方法及终端、服务器 |
JP7270449B2 (ja) * | 2019-04-23 | 2023-05-10 | 株式会社日立製作所 | 保全リコメンドシステム |
CN115700549A (zh) * | 2021-07-23 | 2023-02-07 | 伊姆西Ip控股有限责任公司 | 模型训练方法、故障确定方法、电子设备和程序产品 |
CN114760215B (zh) * | 2022-03-11 | 2023-02-10 | 安徽师范大学 | 一种计算机网络数据传输性能监测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6055285B2 (ja) * | 2012-11-19 | 2016-12-27 | 株式会社東芝 | データ保全装置およびその方法、システム |
US9239746B2 (en) * | 2013-05-30 | 2016-01-19 | Xyratex Technology Limited—A Seagate Company | Method of, and apparatus for, detection of degradation on a storage resource |
-
2014
- 2014-03-20 JP JP2014059031A patent/JP2015184823A/ja active Pending
-
2015
- 2015-03-17 US US14/659,922 patent/US20150269120A1/en not_active Abandoned
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095225B2 (en) | 2014-09-17 | 2018-10-09 | Kabushiki Kaisha Toshiba | Quality controlling device and control method thereof |
JP2017215898A (ja) * | 2016-06-02 | 2017-12-07 | 株式会社マーズスピリット | 機械学習システム |
JP2021002356A (ja) * | 2016-06-23 | 2021-01-07 | スリーエム イノベイティブ プロパティズ カンパニー | 安全イベント検出のための解析ストリーム処理を伴う個人用保護具(ppe) |
JP2019528506A (ja) * | 2017-04-20 | 2019-10-10 | ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド | 学習ベースのグループタグ付けのためのシステムおよび方法 |
JP2019049778A (ja) * | 2017-09-07 | 2019-03-28 | 日本電信電話株式会社 | 検知装置、検知方法及び検知プログラム |
JP2019220046A (ja) * | 2018-06-22 | 2019-12-26 | カシオ計算機株式会社 | データ処理システム、サーバ装置、端末装置、データ処理方法及びプログラム |
JP2022508320A (ja) * | 2018-12-05 | 2022-01-19 | 中興通訊股▲ふん▼有限公司 | ハードディスク故障発生時期の予測方法、装置及び記憶媒体 |
JP7158586B2 (ja) | 2018-12-05 | 2022-10-21 | 中興通訊股▲ふん▼有限公司 | ハードディスク故障発生時期の予測方法、装置及び記憶媒体 |
JP7521631B2 (ja) | 2018-12-28 | 2024-07-24 | 株式会社富士通ゼネラル | 空気調和機及び空気調和システム |
JP2023060335A (ja) * | 2018-12-28 | 2023-04-27 | 株式会社富士通ゼネラル | アダプタ |
WO2020189522A1 (ja) * | 2019-03-19 | 2020-09-24 | 日本電気株式会社 | スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム |
JP7151870B2 (ja) | 2019-03-19 | 2022-10-12 | 日本電気株式会社 | スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム |
JPWO2020189522A1 (ja) * | 2019-03-19 | 2020-09-24 | ||
JP7188255B2 (ja) | 2019-04-16 | 2022-12-13 | 富士通株式会社 | 学習方法、学習プログラムおよび学習装置 |
JP2020177344A (ja) * | 2019-04-16 | 2020-10-29 | 富士通株式会社 | 学習方法、学習プログラムおよび学習装置 |
JP7138800B2 (ja) | 2019-08-09 | 2022-09-16 | 三菱電機株式会社 | 制御システム、サーバ、機器、制御方法およびプログラム |
JPWO2021028970A1 (ja) * | 2019-08-09 | 2021-12-16 | 三菱電機株式会社 | 制御システム、サーバ、機器、制御方法およびプログラム |
US11740592B2 (en) | 2019-12-10 | 2023-08-29 | Canon Kabushiki Kaisha | Control method, control apparatus, mechanical equipment, and recording medium |
JP7651678B2 (ja) | 2020-07-17 | 2025-03-26 | グラム・ラブズ,インコーポレイテッド | コンテナ化されたアプリケーションの展開を最適化するためのシステム、方法、及びサーバ |
WO2022196227A1 (ja) * | 2021-03-18 | 2022-09-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理システム、および、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20150269120A1 (en) | 2015-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015184823A (ja) | モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム | |
JP5855036B2 (ja) | 設備点検順位設定装置 | |
CN104919384B (zh) | 用于设备维护和/或风险减缓的电力系统设备的评估 | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
US10534361B2 (en) | Industrial asset health model update | |
CN104966141B (zh) | 更新用于生成工业资产健康状况简档的模型的方法和系统 | |
JP2022520247A (ja) | センサ計測データ統合 | |
CN112449696B (zh) | 时序数据诊断装置、追加学习方法及程序 | |
CN112771504A (zh) | 多因素云服务存储设备错误预测 | |
JP6880560B2 (ja) | 故障予測装置、故障予測方法及び故障予測プログラム | |
JP6847787B2 (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
US20140244563A1 (en) | Operation information prediction computer, operation information prediction method and program | |
US20160063418A1 (en) | System and Method for Inferring Vehicle Health | |
US11657321B2 (en) | Information processing device, non-transitory storage medium and information processing method | |
JP2020035407A (ja) | 異常予兆診断装置及び異常予兆診断方法 | |
KR20110069404A (ko) | 화상형성장치 관리 서버, 화상형성장치들의 에러를 관리하는 방법 및 시스템 | |
US9720759B2 (en) | Server, model applicability/non-applicability determining method and non-transitory computer readable medium | |
CN112927791A (zh) | 设备管理装置、设备管理系统以及设备管理方法 | |
CN110276385A (zh) | 基于相似性的机械部件剩余使用寿命预测方法 | |
US9397921B2 (en) | Method and system for signal categorization for monitoring and detecting health changes in a database system | |
JP6381122B2 (ja) | 故障推定装置、故障推定データベース装置、故障推定プログラム、故障推定データベースプログラム、および故障推定システム | |
JP2019095930A (ja) | 決定装置、補正装置、表示装置、決定システム、決定方法及びコンピュータプログラム | |
JP6715705B2 (ja) | 不良原因探索システム、及び不良要因探索方法 | |
JP2019175273A (ja) | 品質評価方法および品質評価装置 | |
US20240362097A1 (en) | System and method for managing operation of data processing systems to meet operational goals |