JP5140633B2 - 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム - Google Patents
仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム Download PDFInfo
- Publication number
- JP5140633B2 JP5140633B2 JP2009135441A JP2009135441A JP5140633B2 JP 5140633 B2 JP5140633 B2 JP 5140633B2 JP 2009135441 A JP2009135441 A JP 2009135441A JP 2009135441 A JP2009135441 A JP 2009135441A JP 5140633 B2 JP5140633 B2 JP 5140633B2
- Authority
- JP
- Japan
- Prior art keywords
- server
- event
- failure
- history
- virtual server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 153
- 230000008569 process Effects 0.000 claims description 143
- 238000004458 analytical method Methods 0.000 claims description 137
- 238000013507 mapping Methods 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000012508 change request Methods 0.000 claims 4
- 238000007726 management method Methods 0.000 description 116
- 238000012545 processing Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 15
- 230000010485 coping Effects 0.000 description 11
- 230000005012 migration Effects 0.000 description 10
- 238000013508 migration Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 7
- 230000001960 triggered effect Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011084 recovery Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0775—Content or structure details of the error report, e.g. specific table structure, specific error fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/065—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1433—Saving, restoring, recovering or retrying at system level during software upgrading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/815—Virtual
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/40—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5003—Managing SLA; Interaction between SLA and QoS
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Description
その他、本願が開示する課題、およびその解決手段は、発明を実施するための最良の形態の欄、及び図面により明らかにされる。
図2Aに管理サーバ10において実現される機能、及び管理サーバ10によって管理されるデータを示す。尚、同図における各機能は、管理サーバ10の中央処理装置101が主記憶装置102又は補助記憶装置103に格納されているプログラムを読み出して実行することにより、もしくは管理サーバ10のハードウエア自体の機能によって実現される。
図2Bに物理サーバ20において実現される機能、及び物理サーバ20によって管理されるデータを示している。尚、同図における各機能は、物理サーバ20の中央処理装置101が主記憶装置102又は補助記憶装置103に格納されているプログラムを読み出して実行することにより、もしくは物理サーバ20のハードウエア自体の機能によって実現される。
各仮想サーバ212において動作する仮想イベント通知部2123は、各仮想サーバ212でイベントが発生すると、これに対応したイベント履歴を、通信ネットワーク5を介して管理サーバ10に通知する。
障害監視部110によって行われる処理を図4Aに示すフローチャートとともに説明する。尚、以下の説明において、符号の前に付した「S」の文字はステップを意味する。
図4AのS415では、対処実行部118が、障害の原因に応じた処理(以下、障害対処処理S415と称する。)を行う。対処実行部118は、障害対処処理S415に際し、図2Aに示したアプリケーション管理テーブル127、SLA定義テーブル128、リソース管理テーブル129、依存関係管理テーブル130、サーバ管理テーブル131、及びパッチ管理テーブル132を用いる。まずこれらのテーブルの内容について説明する。
図5に図2Aに示した対処実行部118が備える主な機能を示している。同図に示すように、対処実行部118は、障害対処処理S415に関する主な機能として、仮想サーバ212で実行されているソフトウエアを仮想サーバ212単位で他の仮想サーバに移動させる仮想サーバ移動処理部1181、仮想サーバ212で実行されているソフトウエアをアプリケーション単位で移動させるアプリケーション移動処理部1182、仮想サーバ212にインストールされているソフトウエアのバージョンをロールバックする(バージョン更新前の状態に戻す)ロールバック処理部1183、及び障害の原因がリソース不足であるか否かを判定するリソース不足判定部1184を備える。
図6は障害対処処理S415の全体的な流れを説明するフローチャートである。以下、同図とともに障害対処処理S415について説明する。尚、以下の説明において、障害が発生している仮想サーバ212のことを障害仮想サーバ212と称し、障害仮想サーバ212を実現している物理サーバ20のことを障害物理サーバ20と称する。また障害仮想サーバ212において実行されている業務プロセス2122のことを障害業務プロセス2122と称する。障害仮想サーバ212と障害物理サーバ20の対応は稼働サーバマッピングテーブル122から取得することができる。
図7は、仮想サーバ移動処理S621を説明するフローチャートである。仮想サーバ移動処理S621では、障害仮想サーバ212で実行されているソフトウエアを他の仮想サーバ212に移動させる(障害仮想サーバ212を実現している物理サーバ20を変更する。)。以下、同図とともに仮想サーバ移動処理S621について説明する。
20 物理サーバ
30 記憶装置
100 コンピュータ
111 イベント履歴管理部
112 マッピングテーブル管理部
113 ユーザインタフェース部
114 障害解析部
115 ポリシーテーブル管理部
116 解析履歴テーブル管理部
117 対処テーブル管理部
118 対処実行部
121 イベント履歴テーブル
122 稼働サーバマッピングテーブル
123 解析履歴テーブル
124 仮想サーバイベント解析ポリシーテーブル
125 物理サーバイベント解析ポリシーテーブル
126 対処テーブル
127 アプリケーション管理テーブル
128 SLA定義テーブル
129 リソース管理テーブル
130 依存関係管理テーブル
131 サーバ管理テーブル
132 パッチ管理テーブル
211 仮想化機構
212 仮想サーバ
2121 オペレーティングシステム
2122 業務プロセス
2123 仮想イベント通知部
213 物理イベント通知部
Claims (21)
- 物理サーバで動作する仮想化機構によって仮想サーバが実現される仮想化環境において生じる障害の解析方法であって、
前記物理サーバと通信可能に接続される管理サーバが、
前記仮想サーバと当該仮想サーバが実現されている前記物理サーバとの対応が登録されたマッピングテーブルを記憶し、
前記物理サーバで生じたイベントの履歴である第2のイベント履歴と、前記仮想サーバで生じたイベントの履歴である第1のイベント履歴とを蓄積記憶し、
前記仮想サーバで動作している業務プロセスの障害に関する前記イベントを受信すると、前記第1のイベント履歴のうち、当該イベントを発した仮想サーバに関するイベント履歴と、前記第2のイベント履歴のうち、前記マッピングテーブルから取得される、当該イベントを発した前記仮想サーバを実現している前記物理サーバに関するイベント履歴とを、前記蓄積記憶している前記イベント履歴から検索し、その検索結果に基づき障害の原因を特定し、
前記第1のイベント履歴の検索に用いる第1の検索条件と第1の障害箇所とを対応づけた仮想サーバイベント解析ポリシーテーブル、及び前記第2のイベント履歴の検索に用いる第2の検索条件と第2の障害箇所とを対応づけた物理サーバイベント解析ポリシーテーブルを記憶し、
蓄積記憶している前記イベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴を検索することができない場合には、障害の原因が前記業務プロセスにあると特定し、
前記蓄積記憶しているイベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索するとともに、前記物理サーバイベント解析ポリシーテーブルに登録されている前記第2の検索条件に該当する前記第2のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴を検索することができたが、前記第2のイベント履歴を検索することができなかった場合には、障害の原因が前記仮想サーバにあると特定し、
前記蓄積記憶しているイベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索するとともに、前記物理サーバイベント解析ポリシーテーブルに登録されている前記第2の検索条件に該当する前記第2のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴及び前記第2のイベント履歴を検索することができ、かつ、検索された前記第1のイベント履歴の検索に用いた前記第1の検索条件に対応づけられている前記第1の障害箇所と検索された前記第2のイベント履歴の検索に用いた前記第2の検索条件に対応づけられている前記第2の障害箇所とが一致しない場合には、障害の原因が前記仮想サーバにあると特定し、一致する場合には、障害の原因が前記物理サーバにあると特定すること
を特徴とする障害の解析方法。 - 請求項1に記載の障害の解析方法であって、
前記管理サーバは、
特定した前記障害の原因と、当該特定に至る過程で該当する前記第1のイベント履歴を検索することができた前記第1の検索条件又は前記第2のイベント履歴を検索することができた前記第2の検索条件とを対応づけて記載した解析結果を出力し、
前記解析結果の変更要求を受け付けて、受け付けた前記変更要求に基づき前記仮想サーバイベント解析ポリシーテーブルにおいて前記第1の検索条件に対応づけられている前記第1の障害箇所、又は物理サーバイベント解析ポリシーテーブルにおいて前記第2の検索条件に対応づけられている前記第2の障害箇所を変更すること
を特徴とする障害の解析方法。 - 請求項1に記載の障害の解析方法であって、
前記管理サーバは、前記蓄積記憶している前記イベント履歴のうち、前記業務プロセスについての前記イベント履歴の障害が発生した日時を起点とする所定期間内に発生したイベントについての前記イベント履歴のみを対象として前記検索を行うこと
を特徴とする障害の解析方法。 - 請求項1に記載の障害の解析方法であって、
前記管理サーバは、前記仮想化環境において前記仮想サーバの移動が行われた直近の日時を記憶し、
前記管理サーバは、前記蓄積記憶している前記イベント履歴のうち、障害が発生した前記業務プロセスが動作している前記仮想サーバの移動が行われた日時を起点とする所定期間内に発生したイベントについての前記イベント履歴のみを対象として、前記検索を行うこと
を特徴とする障害の解析方法。 - 請求項1に記載の障害の解析方法であって、
前記管理サーバが、
前記障害の原因が前記物理サーバのハードウエア障害であると判断した場合に、
前記管理サーバの管理対象である前記仮想サーバの夫々の空きリソース量を求め、
求めた前記空きリソース量と、前記マッピングテーブルから取得される、前記障害の原因となっている前記物理サーバが実現している前記仮想サーバである障害仮想サーバで実行されているソフトウエアが使用するリソース量とを比較して、前記障害仮想サーバで実行されているソフトウエアを移動させることが可能な他の前記仮想サーバが存在するか否かを判断し、移動させることが可能であると判断した場合に、前記ソフトウエアを、前記他の仮想サーバに移動させる
ことを特徴とする障害の解析方法。 - 請求項5に記載の障害の解析方法であって、
前記管理サーバは、
前記判断において前記障害仮想サーバで実行されているソフトウエアを移動させることが可能な他の前記仮想サーバが存在しないと判断した場合に、
前記管理サーバの管理対象である前記物理サーバの空きリソース量から、新規に仮想サーバを作成可能か否か判断し、
作成可能と判断した場合は新規に仮想サーバを作成し、前記ソフトウエアを新規に作成した前記仮想サーバに移動させる
ことを特徴とする障害の解析方法。 - 請求項1に記載の障害の解析方法であって、
前記管理サーバが、
前記仮想サーバの夫々で実行される前記業務プロセスの実行履歴、及び前記業務プロセスを実現するソフトウエアの更新履歴を管理し、
前記障害の原因が前記物理サーバのハードウエア障害でないと判断した場合に、
前記実行履歴及び前記更新履歴に基づき、受信した前記障害に関するイベントに拘わる前記業務プロセスが動作している前記仮想サーバである障害仮想サーバの業務プロセスについて、前記ソフトウエアの更新が行われた後に正常終了している実行履歴が存在するか否かを判断し、
そのような実行履歴が存在しない場合は前記ソフトウエアのバージョンをロールバックして再起動する
ことを特徴とする障害の解析方法。 - 請求項7に記載の障害の解析方法であって、
前記管理サーバは、
前記ソフトウエアの更新が行われた後に正常終了している実行履歴が存在するか否かの前記判断において、そのような実行履歴が存在する場合には、前記業務プロセスに対応するアプリケーションを実現するのに必要なリソース量と前記管理サーバの管理対象である前記仮想サーバの空きリソース量とを比較して、前記アプリケーションを移動させることが可能な他の前記仮想サーバが存在するか否かを判断し、存在する場合には、前記アプリケーションを前記他の仮想サーバに移動させる
ことを特徴とする障害の解析方法。 - 請求項1に記載の障害の解析方法であって、
前記管理サーバが、
前記仮想サーバで実行される前記業務プロセスの実行履歴を管理し、
前記障害の発生時点の後に前記業務プロセスについて正常終了した前記実行履歴が存在するか否かを判断し、
前記正常終了した実行履歴が存在しない場合に、前記障害の原因がリソース不足であるか否かを判断し、
リソース不足が原因である場合、前記業務プロセスに対応するアプリケーションを実現するのに必要なリソース量と前記管理サーバの管理対象である前記仮想サーバの空きリソース量とを比較して、前記アプリケーションを移動させることが可能な他の前記仮想サーバが存在するか否かを判断し、存在する場合に、前記アプリケーションを前記他の仮想サーバに移動させる
ことを特徴とする障害の解析方法。 - 請求項9に記載の障害の解析方法であって、
前記管理サーバは、
前記障害の発生時点における前記業務プロセスの実行多重度と前記業務プロセスの正常実行時における実行多重度とを比較することにより前記障害の原因がリソース不足であるか否かを判断する
ことを特徴とする障害の解析方法。 - 物理サーバで動作する仮想化機構によって仮想サーバが実現される仮想化環境において生じる障害の解析に用いられ、前記物理サーバの夫々と通信可能に接続される管理サーバであって、
前記仮想サーバと当該仮想サーバが実現されている前記物理サーバとの対応が登録されたマッピングテーブルを記憶し、
前記物理サーバで生じたイベントの履歴である第2のイベント履歴と、前記仮想サーバで生じたイベントの履歴である第1のイベント履歴とを蓄積記憶し、
前記仮想サーバで動作している業務プロセスの障害に関する前記イベントを受信すると、前記第1のイベント履歴のうち、当該イベントを発した仮想サーバに関するイベント履歴と、前記第2のイベント履歴のうち、前記マッピングテーブルから取得される、当該イベントを発した前記仮想サーバを実現している前記物理サーバに関するイベント履歴とを、前記蓄積記憶している前記イベント履歴から検索し、その検索結果に基づき障害の原因を特定し、
前記第1のイベント履歴の検索に用いる第1の検索条件と第1の障害箇所とを対応づけた仮想サーバイベント解析ポリシーテーブル、及び前記第2のイベント履歴の検索に用いる第2の検索条件と第2の障害箇所とを対応づけた物理サーバイベント解析ポリシーテーブルを記憶し、
蓄積記憶している前記イベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴を検索することができない場合には、障害の原因が前記業務プロセスにあると特定し、
前記蓄積記憶しているイベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索するとともに、前記物理サーバイベント解析ポリシーテーブルに登録されている前記第2の検索条件に該当する前記第2のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴を検索することができたが、前記第2のイベント履歴を検索することができなかった場合には、障害の原因が前記仮想サーバにあると特定し、
前記蓄積記憶しているイベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索するとともに、前記物理サーバイベント解析ポリシーテーブルに登録されている前記第2の検索条件に該当する前記第2のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴及び前記第2のイベント履歴を検索することができ、かつ、検索された前記第1のイベント履歴の検索に用いた前記第1の検索条件に対応づけられている前記第1の障害箇所と検索された前記第2のイベント履歴の検索に用いた前記第2の検索条件に対応づけられている前記第2の障害箇所とが一致しない場合には、障害の原因が前記仮想サーバにあると特定し、一致する場合には、障害の原因が前記物理サーバにあると特定する
ことを特徴とする管理サーバ。 - 請求項11に記載の管理サーバであって、
特定した前記障害の原因と、当該特定に至る過程で該当する前記第1のイベント履歴を検索することができた前記第1の検索条件又は前記第2のイベント履歴を検索することができた前記第2の検索条件とを対応づけて記載した解析結果を出力し、
前記解析結果の変更要求を受け付けて、受け付けた前記変更要求に基づき前記仮想サーバイベント解析ポリシーテーブルにおいて前記第1の検索条件に対応づけられている前記第1の障害箇所、又は物理サーバイベント解析ポリシーテーブルにおいて前記第2の検索条件に対応づけられている前記第2の障害箇所を変更すること
を特徴とする管理サーバ。 - 請求項11に記載の管理サーバであって、
前記蓄積記憶している前記イベント履歴のうち、前記業務プロセスについての前記イベント履歴の障害が発生した日時を起点とする所定期間内に発生したイベントについての前記イベント履歴のみを対象として前記検索を行う
ことを特徴とする管理サーバ。 - 請求項11に記載の管理サーバであって、
前記仮想化環境において前記仮想サーバの移動が行われた直近の日時を記憶し、
前記蓄積記憶している前記イベント履歴のうち、障害が発生した前記業務プロセスが動作している前記仮想サーバの移動が行われた日時を起点とする所定期間内に発生したイベントについての前記イベント履歴のみを対象として、前記検索を行うこと
を特徴とする管理サーバ。 - 請求項11に記載の管理サーバであって、
前記障害の原因が前記物理サーバのハードウエア障害であると判断した場合に、
前記管理サーバの管理対象である前記仮想サーバの夫々の空きリソース量を求め、
求めた前記空きリソース量と、前記マッピングテーブルから取得される前記物理サーバが実現している前記仮想サーバである障害仮想サーバで実行されているソフトウエアが使用するリソース量とを比較して、前記障害仮想サーバで実行されているソフトウエアを移動させることが可能な他の前記仮想サーバが存在するか否かを判断し、移動させることが可能であると判断した場合に、前記ソフトウエアを、前記他の仮想サーバに移動させる
ことを特徴とする管理サーバ。 - 請求項15に記載の管理サーバであって、
前記判断において前記障害仮想サーバで実行されているソフトウエアを移動させることが可能な他の前記仮想サーバが存在しないと判断した場合に、
前記管理サーバの管理対象である前記物理サーバの空きリソース量から、新規に仮想サーバを作成可能か否か判断し、
作成可能と判断した場合は新規に仮想サーバを作成し、前記ソフトウエアを新規に作成した前記仮想サーバに移動させる
ことを特徴とする管理サーバ。 - 請求項11に記載の管理サーバであって、
前記仮想サーバの夫々で実行される前記業務プロセスの実行履歴、及び前記業務プロセスを実現するソフトウエアの更新履歴を管理し、
前記障害の原因が前記物理サーバのハードウエア障害でないと判断した場合に、
前記実行履歴及び前記更新履歴に基づき、受信した前記障害に関するイベントに拘わる前記業務プロセスが動作している前記仮想サーバである障害仮想サーバの業務プロセスについて、前記ソフトウエアの更新が行われた後に正常終了している実行履歴が存在するか否かを判断し、
そのような実行履歴が存在しない場合は前記ソフトウエアのバージョンをロールバックして再起動する
ことを特徴とする管理サーバ。 - 請求項17に記載の管理サーバであって、
前記ソフトウエアの更新が行われた後に正常終了している実行履歴が存在するか否かの前記判断において、そのような実行履歴が存在する場合には、前記業務プロセスに対応するアプリケーションを実現するのに必要なリソース量と前記管理サーバの管理対象である前記仮想サーバの空きリソース量とを比較して、前記アプリケーションを移動させることが可能な他の前記仮想サーバが存在するか否かを判断し、存在する場合には、前記アプリケーションを前記他の仮想サーバに移動させる
ことを特徴とする管理サーバ。 - 請求項11に記載の管理サーバであって、
前記仮想サーバで実行される前記業務プロセスの実行履歴を管理し、
前記障害の発生時点の後に前記業務プロセスについて正常終了した前記実行履歴が存在するか否かを判断し、
前記正常終了した実行履歴が存在しない場合に、前記障害の原因がリソース不足であるか否かを判断し、
リソース不足が原因である場合、前記業務プロセスに対応するアプリケーションを実現するのに必要なリソース量と前記管理サーバの管理対象である前記仮想サーバの空きリソース量とを比較して、前記アプリケーションを移動させることが可能な他の前記仮想サーバが存在するか否かを判断し、存在する場合に、前記アプリケーションを前記他の仮想サーバに移動させる
ことを特徴とする管理サーバ。 - 請求項19に記載の管理サーバであって、
前記障害の発生時点における前記業務プロセスの実行多重度と前記業務プロセスの正常実行時における実行多重度とを比較することにより前記障害の原因がリソース不足であるか否かを判断する
ことを特徴とする管理サーバ。 - 物理サーバで動作する仮想化機構によって仮想サーバが実現される仮想化環境において生じる障害の解析に用いられ、前記物理サーバの夫々と通信可能に接続される管理サーバに、
前記仮想サーバと当該仮想サーバが実現されている前記物理サーバとの対応が登録されたマッピングテーブルを記憶する機能と、
前記物理サーバで生じたイベントの履歴である第2のイベント履歴と、前記仮想サーバで生じたイベントの履歴である第1のイベント履歴とを蓄積記憶する機能と、
前記仮想サーバで動作している業務プロセスの障害に関する前記イベントを受信すると、前記第1のイベント履歴のうち、当該イベントを発した仮想サーバに関するイベント履歴と、前記第2のイベント履歴のうち、前記マッピングテーブルから取得される、当該イベントを発した前記仮想サーバを実現している前記物理サーバに関するイベント履歴とを、前記蓄積記憶している前記イベント履歴から検索し、その検索結果に基づき障害の原因を特定する機能と、
前記第1のイベント履歴の検索に用いる第1の検索条件と第1の障害箇所とを対応づけた仮想サーバイベント解析ポリシーテーブル、及び前記第2のイベント履歴の検索に用いる第2の検索条件と第2の障害箇所とを対応づけた物理サーバイベント解析ポリシーテーブルを記憶する機能と、
蓄積記憶している前記イベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴を検索することができない場合には、障害の原因が前記業務プロセスにあると特定する機能と、
前記蓄積記憶しているイベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索するとともに、前記物理サーバイベント解析ポリシーテーブルに登録されている前記第2の検索条件に該当する前記第2のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴を検索することができたが、前記第2のイベント履歴を検索することができなかった場合には、障害の原因が前記仮想サーバにあると特定する機能と、
前記蓄積記憶しているイベント履歴から、前記仮想サーバイベント解析ポリシーテーブルに登録されている前記第1の検索条件に該当する前記第1のイベント履歴を検索するとともに、前記物理サーバイベント解析ポリシーテーブルに登録されている前記第2の検索条件に該当する前記第2のイベント履歴を検索し、その結果、該当する前記第1のイベント履歴及び前記第2のイベント履歴を検索することができ、かつ、検索された前記第1のイベント履歴の検索に用いた前記第1の検索条件に対応づけられている前記第1の障害箇所と検索された前記第2のイベント履歴の検索に用いた前記第2の検索条件に対応づけられている前記第2の障害箇所とが一致しない場合には、障害の原因が前記仮想サーバにあると特定し、一致する場合には、障害の原因が前記物理サーバにあると特定する機能と
を実現するためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009135441A JP5140633B2 (ja) | 2008-09-04 | 2009-06-04 | 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム |
US12/551,962 US8006134B2 (en) | 2008-09-04 | 2009-09-01 | Method for analyzing fault caused in virtualized environment, and management server |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008227401 | 2008-09-04 | ||
JP2008227401 | 2008-09-04 | ||
JP2009135441A JP5140633B2 (ja) | 2008-09-04 | 2009-06-04 | 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010086516A JP2010086516A (ja) | 2010-04-15 |
JP5140633B2 true JP5140633B2 (ja) | 2013-02-06 |
Family
ID=41727069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009135441A Expired - Fee Related JP5140633B2 (ja) | 2008-09-04 | 2009-06-04 | 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8006134B2 (ja) |
JP (1) | JP5140633B2 (ja) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7962798B2 (en) * | 2006-04-17 | 2011-06-14 | The Trustees Of Columbia University In The City Of New York | Methods, systems and media for software self-healing |
US8924782B2 (en) * | 2007-01-26 | 2014-12-30 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for recovering an application from a fault or attack |
US8635318B1 (en) * | 2009-09-15 | 2014-01-21 | Symantec Corporation | Message broadcast protocol which handles configuration changes in a cluster of virtual servers |
US8392760B2 (en) * | 2009-10-14 | 2013-03-05 | Microsoft Corporation | Diagnosing abnormalities without application-specific knowledge |
US8381033B2 (en) * | 2009-10-30 | 2013-02-19 | International Business Machines Corporation | Fault management in virtual computing environments |
US8245083B2 (en) * | 2009-12-24 | 2012-08-14 | At&T Intellectual Property I, L.P. | Systems, methods, and apparatus to debug a network application |
US8352799B2 (en) * | 2010-02-12 | 2013-01-08 | Symantec Corporation | Data corruption prevention during application restart and recovery |
JP5417264B2 (ja) * | 2010-06-21 | 2014-02-12 | 株式会社日立製作所 | 分析情報提供方法 |
WO2012066640A1 (ja) * | 2010-11-16 | 2012-05-24 | 株式会社日立製作所 | 計算機システム、マイグレーション方法及び管理サーバ |
US9189308B2 (en) | 2010-12-27 | 2015-11-17 | Microsoft Technology Licensing, Llc | Predicting, diagnosing, and recovering from application failures based on resource access patterns |
FR2977691B1 (fr) * | 2011-07-08 | 2013-07-12 | Bull Sas | Procede et programme d'ordinateur de gestion dynamique de services dans un cluster d'administration |
US9026837B2 (en) * | 2011-09-09 | 2015-05-05 | Microsoft Technology Licensing, Llc | Resource aware placement of applications in clusters |
US8819490B2 (en) * | 2011-12-30 | 2014-08-26 | Microsoft Corporation | Test execution spanning cloud and local devices |
WO2013171807A1 (en) * | 2012-05-18 | 2013-11-21 | Hitachi, Ltd. | Management system and management method |
CN102902599B (zh) | 2012-09-17 | 2016-08-24 | 华为技术有限公司 | 虚拟机内部故障处理方法、装置及系统 |
WO2014073046A1 (ja) * | 2012-11-07 | 2014-05-15 | 富士通株式会社 | 情報処理装置、プログラムおよび仮想マシン移動方法 |
US9608933B2 (en) * | 2013-01-24 | 2017-03-28 | Hitachi, Ltd. | Method and system for managing cloud computing environment |
BR112016006902B1 (pt) * | 2013-09-30 | 2022-10-04 | Huawei Technologies Co.,Ltd | Método de gerenciamento de falhas e gerenciador de funções de rede virtualizada |
WO2015072004A1 (ja) * | 2013-11-15 | 2015-05-21 | 株式会社日立製作所 | 計算機、計算機制御方法、および計算機制御プログラム |
JP6207357B2 (ja) * | 2013-11-20 | 2017-10-04 | 三菱電機株式会社 | 情報処理装置及びプログラム |
US9519513B2 (en) * | 2013-12-03 | 2016-12-13 | Vmware, Inc. | Methods and apparatus to automatically configure monitoring of a virtual machine |
US9678731B2 (en) | 2014-02-26 | 2017-06-13 | Vmware, Inc. | Methods and apparatus to generate a customized application blueprint |
JP6233107B2 (ja) * | 2014-03-10 | 2017-11-22 | 富士通株式会社 | 情報蓄積プログラム、情報蓄積方法、情報蓄積装置、および情報蓄積システム |
JP6528381B2 (ja) * | 2014-10-06 | 2019-06-12 | 富士通株式会社 | ログ管理装置,ログ管理プログラム,及びログ管理方法 |
JP6418255B2 (ja) * | 2015-02-06 | 2018-11-07 | 日本電気株式会社 | 障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム |
JP5982513B2 (ja) * | 2015-02-17 | 2016-08-31 | 株式会社日立製作所 | 監視計算機及び方法 |
JP6493017B2 (ja) * | 2015-06-26 | 2019-04-03 | セイコーエプソン株式会社 | ネットワークシステム、サーバー、及び、ネットワークシステムの制御方法 |
JP6748411B2 (ja) * | 2015-08-31 | 2020-09-02 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法、及び、プログラム |
CN107203451B (zh) * | 2016-03-18 | 2020-09-18 | 伊姆西Ip控股有限责任公司 | 用于在存储系统中处理故障的方法及设备 |
JP6801267B2 (ja) | 2016-07-04 | 2020-12-16 | 富士通株式会社 | 評価プログラム、評価方法、評価装置および情報処理装置 |
JP6655497B2 (ja) * | 2016-07-29 | 2020-02-26 | 株式会社日立製作所 | 運用管理装置及び運用管理方法、並びに運用管理システム |
EP3632086B1 (en) * | 2017-05-23 | 2023-08-09 | Constructive Labs | Server system for processing a virtual space |
CN111125164A (zh) * | 2018-10-30 | 2020-05-08 | 千寻位置网络有限公司 | 参考站故障排查的方法及系统、排障终端 |
EP3767464B1 (en) * | 2019-07-19 | 2024-04-17 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, information processing method, and program |
US11789802B2 (en) * | 2019-07-31 | 2023-10-17 | Jio Platforms Limited | System and method of mapping and diagnostics of data center resources |
US11281522B2 (en) * | 2019-08-30 | 2022-03-22 | Microsoft Technology Licensing, Llc | Automated detection and classification of dynamic service outages |
US11175947B2 (en) | 2019-12-03 | 2021-11-16 | International Business Machines Corporation | Microservices change management and analytics |
JP7216767B2 (ja) * | 2021-05-06 | 2023-02-01 | 楽天グループ株式会社 | アクセス方法、通信システム、及びプログラム |
US20230088318A1 (en) * | 2021-09-20 | 2023-03-23 | International Business Machines Corporation | Remotely healing crashed processes |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH041834A (ja) * | 1990-04-19 | 1992-01-07 | Nec Corp | 入出力装置のエラー情報収集方法およびその装置 |
JPH04257035A (ja) | 1991-02-12 | 1992-09-11 | Fujitsu Ltd | 仮想計算機システム配下における障害情報処理方式 |
JP2000181759A (ja) * | 1998-12-15 | 2000-06-30 | Hitachi Information Systems Ltd | 時系列データ検索システムと検索方法およびそのプログラムを記録した記録媒体 |
JP2002073361A (ja) * | 2000-08-28 | 2002-03-12 | Ando Electric Co Ltd | 遠隔ソフトウエア更新可能な電子機器及び遠隔ソフトウエア更新方法。 |
JP2003085003A (ja) * | 2001-09-06 | 2003-03-20 | Matsushita Electric Ind Co Ltd | 障害復旧援助方法、及び、障害復旧援助システム |
US7409583B2 (en) * | 2002-10-07 | 2008-08-05 | Hitachi, Ltd. | Volume and failure management method on a network having a storage device |
JP4130615B2 (ja) * | 2003-07-02 | 2008-08-06 | 株式会社日立製作所 | ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ |
JP4202709B2 (ja) * | 2002-10-07 | 2008-12-24 | 株式会社日立製作所 | ストレージ装置を有するネットワークにおける、ボリューム及び障害管理方法 |
JP4294353B2 (ja) * | 2003-03-28 | 2009-07-08 | 株式会社日立製作所 | ジョブ管理機能を有するストレージ系障害管理方法及び装置 |
JP2004355265A (ja) * | 2003-05-28 | 2004-12-16 | Ntt Docomo Inc | 処理統括装置、及び、処理判定方法 |
DE102004005128B3 (de) * | 2004-02-02 | 2005-01-05 | Fujitsu Siemens Computers Gmbh | Anordnung mehrerer Rechner und Verfahren zum Betreiben einer Anordnung mehrerer Rechner bei einem Rechnerausfall |
JP4570527B2 (ja) * | 2005-07-20 | 2010-10-27 | 富士通株式会社 | システム性能監視プログラム及びシステム性能監視方法 |
JP4736783B2 (ja) * | 2005-12-19 | 2011-07-27 | 株式会社日立製作所 | ストレージ装置を有するネットワークにおける、ボリューム及び障害管理方法 |
JP4609380B2 (ja) * | 2006-05-31 | 2011-01-12 | 日本電気株式会社 | 仮想サーバ管理システムおよびその方法ならびに管理サーバ装置 |
US7814364B2 (en) * | 2006-08-31 | 2010-10-12 | Dell Products, Lp | On-demand provisioning of computer resources in physical/virtual cluster environments |
JP4172807B2 (ja) * | 2006-09-08 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 障害発生の原因箇所の発見を支援する技術 |
JP4923990B2 (ja) * | 2006-12-04 | 2012-04-25 | 株式会社日立製作所 | フェイルオーバ方法、およびその計算機システム。 |
JP4744480B2 (ja) * | 2007-05-30 | 2011-08-10 | 株式会社日立製作所 | 仮想計算機システム |
JP2008059599A (ja) * | 2007-09-28 | 2008-03-13 | Hitachi Ltd | 仮想化されたリソースの割当て方法及びその実施システム |
US7840839B2 (en) * | 2007-11-06 | 2010-11-23 | Vmware, Inc. | Storage handling for fault tolerance in virtual machines |
JP4958739B2 (ja) * | 2007-11-09 | 2012-06-20 | 株式会社日立製作所 | 障害の発生した記憶装置に記憶されているデータを修復するストレージシステム |
JP5091704B2 (ja) * | 2008-02-06 | 2012-12-05 | 株式会社日立製作所 | ストレージ構成回復方法及びストレージ管理システム |
-
2009
- 2009-06-04 JP JP2009135441A patent/JP5140633B2/ja not_active Expired - Fee Related
- 2009-09-01 US US12/551,962 patent/US8006134B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20100058108A1 (en) | 2010-03-04 |
US8006134B2 (en) | 2011-08-23 |
JP2010086516A (ja) | 2010-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5140633B2 (ja) | 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム | |
CN104272266B (zh) | 对具有多个监视对象器件的计算机系统进行管理的管理系统 | |
JP5440273B2 (ja) | スナップショット管理方法、スナップショット管理装置、及びプログラム | |
JP5427011B2 (ja) | 仮想ハードディスクの管理サーバおよび管理方法、管理プログラム | |
US10191879B2 (en) | System and method for creating snapshots in openflame environment | |
US9652326B1 (en) | Instance migration for rapid recovery from correlated failures | |
JP4980792B2 (ja) | 仮想計算機の性能監視方法及びその方法を用いた装置 | |
JP5032191B2 (ja) | サーバ仮想化環境におけるクラスタシステム構成方法及びクラスタシステム | |
US10909000B2 (en) | Tagging data for automatic transfer during backups | |
US11256576B2 (en) | Intelligent scheduling of backups | |
JP2011128967A (ja) | 仮想計算機の移動方法、仮想計算機システム及びプログラム | |
JP6190468B2 (ja) | 管理システム、プラン生成方法、およびプラン生成プログラム | |
US11675674B2 (en) | Instant recovery of databases | |
US11874851B2 (en) | Contextual replication profile creation based on data criticality | |
US20210224121A1 (en) | Virtual machine-initiated workload management | |
JP5597293B2 (ja) | 計算機システム及びプログラム | |
US20180287914A1 (en) | System and method for management of services in a cloud environment | |
JP5684640B2 (ja) | 仮想環境管理システム | |
US11799963B1 (en) | Method and system for identifying user behavior based on metadata | |
EP3382555A1 (en) | System and method for management of services in a cloud environment | |
JP5390651B2 (ja) | 計算機システム及びプログラム | |
US11714701B2 (en) | Troubleshooting for a distributed storage system by cluster wide correlation analysis | |
US20230161733A1 (en) | Change block tracking for transfer of data for backups | |
US20240248762A1 (en) | Method and system for identifying a holistic profile of a user based on metadata | |
JP5993052B2 (ja) | 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121030 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151122 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |