JP2006172065A - Checkpoint collection method, system and program - Google Patents
Checkpoint collection method, system and program Download PDFInfo
- Publication number
- JP2006172065A JP2006172065A JP2004362606A JP2004362606A JP2006172065A JP 2006172065 A JP2006172065 A JP 2006172065A JP 2004362606 A JP2004362606 A JP 2004362606A JP 2004362606 A JP2004362606 A JP 2004362606A JP 2006172065 A JP2006172065 A JP 2006172065A
- Authority
- JP
- Japan
- Prior art keywords
- job
- checkpoint
- information
- condition
- determining whether
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000014509 gene expression Effects 0.000 claims description 62
- 150000001875 compounds Chemical class 0.000 claims description 27
- 238000012544 monitoring process Methods 0.000 claims description 27
- 230000001186 cumulative effect Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Retry When Errors Occur (AREA)
Abstract
【課題】 チェックポイントを採取するタイミングを決定する条件をシステム資源の利用状況で指定し、ジョブにチェックポイント採取命令を記述するというユーザの負担を軽減することが可能な技術を提供する。
【解決手段】 障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得するチェックポイント採取方法において、ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納するステップと、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件と前記格納したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定するステップと、前記判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行うステップとを有するものである。
【選択図】図1
PROBLEM TO BE SOLVED: To provide a technique capable of reducing a user's burden of designating a condition for determining a timing for collecting checkpoints in a system resource usage state and describing a checkpoint collection command in a job.
In a checkpoint collection method for acquiring checkpoint information for restarting a job when a failure occurs during job execution, information indicating a system resource usage status for each job is acquired and stored in a storage device. The storage step, the conditions for determining whether or not checkpoint collection is necessary according to the system resource usage status for each job, and the stored system resource usage status information are read from the storage device to checkpoint collection. A step of determining necessity and a step of collecting checkpoints by storing checkpoint information in a storage device based on the determination result.
[Selection] Figure 1
Description
本発明は障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得するチェックポイント採取技術に関するものである。 The present invention relates to a checkpoint collection technique for acquiring checkpoint information during job execution for restarting a job when a failure occurs.
障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得するチェックポイント採取方法において、ジョブのチェックポイントを採取する方法として、ある時間間隔で定期的に採取する方法がある(例えば非特許文献1参照)。また、ジョブ実行時間とチェックポイント採取時間に対する演算結果に従ってチェックポイントの採取の要否を決定し、取得する方法がある(例えば特許文献1参照)。 In the checkpoint collection method that acquires checkpoint information for restarting a job when a failure occurs during job execution, there is a method of collecting job checkpoints periodically at certain time intervals. (For example, refer nonpatent literature 1). In addition, there is a method of determining whether or not to collect a checkpoint according to a calculation result with respect to a job execution time and a checkpoint collection time (see, for example, Patent Document 1).
前記いずれのチェックポイント採取方法もジョブ実行時間やチェックポイント採取時間に基づき、実時間をチェックポイント採取の条件としていたため、実際にジョブがどの程度処理されたかを評価できず、計算機システムの負荷状況によっては必ずしも適切なチェックポイント採取が行われなかった。また、ジョブプログラム内部にチェックポイントを採取する命令を記述する必要がありジョブプログラム作成時の負担であった。 Since any of the above checkpoint collection methods used the actual time as the checkpoint collection condition based on the job execution time or checkpoint collection time, it was not possible to evaluate how much the job was actually processed, and the load status of the computer system In some cases, appropriate checkpoints were not taken. In addition, it is necessary to describe an instruction for collecting checkpoints in the job program, which is a burden when creating the job program.
本発明の目的は上記問題を解決し、チェックポイントを採取するタイミングを決定する条件をシステム資源の利用状況で指定し、ジョブにチェックポイント採取命令を記述するというユーザの負担を軽減することが可能な技術を提供することにある。 The object of the present invention is to solve the above-mentioned problems, specify the conditions for determining the timing for collecting checkpoints in the usage status of system resources, and reduce the user's burden of writing a checkpoint collection command in the job. Is to provide new technology.
本発明の他の目的は実行中のジョブのシステム資源の利用状況に応じて、チェックポイント採取の条件を変更することが可能な技術を提供することにある。 Another object of the present invention is to provide a technique capable of changing checkpoint collection conditions in accordance with the use status of system resources of a job being executed.
本発明は、障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得する計算機システムにおいて、システム資源の利用状況に応じてチェックポイントの採取を行うものである。 The present invention collects checkpoints in accordance with the use status of system resources in a computer system that acquires during execution of a job checkpoint information for restarting a job when a failure occurs.
本発明では、まず、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件の入力を受け付けて記憶装置に格納する。この際、前記条件として、例えばCPU利用累積時間や入出力データの累積量の閾値を示す条件式や、それらの複数の条件式を複合させた複合条件式の入力を受け付けて記憶装置に格納する。 In the present invention, first, an input of a condition for determining whether or not it is necessary to collect a checkpoint according to the usage status of system resources for each job is received and stored in a storage device. At this time, as the condition, for example, an input of a conditional expression indicating a CPU usage accumulated time, a threshold value of the accumulated amount of input / output data, or a composite conditional expression obtained by combining these conditional expressions is received and stored in the storage device. .
次に、ジョブの実行時に、ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納する。その際には、前記格納した条件の要素であるCPU利用累積時間や入出力データ累積量について情報を取得して記憶装置に格納し、システム資源の利用状況を示す情報を更新する。 Next, when the job is executed, information indicating the usage status of the system resource for each job is acquired and stored in the storage device. At that time, information on the accumulated CPU usage time and the accumulated input / output data, which are the elements of the stored conditions, is acquired and stored in the storage device, and the information indicating the usage status of the system resources is updated.
そして、前記の様にシステム資源の利用状況を示す情報を更新した後、前記格納した条件と前記更新したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定し、その判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行う。すなわち、前記更新されたCPU利用累積時間や入出力データ累積量を前記条件式に代入して論理計算を行って、そのCPU利用累積時間や入出力データ累積量がチェックポイントの採取を行う条件を満たしているかどうかを判定し、その条件を満たしている場合には、当該ジョブのチェックポイント情報を記憶装置に格納する。 Then, after updating the information indicating the use status of the system resource as described above, the stored condition and the updated information on the use status of the system resource are read from the storage device to determine whether or not it is necessary to collect a checkpoint. Based on the determination result, the checkpoint information is stored in the storage device and the checkpoint is collected. That is, a logical calculation is performed by substituting the updated CPU usage cumulative time and input / output data cumulative amount into the conditional expression, and the CPU usage cumulative time and input / output data cumulative amount is a condition for collecting checkpoints. If the condition is satisfied, the checkpoint information of the job is stored in the storage device.
本発明によれば、チェックポイントを採取するタイミングを決定する条件をシステム資源の利用状況で指定し、ジョブにチェックポイント採取命令を記述するというユーザの負担を軽減することが可能である。 According to the present invention, it is possible to reduce a user's burden of designating a condition for determining the timing of collecting checkpoints by using system resources and describing a checkpoint collection command in a job.
(実施形態1)
以下に障害発生時のジョブのリスタートを行う為のチェックポイント情報をシステム資源の利用状況に応じて取得する実施形態1の計算機システムについて説明する。
(Embodiment 1)
A computer system according to the first embodiment that acquires checkpoint information for restarting a job when a failure occurs according to the use status of system resources will be described below.
図1は本実施形態の計算機システム1の概略構成を示す図である。図1に示す様に本実施形態の計算機システム1は、ジョブ実行管理部20と、チェックポイント採取実行部21と、スケジューラ22と、CPU監視部23と、I/O監視部24とを有している。
FIG. 1 is a diagram showing a schematic configuration of a
ジョブ実行管理部20は、チェックポイント採取実行部21、スケジューラ22、CPU監視部23及びI/O監視部24の動作を制御してジョブの実行を管理する処理部である。チェックポイント採取実行部21は、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件を示す条件テーブル12及び複合条件式13と、システム資源の利用状況の情報を示す資源ステータステーブル14とをメモリから読み出してチェックポイント採取の要否を判定し、その判定結果に基づいてチェックポイント情報を磁気ディスク装置に格納してチェックポイントの採取を行う処理部である。
The job
スケジューラ22は、実行可能状態ジョブキュー3から実行状態ジョブキュー4へのジョブの状態遷移を行う処理部である。CPU監視部23は、各ジョブに割当てられたCPU時間を監視・記録する処理部であり、ジョブ毎のシステム資源の利用状況を示す情報として、CPU利用累積時間等のCPUの利用状況情報を取得してメモリ中の資源ステータステーブル14に格納するリソース監視部である。
The
I/O監視部24は、各ジョブが行ったI/O処理のデータ量を監視・記録する処理部であり、ジョブ毎のシステム資源の利用状況を示す情報として、入出力データの累積量等のI/Oデバイスの利用状況情報を取得してメモリ中の資源ステータステーブル14に格納するリソース監視部である。
The I /
計算機システム1をジョブ実行管理部20、チェックポイント採取実行部21、スケジューラ22、CPU監視部23及びI/O監視部24として機能させる為のプログラムは、CD−ROM等の記録媒体に記録され磁気ディスク等に格納された後、メモリにロードされて実行されるものとする。なお前記プログラムを記録する記録媒体はCD−ROM以外の他の記録媒体でも良い。また前記プログラムを当該記録媒体から情報処理装置にインストールして使用しても良いし、ネットワークを通じて当該記録媒体にアクセスして前記プログラムを使用するものとしても良い。
Programs for causing the
図1に示す様に本実施形態の計算機システム1は、ジョブ実行管理部20と実行可能状態ジョブキュー3と実行状態ジョブキュー4とを有しており、ジョブ実行管理部20は機能別に、チェックポイント採取実行部21、スケジューラ22、CPU監視部23及びI/O監視部24から構成されている。
As shown in FIG. 1, the
当該計算機システム1は資源を適切にジョブへ分配する為の資源管理の仕組みを備えており、本実施形態ではCPU監視部23とI/O監視部24がその仕組みに該当し、それぞれCPU監視部23は各ジョブに割当てられたCPU時間を監視・記録し、I/O監視部24は各ジョブが行ったI/O処理のデータ量を監視・記録するものである。
The
実行可能状態ジョブキュー3と実行状態ジョブキュー4では、それぞれジョブ情報10−1、10−2、・・・、10−Mを管理する。これらジョブ情報10のキュー間の遷移はスケジューラ22によって行われる。ジョブ情報10には、ジョブID11、条件テーブル12、複合条件式13及び資源ステータステーブル14が含まれる。
The executable
ユーザ5はジョブとそれに付随するチェックポイント採取条件をジョブ実行管理部20へ投入し、それを受けたジョブ実行管理部20は、実行可能状態ジョブキュー3へジョブ情報10を生成し、チェックポイント採取条件で以って条件テーブル12と複合条件式13の初期化を行う。
The
資源ステータステーブル14の情報は、ジョブ情報10が、実行可能状態ジョブキュー3から実行状態ジョブキュー4へ遷移された後、CPU監視部23及びI/O監視部24によって更新される。
The information in the resource status table 14 is updated by the
図10は本実施形態の計算機システム1のハードウェア構成を示す図である。図10に示す様に本実施形態の計算機システム1は、ジョブ実行管理部20と実行可能状態ジョブキュー3と実行状態ジョブキュー4とをメモリ上に備えており、メモリや磁気ディスク装置等の記憶装置や通信装置等を使用して各種処理を行う。
FIG. 10 is a diagram illustrating a hardware configuration of the
次に、図2を参照して資源ステータステーブル14について説明する。
図2は本実施形態のジョブ情報10が保持する資源ステータステーブル14の一例を示す図である。資源ステータステーブル14はそれを保持するジョブにおける資源の利用状況を記録する目的がある。本実施形態においてそれぞれ記録される資源利用状況の項目は、CPU利用累積時間14−01、ジョブ実時間14−02、I/O書込み累積量14−03、I/O読込み累積量14−04の4種類であり、それぞれ「当該ジョブにCPUを割当てられた時間」「ジョブが投入されてから経過した実時間」「I/Oデバイスに対して書込みを行ったときの累積量」「I/Oデバイスに対して読み込みを行ったときの累積量」を意味している。
Next, the resource status table 14 will be described with reference to FIG.
FIG. 2 is a diagram showing an example of the resource status table 14 held by the
次に、図3と図4を参照して、条件テーブル12と複合条件式13の一例を説明する。
図3は本実施形態のジョブ情報10が保持する条件テーブル12の一例を示す図である。図3の条件テーブル12は、チェックポイントの採取の要否を判定する為の複数の条件式12−01、12−02、・・・、12−Nを保持している。
Next, an example of the condition table 12 and the compound conditional expression 13 will be described with reference to FIGS.
FIG. 3 is a diagram showing an example of the condition table 12 held by the
条件テーブル12の各条件式は、条件判定に用いられる要素として、図2で説明した4つの項目と、それぞれに対応する閾値とを格納しており、例えば、条件番号1の条件式12−01は、「CPU利用累積時間が1000[秒]を超えるときに真」となる条件を示している。なお条件テーブル12の条件式の数を4つに限らないものとする。またこれらの条件式を複合させる目的で複合条件式13があり、図4の様に表現する。
Each conditional expression in the condition table 12 stores the four items described in FIG. 2 and the corresponding threshold values as elements used for condition determination. For example, the conditional expression 12-01 with
図4は、本実施形態のジョブ情報10が保持する複合条件式13の一例を示す図である。この図4では、複合条件式13中の数値は、条件テーブル12の条件番号で対応付けられる条件式12−01、12−02、・・・、12−Nを演算子で結合することを意味しており、複合条件式13は、演算子の論理和(+)及び論理積(×)と否定演算子( ̄)と括弧から構成されている。
FIG. 4 is a diagram illustrating an example of the compound conditional expression 13 held in the
一例として、データを多量に生成するジョブを実行する場合を考えると、当該ジョブにおいては、I/O書込み処理が支配的になるため、I/O書込み累積量に関連するよう複合条件式13−1を指定することで、ジョブ全体の進捗に合ったチェックポイント採取タイミングでチェックポイントが採取できる。 As an example, when a job that generates a large amount of data is executed, since the I / O write process is dominant in the job, the compound conditional expression 13− is related to the accumulated I / O write amount. By specifying 1, checkpoints can be collected at the checkpoint collection timing that matches the progress of the entire job.
図3と図4から導かれる複合条件式13−1を解釈すると「CPU利用累積時間が1000[秒]を超えると共にCPU利用累積時間が10000[秒]を超えていないとき、もしくは、I/O書込み累積量が50000[Byte]を超えたときに真」という意味である。 When the compound conditional expression 13-1 derived from FIGS. 3 and 4 is interpreted, “when the CPU usage cumulative time exceeds 1000 [seconds] and the CPU usage cumulative time does not exceed 10000 [seconds], or I / O It means “true” when the cumulative amount of writing exceeds 50000 [Byte].
また別の一例として、ネットワークを介して通信するジョブを実行する場合を考えると、当該ジョブにおいては、通信路の利用状況により遅延や待ち時間が発生するため、ジョブ実行時間に関連するよう複合条件式13−2を指定すると、CPU利用累積時間に合ったチェックポイント採取ポイントだけでなく、一定時間間隔のチェックポイント採取タイミングでもチェックポイントが採取できる。 As another example, considering the case of executing a job that communicates via a network, a delay or waiting time occurs depending on the use status of the communication path in the job, so that the complex condition is related to the job execution time. When Expression 13-2 is designated, checkpoints can be collected not only at checkpoint collection points that match the accumulated CPU usage time but also at checkpoint collection timings at regular time intervals.
図3と図4から導かれる複合条件式13−2を解釈すると「CPU利用累積時間が1000[秒]を超えると共にCPU利用累積時間が10000[秒]を超えていないとき、もしくは、ジョブ実時間が50000[秒]を超えたときに真」という意味である。 When the compound conditional expression 13-2 derived from FIGS. 3 and 4 is interpreted, “when the CPU usage cumulative time exceeds 1000 [seconds] and the CPU usage cumulative time does not exceed 10000 [seconds], or the actual job time Is true when the value exceeds 50000 [seconds].
次に、図5を参照して、実行可能状態ジョブキュー3から実行状態ジョブキュー4へジョブが遷移する過程で、CPU監視部23とI/O監視部24とによりジョブ情報10を更新し、その後、チェックポイント採取実行部21において、チェックポイント採取の要否判定を得てチェックポイント採取の実施に至る流れを説明する。
Next, referring to FIG. 5, the
図5は本実施形態のチェックポイント採取処理の処理手順を示すフローチャートである。図5の処理は、ジョブ実行管理部20のスケジューラ22が、実行可能状態ジョブキュー3から実行状態ジョブキュー4へと、ジョブを実行可能状態に遷移させた所から始まる(ステップ500)。
FIG. 5 is a flowchart showing a processing procedure of checkpoint collection processing according to the present embodiment. The process of FIG. 5 starts from the point where the
I/O監視部24は、実行可能状態に遷移したジョブのI/O処理を監視して当該ジョブの書込みデータ量と読込みデータ量の情報を取得し、それらのデータの累積量を算出して当該ジョブのジョブ情報10へアクセスし、その資源ステータステーブル14中のI/O書込み累積量14−03とI/O読込み累積量14−04を更新する(ステップ501)。I/O監視部24はジョブが行った全I/O処理データ量を記録しているため、当該ジョブID11を指標として、特定のジョブ情報10におけるI/O書込み累積量14−03とI/O読込み累積量14−04を更新できる。
The I /
次にCPU監視部23は、実行可能状態に遷移したジョブのCPU利用時間とジョブ実行時間の情報を取得し、それらのデータの累積量を算出して当該ジョブのジョブ情報10へアクセスし、その資源ステータステーブル14中のCPU利用累積時間14−01とジョブ実時間14−02を更新する(ステップ502)。CPU監視部23はジョブが利用した全CPU利用時間を記録しているため、当該ジョブ情報10のジョブID11を指標として、特定のジョブ情報10におけるCPU利用累積時間14−01とジョブ実時間14−02を更新できる。
Next, the
次にチェックポイント採取実行部21は、条件テーブル12中の条件式及び複合条件式13と、資源ステータステーブル14中のシステム資源の利用状況の情報とをメモリから読み出してチェックポイント採取の要否を判定する(ステップ503)。
Next, the checkpoint
すなわちチェックポイント採取実行部21は、ジョブ情報10に保持される条件テーブル12と複合条件式13の解析を行い、複合条件式13中に用いられている条件番号の条件要素を条件テーブル12から読み出した後、その条件要素に対応する資源状態項目の現在値を資源ステータステーブル14から読み出す。そして、その現在値を条件テーブル12中の条件式で判定する為の論理式を生成して複合条件式13に代入し、その複合条件式13での判定結果に従いチェックポイントを採取する(ステップ504)。
That is, the checkpoint
そして、チェックポイント採取が行われた後、次回条件判定時にチェックポイント採取条件を不当に満たさない様に、資源ステータステーブル14を全て0に初期化する(ステップ505)。 After the checkpoint is collected, the resource status table 14 is all initialized to 0 so that the checkpoint collection condition is not unreasonably satisfied at the next condition determination (step 505).
また一般的に計算機システムでは、ジョブが実行状態に遷移するとき、ジョブ実行管理部20からCPU利用時間が割当てられ、ジョブはその時間単位で実行される。そのため、本実施形態において特定のジョブに対する資源ステータステーブル14が更新されぬまま所定時間以上ジョブが実行されることはなく、所定時間間隔で資源ステータステーブル14の更新が行われる事が保証される。
In general, in a computer system, when a job transitions to an execution state, CPU usage time is allocated from the job
次に、本実施形態において、ジョブを投入する際にチェックポイント採取条件も同時に投入する方法の一例について説明する。 Next, in the present embodiment, an example of a method for simultaneously inputting checkpoint collection conditions when a job is submitted will be described.
図6は本実施形態のジョブとチェックポイント採取条件を投入するコマンドの一例を示す図である。図6では、ユーザ5が入力装置からの条件式の集合608と複合条件式609の様な文字列表現のコマンド606の入力で条件を指定できることを表している。
FIG. 6 is a diagram illustrating an example of a command for inputting a job and checkpoint collection conditions according to the present embodiment. FIG. 6 shows that the
図6のコマンドの第1引数は、条件テーブル12に格納されるべき条件式の集合608を表す。各条件式601〜604は「,」で区切られ、更に資源状態項目と閾値が「:」で区切られる。また、条件番号が条件式の文字列の左から順に1、2、・・・という様に付与される。更にコマンドの第2引数は複合条件式609を表す文字列であり、第3引数はジョブプログラム実行ファイル名610である。
The first argument of the command in FIG. 6 represents a set of
このとき、条件テーブル12の条件要素の種類、複合条件式と条件式の記述方法、ジョブ投入コマンド607が予めマニュアル等の記述に公開されていることを前提とし、ユーザ5自身が作成したジョブプログラム実行ファイル名610をジョブ投入コマンドの引数として与えることによって前記指定を実現する。
At this time, the job program created by the
以上説明した様に本実施形態の計算機システムによれば、システム資源の利用状況に応じてチェックポイントの採取を行うので、チェックポイントを採取するタイミングを決定する条件をシステム資源の利用状況で指定し、ジョブにチェックポイント採取命令を記述するというユーザの負担を軽減することが可能である。 As described above, according to the computer system of the present embodiment, checkpoints are collected according to the usage status of system resources. Therefore, the conditions for determining the timing for collecting checkpoints are specified by the usage status of system resources. It is possible to reduce the user's burden of writing a checkpoint collection command in the job.
(実施形態2)
以下にチェックポイント採取の要否を判定する為の条件の受け付け完了後に、指定されたジョブの前記条件を再度受け付けてその条件を更新する実施形態2の計算機システムについて説明する。
(Embodiment 2)
A computer system according to a second embodiment will be described below that accepts the conditions of a designated job again after the acceptance of the conditions for determining whether or not checkpoint collection is necessary and updates the conditions.
本実施形態は、既にチェックポイント採取の要否を判定する為の条件がジョブに与えられ、そのジョブが実行中であっても、ユーザ5が条件の再投入をできる様にするものである。
In this embodiment, a condition for determining whether or not it is necessary to collect a checkpoint is already given to a job, and the
図7は本実施形態のジョブ情報一覧表示と表示コマンドの一例を示す図である。条件の再投入を行う場合、まずユーザ5はどのジョブに対して条件を更新するかを指定し得なくてはならない。そこで本実施形態では、計算機システム1中に現在存在するジョブ情報10とそれを一意に指定するジョブID11とそれに付随するチェックポイント採取条件を出力装置に示すことができるコマンド命令をユーザ5に提供する。
FIG. 7 is a diagram showing an example of the job information list display and display command of the present embodiment. When re-entering conditions, the
このコマンドが発行されると、図7のジョブ情報一覧表示例701に一例を示す様に、本実施形態のジョブ実行管理部20は、ジョブ情報10を特定するジョブID11と条件テーブル12の情報、複合条件式13をメモリから読み出して出力装置上に表示する。ジョブ情報例703の各行がそれぞれジョブ情報10に相当し、ジョブ情報表示項目702がジョブ情報10の表示項目の説明を表す。
When this command is issued, as shown in an example of a job information list display example 701 in FIG. 7, the job
ユーザ5はこの結果を受け、条件変更コマンド707に引数を与えてチェックポイント採取条件を変更する。引数は、それぞれ、条件式の集合708、上書きされる複合条件式709、対象とするジョブID711である。このとき、条件式の集合708は条件式704及び705から構成される。また、ジョブ情報例703の最終行の様に、チェックポイントの採取条件を省略してジョブを実行することも可能である。
In response to this result, the
前記の様にコマンド706を投入することで特定のジョブに対するチェックポイント採取の条件を変更することができる。
By inputting the
図8は本実施形態のジョブ情報一覧表示処理の処理手順を示すフローチャートである。図8の処理について、図6のコマンド606を受けた場合の動作を例として説明する。
FIG. 8 is a flowchart showing a processing procedure of job information list display processing according to the present embodiment. The processing in FIG. 8 will be described by taking the operation when the
まず、実行可能状態ジョブキュー3に格納されるジョブ情報10から、ジョブID11と条件テーブル12と複合条件式13と資源ステータステーブル14の情報を取得する(ステップ801)。
First, information on the job ID 11, the condition table 12, the compound conditional expression 13, and the resource status table 14 is acquired from the
次に、実行状態ジョブキュー4に格納されるジョブ情報10から、ジョブID11と条件テーブル12と複合条件式13と資源ステータステーブル14の情報を取得する(ステップ802)。そして、ステップ802で取得したデータを出力装置に表示する(ステップ803)。
Next, information on the job ID 11, the condition table 12, the compound conditional expression 13, and the resource status table 14 is acquired from the
図9は本実施形態のジョブ情報10の条件テーブル12と複合条件式13を更新する処理の処理手順を示すフローチャートである。図9の処理について、図7のコマンド706を受けた場合の例として説明する。
FIG. 9 is a flowchart showing a processing procedure for updating the condition table 12 and the compound conditional expression 13 of the
まず、メモリ中のジョブ情報10を参照し、ユーザ5が指定したIDを持つジョブが存在するかどうかを判定し(ステップ901)、そのジョブが存在しないならば、その旨を表示し、その後は何もせず終了する(ステップ902)。
First, referring to the
ユーザ5が指定したIDを持つジョブが存在する場合には、ユーザ5が指定した条件式の文字列を所定の文法規則と比較して当該条件式に不備がないかどうかを調べ(ステップ903)、条件式に不備があればその旨を表示して、その後は何もせず終了する(ステップ904)。
If there is a job having an ID specified by the
条件式に不備が無い場合には、指定されたジョブに対するメモリ中のジョブ情報10の条件テーブル12と複合条件式13に、前記指定された内容を格納して更新する(ステップ905)。そして、更新されたジョブに対するジョブ情報10を図7のジョブ情報一覧表示例701の様に表示する(ステップ906)。
If there is no defect in the conditional expression, the specified content is stored and updated in the condition table 12 and the compound conditional expression 13 of the
以上説明した様に本実施形態の計算機システムによれば、チェックポイント採取の要否を判定する為の条件を再度受け付けてその条件を更新するので、実行中のジョブのシステム資源の利用状況に応じて、チェックポイント採取の条件を変更することが可能である。 As described above, according to the computer system of this embodiment, the conditions for determining whether or not checkpoints need to be collected are accepted again and the conditions are updated. Therefore, depending on the system resource usage status of the job being executed The checkpoint collection conditions can be changed.
1…計算機システム、3…実行可能状態ジョブキュー、4…実行状態ジョブキュー、5…ユーザ、10…ジョブ情報、11…ジョブID、12…条件テーブル、13…複合条件式、14…資源ステータステーブル、20…ジョブ実行管理部、21…チェックポイント採取実行部、22…スケジューラ、23…CPU監視部、24…I/O監視部、14−01…CPU利用累積時間、14−02…ジョブ実時間、14−03…I/O書込み累積量、14−04…I/O読込み累積量、12−01〜12−N…条件式、601〜604…条件式、606…コマンド、607…ジョブ投入コマンド、608…条件式の集合、609…複合条件式、610…ジョブプログラム実行ファイル名、701…ジョブ情報一覧表示例、702…ジョブ情報表示項目、703…ジョブ情報例、704及び705…条件式、706…コマンド、707…条件変更コマンド、708…条件式の集合、709…複合条件式、711…ジョブID。
DESCRIPTION OF
Claims (10)
ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納するステップと、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件と前記格納したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定するステップと、前記判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行うステップとを有することを特徴とするチェックポイント採取方法。 In the checkpoint collection method for acquiring checkpoint information for restarting a job when a failure occurs during job execution,
Acquiring information indicating the usage status of system resources for each job and storing it in a storage device; conditions for determining whether or not to collect checkpoints according to the usage status of system resources for each job; Reading system resource usage information from the storage device and determining whether or not it is necessary to collect checkpoints; storing checkpoint information in the storage device based on the determination result; and collecting checkpoints; A checkpoint collection method characterized by comprising:
ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納するリソース監視部と、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件と前記格納したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定し、その判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行うチェックポイント採取実行部とを備えることを特徴とする計算機システム。 In a computer system that acquires checkpoint information for restarting a job when a failure occurs during job execution,
A resource monitoring unit that acquires information indicating the use status of system resources for each job and stores the information in a storage device; a condition for determining whether or not checkpoint collection is necessary according to the use status of system resources for each job; Checkpoints that read the stored system resource usage information from the storage device, determine whether or not checkpoint collection is necessary, and store the checkpoint information in the storage device based on the determination result to collect the checkpoint A computer system comprising a collection execution unit.
ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納するステップと、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件と前記格納したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定するステップと、前記判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行うステップとをコンピュータに実行させることを特徴とするプログラム。 In a program that causes a computer to execute a checkpoint collection method that acquires checkpoint information for restarting a job when a failure occurs during job execution.
Acquiring information indicating the usage status of system resources for each job and storing it in a storage device; conditions for determining whether or not to collect checkpoints according to the usage status of system resources for each job; Reading system resource usage information from the storage device and determining whether or not it is necessary to collect checkpoints; storing checkpoint information in the storage device based on the determination result; and collecting checkpoints; A program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004362606A JP2006172065A (en) | 2004-12-15 | 2004-12-15 | Checkpoint collection method, system and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004362606A JP2006172065A (en) | 2004-12-15 | 2004-12-15 | Checkpoint collection method, system and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006172065A true JP2006172065A (en) | 2006-06-29 |
Family
ID=36672761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004362606A Pending JP2006172065A (en) | 2004-12-15 | 2004-12-15 | Checkpoint collection method, system and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006172065A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009276908A (en) * | 2008-05-13 | 2009-11-26 | Toshiba Corp | Computer system and program |
JP2013156886A (en) * | 2012-01-31 | 2013-08-15 | Nec Corp | Calculation device, arithmetic processing system, method for setting check point, and program |
JP2014123409A (en) * | 2010-03-30 | 2014-07-03 | Le Tech Co Ltd | Device and method for restoring information in main storage device |
JP2017527893A (en) * | 2014-07-29 | 2017-09-21 | サウジ アラビアン オイル カンパニー | Proactive disaster recovery model for distributed computing |
-
2004
- 2004-12-15 JP JP2004362606A patent/JP2006172065A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009276908A (en) * | 2008-05-13 | 2009-11-26 | Toshiba Corp | Computer system and program |
JP2014123409A (en) * | 2010-03-30 | 2014-07-03 | Le Tech Co Ltd | Device and method for restoring information in main storage device |
JP2013156886A (en) * | 2012-01-31 | 2013-08-15 | Nec Corp | Calculation device, arithmetic processing system, method for setting check point, and program |
JP2017527893A (en) * | 2014-07-29 | 2017-09-21 | サウジ アラビアン オイル カンパニー | Proactive disaster recovery model for distributed computing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7827167B2 (en) | Database management system and method including a query executor for generating multiple tasks | |
JP2007528080A (en) | Task execution control | |
JP6342070B2 (en) | Job management apparatus, job management method, and job management program | |
JP2007316905A (en) | Computer system and method for monitoring application program | |
CN111176869B (en) | Timeout detection method, device, equipment and storage medium | |
CN109308213B (en) | Multi-task breakpoint debugging method based on improved task scheduling mechanism | |
JP4973095B2 (en) | CAD data loading device | |
JP4992740B2 (en) | Multiprocessor system, failure detection method, and failure detection program | |
US8516466B2 (en) | Optimization of automated system-managed storage operations | |
JP2017045217A (en) | Log management device, log management method, and log management program | |
JP2006172065A (en) | Checkpoint collection method, system and program | |
JP2016130892A (en) | Monitoring device, information processing system, and monitoring program | |
CN118642822A (en) | Task scheduling method, device, equipment, storage medium and program product | |
JP2004264970A (en) | Program, information processing apparatus, and log data output method in information processing apparatus | |
CN111309464A (en) | Task scheduling method and system | |
JP2009157441A (en) | Information processor, file rearrangement method, and program | |
WO2018042935A1 (en) | Electronic control device and analysis system | |
JP3826602B2 (en) | System operation management device | |
US8484646B1 (en) | System and method for managing process flows within a computing device based on user behavior | |
JP6111731B2 (en) | Parallel debugging system, parallel debugging method, and parallel debugging program | |
JP5674850B2 (en) | Database management system and method | |
JP5283675B2 (en) | Database management system and method | |
JP2010218157A (en) | Analysis system and analysis method for software asset | |
JP2008123438A (en) | Computer system, program information collection method, and computer program | |
JP2010033131A (en) | Management device and program |