[go: up one dir, main page]

JPH07129436A - System recovery control method - Google Patents

System recovery control method

Info

Publication number
JPH07129436A
JPH07129436A JP5272198A JP27219893A JPH07129436A JP H07129436 A JPH07129436 A JP H07129436A JP 5272198 A JP5272198 A JP 5272198A JP 27219893 A JP27219893 A JP 27219893A JP H07129436 A JPH07129436 A JP H07129436A
Authority
JP
Japan
Prior art keywords
transaction
recovery
acquired
processing
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5272198A
Other languages
Japanese (ja)
Inventor
Yoshikatsu Saito
義勝 斎藤
Hisanari Arimoto
久成 有本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5272198A priority Critical patent/JPH07129436A/en
Publication of JPH07129436A publication Critical patent/JPH07129436A/en
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 システム回復制御方法に関し、ユーザに一括
して提供できるサービス量を制限しなくても障害回復処
理後の各種資源の内容を常に整合させることを可能とす
る。 【構成】 トランザクションの実行中、同期点以前は無
効“N”、同期点以後は有効“O”を回復対象領域中の
復元指示フラグに設定し、これをジャーナル(FJ)に
取得する。障害回復処理では、最新のチェックポイント
ダンプ(CD)とCD以後のFJを用いて回復対象領域
を復元し、復元指示フラグを参照する。復元指示フラグ
の設定が“N”のときは、回復対象領域を初期化して当
該トランザクションを無効化する。以上により、障害回
復に必要なFJの上限量はCDの取得間隔のみに規定さ
れるので、トランザクションの実行時間を制限する(ユ
ーザに一括して提供できるサービス量を制限する)必要
がなくなるとともに、障害回復処理後の各種資源の内容
を常に整合させることができる。
(57) [Summary] [Objective] Regarding a system recovery control method, it is possible to always match the contents of various resources after failure recovery processing without limiting the amount of services that can be collectively provided to users. [Structure] During the execution of a transaction, invalid "N" before the sync point and valid "O" after the sync point are set in the restoration instruction flag in the recovery target area, and this is acquired in the journal (FJ). In the failure recovery processing, the recovery target area is restored using the latest checkpoint dump (CD) and the FJ after the CD, and the restoration instruction flag is referenced. When the restoration instruction flag is set to "N", the recovery target area is initialized to invalidate the transaction. As described above, since the upper limit amount of FJ required for failure recovery is defined only by the CD acquisition interval, there is no need to limit the transaction execution time (limit the amount of service that can be collectively provided to the user). It is possible to always match the contents of various resources after the failure recovery processing.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明はシステム回復制御方法に
係り、特にオンライントランザクションシステムにおけ
るシステム回復制御方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system recovery control method, and more particularly to a system recovery control method in an online transaction system.

【0002】[0002]

【従来の技術】従来、オンライントランザクションシス
テムにおけるシステム回復制御方法では、システムに障
害が発生して処理が中断された場合、トランザクション
稼動中に取得しておいた各種の履歴情報(ジャーナル)
にしたがって各種資源の回復処理を行っている。このジ
ャーナルには、トランザクション処理中に各種資源の更
新を行ったことを示すファイルジャーナル(以後、“F
J”と略記する)と、トランザクションが完了したこと
を示す同期ジャーナル(以後、“DJ”と略記する)と
がある。そして、障害回復処理を行う際にDJがあった
場合には、当該トランザクションの処理は完了している
ので、直前に取得されたFJを用いて各種資源を当該ト
ランザクションによる更新後の状態に回復させる。ま
た、障害回復処理を行う際にDJがなかった場合には、
当該トランザクションの処理は未完なので、各種資源を
当該トランザクションによる更新前の状態に回復させる
(当該トランザクションの取消)。
2. Description of the Related Art Conventionally, in a system recovery control method in an online transaction system, various history information (journals) acquired during the operation of a transaction when a system failure occurs and the processing is interrupted.
According to the above, various resources are recovered. This journal contains a file journal (hereinafter referred to as "F") indicating that various resources have been updated during transaction processing.
J ”) and a synchronous journal (hereinafter abbreviated as“ DJ ”) indicating that the transaction is completed. If there is a DJ when performing the failure recovery processing, the transaction concerned Processing has been completed, the various resources are restored to the state after being updated by the transaction using the FJ acquired immediately before.If there is no DJ in the failure recovery processing,
Since the processing of the transaction is incomplete, various resources are restored to the state before being updated by the transaction (cancellation of the transaction).

【0003】しかし、上記障害回復処理をFJのみを用
いて行うには、システム起動時から取得されたすべての
FJを保持しておかなければならないが、システムの構
成資源が有限であることを考えると、これは非現実的で
ある。そこで、障害発生時に回復する必要のある資源情
報を、トランザクション処理とは非同期に一定間隔でチ
ェックポイントダンプ(以後、“CD”と略記する)と
して取得し、障害回復処理を行う際にはCDおよびCD
取得以後に取得されたFJの両方を用いることにより、
障害回復処理に必要なジャーナル総量を抑制することが
一般的に行われている。
However, in order to carry out the above-mentioned failure recovery processing using only the FJ, all FJs acquired from the system startup must be held, but it is considered that the system configuration resources are finite. And this is unrealistic. Therefore, resource information that needs to be recovered when a failure occurs is acquired as a checkpoint dump (hereinafter abbreviated as “CD”) at a constant interval asynchronously with the transaction processing, and the CD and CD
By using both FJs acquired after acquisition,
It is common practice to suppress the total amount of journals required for failure recovery processing.

【0004】なお、チェックポイントダンプ取得処理に
関しては特公平2−35529号公報に、ジャ−ナル取
得処理に関しては上田恭雄著「オンラインシステム」
(昭晃堂)に、それぞれ記載がある。
The checkpoint dump acquisition process is described in Japanese Patent Publication No. 2-35529, and the journal acquisition process is written by Yasuo Ueda, "Online System".
(Shokodo), each has a description.

【0005】[0005]

【発明が解決しようとする課題】上記従来のシステム回
復制御方法(CDおよびCD取得以後に取得されたジャ
ーナルの両方を用いて障害回復処理を行う方法)では、
トランザクション処理に同期して行われるFJの取得の
タイミングと、これと非同期に一定間隔で行われるCD
の取得のタイミングとはまったく無関係であることか
ら、CDに取得される各種資源の状態がトランザクショ
ン実行途中における状態となることがありうる。このた
め、障害発生時にこのようなCDに基づいて障害回復処
理を行った場合には各種資源の状態がトランザクション
処理中における状態となり、正しい整合性を有する状態
に回復できるとは限らないという問題点が従来より指摘
されている。そこで、上記従来のシステム回復制御方法
において障害回復処理の実行に伴ってCDを用いる際に
は、当該CDの取得以後にDJが取得されているCDの
みを用いることにより、トランザクション処理中に取得
されたCDを使用しないように制御を行っている。
SUMMARY OF THE INVENTION In the above-mentioned conventional system recovery control method (a method of performing a failure recovery process using both a CD and a journal acquired after the CD is acquired),
FJ acquisition timing that is performed in synchronization with transaction processing and CD that is asynchronously performed at regular intervals
Since it has nothing to do with the timing of acquisition of the data, the status of various resources acquired by the CD may be in the middle of transaction execution. For this reason, when a failure recovery process is performed based on such a CD when a failure occurs, the state of various resources becomes a state during transaction processing, and it is not always possible to recover to a state having correct consistency. Has been pointed out. Therefore, in the above conventional system recovery control method, when a CD is used along with the execution of the failure recovery process, only the CD for which the DJ has been acquired after the acquisition of the CD is used to acquire the CD during the transaction processing. The control is done not to use the CD.

【0006】図5は、従来のシステム回復制御方法の問
題点を説明するための図である。同図に示すように、あ
る資源のテーブル4の更新以後および同期点(それ以後
に障害が発生しても、各種資源の内容に不整合が生じな
い時点)以前の時点でCD3が取得されると、CD3に
はテ−ブル更新後の内容が取得されることになる。した
がって、CD3の取得以後および同期点以前の時点で障
害が発生してシステムが異常終了(ABEND)する
と、障害発生時におけるトランザクション処理は未完の
状態で中断されてしまうので、障害回復処理を行う際に
は、テ−ブル4の内容を更新前の状態に復旧させる必要
がある。しかしながら、前述したようにCD3にはテ−
ブル更新後の内容が保持されているため、これを用いて
障害回復処理を行うとテ−ブル4の内容は更新前の状態
となってしまい、各種資源の内容に不整合が生ずるおそ
れがある。
FIG. 5 is a diagram for explaining the problems of the conventional system recovery control method. As shown in the figure, the CD3 is acquired after the update of the table 4 of a certain resource and before the synchronization point (the time when the contents of various resources do not become inconsistent even if a failure occurs thereafter). Then, the contents after the table is updated are acquired in the CD3. Therefore, if a failure occurs after the acquisition of the CD3 and before the synchronization point and the system abnormally ends (ABEND), the transaction processing at the time of the failure is interrupted in an incomplete state. Therefore, it is necessary to restore the contents of the table 4 to the state before updating. However, as mentioned above, the CD3 has
Since the contents after the update of the table are held, if the failure recovery processing is performed using this, the contents of the table 4 will be in the state before the update, and the contents of various resources may be inconsistent. .

【0007】この不都合は、トランザクション実行中に
上記の時点(トランザクション開始後で、かつ、同期点
以前の時点)に取得されたCDの内容は無効であるもの
として、当該トランザクション開始以前の時点に取得さ
れたCDまで遡って各種資源の状態を復元し、その後に
取得されたFJに基づいて当該トランザクション開始直
前の状態に回復するように制御することにより、回避す
ることができる(ただし、複数世代にわたってCDが取
得されていることが前提となる)。
This inconvenience is caused by assuming that the contents of the CD acquired at the above-mentioned time point (after the transaction start and before the synchronization point) during the execution of the transaction are invalid, and acquired at the time point before the transaction start. This can be avoided by restoring the state of various resources by going back to the created CD, and then controlling to restore the state immediately before the start of the transaction based on the acquired FJ. CD is required).

【0008】ところが、上記の制御によって新たな不都
合が起こりうる。すなわち、トランザクションの開始か
ら同期点までの時間があまりにも長い場合には、最古の
CDまで遡っても当該トランザクション開始以前の状態
を復元できなかったり、あるいは遡ることができてもジ
ャーナル総量の制約からその時点のFJがすでに消去さ
れていたりして、システムの回復が不可能となるおそれ
がある。そこで、トランザクションの走行時間を常時監
視して、一定時間が経過しても終了しないトランザクシ
ョンを強制的に終了させることにより、システムの回復
を保証しているが、この場合には、トランザクションの
処理時間がシステムの制約を受けることになり、ユーザ
のデータ量やトランザクションの処理内容によっては、
ユーザに対して当該トランザクションによるサービスを
十分に提供できなくなってしまうという問題点があっ
た。
However, the above control may cause a new inconvenience. That is, if the time from the start of a transaction to the synchronization point is too long, the state before the start of the transaction cannot be restored even if the oldest CD is traced, or even if the trace can be traced back, the total amount of journals is limited. Therefore, there is a possibility that the FJ at that time has already been erased and the system cannot be recovered. Therefore, the system recovery is guaranteed by constantly monitoring the transit time of transactions and forcibly terminating transactions that do not terminate even after a certain period of time elapses. Is subject to system restrictions, and depending on the amount of user data and transaction processing content,
There is a problem that the service based on the transaction cannot be sufficiently provided to the user.

【0009】以上のように、上記従来のシステム回復制
御方法(CDおよびCD取得以後に取得されたジャーナ
ルの両方を用いて障害回復処理を行う方法)において
は、障害回復処理後の各種資源の内容を整合させるため
にトランザクション実行中に取得されたCDの内容を無
効とするような制御を行うときには、上述した理由によ
ってトランザクション処理を一定時間内に完了させなけ
ればならず、ユーザに一括して提供できるサービス量が
保存できるCDの世代数およびジャーナル総量によって
制限されてしまうという問題点があった。
As described above, in the above-described conventional system recovery control method (method of performing failure recovery processing using both the CD and the journal acquired after the acquisition of the CD), the contents of various resources after the failure recovery processing are performed. In order to make the contents of the CD invalid during the execution of the transaction for the purpose of matching the transaction, the transaction processing must be completed within a certain time for the above-mentioned reason, and it is provided to the user all at once. There is a problem that the amount of services that can be provided is limited by the number of CD generations that can be stored and the total amount of journals.

【0010】したがって本発明の目的は、上記の問題点
を解決して、ユーザに一括して提供できるサービス量を
制限することなく、障害回復処理後の各種資源の内容を
常に整合させることのできるシステム回復制御方法を提
供することにある。
Therefore, it is an object of the present invention to solve the above problems and always match the contents of various resources after a failure recovery process without limiting the amount of service that can be collectively provided to a user. It is to provide a system recovery control method.

【0011】[0011]

【課題を解決するための手段】上記の目的を達成するた
め、本発明のシステム回復制御方法は、作業情報が一定
時間ごとに取得されるチェックポイントダンプと、トラ
ンザクションの進行に伴う前記作業情報の更新履歴情報
が取得されるジャーナルとを用いて障害回復処理を実行
するシステム回復制御方法において、前記トランザクシ
ョンを実行する際に、前記トランザクションの進行状況
に応じて復元指示フラグを有効または無効のいずれかに
設定し、前記障害回復処理を実行する際に、最新のチェ
ックポイントダンプを用いて前記作業情報を復元した
後、前記指示フラグが有効であるときには前記ジャーナ
ルを用いて回復対象領域に復元情報を格納することで前
記トランザクションを有効化し、前記指示フラグが無効
であるときには前記回復対象領域を初期化することで前
記トランザクションを無効化するように構成したもので
ある。
In order to achieve the above object, the system recovery control method of the present invention provides a checkpoint dump in which work information is acquired at regular intervals, and the work information associated with the progress of a transaction. In a system recovery control method for executing a failure recovery process using a journal from which update history information is acquired, when executing the transaction, either a valid or invalid restore instruction flag is set according to the progress of the transaction. And restore the work information using the latest checkpoint dump when executing the failure recovery process, and then restore the recovery information to the recovery target area using the journal when the instruction flag is valid. By storing the transaction, the transaction is validated, and when the instruction flag is invalid, It is obtained by configured to invalidate the transaction by initializing the recovery target area.

【0012】[0012]

【作用】上記構成に基づく作用を説明する。The operation based on the above configuration will be described.

【0013】本発明のシステム回復制御方法では、作業
情報が一定時間ごとに取得されるチェックポイントダン
プと、トランザクションの進行に伴う前記作業情報の更
新履歴情報が取得されるジャーナルとを用いて障害回復
処理を実行するシステム回復制御方法において、前記ト
ランザクションを実行する際に、前記トランザクション
の進行状況に応じて復元指示フラグを有効または無効の
いずれかに設定し、前記障害回復処理を実行する際に、
最新のチェックポイントダンプを用いて前記作業情報を
復元した後、前記指示フラグが有効であるときには前記
ジャーナルを用いて回復対象領域に復元情報を格納する
ことで前記トランザクションを有効化し、前記指示フラ
グが無効であるときには前記回復対象領域を初期化する
ことで前記トランザクションを無効化するように構成し
た。
In the system recovery control method of the present invention, failure recovery is performed using a checkpoint dump in which work information is acquired at regular time intervals and a journal in which update history information of the work information associated with the progress of a transaction is acquired. In a system recovery control method for executing a process, when executing the transaction, when the recovery instruction flag is set to either valid or invalid according to the progress of the transaction, and when the failure recovery process is executed,
After the work information is restored using the latest checkpoint dump, the transaction is validated by storing the restoration information in the recovery target area using the journal when the instruction flag is valid, and the instruction flag is When the transaction is invalid, the transaction is invalidated by initializing the recovery target area.

【0014】したがって、障害発生時における障害回復
処理では、最新のチェックポイントダンプを原則的に有
効とみなし、これを用いて各種資源の状態を復元した
後、実行中であったトランザクションに参照および更新
される回復対象領域に格納された復元情報に含まれる復
元指示フラグによって当該復元情報が(同期点以前であ
るために)無効であることが示されているときには、当
該回復対象領域を初期化して当該トランザクションを無
効化することで、障害回復処理後の各種資源の内容を常
に整合させることができる。また、最新のチェックポイ
ントダンプとそれ以後に取得されたジャーナルがあれば
必ず障害を回復できるため、従来のようにトランザクシ
ョンの実行時間の制限(ユーザに対して一度に提供でき
るサービス量の制限)を行う必要がなくなり、ユーザが
データ量や処理内容などを意識せずにどんな(長時間に
わたる)トランザクションでも実行させることができ
る。さらに、保存すべきチェックポイントダンプの世代
数およびジャーナル総量を最小限に抑えて資源を有効利
用するとともに、障害回復に必要な処理時間を短縮する
ことができる。
Therefore, in the failure recovery processing when a failure occurs, the latest checkpoint dump is considered to be valid in principle, and the status of various resources is restored using this, and then the transaction being executed is referenced and updated. When the restoration instruction flag included in the restoration information stored in the restoration target area indicates that the restoration information is invalid (because it is before the synchronization point), the restoration target area is initialized. By invalidating the transaction, the contents of various resources after the failure recovery process can be consistently matched. Also, since the failure can be recovered without fail with the latest checkpoint dump and the journals acquired after that, it is possible to limit the transaction execution time (limit the amount of service that can be provided to the user at one time) as in the past. There is no need to do it, and the user can execute any (long-time) transaction without being aware of the data amount or processing content. Furthermore, it is possible to minimize the number of generations of checkpoint dumps and the total amount of journals to be saved, to effectively use resources, and to shorten the processing time required for failure recovery.

【0015】[0015]

【実施例】以下、本発明のシステム回復制御方法の一実
施例を図面を用いて詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the system recovery control method of the present invention will be described in detail below with reference to the drawings.

【0016】図1および図2は、トランザクションの実
行処理に伴う各種資源の変化を時系列的に示す図であ
り、図の左側から右側へ処理が進行する。両図中、1
1,12は当該トランザクションによる回復対象領域の
更新が行われた後に取得されるジャーナル(ファイルジ
ャーナル=“FJ”)、13はトランザクションの完了
を示すジャ−ナル(同期ジャーナル=“DJ”)、14
はトランザクション実行途中におけるテーブル更新後お
よび同期点以前のタイミングで取得されるチェックポイ
ントダンプ(CD)、15aおよび15bは障害回復処
理の際にCDおよびFJから復元される回復対象領域の
内容を有効/無効のいずれとするか(実行途中の状態で
復元されるトランザクションを有効/無効のいずれとす
るか)を示す復元指示フラグの回復対象領域(回復対象
テーブル)における格納領域、16aおよび16bは回
復対象領域の内容の格納領域である。また、図3は、ト
ランザクションの実行処理で行われる回復情報の更新処
理手順について説明するための図であり、図4は、障害
回復処理手順について説明するための図である。
FIG. 1 and FIG. 2 are diagrams showing changes in various resources associated with transaction execution processing in chronological order, and the processing progresses from the left side to the right side of the figure. 1 in both figures
Reference numerals 1 and 12 denote a journal (file journal = "FJ") acquired after the recovery target area is updated by the transaction, 13 denotes a journal indicating the completion of the transaction (synchronous journal = "DJ"), 14
Is a checkpoint dump (CD) acquired after the table is updated during transaction execution and before the synchronization point, and 15a and 15b are valid contents of the recovery target area restored from the CD and FJ during the failure recovery processing. Storage area in the recovery target area (recovery target table) of the recovery instruction flag indicating whether to invalidate (whether the transaction restored in the midst of execution is valid or invalid), 16a and 16b are recovery targets A storage area for the contents of the area. 3 is a diagram for explaining a recovery information update processing procedure performed in the transaction execution processing, and FIG. 4 is a diagram for explaining a failure recovery processing procedure.

【0017】最初に、図1中の時刻t1のタイミング(C
D取得後および同期点以前のタイミング)で障害が発生
する場合について説明する。この場合は時刻t1の直前ま
で、図3に示した手順にしたがって回復情報の更新処理
が行われる。すなわち、図3中のステップ31におい
て、回復対象領域(回復対象テーブル)の内容が“A”
から“B”(16a)に更新される。この時点では当該
トランザクションが同期点前の状態であるため、復元指
示フラグには、障害回復処理で復元される回復対象領域
の内容を無効とすべきことを示す“N”(15a)が、
ステップ32で設定された後、ステップ33でこの状態
がジャーナル11に取得される。そして、図3の手順と
は無関係にCD14の取得が行われる。このときに障害
が発生すると、図4に示す障害回復処理におけるステッ
プ41で、CD14の内容を有効とみなして、これに基
づいて回復対象領域の内容が復元され、回復対象領域の
内容は更新後の“B”となる。続くステップ42ではC
D14の後に取得されたジャーナルが存在しないため、
何も行われない。そしてステップ43では、復元された
回復対象領域における復元指示フラグが“N”であるこ
とから、ステップ44においてテーブルの初期化が行わ
れ、実行途中であったトランザクションは未了として無
効化される。なお、上述した“初期化”とは、回復対象
テーブルを所定のデータで満たしても(例えば、すべて
“0”にする)、更新前の“A”に戻してもよく、特に
その方法については限定するものではない。
[0017] First, the timing of time t 1 in FIG. 1 (C
A case where a failure occurs after the acquisition of D and before the synchronization point will be described. In this case, the recovery information update process is performed according to the procedure shown in FIG. 3 until immediately before time t 1 . That is, in step 31 in FIG. 3, the content of the recovery target area (recovery target table) is "A".
To "B" (16a). At this point, since the transaction is in the state before the synchronization point, the restoration instruction flag has "N" (15a) indicating that the content of the recovery target area restored in the failure recovery processing should be invalid.
After being set in step 32, this state is acquired by the journal 11 in step 33. Then, the CD 14 is acquired regardless of the procedure of FIG. If a failure occurs at this time, in step 41 of the failure recovery process shown in FIG. 4, the contents of the recovery target area are restored on the basis of the contents of the CD 14 being considered valid, and the contents of the recovery target area are updated. "B". In the following step 42, C
Since there are no journals acquired after D14,
Nothing is done. Then, in step 43, since the restoration instruction flag in the restored restoration target area is "N", the table is initialized in step 44, and the transaction which was being executed is invalidated as incomplete. Note that the above-mentioned "initialization" means that the recovery target table may be filled with predetermined data (for example, all are set to "0") or may be returned to "A" before update. It is not limited.

【0018】次に、図2中の時刻t2のタイミング(同期
点以後およびトランザクション完了以前のタイミング)
で障害が発生する場合について説明する。この場合は時
刻t2の直前まで、図3に示した手順にしたがって回復情
報の更新処理が行われる。すなわち、ステップ33にお
けるジャーナル11の取得に続いて、図3の手順とは無
関係にCD14の取得が行われ、さらに同期点処理が行
われる。そして、ステップ34で同期点処理が正常に行
われたことが判定されると、ステップ35で、復元指示
フラグに障害回復処理で復元される回復対象領域の内容
を有効とすべきことを示す“O”(15b)が設定され
た後、ステップ36でこの状態がジャーナル12に取得
される。このときに障害が発生すると、図4に示す障害
回復処理におけるステップ41で、CD14の内容を有
効とみなして、これに基づいて回復対象領域の内容が復
元され、テーブルの内容が更新後の“B”、復元指示フ
ラグの内容が“N”となる。続くステップ42ではCD
14の後にジャーナル12が取得されているため、ジャ
ーナル12に基づいて回復対象領域の内容が当該トラン
ザクションの進行にしたがって更新され、復元指示フラ
グの内容が“O”となる。そしてステップ43では、回
復対象領域における復元指示フラグが“O”であること
から、ステップ44はスキップされて当該トランザクシ
ョンは完了として有効化される。
Next, the timing of time t 2 in FIG. 2 (the timing after the synchronization point and before the completion of the transaction)
A case in which a failure occurs will be described. In this case, the recovery information update process is performed according to the procedure shown in FIG. 3 until just before time t 2 . That is, following the acquisition of the journal 11 in step 33, the CD 14 is acquired regardless of the procedure of FIG. 3, and the synchronization point processing is further executed. Then, if it is determined in step 34 that the synchronization point processing has been normally performed, in step 35, the restoration instruction flag indicates that the content of the recovery target area restored by the failure recovery processing should be valid. After O ″ (15b) is set, this state is acquired by the journal 12 in step 36. If a failure occurs at this time, in step 41 of the failure recovery process shown in FIG. 4, the contents of the CD 14 are regarded as valid, and the contents of the recovery target area are restored based on this, and the contents of the table after the update " B ”and the content of the restoration instruction flag are“ N ”. In the following step 42, the CD
Since the journal 12 is acquired after 14, the content of the recovery target area is updated according to the progress of the transaction based on the journal 12, and the content of the restoration instruction flag becomes “O”. Then, in step 43, since the restoration instruction flag in the recovery target area is "O", step 44 is skipped and the transaction is validated as completed.

【0019】以上のように本実施例によれば、障害発生
時における障害回復処理の際に、最新のチェックポイン
トダンプ(CD14)を原則的に有効とみなし、これを
用いて各種資源の状態を復元した後、実行中であったト
ランザクションに参照および更新される回復対象領域に
格納された復元情報(16aまたは16b)に含まれる
復元指示フラグによって当該復元情報が(同期点以前で
あるために)無効であることが示されているとき(15
a)には、当該回復対象領域を初期化して当該トランザ
クションを無効化することで、障害回復処理後の各種資
源の内容を常に整合させることができる。また、最新の
チェックポイントダンプとそれ以後に取得されたジャー
ナルがあれば必ず障害を回復できるため、従来のように
トランザクションの実行時間の制限(ユーザに対して一
度に提供できるサービス量の制限)を行う必要がなくな
り、ユーザがデータ量や処理内容などを意識せずにどん
な(長時間にわたる)トランザクションでも実行させる
ことができる。さらに、保存すべきチェックポイントダ
ンプの世代数およびジャーナル総量を最小限に抑えて資
源を有効利用するとともに、障害回復に必要な処理時間
を短縮することができる。
As described above, according to the present embodiment, the latest checkpoint dump (CD14) is considered to be valid in principle at the time of the failure recovery processing when a failure occurs, and this is used to check the status of various resources. After the restoration, the restoration instruction flag included in the restoration information (16a or 16b) stored in the restoration target area that is referred to and updated by the transaction being executed causes the restoration information to be (because it is before the synchronization point). When it is shown to be invalid (15
In a), by initializing the recovery target area and invalidating the transaction, the contents of various resources after the failure recovery processing can always be matched. Also, since the failure can be recovered without fail with the latest checkpoint dump and the journals acquired after that, it is possible to limit the transaction execution time (limit the amount of service that can be provided to the user at one time) as in the past. There is no need to do it, and the user can execute any (long-time) transaction without being aware of the data amount or processing content. Furthermore, it is possible to minimize the number of generations of checkpoint dumps and the total amount of journals to be saved, to effectively use resources, and to shorten the processing time required for failure recovery.

【0020】特に、複数のトランザクションが並列的に
実行されているときに障害が発生した場合には、従来は
障害発生時点で最も長く実行されていたトランザクショ
ンに合わせて回復に用いるチェックポイントダンプの世
代を遡らなければならなかったのに対し、本発明では最
新のチェックポイントダンプを用いて回復対象領域の復
元を行った後には、各々のトランザクションごとに個別
に当該トランザクションの有効化処理または無効化処理
を実行することが可能となる。
In particular, when a failure occurs while a plurality of transactions are executed in parallel, the generation of the checkpoint dump used for recovery according to the transaction that has been executed for the longest time at the time of the failure. However, according to the present invention, after the recovery target area is restored by using the latest checkpoint dump, each transaction is individually validated or invalidated. Can be executed.

【0021】[0021]

【発明の効果】以上詳しく説明したように、本発明のシ
ステム回復制御方法によれば、作業情報が一定時間ごと
に取得されるチェックポイントダンプと、トランザクシ
ョンの進行に伴う前記作業情報の更新履歴情報が取得さ
れるジャーナルとを用いて障害回復処理を実行するシス
テム回復制御方法において、前記トランザクションを実
行する際に、前記トランザクションの進行状況に応じて
復元指示フラグを有効または無効のいずれかに設定し、
前記障害回復処理を実行する際に、最新のチェックポイ
ントダンプを用いて前記作業情報を復元した後、前記指
示フラグが有効であるときには前記ジャーナルを用いて
回復対象領域に復元情報を格納することで前記トランザ
クションを有効化し、前記指示フラグが無効であるとき
には前記回復対象領域を初期化することで前記トランザ
クションを無効化するように構成したことから、障害発
生時における障害回復処理では、最新のチェックポイン
トダンプを原則的に有効とみなし、これを用いて各種資
源の状態を復元した後、実行中であったトランザクショ
ンに参照および更新される回復対象領域に格納された復
元情報に含まれる復元指示フラグによって当該復元情報
が(同期点以前であるために)無効であることが示され
ているときには、当該回復対象領域を初期化して当該ト
ランザクションを無効化することで、障害回復処理後の
各種資源の内容を常に整合させることができるという効
果が得られる。また、最新のチェックポイントダンプと
それ以後に取得されたジャーナルがあれば必ず障害を回
復できるため、従来のようにトランザクションの実行時
間の制限(ユーザに対して一度に提供できるサービス量
の制限)を行う必要がなくなり、ユーザがデータ量や処
理内容などを意識せずにどんな(長時間にわたる)トラ
ンザクションでも実行させることができるという効果が
得られる。さらに、保存すべきチェックポイントダンプ
の世代数およびジャーナル総量を最小限に抑えて資源を
有効利用するとともに、障害回復に必要な処理時間を短
縮することができるという効果が得られる。
As described in detail above, according to the system recovery control method of the present invention, a checkpoint dump in which work information is acquired at regular intervals, and update history information of the work information as the transaction progresses. In a system recovery control method for executing a failure recovery process using a journal that is obtained, a restore instruction flag is set to either valid or invalid according to the progress of the transaction when the transaction is executed. ,
When the failure recovery processing is executed, the work information is restored by using the latest checkpoint dump, and then the restoration information is stored in the recovery target area by using the journal when the instruction flag is valid. Since the transaction is enabled and the transaction is disabled by initializing the recovery target area when the instruction flag is disabled, the latest checkpoint is used in the failure recovery processing when a failure occurs. After the dump is regarded as valid in principle, the state of various resources is restored using this, and the restoration instruction flag included in the restoration information stored in the recovery target area that is referenced and updated by the transaction being executed When the restoration information is shown to be invalid (because it is before the sync point), By disabling the transaction and initializes the recovery target area, there is an advantage that it is possible to always align the contents of various resources after failure recovery processing. Also, since the failure can be recovered without fail with the latest checkpoint dump and the journals acquired after that, it is possible to limit the transaction execution time (limit the amount of service that can be provided to the user at one time) as in the past. There is no need to perform this, and the effect is that the user can execute any (long-term) transaction without being aware of the amount of data or the processing content. Furthermore, the number of generations of checkpoint dumps to be saved and the total amount of journals can be minimized to effectively use resources, and the processing time required for failure recovery can be shortened.

【図面の簡単な説明】[Brief description of drawings]

【図1】トランザクションの実行処理に伴う各種資源の
変化を時系列的に示す図(その1)である。
FIG. 1 is a diagram (No. 1) showing changes in various resources accompanying a transaction execution process in time series.

【図2】トランザクションの実行処理に伴う各種資源の
変化を時系列的に示す図(その2)である。
FIG. 2 is a diagram (No. 2) showing changes in various resources accompanying a transaction execution process in time series.

【図3】トランザクションの実行処理で行われる回復情
報の更新処理手順について説明するための図である。
FIG. 3 is a diagram for explaining a recovery information update processing procedure performed in transaction execution processing.

【図4】障害回復処理手順について説明するための図で
ある。
FIG. 4 is a diagram for explaining a failure recovery processing procedure.

【図5】従来のシステム回復制御方法の問題点を説明す
るための図である。
FIG. 5 is a diagram for explaining a problem of the conventional system recovery control method.

【符号の説明】[Explanation of symbols]

11,12 回復対象領域の内容が取得されるジャーナ
ル 13 トランザクションが完了したことを示すジャーナ
ル 14 トランザクションの処理実行中に取得されるチェ
ックポイントダンプ
11,12 Journal for which the contents of the recovery target area are acquired 13 Journal that indicates that the transaction is completed 14 Checkpoint dump that is acquired during transaction processing

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 作業情報が一定時間ごとに取得されるチ
ェックポイントダンプと、 トランザクションの進行に伴う前記作業情報の更新履歴
情報が取得されるジャーナルとを用いて障害回復処理を
実行するシステム回復制御方法において、 前記トランザクションを実行する際に、前記トランザク
ションの進行状況に応じて復元指示フラグを有効または
無効のいずれかに設定し、 前記障害回復処理を実行する際に、最新のチェックポイ
ントダンプを用いて前記作業情報を復元した後、前記指
示フラグが有効であるときには前記ジャーナルを用いて
回復対象領域に復元情報を格納することで前記トランザ
クションを有効化し、前記指示フラグが無効であるとき
には前記回復対象領域を初期化することで前記トランザ
クションを無効化するように構成したことを特徴とする
システム回復制御方法。
1. A system recovery control for executing a failure recovery process using a checkpoint dump in which work information is acquired at regular time intervals and a journal in which update history information of the work information associated with the progress of a transaction is acquired. In the method, when executing the transaction, the restoration instruction flag is set to either valid or invalid according to the progress status of the transaction, and the latest checkpoint dump is used when executing the failure recovery processing. After restoring the work information by using the journal, the transaction is validated by storing the restoration information in the recovery target area using the journal when the instruction flag is valid, and the recovery target is restored when the instruction flag is invalid. Configured to invalidate the transaction by initializing the area A system recovery control method characterized by the above.
JP5272198A 1993-10-29 1993-10-29 System recovery control method Pending JPH07129436A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5272198A JPH07129436A (en) 1993-10-29 1993-10-29 System recovery control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5272198A JPH07129436A (en) 1993-10-29 1993-10-29 System recovery control method

Publications (1)

Publication Number Publication Date
JPH07129436A true JPH07129436A (en) 1995-05-19

Family

ID=17510466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5272198A Pending JPH07129436A (en) 1993-10-29 1993-10-29 System recovery control method

Country Status (1)

Country Link
JP (1) JPH07129436A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004147A (en) * 2004-06-17 2006-01-05 Hitachi Ltd Disaster recovery system, program, and database recovery method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004147A (en) * 2004-06-17 2006-01-05 Hitachi Ltd Disaster recovery system, program, and database recovery method

Similar Documents

Publication Publication Date Title
US5065311A (en) Distributed data base system of composite subsystem type, and method fault recovery for the system
JP4796398B2 (en) Methods, systems, and products for metadata replication and restoration
US6182086B1 (en) Client-server computer system with application recovery of server applications and client applications
US20060123211A1 (en) Method for optimizing a snapshot operation on a file basis
JPH0784815A (en) System and method for processing of fault-tolerant transaction-oriented data
JPS633341B2 (en)
JP3094888B2 (en) Numbering mechanism, data consistency confirmation mechanism, transaction re-execution mechanism, and distributed transaction processing system
JP3491282B2 (en) Method and data processor for reducing the number of recovery log forced writes
WO1996041263A1 (en) Management of units of work on a computer system log
Smith et al. Surviving peripheral failures in embedded systems
JPH07129436A (en) System recovery control method
Kanthadai et al. Implementation of recoverable distributed shared memory by logging writes
KR100365891B1 (en) Backup/recovery Apparatus and method for non-log processing of real-time main memory database system
JP2513060B2 (en) Failure recovery type computer
JP3290182B2 (en) Data set backup method and apparatus in shared environment
Ng A commit protocol for checkpointing transactions
JP3516428B2 (en) calculator
US20050091557A1 (en) Invocation of a follow on unit of work
JPH0594356A (en) On-memory table data fault restoration system
JPH07168730A (en) Check point sampling system
JPH0827753B2 (en) How to get checkpoint dump of online system
JPH0991183A (en) Data base recovery device
JPH0833859B2 (en) Multiple subsystem type online system
JPH04148250A (en) On-line transaction system
KR19990068337A (en) Database Transaction Recovery with transaction completion key

Legal Events

Date Code Title Description
A521 Written amendment

Effective date: 20040518

Free format text: JAPANESE INTERMEDIATE CODE: A523