JPH02287858A - 分散処理システムのリスタート方式 - Google Patents
分散処理システムのリスタート方式Info
- Publication number
- JPH02287858A JPH02287858A JP1110544A JP11054489A JPH02287858A JP H02287858 A JPH02287858 A JP H02287858A JP 1110544 A JP1110544 A JP 1110544A JP 11054489 A JP11054489 A JP 11054489A JP H02287858 A JPH02287858 A JP H02287858A
- Authority
- JP
- Japan
- Prior art keywords
- data
- checkpoint
- task execution
- restart
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Retry When Errors Occur (AREA)
- Multi Processors (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の11 11’J ]
(産業上の利用分野)
この発明は分散処理システムのりスタート方式に関し、
特にその分散処理システムを+7.7成する各処理装置
におけるチエツクポイントリスタートの実行方式に関す
る。
特にその分散処理システムを+7.7成する各処理装置
におけるチエツクポイントリスタートの実行方式に関す
る。
(従来の技術)
一般に、分散処理システムは、その処理能力や仁頼性を
向上するために、複数の処理装置かノ\ドウJア的に結
合されて構成されている。このような分散処理システム
においては、各処理装置間でデータの送受信か行なわれ
、情報が万いに交換される。
向上するために、複数の処理装置かノ\ドウJア的に結
合されて構成されている。このような分散処理システム
においては、各処理装置間でデータの送受信か行なわれ
、情報が万いに交換される。
各処理装置は、ユーザプログラムによって提供されるデ
ータの送受信機能と、その障害対策として使用されるチ
エツクポイントリスター1・機能をHしている。チエツ
クポイントリスタート機能は、各装置内のシステムプロ
グラムによって提供される機能であり、予じめ必要な情
報をチェックボイントデータとして退避しておき、障害
発生時にはそのチエツクポイントデータから処理を+1
スタトする方式である。すなわち、過去の時点で正常に
処理された実行プログラムがチエツクポイントによって
指定され、障害発生時はその11−常な11,5点に戻
って処理が再開される。
ータの送受信機能と、その障害対策として使用されるチ
エツクポイントリスター1・機能をHしている。チエツ
クポイントリスタート機能は、各装置内のシステムプロ
グラムによって提供される機能であり、予じめ必要な情
報をチェックボイントデータとして退避しておき、障害
発生時にはそのチエツクポイントデータから処理を+1
スタトする方式である。すなわち、過去の時点で正常に
処理された実行プログラムがチエツクポイントによって
指定され、障害発生時はその11−常な11,5点に戻
って処理が再開される。
このようなチエツクポイントリスタート分散処理システ
ム内の各装置1114位で独立に実行される。このため
、各処理装置かその個々の装置内だけに関係する処理を
実行している場合には、充分に障害を回復することかき
る。
ム内の各装置1114位で独立に実行される。このため
、各処理装置かその個々の装置内だけに関係する処理を
実行している場合には、充分に障害を回復することかき
る。
しかしながら、処理装置間でデータの送受信を実行して
いる場合は、一方の処理装置が正常に処理を実行しても
、他方の処理装置に何A−17かのシステム障害が発生
する場合かある。この場合、1;仝害の起きた処理装置
ではチエツクポイントリスター機能によって必要な処理
か+1開されるものの、一方の処理装置はその障害の発
生した時点を認識してないため通信データの欠損等の通
信誤りが生じてしまう。これは、分散処理システムの(
、;; ’liJj性を低下させる大きな原因となって
いる。
いる場合は、一方の処理装置が正常に処理を実行しても
、他方の処理装置に何A−17かのシステム障害が発生
する場合かある。この場合、1;仝害の起きた処理装置
ではチエツクポイントリスター機能によって必要な処理
か+1開されるものの、一方の処理装置はその障害の発
生した時点を認識してないため通信データの欠損等の通
信誤りが生じてしまう。これは、分散処理システムの(
、;; ’liJj性を低下させる大きな原因となって
いる。
(発明が解決しようとする課題)
従来の分散処理システムでは、チエツクポインI・リス
ク−i・機能が各処理装置毎に独立して実行されるため
、処理装置間のデータ送受信中に障害が発生した場合に
はその障害を回復するのか困難な欠点があった。
ク−i・機能が各処理装置毎に独立して実行されるため
、処理装置間のデータ送受信中に障害が発生した場合に
はその障害を回復するのか困難な欠点があった。
この発明はこのような点に鑑みなされたもので、データ
送受イム中に障害が発生してもデータの欠損等を招くこ
と無<11−常な通信状態に回復できるリスタート方式
を提1」(シ、これによって信頼性の高い分散処理シス
テムを実現することをI−、l的とする。
送受イム中に障害が発生してもデータの欠損等を招くこ
と無<11−常な通信状態に回復できるリスタート方式
を提1」(シ、これによって信頼性の高い分散処理シス
テムを実現することをI−、l的とする。
[発明の構成]
(課題を解決するための手段)
この発明は複数のデータ処理装置を結合して成る分散処
理システムのりスタート方式において、前記各データ処
理装置に、通信対象となる相手装置に対してデータの送
受信を行なう通信制御手段と、この通信制御手段か相手
装置に対してデータの送信または受信を要求した際に、
チエツクポイントデータとして保持する実j′Jプログ
ラム情報の内容を前記相手装置の応答状態に応じて決定
するチエツクポイントタスク実行手段と、このチエツク
ポイントタスク実行手段によって決定された実行プログ
ラム情報をチエツクポイン!・データとしてプログラム
を再起動するリスク−l・タスク実?1手段とを具備し
、障害発生時のチエツクポインi・リスタート処理か装
置間で同期して実行されることを特徴とする。
理システムのりスタート方式において、前記各データ処
理装置に、通信対象となる相手装置に対してデータの送
受信を行なう通信制御手段と、この通信制御手段か相手
装置に対してデータの送信または受信を要求した際に、
チエツクポイントデータとして保持する実j′Jプログ
ラム情報の内容を前記相手装置の応答状態に応じて決定
するチエツクポイントタスク実行手段と、このチエツク
ポイントタスク実行手段によって決定された実行プログ
ラム情報をチエツクポイン!・データとしてプログラム
を再起動するリスク−l・タスク実?1手段とを具備し
、障害発生時のチエツクポインi・リスタート処理か装
置間で同期して実行されることを特徴とする。
(作用)
この分散処理システムのりスタート方式においては、チ
エツクポイントタスク実行手段によりて通信相手の装置
の状態が認識され、その状態に応じた実行プログラムか
チエツクポイントデータとして退避される。このため、
通信中の処理装置間でそれぞれ対応する実行プログラム
をチエツクポイントデータとして決定することができる
。したかって、障害発生時のチエツクポイントリスタト
処理が装置間で同期して実行されるので、ブタ送受信中
に障害か発生してもデータの欠損等を招くこと無く正常
な通信状態に回復可能になる。
エツクポイントタスク実行手段によりて通信相手の装置
の状態が認識され、その状態に応じた実行プログラムか
チエツクポイントデータとして退避される。このため、
通信中の処理装置間でそれぞれ対応する実行プログラム
をチエツクポイントデータとして決定することができる
。したかって、障害発生時のチエツクポイントリスタト
処理が装置間で同期して実行されるので、ブタ送受信中
に障害か発生してもデータの欠損等を招くこと無く正常
な通信状態に回復可能になる。
(実施例)
以下、図面を系間してこの発明の詳細な説明する。
第1図にこの発明の一実施例に係わる分散処理システム
の構成を示す。データ処理装置El。
の構成を示す。データ処理装置El。
E2はそれぞれこの分散処理システムのノードとして機
能するものであり、これら処理装置El とE2間は通
ず6回線Fによって結合されている。
能するものであり、これら処理装置El とE2間は通
ず6回線Fによって結合されている。
処理装置E1は、通信制御部A1、チエ・ツクポイント
タスク実行部Bl、およびリスタートタスク大行部C1
により構成されている。また、この処理装置E1には、
チエツクポイン!・ファイルDIが外部記憶装置として
接続されている。
タスク実行部Bl、およびリスタートタスク大行部C1
により構成されている。また、この処理装置E1には、
チエツクポイン!・ファイルDIが外部記憶装置として
接続されている。
同様に、処理装置E2は、通信制御部A2、チエツクポ
イントタスク実行部13 +)、およびリスクトタスク
実行部C2によって構成されている。
イントタスク実行部13 +)、およびリスクトタスク
実行部C2によって構成されている。
また、この処理装置E2には、チエツクポイントファイ
ルD2が外部記憶装置として接続されている。
ルD2が外部記憶装置として接続されている。
通信制御部AIは、処理装置El と処理装置B2間の
データの送受f、1をイ」なうためのものであり、この
通1...制御部AIの動作はユーザプログラムによっ
て提(」(される。チエツクポイントタスク実行部B1
は、通(1,、制御部Alか処理装置E2の通信制御部
A2に対してデータの送信または受11.。
データの送受f、1をイ」なうためのものであり、この
通1...制御部AIの動作はユーザプログラムによっ
て提(」(される。チエツクポイントタスク実行部B1
は、通(1,、制御部Alか処理装置E2の通信制御部
A2に対してデータの送信または受11.。
を要求した時に、処理装置E2と同期を取ったチエツク
ポイント処理を実行する。すなわち、チエツクポインI
・タスク実行部B1は、処理装置E2のチエツクポイン
トタスク実行部B2から送られる応答状態を認識し、そ
の応答状態に応してチエツクポイントデータの内容すな
わち実行プログラム情報を決定する。
ポイント処理を実行する。すなわち、チエツクポインI
・タスク実行部B1は、処理装置E2のチエツクポイン
トタスク実行部B2から送られる応答状態を認識し、そ
の応答状態に応してチエツクポイントデータの内容すな
わち実行プログラム情報を決定する。
リスタートタスク実行部C1は、システム異常等の障害
発生11,1において、チエツクポイントタスク実行部
B1によって決定されたチエツクポイントデータに従っ
て処理を再開するだめのものである。
発生11,1において、チエツクポイントタスク実行部
B1によって決定されたチエツクポイントデータに従っ
て処理を再開するだめのものである。
チエツクポイントファイルD1は、通ず。11−]副部
A1によって実行されるブロク゛ラム情報を記憶するも
のであり、そのプログラム情報は前述したチエツクポイ
ントタスク実行部B1によって決定されたものか登録さ
れる。また、障害発生時には、そのチエツクポイン!・
ファ・rルD1からリスタートタスク実行部CI に、
チエツクポイントデータか1jえられる。チエツクポイ
ントファイルD1には少なくとも2個以上のチエツクポ
イントデータを格納するための容量が設定されており、
チエツクポイントタスク実行部Blによって決定された
1[1チエツクポイン!・データ、および新チエツクポ
イントデータか格納される。
A1によって実行されるブロク゛ラム情報を記憶するも
のであり、そのプログラム情報は前述したチエツクポイ
ントタスク実行部B1によって決定されたものか登録さ
れる。また、障害発生時には、そのチエツクポイン!・
ファ・rルD1からリスタートタスク実行部CI に、
チエツクポイントデータか1jえられる。チエツクポイ
ントファイルD1には少なくとも2個以上のチエツクポ
イントデータを格納するための容量が設定されており、
チエツクポイントタスク実行部Blによって決定された
1[1チエツクポイン!・データ、および新チエツクポ
イントデータか格納される。
処理装置E2における連鎖制御部A2、チエツクポイン
トタスク実行部B2、リスタートタスク実行部C2、お
よびチエツクポイントファイルD2も処理装置E1のそ
れらと同じ機能をそれぞれ有している。
トタスク実行部B2、リスタートタスク実行部C2、お
よびチエツクポイントファイルD2も処理装置E1のそ
れらと同じ機能をそれぞれ有している。
次に、第2図および第3図のフローチャー1・を参照し
て、第1図の分散処理システムにおけるチエツクポイン
I・リスタート動作を説明する。
て、第1図の分散処理システムにおけるチエツクポイン
I・リスタート動作を説明する。
第2図はチエツクポイントタスク実行部Bl。
B2によるチエツクポイント処理のフローチへ1・であ
り、釘33図はりスタートタスク大行部ClC2による
リスタート処理のフローチャー1・である。
り、釘33図はりスタートタスク大行部ClC2による
リスタート処理のフローチャー1・である。
例えば、処理装置E1の通信制御部AIが回線Fを介し
て処理、装置E2の通イ。制ζI11部A2にブタの送
信要求を発行した場合には、チエツクポイントタスク実
行部B1はその実t」プログラム(1’7 +luを新
チエツクポイントデータと12でファイルD1内に格納
する(ステップA1.)。この場合、その新チエツクポ
イントデータの格納領域は、ファ・rルD1内に既に格
納されている11]チJツクポイントデータと別な領域
となる。次い゛C5チエツクポイントタスク実行部B1
か処理装置B2内のチエツクポイントタスク実行部B2
に対して、通1+にlr’制御部A2で実行(受信)さ
れる実行プロクラム情報をチエツクボーrントデータと
して採取するように要求する(ステップA2)。この要
求に々・]し7て、チエツクポイントタスク実行部B2
は該!l−/、するプログラム情報を新チエ゛ツクポイ
ンI・データとして採取し、それをチエツクポイントフ
ァイルD2に格納する。この場合、その新チエツクポイ
ンI・ブタの格納領域は、ファイルD2内の旧チJツク
ポイントデータと別な領域となる。
て処理、装置E2の通イ。制ζI11部A2にブタの送
信要求を発行した場合には、チエツクポイントタスク実
行部B1はその実t」プログラム(1’7 +luを新
チエツクポイントデータと12でファイルD1内に格納
する(ステップA1.)。この場合、その新チエツクポ
イントデータの格納領域は、ファ・rルD1内に既に格
納されている11]チJツクポイントデータと別な領域
となる。次い゛C5チエツクポイントタスク実行部B1
か処理装置B2内のチエツクポイントタスク実行部B2
に対して、通1+にlr’制御部A2で実行(受信)さ
れる実行プロクラム情報をチエツクボーrントデータと
して採取するように要求する(ステップA2)。この要
求に々・]し7て、チエツクポイントタスク実行部B2
は該!l−/、するプログラム情報を新チエ゛ツクポイ
ンI・データとして採取し、それをチエツクポイントフ
ァイルD2に格納する。この場合、その新チエツクポイ
ンI・ブタの格納領域は、ファイルD2内の旧チJツク
ポイントデータと別な領域となる。
採取か成功した場合にはチエツクポイントタスク実行部
B2は、処理装置E1のチエツクポイントタスク実行部
B1に対してアクノリッジを返送し、成功しない場合に
は返送しない。処理装置E1のチエツクポイントタスク
実行部B]は、このようなチエツクポインI・タスク実
j−1部B2からの応答信号に応じて処理装置E2の状
態を認識し、処理装置E2か正常にデータ受信できるか
否かを判断する(ステップA3)。
B2は、処理装置E1のチエツクポイントタスク実行部
B1に対してアクノリッジを返送し、成功しない場合に
は返送しない。処理装置E1のチエツクポイントタスク
実行部B]は、このようなチエツクポインI・タスク実
j−1部B2からの応答信号に応じて処理装置E2の状
態を認識し、処理装置E2か正常にデータ受信できるか
否かを判断する(ステップA3)。
アクノリッジか返送された場ごには、チエツクボーrン
トタスク実j−」部B1はチエツクポイントファイルD
1の旧チJツクポイントデータを捨て新チエツクポイン
トデータを11」チェックボ・rントデタとして格納し
、同様にチエツクポイントタスク実行部B2もチエツク
ポイントファイルD2の旧チJソクポ・1ントデータを
捨て新チエ・ノクボ・r]0 ントデータを旧チエツクポイントデータとして格納する
(ステップA4)。一方、アクノリッジか返送されなか
った場合には、Illデータかそのまま保持された状態
で新チエツクポイントデータかファイル内に格納され、
リスタートタスク実行部C1,C2によって第3図で説
明するりスタート処理が行なわれる(ステップA5)。
トタスク実j−」部B1はチエツクポイントファイルD
1の旧チJツクポイントデータを捨て新チエツクポイン
トデータを11」チェックボ・rントデタとして格納し
、同様にチエツクポイントタスク実行部B2もチエツク
ポイントファイルD2の旧チJソクポ・1ントデータを
捨て新チエ・ノクボ・r]0 ントデータを旧チエツクポイントデータとして格納する
(ステップA4)。一方、アクノリッジか返送されなか
った場合には、Illデータかそのまま保持された状態
で新チエツクポイントデータかファイル内に格納され、
リスタートタスク実行部C1,C2によって第3図で説
明するりスタート処理が行なわれる(ステップA5)。
リスタート処理においては、まずリスター]・タスク実
行部C】かチエツクポイントファイルD1に格納されて
いる新チエツクポイントデータを読出しくステップB1
)、処理装置E2のリスタトタスク実行部C2に対して
その新チエツクポイントデータに対応するデータ送信を
リスター1・冴求として通知する(ステップB2)。こ
のリスクト要求を受取ったりスターI・タスク実行部C
2は、チエツクポイントファイルD2から該当するプロ
グラム情報すなイ)ち新チェックボイントデタを取出す
。この取出しか成功した場合には、リスタートタスク実
行部C2はリスタートタスク実j−1部C1に*、s
してアクノリッジを返送し、成功しなかった場合には返
送しない。このアクノリッジによってリスク−トタスク
実行部CIは処理装置E2の状態を判断し2(ステップ
B3)、アクノリッジが返送された時は新チエツクポイ
ントデータによってリスタートを実行する(ステップB
4)。
行部C】かチエツクポイントファイルD1に格納されて
いる新チエツクポイントデータを読出しくステップB1
)、処理装置E2のリスタトタスク実行部C2に対して
その新チエツクポイントデータに対応するデータ送信を
リスター1・冴求として通知する(ステップB2)。こ
のリスクト要求を受取ったりスターI・タスク実行部C
2は、チエツクポイントファイルD2から該当するプロ
グラム情報すなイ)ち新チェックボイントデタを取出す
。この取出しか成功した場合には、リスタートタスク実
行部C2はリスタートタスク実j−1部C1に*、s
してアクノリッジを返送し、成功しなかった場合には返
送しない。このアクノリッジによってリスク−トタスク
実行部CIは処理装置E2の状態を判断し2(ステップ
B3)、アクノリッジが返送された時は新チエツクポイ
ントデータによってリスタートを実行する(ステップB
4)。
またアクノリッジが返送されない時は、旧チエツクポイ
ントデータによってリスタートが実行される(ステップ
B5)。
ントデータによってリスタートが実行される(ステップ
B5)。
このように、この分散処理システムにおいては、通信対
象となる相手装置の状態によってチエツクポイントデー
タとして採取される実行プログラム情報の内容か決定さ
れるので、互いに同期のとれた状態でチエツクポイント
リスタート することがi+i能になる。
象となる相手装置の状態によってチエツクポイントデー
タとして採取される実行プログラム情報の内容か決定さ
れるので、互いに同期のとれた状態でチエツクポイント
リスタート することがi+i能になる。
尚、分散処理システム内に多数の処理装置が設けられて
いる場合には、チエツクポイントデータには、実行プロ
グラム情報と共に、相手装置名、相手プログラム名等を
表わす情報を含むことが好ましい。
いる場合には、チエツクポイントデータには、実行プロ
グラム情報と共に、相手装置名、相手プログラム名等を
表わす情報を含むことが好ましい。
] 2
[発明の効果]
以上のように、この発明によれば、障害発生時のチエツ
クポイントリスタート 期して実行されるので、データ送受信中に障害か発生し
てもデータの欠損等を招くこと無<1)常な通信状態に
回復可能になる。したがって、f.j軸性の高い分散処
理システムを実現できる。
クポイントリスタート 期して実行されるので、データ送受信中に障害か発生し
てもデータの欠損等を招くこと無<1)常な通信状態に
回復可能になる。したがって、f.j軸性の高い分散処
理システムを実現できる。
第1図はこの発明の一実施例に係わる分散処理システム
の構成を示すブロック図、第2図および第3図はそれぞ
れ第1図に小した分散処理システムのチエツクポイン!
・リスタート動作を説明するフローチャートである。 A1.A2・・・通信制御部、Bl,B2・・・チエツ
クポイントタスク実?−i部、Cl,C2リスタートタ
スク実行部、DI 、D2・・・チエツクポイントファ
イル、El,B2・・・データ処理装置。 出願人代理人 弁理上 鈴臼武彦
の構成を示すブロック図、第2図および第3図はそれぞ
れ第1図に小した分散処理システムのチエツクポイン!
・リスタート動作を説明するフローチャートである。 A1.A2・・・通信制御部、Bl,B2・・・チエツ
クポイントタスク実?−i部、Cl,C2リスタートタ
スク実行部、DI 、D2・・・チエツクポイントファ
イル、El,B2・・・データ処理装置。 出願人代理人 弁理上 鈴臼武彦
Claims (1)
- 【特許請求の範囲】 複数のデータ処理装置を結合して成る分散処理システム
において、 前記各データ処理装置は、通信対象となる相手装置に対
してデータの送受信を行なう通信制御手段と、この通信
制御手段が相手装置に対してデータの送信または受信を
要求した際に、チェックポイントデータとして保持する
実行プログラム情報の内容を前記相手装置の応答状態に
応じて決定するチェックポイントタスク実行手段と、こ
のチェックポイントタスク実行手段によって決定された
実行プログラム情報をチェックポイントデータとしてプ
ログラムを再起動するリスタートタスク実行手段とを具
備し、障害発生時のチェックポイントリスタート処理が
装置間で同期して実行されることを特徴とする分散処理
システムのリスタート方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1110544A JPH02287858A (ja) | 1989-04-28 | 1989-04-28 | 分散処理システムのリスタート方式 |
US07/514,026 US5301309A (en) | 1989-04-28 | 1990-04-27 | Distributed processing system with checkpoint restart facilities wherein checkpoint data is updated only if all processors were able to collect new checkpoint data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1110544A JPH02287858A (ja) | 1989-04-28 | 1989-04-28 | 分散処理システムのリスタート方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02287858A true JPH02287858A (ja) | 1990-11-27 |
Family
ID=14538514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1110544A Pending JPH02287858A (ja) | 1989-04-28 | 1989-04-28 | 分散処理システムのリスタート方式 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5301309A (ja) |
JP (1) | JPH02287858A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04230553A (ja) * | 1991-01-07 | 1992-08-19 | Nec Corp | ファイル転送誤り回復方法 |
JPH06250983A (ja) * | 1993-02-02 | 1994-09-09 | Internatl Business Mach Corp <Ibm> | 負荷平衡または非同期データ移動のためのコンピュータ・システム及び方法 |
JPH09251404A (ja) * | 1996-03-15 | 1997-09-22 | Toshiba Corp | チェックポイント生成方法 |
JPH1145229A (ja) * | 1997-05-30 | 1999-02-16 | Nec Corp | 分散メモリ型マルチプロセッサシステムにおけるプロセスの停止方式 |
JP2011044078A (ja) * | 2009-08-24 | 2011-03-03 | Internatl Business Mach Corp <Ibm> | フォールト・トレラント・コンピュータ・システム、方法及びプログラム |
JP2011253350A (ja) * | 2010-06-02 | 2011-12-15 | Mitsubishi Electric Corp | 仮想計算機制御システム |
US8566539B2 (en) | 2009-01-14 | 2013-10-22 | International Business Machines Corporation | Managing thermal condition of a memory |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5442772A (en) * | 1991-03-29 | 1995-08-15 | International Business Machines Corporation | Common breakpoint in virtual time logic simulation for parallel processors |
EP0529303A3 (en) * | 1991-08-29 | 1993-09-22 | International Business Machines Corporation | Checkpoint synchronization with instruction overlap enabled |
GB2272549B (en) * | 1992-11-03 | 1997-01-29 | Tolsys Ltd | Memory checkpointing |
DE69506404T2 (de) * | 1994-06-10 | 1999-05-27 | Texas Micro Inc., Houston, Tex. | Hauptspeichervorrichtung und wiederanlaufkennzeichnungsverfahren für ein fehlertolerantes rechnersystem |
US5928368A (en) * | 1994-06-23 | 1999-07-27 | Tandem Computers Incorporated | Method and apparatus for fault-tolerant multiprocessing system recovery from power failure or drop-outs |
US5551043A (en) * | 1994-09-07 | 1996-08-27 | International Business Machines Corporation | Standby checkpoint to prevent data loss |
US5799142A (en) * | 1994-09-12 | 1998-08-25 | Nec Corporation | Debugging method and debugging system for multi-task programs |
US5673426A (en) * | 1995-02-14 | 1997-09-30 | Hal Computer Systems, Inc. | Processor structure and method for tracking floating-point exceptions |
US5692121A (en) * | 1995-04-14 | 1997-11-25 | International Business Machines Corporation | Recovery unit for mirrored processors |
US5687308A (en) * | 1995-06-07 | 1997-11-11 | Tandem Computers Incorporated | Method to improve tolerance of non-homogeneous power outages |
JP3154942B2 (ja) * | 1995-09-11 | 2001-04-09 | 株式会社東芝 | 分散チェックポイント生成方法および同方法が適用される計算機システム |
US5864657A (en) * | 1995-11-29 | 1999-01-26 | Texas Micro, Inc. | Main memory system and checkpointing protocol for fault-tolerant computer system |
US5884021A (en) * | 1996-01-31 | 1999-03-16 | Kabushiki Kaisha Toshiba | Computer system having a checkpoint and restart function |
JP3120033B2 (ja) * | 1996-03-19 | 2000-12-25 | 株式会社東芝 | 分散メモリ型マルチプロセッサシステム及び故障回復方法 |
US5835698A (en) * | 1996-09-20 | 1998-11-10 | Novell, Inc. | Unilaterally-controlled, time-insensitive, data-link recovery apparatus and method |
TW379298B (en) * | 1996-09-30 | 2000-01-11 | Toshiba Corp | Memory updating history saving device and memory updating history saving method |
TW355762B (en) * | 1996-12-26 | 1999-04-11 | Toshiba Co Ltd | Checkpoint rollback I/O control device and I/O control method |
US6185702B1 (en) * | 1997-01-24 | 2001-02-06 | Kabushiki Kaisha Toshiba | Method and system for process state management using checkpoints |
US5991518A (en) * | 1997-01-28 | 1999-11-23 | Tandem Computers Incorporated | Method and apparatus for split-brain avoidance in a multi-processor system |
JP3253883B2 (ja) * | 1997-01-31 | 2002-02-04 | 株式会社東芝 | プロセスリスタート方法及びプロセス監視装置 |
US5995981A (en) * | 1997-06-16 | 1999-11-30 | Telefonaktiebolaget Lm Ericsson | Initialization of replicated data objects |
US6393583B1 (en) | 1998-10-29 | 2002-05-21 | International Business Machines Corporation | Method of performing checkpoint/restart of a parallel program |
US6332199B1 (en) | 1998-10-29 | 2001-12-18 | International Business Machines Corporation | Restoring checkpointed processes including adjusting environment variables of the processes |
US6256751B1 (en) | 1998-10-29 | 2001-07-03 | International Business Machines Corporation | Restoring checkpointed processes without restoring attributes of external data referenced by the processes |
US6401216B1 (en) | 1998-10-29 | 2002-06-04 | International Business Machines Corporation | System of performing checkpoint/restart of a parallel program |
US6338147B1 (en) | 1998-10-29 | 2002-01-08 | International Business Machines Corporation | Program products for performing checkpoint/restart of a parallel program |
US6332200B1 (en) | 1998-10-29 | 2001-12-18 | International Business Machines Corporation | Capturing and identifying a complete and consistent set of checkpoint files |
US6493635B1 (en) * | 1999-11-01 | 2002-12-10 | 3Dgeo Development, Inc. | Remote access and automated dialog building for seismic processing |
US6834358B2 (en) * | 2001-03-28 | 2004-12-21 | Ncr Corporation | Restartable database loads using parallel data streams |
US8423674B2 (en) * | 2001-06-02 | 2013-04-16 | Ericsson Ab | Method and apparatus for process sync restart |
US7171410B1 (en) | 2001-06-02 | 2007-01-30 | Redback Networks, Inc. | Fault tolerant network element |
GB0212143D0 (en) * | 2002-05-27 | 2002-07-03 | Sendo Int Ltd | Processor Monitor |
US7929424B2 (en) * | 2003-10-31 | 2011-04-19 | Ericsson Ab | Switchover for broadband subscriber sessions |
JP4315057B2 (ja) * | 2004-06-02 | 2009-08-19 | ソニー株式会社 | 情報処理装置および情報処理方法、並びに、プログラム |
JP2006178636A (ja) * | 2004-12-21 | 2006-07-06 | Nec Corp | フォールトトレラントコンピュータ、およびその制御方法 |
US7634687B2 (en) * | 2005-01-13 | 2009-12-15 | Microsoft Corporation | Checkpoint restart system and method |
JP5595633B2 (ja) * | 2007-02-26 | 2014-09-24 | スパンション エルエルシー | シミュレーション方法及びシミュレーション装置 |
US8458517B1 (en) | 2010-04-30 | 2013-06-04 | Amazon Technologies, Inc. | System and method for checkpointing state in a distributed system |
US8719432B1 (en) | 2010-04-30 | 2014-05-06 | Amazon Technologies, Inc. | System and method for determining staleness of data received from a distributed lock manager |
US8654650B1 (en) | 2010-04-30 | 2014-02-18 | Amazon Technologies, Inc. | System and method for determining node staleness in a distributed system |
US8694639B1 (en) | 2010-09-21 | 2014-04-08 | Amazon Technologies, Inc. | Determining maximum amount of resource allowed to be allocated to client in distributed system |
US8812601B2 (en) * | 2011-05-09 | 2014-08-19 | Google Inc. | Transferring application state across devices with checkpoints |
US8224894B1 (en) | 2011-05-09 | 2012-07-17 | Google Inc. | Zero-click sharing of application context across devices |
US8171137B1 (en) | 2011-05-09 | 2012-05-01 | Google Inc. | Transferring application state across devices |
US10191959B1 (en) | 2012-06-20 | 2019-01-29 | Amazon Technologies, Inc. | Versioned read-only snapshots of shared state in distributed computing environments |
US9578130B1 (en) | 2012-06-20 | 2017-02-21 | Amazon Technologies, Inc. | Asynchronous and idempotent distributed lock interfaces |
US10630566B1 (en) | 2012-06-20 | 2020-04-21 | Amazon Technologies, Inc. | Tightly-coupled external cluster monitoring |
US10754710B1 (en) | 2012-06-20 | 2020-08-25 | Amazon Technologies, Inc. | Transactional watch mechanism |
US9184800B2 (en) | 2012-07-16 | 2015-11-10 | Google Inc. | Automated sharing of application data over a near field communication link |
US9632828B1 (en) | 2012-09-24 | 2017-04-25 | Amazon Technologies, Inc. | Computing and tracking client staleness using transaction responses |
JP5949506B2 (ja) * | 2012-11-30 | 2016-07-06 | 富士通株式会社 | 分散処理方法、情報処理装置、及びプログラム |
US9171019B1 (en) | 2013-02-19 | 2015-10-27 | Amazon Technologies, Inc. | Distributed lock service with external lock information database |
US9526120B2 (en) | 2013-03-15 | 2016-12-20 | Google Inc. | Techniques for context-based application invocation for short-range wireless communication interactions |
US9553951B1 (en) | 2013-04-24 | 2017-01-24 | Amazon Technologies, Inc. | Semaphores in distributed computing environments |
US9754007B2 (en) | 2013-09-16 | 2017-09-05 | International Business Machines Corporation | Checkpoint capture and tracking in a high availability system |
US9760529B1 (en) | 2014-09-17 | 2017-09-12 | Amazon Technologies, Inc. | Distributed state manager bootstrapping |
US9852221B1 (en) | 2015-03-26 | 2017-12-26 | Amazon Technologies, Inc. | Distributed state manager jury selection |
KR20230131017A (ko) * | 2022-03-04 | 2023-09-12 | 삼성전자주식회사 | 가속기에 대해 온-디멘드 체크포인트를 수행하는 전자 장치 및 그 동작 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4665520A (en) * | 1985-02-01 | 1987-05-12 | International Business Machines Corporation | Optimistic recovery in a distributed processing system |
US4914657A (en) * | 1987-04-15 | 1990-04-03 | Allied-Signal Inc. | Operations controller for a fault tolerant multiple node processing system |
-
1989
- 1989-04-28 JP JP1110544A patent/JPH02287858A/ja active Pending
-
1990
- 1990-04-27 US US07/514,026 patent/US5301309A/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04230553A (ja) * | 1991-01-07 | 1992-08-19 | Nec Corp | ファイル転送誤り回復方法 |
JPH06250983A (ja) * | 1993-02-02 | 1994-09-09 | Internatl Business Mach Corp <Ibm> | 負荷平衡または非同期データ移動のためのコンピュータ・システム及び方法 |
JPH09251404A (ja) * | 1996-03-15 | 1997-09-22 | Toshiba Corp | チェックポイント生成方法 |
JPH1145229A (ja) * | 1997-05-30 | 1999-02-16 | Nec Corp | 分散メモリ型マルチプロセッサシステムにおけるプロセスの停止方式 |
US8566539B2 (en) | 2009-01-14 | 2013-10-22 | International Business Machines Corporation | Managing thermal condition of a memory |
JP2011044078A (ja) * | 2009-08-24 | 2011-03-03 | Internatl Business Mach Corp <Ibm> | フォールト・トレラント・コンピュータ・システム、方法及びプログラム |
US9032190B2 (en) | 2009-08-24 | 2015-05-12 | International Business Machines Corporation | Recovering from an error in a fault tolerant computer system |
JP2011253350A (ja) * | 2010-06-02 | 2011-12-15 | Mitsubishi Electric Corp | 仮想計算機制御システム |
Also Published As
Publication number | Publication date |
---|---|
US5301309A (en) | 1994-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH02287858A (ja) | 分散処理システムのリスタート方式 | |
US5590277A (en) | Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications | |
US5440726A (en) | Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications | |
US5530802A (en) | Input sequence reordering method for software failure recovery | |
US5398331A (en) | Shared storage controller for dual copy shared data | |
AU711220B2 (en) | Method of commitment in a distributed database transaction | |
EP0204449B1 (en) | Method for multiprocessor communications | |
US6161198A (en) | System for providing transaction indivisibility in a transaction processing system upon recovery from a host processor failure by monitoring source message sequencing | |
JP2505928B2 (ja) | フォ―ルト・トレラント・システムのためのチェックポイント機構 | |
CN110807064B (zh) | Rac分布式数据库集群系统中的数据恢复装置 | |
US20080046612A1 (en) | Method, apparatus and program storage device for providing asynchronous status messaging in a data storage system | |
KR19990082867A (ko) | 갱신 트랜잭션 완성 방법 및 장치 | |
CN113505012B (zh) | 一种消息队列的处理方法、介质、设备和系统 | |
JPH11502659A (ja) | 故障許容処理方法 | |
WO2008021636A2 (en) | Fault tolerance and failover using active copy-cat | |
CN103262044A (zh) | 虚拟机失效转移管理的方法及其支持系统 | |
Speirs et al. | Using passive replicates in delta-4 to provide dependable distributed computing | |
JP3481737B2 (ja) | ダンプ採取装置およびダンプ採取方法 | |
JP4289056B2 (ja) | 計算機システム間のデータ二重化制御方法 | |
JP4461147B2 (ja) | リモートデータミラーリングを用いたクラスタデータベース | |
US5539875A (en) | Error windowing for storage subsystem recovery | |
CN109117317A (zh) | 一种集群故障恢复方法和相关装置 | |
WO2001016750A2 (en) | High-availability, shared-memory cluster | |
JP3447347B2 (ja) | 障害検出方法 | |
JP2004272318A (ja) | 系切り替えシステムおよびその処理方法並びにその処理プログラム |