[go: up one dir, main page]

JPH02287858A - 分散処理システムのリスタート方式 - Google Patents

分散処理システムのリスタート方式

Info

Publication number
JPH02287858A
JPH02287858A JP1110544A JP11054489A JPH02287858A JP H02287858 A JPH02287858 A JP H02287858A JP 1110544 A JP1110544 A JP 1110544A JP 11054489 A JP11054489 A JP 11054489A JP H02287858 A JPH02287858 A JP H02287858A
Authority
JP
Japan
Prior art keywords
data
checkpoint
task execution
restart
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1110544A
Other languages
English (en)
Inventor
Koji Sugano
宏司 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1110544A priority Critical patent/JPH02287858A/ja
Priority to US07/514,026 priority patent/US5301309A/en
Publication of JPH02287858A publication Critical patent/JPH02287858A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の11 11’J ] (産業上の利用分野) この発明は分散処理システムのりスタート方式に関し、
特にその分散処理システムを+7.7成する各処理装置
におけるチエツクポイントリスタートの実行方式に関す
る。
(従来の技術) 一般に、分散処理システムは、その処理能力や仁頼性を
向上するために、複数の処理装置かノ\ドウJア的に結
合されて構成されている。このような分散処理システム
においては、各処理装置間でデータの送受信か行なわれ
、情報が万いに交換される。
各処理装置は、ユーザプログラムによって提供されるデ
ータの送受信機能と、その障害対策として使用されるチ
エツクポイントリスター1・機能をHしている。チエツ
クポイントリスタート機能は、各装置内のシステムプロ
グラムによって提供される機能であり、予じめ必要な情
報をチェックボイントデータとして退避しておき、障害
発生時にはそのチエツクポイントデータから処理を+1
スタトする方式である。すなわち、過去の時点で正常に
処理された実行プログラムがチエツクポイントによって
指定され、障害発生時はその11−常な11,5点に戻
って処理が再開される。
このようなチエツクポイントリスタート分散処理システ
ム内の各装置1114位で独立に実行される。このため
、各処理装置かその個々の装置内だけに関係する処理を
実行している場合には、充分に障害を回復することかき
る。
しかしながら、処理装置間でデータの送受信を実行して
いる場合は、一方の処理装置が正常に処理を実行しても
、他方の処理装置に何A−17かのシステム障害が発生
する場合かある。この場合、1;仝害の起きた処理装置
ではチエツクポイントリスター機能によって必要な処理
か+1開されるものの、一方の処理装置はその障害の発
生した時点を認識してないため通信データの欠損等の通
信誤りが生じてしまう。これは、分散処理システムの(
、;; ’liJj性を低下させる大きな原因となって
いる。
(発明が解決しようとする課題) 従来の分散処理システムでは、チエツクポインI・リス
ク−i・機能が各処理装置毎に独立して実行されるため
、処理装置間のデータ送受信中に障害が発生した場合に
はその障害を回復するのか困難な欠点があった。
この発明はこのような点に鑑みなされたもので、データ
送受イム中に障害が発生してもデータの欠損等を招くこ
と無<11−常な通信状態に回復できるリスタート方式
を提1」(シ、これによって信頼性の高い分散処理シス
テムを実現することをI−、l的とする。
[発明の構成] (課題を解決するための手段) この発明は複数のデータ処理装置を結合して成る分散処
理システムのりスタート方式において、前記各データ処
理装置に、通信対象となる相手装置に対してデータの送
受信を行なう通信制御手段と、この通信制御手段か相手
装置に対してデータの送信または受信を要求した際に、
チエツクポイントデータとして保持する実j′Jプログ
ラム情報の内容を前記相手装置の応答状態に応じて決定
するチエツクポイントタスク実行手段と、このチエツク
ポイントタスク実行手段によって決定された実行プログ
ラム情報をチエツクポイン!・データとしてプログラム
を再起動するリスク−l・タスク実?1手段とを具備し
、障害発生時のチエツクポインi・リスタート処理か装
置間で同期して実行されることを特徴とする。
(作用) この分散処理システムのりスタート方式においては、チ
エツクポイントタスク実行手段によりて通信相手の装置
の状態が認識され、その状態に応じた実行プログラムか
チエツクポイントデータとして退避される。このため、
通信中の処理装置間でそれぞれ対応する実行プログラム
をチエツクポイントデータとして決定することができる
。したかって、障害発生時のチエツクポイントリスタト
処理が装置間で同期して実行されるので、ブタ送受信中
に障害か発生してもデータの欠損等を招くこと無く正常
な通信状態に回復可能になる。
(実施例) 以下、図面を系間してこの発明の詳細な説明する。
第1図にこの発明の一実施例に係わる分散処理システム
の構成を示す。データ処理装置El。
E2はそれぞれこの分散処理システムのノードとして機
能するものであり、これら処理装置El とE2間は通
ず6回線Fによって結合されている。
処理装置E1は、通信制御部A1、チエ・ツクポイント
タスク実行部Bl、およびリスタートタスク大行部C1
により構成されている。また、この処理装置E1には、
チエツクポイン!・ファイルDIが外部記憶装置として
接続されている。
同様に、処理装置E2は、通信制御部A2、チエツクポ
イントタスク実行部13 +)、およびリスクトタスク
実行部C2によって構成されている。
また、この処理装置E2には、チエツクポイントファイ
ルD2が外部記憶装置として接続されている。
通信制御部AIは、処理装置El と処理装置B2間の
データの送受f、1をイ」なうためのものであり、この
通1...制御部AIの動作はユーザプログラムによっ
て提(」(される。チエツクポイントタスク実行部B1
は、通(1,、制御部Alか処理装置E2の通信制御部
A2に対してデータの送信または受11.。
を要求した時に、処理装置E2と同期を取ったチエツク
ポイント処理を実行する。すなわち、チエツクポインI
・タスク実行部B1は、処理装置E2のチエツクポイン
トタスク実行部B2から送られる応答状態を認識し、そ
の応答状態に応してチエツクポイントデータの内容すな
わち実行プログラム情報を決定する。
リスタートタスク実行部C1は、システム異常等の障害
発生11,1において、チエツクポイントタスク実行部
B1によって決定されたチエツクポイントデータに従っ
て処理を再開するだめのものである。
チエツクポイントファイルD1は、通ず。11−]副部
A1によって実行されるブロク゛ラム情報を記憶するも
のであり、そのプログラム情報は前述したチエツクポイ
ントタスク実行部B1によって決定されたものか登録さ
れる。また、障害発生時には、そのチエツクポイン!・
ファ・rルD1からリスタートタスク実行部CI に、
チエツクポイントデータか1jえられる。チエツクポイ
ントファイルD1には少なくとも2個以上のチエツクポ
イントデータを格納するための容量が設定されており、
チエツクポイントタスク実行部Blによって決定された
1[1チエツクポイン!・データ、および新チエツクポ
イントデータか格納される。
処理装置E2における連鎖制御部A2、チエツクポイン
トタスク実行部B2、リスタートタスク実行部C2、お
よびチエツクポイントファイルD2も処理装置E1のそ
れらと同じ機能をそれぞれ有している。
次に、第2図および第3図のフローチャー1・を参照し
て、第1図の分散処理システムにおけるチエツクポイン
I・リスタート動作を説明する。
第2図はチエツクポイントタスク実行部Bl。
B2によるチエツクポイント処理のフローチへ1・であ
り、釘33図はりスタートタスク大行部ClC2による
リスタート処理のフローチャー1・である。
例えば、処理装置E1の通信制御部AIが回線Fを介し
て処理、装置E2の通イ。制ζI11部A2にブタの送
信要求を発行した場合には、チエツクポイントタスク実
行部B1はその実t」プログラム(1’7 +luを新
チエツクポイントデータと12でファイルD1内に格納
する(ステップA1.)。この場合、その新チエツクポ
イントデータの格納領域は、ファ・rルD1内に既に格
納されている11]チJツクポイントデータと別な領域
となる。次い゛C5チエツクポイントタスク実行部B1
か処理装置B2内のチエツクポイントタスク実行部B2
に対して、通1+にlr’制御部A2で実行(受信)さ
れる実行プロクラム情報をチエツクボーrントデータと
して採取するように要求する(ステップA2)。この要
求に々・]し7て、チエツクポイントタスク実行部B2
は該!l−/、するプログラム情報を新チエ゛ツクポイ
ンI・データとして採取し、それをチエツクポイントフ
ァイルD2に格納する。この場合、その新チエツクポイ
ンI・ブタの格納領域は、ファイルD2内の旧チJツク
ポイントデータと別な領域となる。
採取か成功した場合にはチエツクポイントタスク実行部
B2は、処理装置E1のチエツクポイントタスク実行部
B1に対してアクノリッジを返送し、成功しない場合に
は返送しない。処理装置E1のチエツクポイントタスク
実行部B]は、このようなチエツクポインI・タスク実
j−1部B2からの応答信号に応じて処理装置E2の状
態を認識し、処理装置E2か正常にデータ受信できるか
否かを判断する(ステップA3)。
アクノリッジか返送された場ごには、チエツクボーrン
トタスク実j−」部B1はチエツクポイントファイルD
1の旧チJツクポイントデータを捨て新チエツクポイン
トデータを11」チェックボ・rントデタとして格納し
、同様にチエツクポイントタスク実行部B2もチエツク
ポイントファイルD2の旧チJソクポ・1ントデータを
捨て新チエ・ノクボ・r]0 ントデータを旧チエツクポイントデータとして格納する
(ステップA4)。一方、アクノリッジか返送されなか
った場合には、Illデータかそのまま保持された状態
で新チエツクポイントデータかファイル内に格納され、
リスタートタスク実行部C1,C2によって第3図で説
明するりスタート処理が行なわれる(ステップA5)。
リスタート処理においては、まずリスター]・タスク実
行部C】かチエツクポイントファイルD1に格納されて
いる新チエツクポイントデータを読出しくステップB1
)、処理装置E2のリスタトタスク実行部C2に対して
その新チエツクポイントデータに対応するデータ送信を
リスター1・冴求として通知する(ステップB2)。こ
のリスクト要求を受取ったりスターI・タスク実行部C
2は、チエツクポイントファイルD2から該当するプロ
グラム情報すなイ)ち新チェックボイントデタを取出す
。この取出しか成功した場合には、リスタートタスク実
行部C2はリスタートタスク実j−1部C1に*、s 
してアクノリッジを返送し、成功しなかった場合には返
送しない。このアクノリッジによってリスク−トタスク
実行部CIは処理装置E2の状態を判断し2(ステップ
B3)、アクノリッジが返送された時は新チエツクポイ
ントデータによってリスタートを実行する(ステップB
4)。
またアクノリッジが返送されない時は、旧チエツクポイ
ントデータによってリスタートが実行される(ステップ
B5)。
このように、この分散処理システムにおいては、通信対
象となる相手装置の状態によってチエツクポイントデー
タとして採取される実行プログラム情報の内容か決定さ
れるので、互いに同期のとれた状態でチエツクポイント
リスタート することがi+i能になる。
尚、分散処理システム内に多数の処理装置が設けられて
いる場合には、チエツクポイントデータには、実行プロ
グラム情報と共に、相手装置名、相手プログラム名等を
表わす情報を含むことが好ましい。
] 2 [発明の効果] 以上のように、この発明によれば、障害発生時のチエツ
クポイントリスタート 期して実行されるので、データ送受信中に障害か発生し
てもデータの欠損等を招くこと無<1)常な通信状態に
回復可能になる。したがって、f.j軸性の高い分散処
理システムを実現できる。
【図面の簡単な説明】
第1図はこの発明の一実施例に係わる分散処理システム
の構成を示すブロック図、第2図および第3図はそれぞ
れ第1図に小した分散処理システムのチエツクポイン!
・リスタート動作を説明するフローチャートである。 A1.A2・・・通信制御部、Bl,B2・・・チエツ
クポイントタスク実?−i部、Cl,C2リスタートタ
スク実行部、DI 、D2・・・チエツクポイントファ
イル、El,B2・・・データ処理装置。 出願人代理人 弁理上 鈴臼武彦

Claims (1)

  1. 【特許請求の範囲】 複数のデータ処理装置を結合して成る分散処理システム
    において、 前記各データ処理装置は、通信対象となる相手装置に対
    してデータの送受信を行なう通信制御手段と、この通信
    制御手段が相手装置に対してデータの送信または受信を
    要求した際に、チェックポイントデータとして保持する
    実行プログラム情報の内容を前記相手装置の応答状態に
    応じて決定するチェックポイントタスク実行手段と、こ
    のチェックポイントタスク実行手段によって決定された
    実行プログラム情報をチェックポイントデータとしてプ
    ログラムを再起動するリスタートタスク実行手段とを具
    備し、障害発生時のチェックポイントリスタート処理が
    装置間で同期して実行されることを特徴とする分散処理
    システムのリスタート方式。
JP1110544A 1989-04-28 1989-04-28 分散処理システムのリスタート方式 Pending JPH02287858A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1110544A JPH02287858A (ja) 1989-04-28 1989-04-28 分散処理システムのリスタート方式
US07/514,026 US5301309A (en) 1989-04-28 1990-04-27 Distributed processing system with checkpoint restart facilities wherein checkpoint data is updated only if all processors were able to collect new checkpoint data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1110544A JPH02287858A (ja) 1989-04-28 1989-04-28 分散処理システムのリスタート方式

Publications (1)

Publication Number Publication Date
JPH02287858A true JPH02287858A (ja) 1990-11-27

Family

ID=14538514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1110544A Pending JPH02287858A (ja) 1989-04-28 1989-04-28 分散処理システムのリスタート方式

Country Status (2)

Country Link
US (1) US5301309A (ja)
JP (1) JPH02287858A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230553A (ja) * 1991-01-07 1992-08-19 Nec Corp ファイル転送誤り回復方法
JPH06250983A (ja) * 1993-02-02 1994-09-09 Internatl Business Mach Corp <Ibm> 負荷平衡または非同期データ移動のためのコンピュータ・システム及び方法
JPH09251404A (ja) * 1996-03-15 1997-09-22 Toshiba Corp チェックポイント生成方法
JPH1145229A (ja) * 1997-05-30 1999-02-16 Nec Corp 分散メモリ型マルチプロセッサシステムにおけるプロセスの停止方式
JP2011044078A (ja) * 2009-08-24 2011-03-03 Internatl Business Mach Corp <Ibm> フォールト・トレラント・コンピュータ・システム、方法及びプログラム
JP2011253350A (ja) * 2010-06-02 2011-12-15 Mitsubishi Electric Corp 仮想計算機制御システム
US8566539B2 (en) 2009-01-14 2013-10-22 International Business Machines Corporation Managing thermal condition of a memory

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442772A (en) * 1991-03-29 1995-08-15 International Business Machines Corporation Common breakpoint in virtual time logic simulation for parallel processors
EP0529303A3 (en) * 1991-08-29 1993-09-22 International Business Machines Corporation Checkpoint synchronization with instruction overlap enabled
GB2272549B (en) * 1992-11-03 1997-01-29 Tolsys Ltd Memory checkpointing
DE69506404T2 (de) * 1994-06-10 1999-05-27 Texas Micro Inc., Houston, Tex. Hauptspeichervorrichtung und wiederanlaufkennzeichnungsverfahren für ein fehlertolerantes rechnersystem
US5928368A (en) * 1994-06-23 1999-07-27 Tandem Computers Incorporated Method and apparatus for fault-tolerant multiprocessing system recovery from power failure or drop-outs
US5551043A (en) * 1994-09-07 1996-08-27 International Business Machines Corporation Standby checkpoint to prevent data loss
US5799142A (en) * 1994-09-12 1998-08-25 Nec Corporation Debugging method and debugging system for multi-task programs
US5673426A (en) * 1995-02-14 1997-09-30 Hal Computer Systems, Inc. Processor structure and method for tracking floating-point exceptions
US5692121A (en) * 1995-04-14 1997-11-25 International Business Machines Corporation Recovery unit for mirrored processors
US5687308A (en) * 1995-06-07 1997-11-11 Tandem Computers Incorporated Method to improve tolerance of non-homogeneous power outages
JP3154942B2 (ja) * 1995-09-11 2001-04-09 株式会社東芝 分散チェックポイント生成方法および同方法が適用される計算機システム
US5864657A (en) * 1995-11-29 1999-01-26 Texas Micro, Inc. Main memory system and checkpointing protocol for fault-tolerant computer system
US5884021A (en) * 1996-01-31 1999-03-16 Kabushiki Kaisha Toshiba Computer system having a checkpoint and restart function
JP3120033B2 (ja) * 1996-03-19 2000-12-25 株式会社東芝 分散メモリ型マルチプロセッサシステム及び故障回復方法
US5835698A (en) * 1996-09-20 1998-11-10 Novell, Inc. Unilaterally-controlled, time-insensitive, data-link recovery apparatus and method
TW379298B (en) * 1996-09-30 2000-01-11 Toshiba Corp Memory updating history saving device and memory updating history saving method
TW355762B (en) * 1996-12-26 1999-04-11 Toshiba Co Ltd Checkpoint rollback I/O control device and I/O control method
US6185702B1 (en) * 1997-01-24 2001-02-06 Kabushiki Kaisha Toshiba Method and system for process state management using checkpoints
US5991518A (en) * 1997-01-28 1999-11-23 Tandem Computers Incorporated Method and apparatus for split-brain avoidance in a multi-processor system
JP3253883B2 (ja) * 1997-01-31 2002-02-04 株式会社東芝 プロセスリスタート方法及びプロセス監視装置
US5995981A (en) * 1997-06-16 1999-11-30 Telefonaktiebolaget Lm Ericsson Initialization of replicated data objects
US6393583B1 (en) 1998-10-29 2002-05-21 International Business Machines Corporation Method of performing checkpoint/restart of a parallel program
US6332199B1 (en) 1998-10-29 2001-12-18 International Business Machines Corporation Restoring checkpointed processes including adjusting environment variables of the processes
US6256751B1 (en) 1998-10-29 2001-07-03 International Business Machines Corporation Restoring checkpointed processes without restoring attributes of external data referenced by the processes
US6401216B1 (en) 1998-10-29 2002-06-04 International Business Machines Corporation System of performing checkpoint/restart of a parallel program
US6338147B1 (en) 1998-10-29 2002-01-08 International Business Machines Corporation Program products for performing checkpoint/restart of a parallel program
US6332200B1 (en) 1998-10-29 2001-12-18 International Business Machines Corporation Capturing and identifying a complete and consistent set of checkpoint files
US6493635B1 (en) * 1999-11-01 2002-12-10 3Dgeo Development, Inc. Remote access and automated dialog building for seismic processing
US6834358B2 (en) * 2001-03-28 2004-12-21 Ncr Corporation Restartable database loads using parallel data streams
US8423674B2 (en) * 2001-06-02 2013-04-16 Ericsson Ab Method and apparatus for process sync restart
US7171410B1 (en) 2001-06-02 2007-01-30 Redback Networks, Inc. Fault tolerant network element
GB0212143D0 (en) * 2002-05-27 2002-07-03 Sendo Int Ltd Processor Monitor
US7929424B2 (en) * 2003-10-31 2011-04-19 Ericsson Ab Switchover for broadband subscriber sessions
JP4315057B2 (ja) * 2004-06-02 2009-08-19 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
JP2006178636A (ja) * 2004-12-21 2006-07-06 Nec Corp フォールトトレラントコンピュータ、およびその制御方法
US7634687B2 (en) * 2005-01-13 2009-12-15 Microsoft Corporation Checkpoint restart system and method
JP5595633B2 (ja) * 2007-02-26 2014-09-24 スパンション エルエルシー シミュレーション方法及びシミュレーション装置
US8458517B1 (en) 2010-04-30 2013-06-04 Amazon Technologies, Inc. System and method for checkpointing state in a distributed system
US8719432B1 (en) 2010-04-30 2014-05-06 Amazon Technologies, Inc. System and method for determining staleness of data received from a distributed lock manager
US8654650B1 (en) 2010-04-30 2014-02-18 Amazon Technologies, Inc. System and method for determining node staleness in a distributed system
US8694639B1 (en) 2010-09-21 2014-04-08 Amazon Technologies, Inc. Determining maximum amount of resource allowed to be allocated to client in distributed system
US8812601B2 (en) * 2011-05-09 2014-08-19 Google Inc. Transferring application state across devices with checkpoints
US8224894B1 (en) 2011-05-09 2012-07-17 Google Inc. Zero-click sharing of application context across devices
US8171137B1 (en) 2011-05-09 2012-05-01 Google Inc. Transferring application state across devices
US10191959B1 (en) 2012-06-20 2019-01-29 Amazon Technologies, Inc. Versioned read-only snapshots of shared state in distributed computing environments
US9578130B1 (en) 2012-06-20 2017-02-21 Amazon Technologies, Inc. Asynchronous and idempotent distributed lock interfaces
US10630566B1 (en) 2012-06-20 2020-04-21 Amazon Technologies, Inc. Tightly-coupled external cluster monitoring
US10754710B1 (en) 2012-06-20 2020-08-25 Amazon Technologies, Inc. Transactional watch mechanism
US9184800B2 (en) 2012-07-16 2015-11-10 Google Inc. Automated sharing of application data over a near field communication link
US9632828B1 (en) 2012-09-24 2017-04-25 Amazon Technologies, Inc. Computing and tracking client staleness using transaction responses
JP5949506B2 (ja) * 2012-11-30 2016-07-06 富士通株式会社 分散処理方法、情報処理装置、及びプログラム
US9171019B1 (en) 2013-02-19 2015-10-27 Amazon Technologies, Inc. Distributed lock service with external lock information database
US9526120B2 (en) 2013-03-15 2016-12-20 Google Inc. Techniques for context-based application invocation for short-range wireless communication interactions
US9553951B1 (en) 2013-04-24 2017-01-24 Amazon Technologies, Inc. Semaphores in distributed computing environments
US9754007B2 (en) 2013-09-16 2017-09-05 International Business Machines Corporation Checkpoint capture and tracking in a high availability system
US9760529B1 (en) 2014-09-17 2017-09-12 Amazon Technologies, Inc. Distributed state manager bootstrapping
US9852221B1 (en) 2015-03-26 2017-12-26 Amazon Technologies, Inc. Distributed state manager jury selection
KR20230131017A (ko) * 2022-03-04 2023-09-12 삼성전자주식회사 가속기에 대해 온-디멘드 체크포인트를 수행하는 전자 장치 및 그 동작 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4665520A (en) * 1985-02-01 1987-05-12 International Business Machines Corporation Optimistic recovery in a distributed processing system
US4914657A (en) * 1987-04-15 1990-04-03 Allied-Signal Inc. Operations controller for a fault tolerant multiple node processing system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230553A (ja) * 1991-01-07 1992-08-19 Nec Corp ファイル転送誤り回復方法
JPH06250983A (ja) * 1993-02-02 1994-09-09 Internatl Business Mach Corp <Ibm> 負荷平衡または非同期データ移動のためのコンピュータ・システム及び方法
JPH09251404A (ja) * 1996-03-15 1997-09-22 Toshiba Corp チェックポイント生成方法
JPH1145229A (ja) * 1997-05-30 1999-02-16 Nec Corp 分散メモリ型マルチプロセッサシステムにおけるプロセスの停止方式
US8566539B2 (en) 2009-01-14 2013-10-22 International Business Machines Corporation Managing thermal condition of a memory
JP2011044078A (ja) * 2009-08-24 2011-03-03 Internatl Business Mach Corp <Ibm> フォールト・トレラント・コンピュータ・システム、方法及びプログラム
US9032190B2 (en) 2009-08-24 2015-05-12 International Business Machines Corporation Recovering from an error in a fault tolerant computer system
JP2011253350A (ja) * 2010-06-02 2011-12-15 Mitsubishi Electric Corp 仮想計算機制御システム

Also Published As

Publication number Publication date
US5301309A (en) 1994-04-05

Similar Documents

Publication Publication Date Title
JPH02287858A (ja) 分散処理システムのリスタート方式
US5590277A (en) Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications
US5440726A (en) Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications
US5530802A (en) Input sequence reordering method for software failure recovery
US5398331A (en) Shared storage controller for dual copy shared data
AU711220B2 (en) Method of commitment in a distributed database transaction
EP0204449B1 (en) Method for multiprocessor communications
US6161198A (en) System for providing transaction indivisibility in a transaction processing system upon recovery from a host processor failure by monitoring source message sequencing
JP2505928B2 (ja) フォ―ルト・トレラント・システムのためのチェックポイント機構
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
US20080046612A1 (en) Method, apparatus and program storage device for providing asynchronous status messaging in a data storage system
KR19990082867A (ko) 갱신 트랜잭션 완성 방법 및 장치
CN113505012B (zh) 一种消息队列的处理方法、介质、设备和系统
JPH11502659A (ja) 故障許容処理方法
WO2008021636A2 (en) Fault tolerance and failover using active copy-cat
CN103262044A (zh) 虚拟机失效转移管理的方法及其支持系统
Speirs et al. Using passive replicates in delta-4 to provide dependable distributed computing
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JP4289056B2 (ja) 計算機システム間のデータ二重化制御方法
JP4461147B2 (ja) リモートデータミラーリングを用いたクラスタデータベース
US5539875A (en) Error windowing for storage subsystem recovery
CN109117317A (zh) 一种集群故障恢复方法和相关装置
WO2001016750A2 (en) High-availability, shared-memory cluster
JP3447347B2 (ja) 障害検出方法
JP2004272318A (ja) 系切り替えシステムおよびその処理方法並びにその処理プログラム