JPH02287858A

JPH02287858A - 分散処理システムのリスタート方式

Info

Publication number: JPH02287858A
Application number: JP1110544A
Authority: JP
Inventors: Koji Sugano; 宏司菅野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-04-28
Filing date: 1989-04-28
Publication date: 1990-11-27
Also published as: US5301309A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の１１　１１’Ｊ　］（産業上の利用分野）この発明は分散処理システムのりスタート方式に関し、
特にその分散処理システムを＋７．７成する各処理装置
におけるチエツクポイントリスタートの実行方式に関す
る。

（従来の技術）一般に、分散処理システムは、その処理能力や仁頼性を
向上するために、複数の処理装置かノ＼ドウＪア的に結
合されて構成されている。このような分散処理システム
においては、各処理装置間でデータの送受信か行なわれ
、情報が万いに交換される。

各処理装置は、ユーザプログラムによって提供されるデ
ータの送受信機能と、その障害対策として使用されるチ
エツクポイントリスター１・機能をＨしている。チエツ
クポイントリスタート機能は、各装置内のシステムプロ
グラムによって提供される機能であり、予じめ必要な情
報をチェックボイントデータとして退避しておき、障害
発生時にはそのチエツクポイントデータから処理を＋１
スタトする方式である。すなわち、過去の時点で正常に
処理された実行プログラムがチエツクポイントによって
指定され、障害発生時はその１１−常な１１，５点に戻
って処理が再開される。

このようなチエツクポイントリスタート分散処理システ
ム内の各装置１１１４位で独立に実行される。このため
、各処理装置かその個々の装置内だけに関係する処理を
実行している場合には、充分に障害を回復することかき
る。

しかしながら、処理装置間でデータの送受信を実行して
いる場合は、一方の処理装置が正常に処理を実行しても
、他方の処理装置に何Ａ−１７かのシステム障害が発生
する場合かある。この場合、１；仝害の起きた処理装置
ではチエツクポイントリスター機能によって必要な処理
か＋１開されるものの、一方の処理装置はその障害の発
生した時点を認識してないため通信データの欠損等の通
信誤りが生じてしまう。これは、分散処理システムの（
、；；　’ｌｉＪｊ性を低下させる大きな原因となって
いる。

（発明が解決しようとする課題）従来の分散処理システムでは、チエツクポインＩ・リス
ク−ｉ・機能が各処理装置毎に独立して実行されるため
、処理装置間のデータ送受信中に障害が発生した場合に
はその障害を回復するのか困難な欠点があった。

この発明はこのような点に鑑みなされたもので、データ
送受イム中に障害が発生してもデータの欠損等を招くこ
と無＜１１−常な通信状態に回復できるリスタート方式
を提１」（シ、これによって信頼性の高い分散処理シス
テムを実現することをＩ−、ｌ的とする。

［発明の構成］（課題を解決するための手段）この発明は複数のデータ処理装置を結合して成る分散処
理システムのりスタート方式において、前記各データ処
理装置に、通信対象となる相手装置に対してデータの送
受信を行なう通信制御手段と、この通信制御手段か相手
装置に対してデータの送信または受信を要求した際に、
チエツクポイントデータとして保持する実ｊ′Ｊプログ
ラム情報の内容を前記相手装置の応答状態に応じて決定
するチエツクポイントタスク実行手段と、このチエツク
ポイントタスク実行手段によって決定された実行プログ
ラム情報をチエツクポイン！・データとしてプログラム
を再起動するリスク−ｌ・タスク実？１手段とを具備し
、障害発生時のチエツクポインｉ・リスタート処理か装
置間で同期して実行されることを特徴とする。

（作用）この分散処理システムのりスタート方式においては、チ
エツクポイントタスク実行手段によりて通信相手の装置
の状態が認識され、その状態に応じた実行プログラムか
チエツクポイントデータとして退避される。このため、
通信中の処理装置間でそれぞれ対応する実行プログラム
をチエツクポイントデータとして決定することができる
。したかって、障害発生時のチエツクポイントリスタト
処理が装置間で同期して実行されるので、ブタ送受信中
に障害か発生してもデータの欠損等を招くこと無く正常
な通信状態に回復可能になる。

（実施例）以下、図面を系間してこの発明の詳細な説明する。

第１図にこの発明の一実施例に係わる分散処理システム
の構成を示す。データ処理装置Ｅｌ。

Ｅ２はそれぞれこの分散処理システムのノードとして機
能するものであり、これら処理装置Ｅｌ　とＥ２間は通
ず６回線Ｆによって結合されている。

処理装置Ｅ１は、通信制御部Ａ１、チエ・ツクポイント
タスク実行部Ｂｌ、およびリスタートタスク大行部Ｃ１
により構成されている。また、この処理装置Ｅ１には、
チエツクポイン！・ファイルＤＩが外部記憶装置として
接続されている。

同様に、処理装置Ｅ２は、通信制御部Ａ２、チエツクポ
イントタスク実行部１３　＋）、およびリスクトタスク
実行部Ｃ２によって構成されている。

また、この処理装置Ｅ２には、チエツクポイントファイ
ルＤ２が外部記憶装置として接続されている。

通信制御部ＡＩは、処理装置Ｅｌ　と処理装置Ｂ２間の
データの送受ｆ、１をイ」なうためのものであり、この
通１．．．制御部ＡＩの動作はユーザプログラムによっ
て提（」（される。チエツクポイントタスク実行部Ｂ１
は、通（１，、制御部Ａｌか処理装置Ｅ２の通信制御部
Ａ２に対してデータの送信または受１１．。

を要求した時に、処理装置Ｅ２と同期を取ったチエツク
ポイント処理を実行する。すなわち、チエツクポインＩ
・タスク実行部Ｂ１は、処理装置Ｅ２のチエツクポイン
トタスク実行部Ｂ２から送られる応答状態を認識し、そ
の応答状態に応してチエツクポイントデータの内容すな
わち実行プログラム情報を決定する。

リスタートタスク実行部Ｃ１は、システム異常等の障害
発生１１，１において、チエツクポイントタスク実行部
Ｂ１によって決定されたチエツクポイントデータに従っ
て処理を再開するだめのものである。

チエツクポイントファイルＤ１は、通ず。１１−］副部
Ａ１によって実行されるブロク゛ラム情報を記憶するも
のであり、そのプログラム情報は前述したチエツクポイ
ントタスク実行部Ｂ１によって決定されたものか登録さ
れる。また、障害発生時には、そのチエツクポイン！・
ファ・ｒルＤ１からリスタートタスク実行部ＣＩ　に、
チエツクポイントデータか１ｊえられる。チエツクポイ
ントファイルＤ１には少なくとも２個以上のチエツクポ
イントデータを格納するための容量が設定されており、
チエツクポイントタスク実行部Ｂｌによって決定された
１［１チエツクポイン！・データ、および新チエツクポ
イントデータか格納される。

処理装置Ｅ２における連鎖制御部Ａ２、チエツクポイン
トタスク実行部Ｂ２、リスタートタスク実行部Ｃ２、お
よびチエツクポイントファイルＤ２も処理装置Ｅ１のそ
れらと同じ機能をそれぞれ有している。

次に、第２図および第３図のフローチャー１・を参照し
て、第１図の分散処理システムにおけるチエツクポイン
Ｉ・リスタート動作を説明する。

第２図はチエツクポイントタスク実行部Ｂｌ。

Ｂ２によるチエツクポイント処理のフローチへ１・であ
り、釘３３図はりスタートタスク大行部ＣｌＣ２による
リスタート処理のフローチャー１・である。

例えば、処理装置Ｅ１の通信制御部ＡＩが回線Ｆを介し
て処理、装置Ｅ２の通イ。制ζＩ１１部Ａ２にブタの送
信要求を発行した場合には、チエツクポイントタスク実
行部Ｂ１はその実ｔ」プログラム（１’７　＋ｌｕを新
チエツクポイントデータと１２でファイルＤ１内に格納
する（ステップＡ１．）。この場合、その新チエツクポ
イントデータの格納領域は、ファ・ｒルＤ１内に既に格
納されている１１］チＪツクポイントデータと別な領域
となる。次い゛Ｃ５チエツクポイントタスク実行部Ｂ１
か処理装置Ｂ２内のチエツクポイントタスク実行部Ｂ２
に対して、通１＋にｌｒ’制御部Ａ２で実行（受信）さ
れる実行プロクラム情報をチエツクボーｒントデータと
して採取するように要求する（ステップＡ２）。この要
求に々・］し７て、チエツクポイントタスク実行部Ｂ２
は該！ｌ−／、するプログラム情報を新チエ゛ツクポイ
ンＩ・データとして採取し、それをチエツクポイントフ
ァイルＤ２に格納する。この場合、その新チエツクポイ
ンＩ・ブタの格納領域は、ファイルＤ２内の旧チＪツク
ポイントデータと別な領域となる。

採取か成功した場合にはチエツクポイントタスク実行部
Ｂ２は、処理装置Ｅ１のチエツクポイントタスク実行部
Ｂ１に対してアクノリッジを返送し、成功しない場合に
は返送しない。処理装置Ｅ１のチエツクポイントタスク
実行部Ｂ］は、このようなチエツクポインＩ・タスク実
ｊ−１部Ｂ２からの応答信号に応じて処理装置Ｅ２の状
態を認識し、処理装置Ｅ２か正常にデータ受信できるか
否かを判断する（ステップＡ３）。

アクノリッジか返送された場ごには、チエツクボーｒン
トタスク実ｊ−」部Ｂ１はチエツクポイントファイルＤ
１の旧チＪツクポイントデータを捨て新チエツクポイン
トデータを１１」チェックボ・ｒントデタとして格納し
、同様にチエツクポイントタスク実行部Ｂ２もチエツク
ポイントファイルＤ２の旧チＪソクポ・１ントデータを
捨て新チエ・ノクボ・ｒ］０ントデータを旧チエツクポイントデータとして格納する
（ステップＡ４）。一方、アクノリッジか返送されなか
った場合には、Ｉｌｌデータかそのまま保持された状態
で新チエツクポイントデータかファイル内に格納され、
リスタートタスク実行部Ｃ１，Ｃ２によって第３図で説
明するりスタート処理が行なわれる（ステップＡ５）。

リスタート処理においては、まずリスター］・タスク実
行部Ｃ】かチエツクポイントファイルＤ１に格納されて
いる新チエツクポイントデータを読出しくステップＢ１
）、処理装置Ｅ２のリスタトタスク実行部Ｃ２に対して
その新チエツクポイントデータに対応するデータ送信を
リスター１・冴求として通知する（ステップＢ２）。こ
のリスクト要求を受取ったりスターＩ・タスク実行部Ｃ
２は、チエツクポイントファイルＤ２から該当するプロ
グラム情報すなイ）ち新チェックボイントデタを取出す
。この取出しか成功した場合には、リスタートタスク実
行部Ｃ２はリスタートタスク実ｊ−１部Ｃ１に＊、ｓ　
してアクノリッジを返送し、成功しなかった場合には返
送しない。このアクノリッジによってリスク−トタスク
実行部ＣＩは処理装置Ｅ２の状態を判断し２（ステップ
Ｂ３）、アクノリッジが返送された時は新チエツクポイ
ントデータによってリスタートを実行する（ステップＢ
４）。

またアクノリッジが返送されない時は、旧チエツクポイ
ントデータによってリスタートが実行される（ステップ
Ｂ５）。

このように、この分散処理システムにおいては、通信対
象となる相手装置の状態によってチエツクポイントデー
タとして採取される実行プログラム情報の内容か決定さ
れるので、互いに同期のとれた状態でチエツクポイント
リスタートすることがｉ＋ｉ能になる。

尚、分散処理システム内に多数の処理装置が設けられて
いる場合には、チエツクポイントデータには、実行プロ
グラム情報と共に、相手装置名、相手プログラム名等を
表わす情報を含むことが好ましい。

］　２［発明の効果］以上のように、この発明によれば、障害発生時のチエツ
クポイントリスタート期して実行されるので、データ送受信中に障害か発生し
てもデータの欠損等を招くこと無＜１）常な通信状態に
回復可能になる。したがって、ｆ．ｊ軸性の高い分散処
理システムを実現できる。

【図面の簡単な説明】

第１図はこの発明の一実施例に係わる分散処理システム
の構成を示すブロック図、第２図および第３図はそれぞ
れ第１図に小した分散処理システムのチエツクポイン！
・リスタート動作を説明するフローチャートである。Ａ１．Ａ２・・・通信制御部、Ｂｌ，Ｂ２・・・チエツ
クポイントタスク実？−ｉ部、Ｃｌ，Ｃ２リスタートタ
スク実行部、ＤＩ　、Ｄ２・・・チエツクポイントファ
イル、Ｅｌ，Ｂ２・・・データ処理装置。出願人代理人　弁理上　鈴臼武彦

Claims

【特許請求の範囲】複数のデータ処理装置を結合して成る分散処理システム
において、前記各データ処理装置は、通信対象となる相手装置に対
してデータの送受信を行なう通信制御手段と、この通信
制御手段が相手装置に対してデータの送信または受信を
要求した際に、チェックポイントデータとして保持する
実行プログラム情報の内容を前記相手装置の応答状態に
応じて決定するチェックポイントタスク実行手段と、こ
のチェックポイントタスク実行手段によって決定された
実行プログラム情報をチェックポイントデータとしてプ
ログラムを再起動するリスタートタスク実行手段とを具
備し、障害発生時のチェックポイントリスタート処理が
装置間で同期して実行されることを特徴とする分散処理
システムのリスタート方式。