JPH09319720A - 分散プロセス管理システム - Google Patents
分散プロセス管理システムInfo
- Publication number
- JPH09319720A JPH09319720A JP8137987A JP13798796A JPH09319720A JP H09319720 A JPH09319720 A JP H09319720A JP 8137987 A JP8137987 A JP 8137987A JP 13798796 A JP13798796 A JP 13798796A JP H09319720 A JPH09319720 A JP H09319720A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- process management
- request
- computers
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 185
- 230000008569 process Effects 0.000 title claims abstract description 182
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000012544 monitoring process Methods 0.000 claims abstract description 27
- 230000002159 abnormal effect Effects 0.000 claims abstract description 11
- 230000026676 system process Effects 0.000 claims description 59
- 230000004913 activation Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 15
- 230000008054 signal transmission Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 116
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013073 enabling process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Landscapes
- Computer And Data Communications (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
Abstract
(57)【要約】
【課題】 複数計算機の分散プロセス処理において、計
算機内で起動したプログラムの正常/異常終了及びシグ
ナルの送付までの情報の要求を、発行したサーバ計算機
内で確認できるようにする。 【解決手段】 ネットワーク(LAN)で結ばれた複数
計算機の分散プロセス管理を、それぞれ各計算機内の他
系プロセス監視M1,N1/他系プロセス管理M2,N
2/自系プロセス管理M3,N3の機能を有する3つの
デーモンプロセスにより行なわせる。その結果、各デー
モンが各々の処理を専門に行なうことができ、処理の途
中に発生する様々な事象処理を減らし、タイミング的な
障害の発生を抑える。また、プロセスの履歴情報を集中
管理し、他系計算機の負荷及び状態を自系計算機で認識
する。
算機内で起動したプログラムの正常/異常終了及びシグ
ナルの送付までの情報の要求を、発行したサーバ計算機
内で確認できるようにする。 【解決手段】 ネットワーク(LAN)で結ばれた複数
計算機の分散プロセス管理を、それぞれ各計算機内の他
系プロセス監視M1,N1/他系プロセス管理M2,N
2/自系プロセス管理M3,N3の機能を有する3つの
デーモンプロセスにより行なわせる。その結果、各デー
モンが各々の処理を専門に行なうことができ、処理の途
中に発生する様々な事象処理を減らし、タイミング的な
障害の発生を抑える。また、プロセスの履歴情報を集中
管理し、他系計算機の負荷及び状態を自系計算機で認識
する。
Description
【0001】
【発明の属する技術分野】この発明は、複数の計算機シ
ステムに存在するプログラムの状況管理に関するもので
ある。
ステムに存在するプログラムの状況管理に関するもので
ある。
【0002】
【従来の技術】近年、ネットワーク技術が進み分散プロ
セス処理システムの構成が容易にできるようになり、分
散システム環境における遠隔操作技術に対する様々な発
明がなされてきた。
セス処理システムの構成が容易にできるようになり、分
散システム環境における遠隔操作技術に対する様々な発
明がなされてきた。
【0003】分散処理システムに関してのプロセス制御
方法について、例えば特開平7−160646号に示さ
れるものであるが、これはネットワークから与えられた
タスクを受信する多重タスク処理ワークステーションの
ユーザが、ネットワーク・サーバから割り当てられたタ
スクに連結すること、及びそのタスクを一時的に又は恒
久的に中断させるのを可能にするシステム及び方法であ
る。
方法について、例えば特開平7−160646号に示さ
れるものであるが、これはネットワークから与えられた
タスクを受信する多重タスク処理ワークステーションの
ユーザが、ネットワーク・サーバから割り当てられたタ
スクに連結すること、及びそのタスクを一時的に又は恒
久的に中断させるのを可能にするシステム及び方法であ
る。
【0004】また、特開平7−13777号公報に示さ
れるサーバプロセス管理装置では、対象装置内で動作す
るサーバプロセスを格納するサーバ動作条件情報格納部
又は装置別に動作可能なサーバプロセスの動作条件を格
納する装置別サーバ動作条件情報格納部と、動作してい
るサーバプロセスのアドレス情報を格納するプロセス情
報格納部と、サーバプロセスを起動して前記プロセス情
報格納部に起動したサーバプロセスの情報を格納するプ
ロセス起動手段と、サーバプロセスを停止させて前記プ
ロセス情報格納部から停止させたプロセスの情報を削除
するプロセス停止手段と、動作中サーバプロセス情報を
検索するプロセス情報検索手段と、サーバプロセスを起
動要求したクライアントの情報を格納するクライアント
情報格納部と、前記装置別サーバ動作条件情報格納部か
らクライアントプロセスから指定されたサーバの起動可
能装置名及び動作条件を検索するサーバー情報検索手段
と、クライアントプロセスまたはサーバプロセスからの
プロセス情報削除要求を受け付けるプロセス情報削除要
求受付手段と、サーバプロセスが停止したことを検出す
るプロセス監視手段を有するものである。
れるサーバプロセス管理装置では、対象装置内で動作す
るサーバプロセスを格納するサーバ動作条件情報格納部
又は装置別に動作可能なサーバプロセスの動作条件を格
納する装置別サーバ動作条件情報格納部と、動作してい
るサーバプロセスのアドレス情報を格納するプロセス情
報格納部と、サーバプロセスを起動して前記プロセス情
報格納部に起動したサーバプロセスの情報を格納するプ
ロセス起動手段と、サーバプロセスを停止させて前記プ
ロセス情報格納部から停止させたプロセスの情報を削除
するプロセス停止手段と、動作中サーバプロセス情報を
検索するプロセス情報検索手段と、サーバプロセスを起
動要求したクライアントの情報を格納するクライアント
情報格納部と、前記装置別サーバ動作条件情報格納部か
らクライアントプロセスから指定されたサーバの起動可
能装置名及び動作条件を検索するサーバー情報検索手段
と、クライアントプロセスまたはサーバプロセスからの
プロセス情報削除要求を受け付けるプロセス情報削除要
求受付手段と、サーバプロセスが停止したことを検出す
るプロセス監視手段を有するものである。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
分散処理システムにおいては、サーバ側から要求のあっ
たプロセスを、クライアント側で起動し停止させる処理
方式において管理テーブルの構成に充填を置き、動作し
ていたプロセスが正常終了することを前提としているも
のがほとんどであり、異常終了時に関しての動作につい
て触れられていない問題点があった。
分散処理システムにおいては、サーバ側から要求のあっ
たプロセスを、クライアント側で起動し停止させる処理
方式において管理テーブルの構成に充填を置き、動作し
ていたプロセスが正常終了することを前提としているも
のがほとんどであり、異常終了時に関しての動作につい
て触れられていない問題点があった。
【0006】この発明の目的は、純粋に計算機内で起動
したプログラムの正常終了/異常終了及びシグナルの送
付までの情報を、要求を発行したサーバ計算機内で確認
できることを目的とする。
したプログラムの正常終了/異常終了及びシグナルの送
付までの情報を、要求を発行したサーバ計算機内で確認
できることを目的とする。
【0007】
【課題を解決するための手段】請求項1の発明は、ネッ
トワークで構成された複数計算機システムにおいて、自
系計算機内のプログラムの動作を管理し、プログラムの
起動,終了,同期,シグナルの送付等を要求する自系プ
ロセス管理デーモンと、他系計算機で動作する上記プロ
グラムの起動,同期,シグナルの送付の要求を発行し、
他系計算機で動作するプログラムの状態を監視する他系
プロセス監視デーモンと、他系計算機からの上記要求を
受け取り上記自系プロセス管理デーモンへ送信し、その
処理結果を自系計算機内の他系プロセス監視デーモンへ
報告する他系プロセス管理デーモンの3つのデーモン構
成からなる分散プロセス管理システムである。
トワークで構成された複数計算機システムにおいて、自
系計算機内のプログラムの動作を管理し、プログラムの
起動,終了,同期,シグナルの送付等を要求する自系プ
ロセス管理デーモンと、他系計算機で動作する上記プロ
グラムの起動,同期,シグナルの送付の要求を発行し、
他系計算機で動作するプログラムの状態を監視する他系
プロセス監視デーモンと、他系計算機からの上記要求を
受け取り上記自系プロセス管理デーモンへ送信し、その
処理結果を自系計算機内の他系プロセス監視デーモンへ
報告する他系プロセス管理デーモンの3つのデーモン構
成からなる分散プロセス管理システムである。
【0008】請求項2の発明は、プロセスを管理する手
段として定義ファイルを利用する。定義ファイルには、
複数計算機間で動作するプロセス管理デーモンの計算機
名を列挙する様にする。
段として定義ファイルを利用する。定義ファイルには、
複数計算機間で動作するプロセス管理デーモンの計算機
名を列挙する様にする。
【0009】請求項3の発明は、定義ファイルで設定さ
れた計算機の順序は、自系計算機以外で起動するプログ
ラムの起動要求先の他系計算機の優先起動順位を示し、
上記要求発行先の計算機の状態をチェックし、計算機負
荷に余裕がありかつプログラムの起動が可能な計算機を
設定順に確認する分散プロセス管理システムである。請
求項4の発明は、定義ファイルに予め起動権限を与える
計算機名と起動パスを設定しておくことにより、起動要
求を行なう際には、プロセス名の指定のみの要求で、定
義ファイル中に定義された計算機内の該当するパス下を
サーチし、プロセス名と一致するモジュールが起動可能
である時、そのプロセスの起動を行ない、以降そのプロ
セスの管理を開始するものである。
れた計算機の順序は、自系計算機以外で起動するプログ
ラムの起動要求先の他系計算機の優先起動順位を示し、
上記要求発行先の計算機の状態をチェックし、計算機負
荷に余裕がありかつプログラムの起動が可能な計算機を
設定順に確認する分散プロセス管理システムである。請
求項4の発明は、定義ファイルに予め起動権限を与える
計算機名と起動パスを設定しておくことにより、起動要
求を行なう際には、プロセス名の指定のみの要求で、定
義ファイル中に定義された計算機内の該当するパス下を
サーチし、プロセス名と一致するモジュールが起動可能
である時、そのプロセスの起動を行ない、以降そのプロ
セスの管理を開始するものである。
【0010】請求項5の発明は、プロセス管理を実現す
る手段として、プロセス管理専用のライブラリをユーザ
に提供する。ユーザに提供するライブラリは、起動(振
り逃げ/完了),同期要求等であり、デーモン間及びデ
ーモン−アプリケーション間の通信にはメッセージを利
用する。また、計算機間をまたがる通信には、プロセス
管理専用Macアドレスを利用したソケット通信でプロ
セスの管理を行なう。請求項6及び請求項7の発明は、
プロセス管理が利用する管理テーブルとして共用メモリ
を使用し、分散プロセス管理を実現する三種類のデーモ
ンが共通に参照でき、管理内容の更新時に共用記録媒体
へ反映することにより、他系計算機でプログラムが動作
中に自系計算機が停止して再度動作可能となったタイミ
ングで、共用記録媒体から情報を取り込み、処理の連続
が可能となる。
る手段として、プロセス管理専用のライブラリをユーザ
に提供する。ユーザに提供するライブラリは、起動(振
り逃げ/完了),同期要求等であり、デーモン間及びデ
ーモン−アプリケーション間の通信にはメッセージを利
用する。また、計算機間をまたがる通信には、プロセス
管理専用Macアドレスを利用したソケット通信でプロ
セスの管理を行なう。請求項6及び請求項7の発明は、
プロセス管理が利用する管理テーブルとして共用メモリ
を使用し、分散プロセス管理を実現する三種類のデーモ
ンが共通に参照でき、管理内容の更新時に共用記録媒体
へ反映することにより、他系計算機でプログラムが動作
中に自系計算機が停止して再度動作可能となったタイミ
ングで、共用記録媒体から情報を取り込み、処理の連続
が可能となる。
【0011】請求項8の発明は、共用記憶媒体が複数計
算機システムに接続されているシステムにおいて、各計
算機内におけるプロセス管理動作履歴を置くことによっ
て、他系計算機上のプロセス管理情報を共用記憶媒体か
ら取り込み、現時点でプロセスの管理負荷の小さい計算
機を見つけてその他系計算機に起動要求を行なう分散プ
ロセス管理システムである。
算機システムに接続されているシステムにおいて、各計
算機内におけるプロセス管理動作履歴を置くことによっ
て、他系計算機上のプロセス管理情報を共用記憶媒体か
ら取り込み、現時点でプロセスの管理負荷の小さい計算
機を見つけてその他系計算機に起動要求を行なう分散プ
ロセス管理システムである。
【0012】請求項9の発明は、他系計算機で動作する
プロセスの負荷バランスを一定にする手段として、他系
計算機でプロセスを起動する場合に、予め起動要求を行
なう予定の計算機に現状プロセス管理状況を確認後に要
求を発行するものである。
プロセスの負荷バランスを一定にする手段として、他系
計算機でプロセスを起動する場合に、予め起動要求を行
なう予定の計算機に現状プロセス管理状況を確認後に要
求を発行するものである。
【0013】請求項10の発明は、他系計算機のプロセ
ス起動要求を発行したが、システム内で一計算機上のみ
にしか、該当プロセスが存在しない場合、定義ファィル
に設定された計算機順に起動要求を発行してゆき、必ず
該当プロセスの起動を可能とする分散プロセス管理シス
テムである。
ス起動要求を発行したが、システム内で一計算機上のみ
にしか、該当プロセスが存在しない場合、定義ファィル
に設定された計算機順に起動要求を発行してゆき、必ず
該当プロセスの起動を可能とする分散プロセス管理シス
テムである。
【0014】請求項11の発明は、起動要求先となって
いた他系計算機が異常状態となったとき、他系プロセス
監視デーモンが定期的に発進するハートビートメッセー
ジが一定時間途絶えることによって、他系計算機の異常
と判断する。異常と判断する時間は、ネットワーク負荷
時を考慮した時間より遅くするものである。異常と判断
した計算機に対して要求を行なっていたプロセスの情報
を参照し、速やかにユーザーへ報告することができる。
いた他系計算機が異常状態となったとき、他系プロセス
監視デーモンが定期的に発進するハートビートメッセー
ジが一定時間途絶えることによって、他系計算機の異常
と判断する。異常と判断する時間は、ネットワーク負荷
時を考慮した時間より遅くするものである。異常と判断
した計算機に対して要求を行なっていたプロセスの情報
を参照し、速やかにユーザーへ報告することができる。
【0015】請求項12の発明は、共用記憶媒体を持た
ない複数計算機システムにおいて、各計算機内における
プロセス管理動作履歴をハートビートメッセージにデー
タとして乗せて発信するようにする。全系からのハート
ビートメッセージを受信することにより、各計算機毎の
履歴情報を確認してプロセス管理状況負荷の一番低い計
算機に対して起動要求を行なうものである。
ない複数計算機システムにおいて、各計算機内における
プロセス管理動作履歴をハートビートメッセージにデー
タとして乗せて発信するようにする。全系からのハート
ビートメッセージを受信することにより、各計算機毎の
履歴情報を確認してプロセス管理状況負荷の一番低い計
算機に対して起動要求を行なうものである。
【0016】以上のように、この発明に係る複数計算機
システムの分散プロセス管理システムは、自系計算機内
のプログラムの管理を専用に行なう自系プロセス管理デ
ーモンがプログラムの起動から終了を管理し、プログラ
ムの終了ステータスを自系計算機の他系プロセス監視デ
ーモンへ通知し、通知を受けた他系プロセス監視デーモ
ンが、他系計算機で要求を行なった他系プロセス管理デ
ーモンへプログラムの終了結果を報告し、報告を受けた
他系プロセス管理デーモンが他系計算機の他系プロセス
情報管理テーブルを更新し、共用記憶媒体に反映する。
システムの分散プロセス管理システムは、自系計算機内
のプログラムの管理を専用に行なう自系プロセス管理デ
ーモンがプログラムの起動から終了を管理し、プログラ
ムの終了ステータスを自系計算機の他系プロセス監視デ
ーモンへ通知し、通知を受けた他系プロセス監視デーモ
ンが、他系計算機で要求を行なった他系プロセス管理デ
ーモンへプログラムの終了結果を報告し、報告を受けた
他系プロセス管理デーモンが他系計算機の他系プロセス
情報管理テーブルを更新し、共用記憶媒体に反映する。
【0017】他系計算機上でプログラムを動作するの
は、ユーザーアプリケーションプログラムが、プロセス
管理専用ライブラリを利用し、自系計算機内の自系プロ
セス管理デーモンが、自系計算機で起動するものか、他
系計算機上で起動するかの要求を判別し、自系計算機上
のものである要求ならば、自系プロセス管理デーモン
が、プログラムを起動し終了までを管理する。
は、ユーザーアプリケーションプログラムが、プロセス
管理専用ライブラリを利用し、自系計算機内の自系プロ
セス管理デーモンが、自系計算機で起動するものか、他
系計算機上で起動するかの要求を判別し、自系計算機上
のものである要求ならば、自系プロセス管理デーモン
が、プログラムを起動し終了までを管理する。
【0018】また、他系計算機上での起動要求であるな
らば、他系プロセス監視デーモンプロセスへ、その内容
を通知し、他系プロセス監視デーモンが情報管理テーブ
ルを構築及び更新し、他系計算機の他系プロセス管理デ
ーモンへ通知する。
らば、他系プロセス監視デーモンプロセスへ、その内容
を通知し、他系プロセス監視デーモンが情報管理テーブ
ルを構築及び更新し、他系計算機の他系プロセス管理デ
ーモンへ通知する。
【0019】また、この発明における情報管理テーブル
は、シュアードメモリ上に他系プロセス監視デーモン,
他系プロセス管理デーモン用,自系プロセス管理デーモ
ンが共用で利用するテーブルを2面構成となる。
は、シュアードメモリ上に他系プロセス監視デーモン,
他系プロセス管理デーモン用,自系プロセス管理デーモ
ンが共用で利用するテーブルを2面構成となる。
【0020】つまり、他系プロセスの情報を管理するテ
ーブルと自系プロセスの情報を管理する2つの情報テー
ブルにより管理される。
ーブルと自系プロセスの情報を管理する2つの情報テー
ブルにより管理される。
【0021】また、この発明の他系プロセス管理テーブ
ルの情報更新時に、システムで共用記憶媒体に情報管理
テーブルをコピーすることにより、自系計算機にトラブ
ルが発生し復旧した後でも他系計算機上で起動したプロ
グラムの情報は確保されているので、処理の連続性が可
能となる。
ルの情報更新時に、システムで共用記憶媒体に情報管理
テーブルをコピーすることにより、自系計算機にトラブ
ルが発生し復旧した後でも他系計算機上で起動したプロ
グラムの情報は確保されているので、処理の連続性が可
能となる。
【0022】
【発明の実施の形態】以下、この発明の実施の形態を図
について説明する。
について説明する。
【0023】実施の形態1.(分散処理システムのデー
モン構成と処理) 図1は実施の形態1の分散プロセス管理システムを示す
構成図であり、複数の計算機M,N,…がネットワーク
(LAN)を介して結ばれており、各計算機M,Nに
は、自系計算機内のプログラムの動作を管理し、プログ
ラムの起動,終了,同期,シグナルの送付を要求する自
系プロセス管理デーモンM3,N3と、他系計算機で動
作するプログラムの起動,同期,シグナルの送付の要求
を発行し、他系計算機で動作するプログラムの状態を監
視する他系プロセス監視デーモンM1,N1と、他系計
算機からの上記要求を受け取り、自系プロセス管理デー
モンへ要求し、その処理結果を自系計算機内の他系プロ
セス管理デーモンへ報告する他系プロセス管理デーモン
M2,N2、の3つのデーモンプロセスを備えている。
モン構成と処理) 図1は実施の形態1の分散プロセス管理システムを示す
構成図であり、複数の計算機M,N,…がネットワーク
(LAN)を介して結ばれており、各計算機M,Nに
は、自系計算機内のプログラムの動作を管理し、プログ
ラムの起動,終了,同期,シグナルの送付を要求する自
系プロセス管理デーモンM3,N3と、他系計算機で動
作するプログラムの起動,同期,シグナルの送付の要求
を発行し、他系計算機で動作するプログラムの状態を監
視する他系プロセス監視デーモンM1,N1と、他系計
算機からの上記要求を受け取り、自系プロセス管理デー
モンへ要求し、その処理結果を自系計算機内の他系プロ
セス管理デーモンへ報告する他系プロセス管理デーモン
M2,N2、の3つのデーモンプロセスを備えている。
【0024】次に、図1において実施の形態1の分散プ
ロセスの処理の流れを説明する。まず、自系計算機Nの
他系プロセス監視デーモンN1は他系計算機で動作する
プログラムの起動,同期,シグナルの送付をソケット通
信のプロセス起動要求(1)によって、他系計算機Mへ
通知する。(1)の要求を受け取った計算機Mの他系プ
ロセス管理デーモンM2は、その内容をメッセージ
(2)によって自系プロセス管理デーモンM3へと通知
する。メッセージ(2)を受け取った自系プロセス管理
デーモンM3は、その要求に沿った処理を管理中のプロ
グラム・モジュールに対して行なう((3);プロセス
に対するアクション及び結果)。その処理結果をメッセ
ージ(4)によって他系プロセス管理デーモンM2へと
通知する。他系プロセス管理デーモンM2は、プロセス
要求元の他系プロセス監視デーモンN1の計算機情報及
び自系プロセス管理デーモンM3の処理結果をデータと
して、メッセージ(5)によって他系プロセス監視デー
モンM1へ通知する。メッセージ(5)のデータを受け
取った他系プロセス監視デーモンM1はソケット通信
(6)によって当該処理結果を他系プロセス監視デーモ
ンN1に通知することにより、複数計算機間でのプロセ
ス管理を可能とする。
ロセスの処理の流れを説明する。まず、自系計算機Nの
他系プロセス監視デーモンN1は他系計算機で動作する
プログラムの起動,同期,シグナルの送付をソケット通
信のプロセス起動要求(1)によって、他系計算機Mへ
通知する。(1)の要求を受け取った計算機Mの他系プ
ロセス管理デーモンM2は、その内容をメッセージ
(2)によって自系プロセス管理デーモンM3へと通知
する。メッセージ(2)を受け取った自系プロセス管理
デーモンM3は、その要求に沿った処理を管理中のプロ
グラム・モジュールに対して行なう((3);プロセス
に対するアクション及び結果)。その処理結果をメッセ
ージ(4)によって他系プロセス管理デーモンM2へと
通知する。他系プロセス管理デーモンM2は、プロセス
要求元の他系プロセス監視デーモンN1の計算機情報及
び自系プロセス管理デーモンM3の処理結果をデータと
して、メッセージ(5)によって他系プロセス監視デー
モンM1へ通知する。メッセージ(5)のデータを受け
取った他系プロセス監視デーモンM1はソケット通信
(6)によって当該処理結果を他系プロセス監視デーモ
ンN1に通知することにより、複数計算機間でのプロセ
ス管理を可能とする。
【0025】本実施の形態では、計算機内のデーモン間
及びデーモンとアプリケーション間の通信にはメッセー
ジを利用する。また、複数の計算機間をまたがるプロセ
ス管理のための通信には、プロセス管理専用Macアド
レスを利用したソケット通信により行なうようにした。
及びデーモンとアプリケーション間の通信にはメッセー
ジを利用する。また、複数の計算機間をまたがるプロセ
ス管理のための通信には、プロセス管理専用Macアド
レスを利用したソケット通信により行なうようにした。
【0026】図1の分散プロセス管理システムによる効
果は、3つのデーモン構成をとり、他系プロセス監視デ
ーモン,他系プロセス管理デーモン,自系プロセス管理
デーモンがそれぞれ専門の処理を担当することにより、
処理時間の短縮とタイミングによる依存を排除する効果
がある。
果は、3つのデーモン構成をとり、他系プロセス監視デ
ーモン,他系プロセス管理デーモン,自系プロセス管理
デーモンがそれぞれ専門の処理を担当することにより、
処理時間の短縮とタイミングによる依存を排除する効果
がある。
【0027】実施の形態2.(定義ファイル) 実施の形態2は、プロセスを管理する手段として定義フ
ァイルを利用する。定義ファイルには、複数計算機間で
動作するプロセス管理デーモンの計算機名(自系計算機
以外で起動するプログラムの起動要求発行先の計算機
名)を列挙する様にする。
ァイルを利用する。定義ファイルには、複数計算機間で
動作するプロセス管理デーモンの計算機名(自系計算機
以外で起動するプログラムの起動要求発行先の計算機
名)を列挙する様にする。
【0028】具体的には、図3に示す定義ファイルを使
用する。図3において、Mac_nameは分散プロセ
ス管理を行なうマシン名(IPアドレスで設定されたh
ost name)が全て列挙され、例えば図1の他系
プロセス監視デーモンN1がプロセス要求(1)を発行
する相手計算機として、このMac−nameパラメー
タの記述により決定する。Systemパラメータは、
分散プロセス管理を行なうネットワークに接続された計
算機台数を設定するものである。Prc−count
は、単一計算機内において管理可能なプロセス数を設定
するものである。Prc−pathはプログラム起動の
際に自系計算機内のプログラムを探すpathを全て列
挙したもので、Prc−pathによって予め設定され
たパスにより、プログラムの起動要求はプログラム名の
みで、自動的にパス下をサーチし、一番最初に見つけた
プログラムモジュールを起動するようになる。Prc−
Envは環境変数を設定するもので、起動要求のあった
プログラム起動時に引き継がすものである。
用する。図3において、Mac_nameは分散プロセ
ス管理を行なうマシン名(IPアドレスで設定されたh
ost name)が全て列挙され、例えば図1の他系
プロセス監視デーモンN1がプロセス要求(1)を発行
する相手計算機として、このMac−nameパラメー
タの記述により決定する。Systemパラメータは、
分散プロセス管理を行なうネットワークに接続された計
算機台数を設定するものである。Prc−count
は、単一計算機内において管理可能なプロセス数を設定
するものである。Prc−pathはプログラム起動の
際に自系計算機内のプログラムを探すpathを全て列
挙したもので、Prc−pathによって予め設定され
たパスにより、プログラムの起動要求はプログラム名の
みで、自動的にパス下をサーチし、一番最初に見つけた
プログラムモジュールを起動するようになる。Prc−
Envは環境変数を設定するもので、起動要求のあった
プログラム起動時に引き継がすものである。
【0029】この実施の形態2の効果は、定義ファイル
に予めプロセスを管理する計算機を設定することによ
り、ネットワークに繋がる対象外の計算機に対しては、
要求を発行しないため、ネットワークの負荷を効率的に
なる。
に予めプロセスを管理する計算機を設定することによ
り、ネットワークに繋がる対象外の計算機に対しては、
要求を発行しないため、ネットワークの負荷を効率的に
なる。
【0030】また、定義ファイルに予め複数のパス(p
ath)を設定し、起動要求を行なう際にはプロセス名
の指定のみの要求で、定義ファイル中に定義された計算
機内の該当するパス下をサーチし、プロセス名と一致す
るプログラムモジュールが起動可能である時、当該プロ
セスの起動を行なうようにしたので、ユーザが指定する
モジュール名のパラメータは名前だけで済み、モジュー
ルを置くディレクトリも、定義されているパス(pat
h)下であれば、各計算機毎に置け、起動要求プログラ
ムは一つで済む効果がある。
ath)を設定し、起動要求を行なう際にはプロセス名
の指定のみの要求で、定義ファイル中に定義された計算
機内の該当するパス下をサーチし、プロセス名と一致す
るプログラムモジュールが起動可能である時、当該プロ
セスの起動を行なうようにしたので、ユーザが指定する
モジュール名のパラメータは名前だけで済み、モジュー
ルを置くディレクトリも、定義されているパス(pat
h)下であれば、各計算機毎に置け、起動要求プログラ
ムは一つで済む効果がある。
【0031】実施の形態3.(定義ファイルによる起動
要求) 実施の形態3では、定義ファイルの起動権限を与える計
算機名の列挙の仕方として、定義ファイルで設定された
計算機名の順序をそのまま優先起動順位とする。そし
て、要求発行先の計算機の状態をチェックし、CPU負
荷に余裕があり、プログラムの起動が可能な計算機を設
定順に確認し、プログラム起動が現在可能な計算機への
要求を発行するようにする。
要求) 実施の形態3では、定義ファイルの起動権限を与える計
算機名の列挙の仕方として、定義ファイルで設定された
計算機名の順序をそのまま優先起動順位とする。そし
て、要求発行先の計算機の状態をチェックし、CPU負
荷に余裕があり、プログラムの起動が可能な計算機を設
定順に確認し、プログラム起動が現在可能な計算機への
要求を発行するようにする。
【0032】例えば図2で示される複数計算機システム
において、図3のMac−nameパラメータによって
設定された起動要求計算機順序にしたがって起動要求を
行なう。すなわち、図3のMac−name 2A_3
A_4B_5B_6C_7C_8Dの順序でプログラム
の起動要求を行なうものである。
において、図3のMac−nameパラメータによって
設定された起動要求計算機順序にしたがって起動要求を
行なう。すなわち、図3のMac−name 2A_3
A_4B_5B_6C_7C_8Dの順序でプログラム
の起動要求を行なうものである。
【0033】まず、他系計算機2Aに起動要求を発行
し、タイムアウトもしくは、起動不可のリターンが戻さ
れた場合には、さらに計算機3A→4B→5B→・・・→
8Dと順次起動要求を行なう方式である。
し、タイムアウトもしくは、起動不可のリターンが戻さ
れた場合には、さらに計算機3A→4B→5B→・・・→
8Dと順次起動要求を行なう方式である。
【0034】このMac−nameにより設定された起
動要求計算機順序による効果は、起動要求を行なう計算
機を限定しないが、必ず起動させなければならないモジ
ュールを起動することができる。
動要求計算機順序による効果は、起動要求を行なう計算
機を限定しないが、必ず起動させなければならないモジ
ュールを起動することができる。
【0035】実施の形態4.(自系計算機からのプログ
ラム起動の要求) 実施の形態4では、プロセス管理を実現する手段とし
て、プロセス管理専用のライブラリをユーザに提供し、
このライブラリを利用して、自系計算機からのプログラ
ムの起動(振り逃げ/完了),同期要求等を行なう。
ラム起動の要求) 実施の形態4では、プロセス管理を実現する手段とし
て、プロセス管理専用のライブラリをユーザに提供し、
このライブラリを利用して、自系計算機からのプログラ
ムの起動(振り逃げ/完了),同期要求等を行なう。
【0036】図4はアプリケーションからのプログラム
起動等の要求に対する処理の流れを示した図である。図
において、K4はプログラムの起動,同期,シグナルの
送付を要求するユーザアプリケーションであり、プログ
ラムに対しての要求はライブラリによって行なわれる。
起動等の要求に対する処理の流れを示した図である。図
において、K4はプログラムの起動,同期,シグナルの
送付を要求するユーザアプリケーションであり、プログ
ラムに対しての要求はライブラリによって行なわれる。
【0037】ユーザアプリケーションK4はライブラリ
を介してプログラムの要求をメッセージ(41)により
自系プロセス管理デーモンK3へ要求する。その要求を
受けた自系プロセス管理デーモンK3は、受け取った要
求が自系計算機のプログラムに対するものか、他系計算
機上のプログラムに対するものかを判別する(図4のS
TEP100参照)。
を介してプログラムの要求をメッセージ(41)により
自系プロセス管理デーモンK3へ要求する。その要求を
受けた自系プロセス管理デーモンK3は、受け取った要
求が自系計算機のプログラムに対するものか、他系計算
機上のプログラムに対するものかを判別する(図4のS
TEP100参照)。
【0038】メッセージ(41)の内容が他系計算機に
対してのものであるならば、要求内容をメッセージ(4
2−1)により他系プロセス監視デーモンK1へ通知
し、他系プロセス監視デーモンK1は、図1で記したよ
うにソケット通信(42−3)により他系計算機へ上記
要求を送信し処理動作を行なうこととなる。
対してのものであるならば、要求内容をメッセージ(4
2−1)により他系プロセス監視デーモンK1へ通知
し、他系プロセス監視デーモンK1は、図1で記したよ
うにソケット通信(42−3)により他系計算機へ上記
要求を送信し処理動作を行なうこととなる。
【0039】また、メッセージ(41)の内容が自系計
算機プログラムに対するものであるならば、自系プロセ
ス管理デーモンK3は、(41)の要求内容を元に自系
計算機内部でのプログラム管理処理(42−2)を行な
い、その結果を待つ。
算機プログラムに対するものであるならば、自系プロセ
ス管理デーモンK3は、(41)の要求内容を元に自系
計算機内部でのプログラム管理処理(42−2)を行な
い、その結果を待つ。
【0040】他系計算機からの処理結果(42−4)が
他系プロセス管理デーモンK2を介してメッセージ(4
3)で返されるか、自系計算機内部処理(42−2)の
結果メッセージが、自系プロセス管理デーモンK3に返
された時、自系プロセス管理デーモンK3はライブラリ
を介して、その結果をユーザアプリケーションK4へリ
ターン値として通知する。
他系プロセス管理デーモンK2を介してメッセージ(4
3)で返されるか、自系計算機内部処理(42−2)の
結果メッセージが、自系プロセス管理デーモンK3に返
された時、自系プロセス管理デーモンK3はライブラリ
を介して、その結果をユーザアプリケーションK4へリ
ターン値として通知する。
【0041】実施の形態5.(情報管理テーブル) 図5は本実施の形態の分散プロセス処理の情報管理方式
を示す図であり、プロセス管理が利用する管理テーブル
として共用メモリを使用し、分散プロセス管理を実現す
る三種類のデーモンが共通して当該共用メモリを参照す
る。また、共用メモリの管理内容の更新時に共用記録媒
体へ反映するようにし、他系計算機でプログラムが動作
中に自系計算機が停止して再度動作可能となったタイミ
ングで、共用記録媒体から情報を取り込む。その結果、
自系計算機の状態の変化に影響を受けずプロセス処理の
連続性を保つことができる。
を示す図であり、プロセス管理が利用する管理テーブル
として共用メモリを使用し、分散プロセス管理を実現す
る三種類のデーモンが共通して当該共用メモリを参照す
る。また、共用メモリの管理内容の更新時に共用記録媒
体へ反映するようにし、他系計算機でプログラムが動作
中に自系計算機が停止して再度動作可能となったタイミ
ングで、共用記録媒体から情報を取り込む。その結果、
自系計算機の状態の変化に影響を受けずプロセス処理の
連続性を保つことができる。
【0042】図5において、50は分散プロセス管理す
る3つのデーモンが共通して書き込み/読み出すことが
できる共用メモリ(シェアードメモリ)であり、この共
用メモリ50は、他系プロセス情報管理テーブル51と
自系プロセス管理テーブル52を備えている。
る3つのデーモンが共通して書き込み/読み出すことが
できる共用メモリ(シェアードメモリ)であり、この共
用メモリ50は、他系プロセス情報管理テーブル51と
自系プロセス管理テーブル52を備えている。
【0043】他系プロセス情報管理テーブル51は、初
期起動時に図3の定義ファイルから他系計算機情報を取
り込み構築され、他系計算機上で管理されるプログラム
の計算機名,ソケット情報,要求開始時刻,プロセスI
D,親プロセスID,子プロセスID,プログラム名,
ライブラリ発行履歴が管理される。また、自系プロセス
情報管理テーブル52には、自系プロセス管理デーモン
K3が自系計算機上で管理するプログラムのプロセスI
D,起動時刻,親プロセスID,プログラム名,ライブ
ラリ発行履歴,子プロセスIDが取込まれ、これら管理
に必要な情報は予め図3の定義ファイルから初期起動時
に構築されるものである。
期起動時に図3の定義ファイルから他系計算機情報を取
り込み構築され、他系計算機上で管理されるプログラム
の計算機名,ソケット情報,要求開始時刻,プロセスI
D,親プロセスID,子プロセスID,プログラム名,
ライブラリ発行履歴が管理される。また、自系プロセス
情報管理テーブル52には、自系プロセス管理デーモン
K3が自系計算機上で管理するプログラムのプロセスI
D,起動時刻,親プロセスID,プログラム名,ライブ
ラリ発行履歴,子プロセスIDが取込まれ、これら管理
に必要な情報は予め図3の定義ファイルから初期起動時
に構築されるものである。
【0044】53は自系計算機の異常時に影響を受けな
い共用記憶媒体であり、他系プロセス情報管理テーブル
K53が新たに他系計算機上のプログラムに対する要求
及び報告を受け、このテーブル情報の更新時に、書き込
み要求(54)を介して共用記憶媒体53に上記テーブ
ル51の内容が反映されるものである。
い共用記憶媒体であり、他系プロセス情報管理テーブル
K53が新たに他系計算機上のプログラムに対する要求
及び報告を受け、このテーブル情報の更新時に、書き込
み要求(54)を介して共用記憶媒体53に上記テーブ
ル51の内容が反映されるものである。
【0045】この情報管理システムでは、プロセス管理
が利用する管理テーブル(他系プロセス情報管理テーブ
ル51,自系プロセス情報管理テーブル52)を備えた
共用メモリ(シェアードメモリ)50を使用し、分散プ
ロセス管理を実現する三種類のデーモンが共通に参照で
き、管理内容の更新時に共用記録媒体53へ反映するこ
とにより、他系計算機でプログラムが動作中に自系計算
機が停止して再度動作可能となったタイミングで、共用
記録媒体から情報を取り込み、処理の連続を保持するこ
とができる。
が利用する管理テーブル(他系プロセス情報管理テーブ
ル51,自系プロセス情報管理テーブル52)を備えた
共用メモリ(シェアードメモリ)50を使用し、分散プ
ロセス管理を実現する三種類のデーモンが共通に参照で
き、管理内容の更新時に共用記録媒体53へ反映するこ
とにより、他系計算機でプログラムが動作中に自系計算
機が停止して再度動作可能となったタイミングで、共用
記録媒体から情報を取り込み、処理の連続を保持するこ
とができる。
【0046】その結果、自系計算機に異常が発生し、復
帰した場合、共用記録媒体53に管理情報を持つことに
より、他系計算機から情報が変更でき、その情報を元に
処理の連続性が保持される効果がある。
帰した場合、共用記録媒体53に管理情報を持つことに
より、他系計算機から情報が変更でき、その情報を元に
処理の連続性が保持される効果がある。
【0047】実施の形態6.(起動要求可否メッセー
ジ) ここでは、他系計算機で動作するプロセスの負荷バラン
スを一定にする手段として、他系計算機でプロセスを起
動する場合に、予め起動要求を行なう予定の計算機に現
状プロセス管理状況を確認後に要求を発行するようにす
る。
ジ) ここでは、他系計算機で動作するプロセスの負荷バラン
スを一定にする手段として、他系計算機でプロセスを起
動する場合に、予め起動要求を行なう予定の計算機に現
状プロセス管理状況を確認後に要求を発行するようにす
る。
【0048】図6において、Kは自系計算機、2A〜8
Dは他系計算機であり、自系計算機Kから図3に示した
定義ファイルを元に計算機優先順位の高い他系計算機2
Aに対して起動要求可否メッセージ(6−1)を送信す
る。他系計算機2A上で管理が不可能である場合には応
答メッセージ(6−2)によって否情報を返信する。返
信メッセージ否情報を受けた自系計算機Kは、次に優先
順位の高い他系計算機3Aへ起動要求メッセージ(6−
1)を送信し、応答メッセージ(6−2)を持つ。応答
メッセージ(6−2)の情報が否である場合は、更に優
先順位の次に高い計算機へ上記と同様の起動要求メッセ
ージ(6−1)を送信し、応答メッセージ可情報が返信
されるまで続ける。
Dは他系計算機であり、自系計算機Kから図3に示した
定義ファイルを元に計算機優先順位の高い他系計算機2
Aに対して起動要求可否メッセージ(6−1)を送信す
る。他系計算機2A上で管理が不可能である場合には応
答メッセージ(6−2)によって否情報を返信する。返
信メッセージ否情報を受けた自系計算機Kは、次に優先
順位の高い他系計算機3Aへ起動要求メッセージ(6−
1)を送信し、応答メッセージ(6−2)を持つ。応答
メッセージ(6−2)の情報が否である場合は、更に優
先順位の次に高い計算機へ上記と同様の起動要求メッセ
ージ(6−1)を送信し、応答メッセージ可情報が返信
されるまで続ける。
【0049】また、全ての他系計算機で応答メッセージ
否が返信された場合は、ユーザにエラーリターンを返す
処理を行なう。
否が返信された場合は、ユーザにエラーリターンを返す
処理を行なう。
【0050】この起動要求メッセージ送信による効果
は、起動要求を行なう予定の計算機に現状プロセス管理
状況を確認した後、起動可であれば起動要求のあったモ
ジュールを他系計算機上で動作させるようにしたので、
各計算機内での必要以外のシステムコールの発行を抑止
する効果がある。
は、起動要求を行なう予定の計算機に現状プロセス管理
状況を確認した後、起動可であれば起動要求のあったモ
ジュールを他系計算機上で動作させるようにしたので、
各計算機内での必要以外のシステムコールの発行を抑止
する効果がある。
【0051】実施の形態7.(共用記憶媒体) 実施の形態7では、図5に述べた共用記憶媒体が複数計
算機に接続されているシステムにおいて、その共用記憶
媒体に各計算機内のプロセス管理動作履歴を置くことに
よって、他系計算機上のプロセス管理情報を共用記憶媒
体から取り込み、現時点でプロセスの管理負荷の小さい
計算機を見つけてその他系計算機に起動要求を行なうこ
とを目的とする。
算機に接続されているシステムにおいて、その共用記憶
媒体に各計算機内のプロセス管理動作履歴を置くことに
よって、他系計算機上のプロセス管理情報を共用記憶媒
体から取り込み、現時点でプロセスの管理負荷の小さい
計算機を見つけてその他系計算機に起動要求を行なうこ
とを目的とする。
【0052】図7において、71は全ての計算機から参
照可能な共用記憶媒体であり、この共用記憶媒体71上
に各計算機のプロセス管理履歴情報群のテーブル72を
設け、全ての計算機情報をどの計算機からも参照できる
ようにする。他系計算機2A〜8Dの情報は書き込み
(7−1)によって各計算機上で管理情報の更新時に共
用記憶媒体71へ反映する。他系計算機上でプロセス起
動を行なおうとする自系計算機Kは、要求を発行する前
に共用記憶媒体72の情報を読み取り(7−2)により
得て、現在もっとも負荷の軽い計算機を選出する。
照可能な共用記憶媒体であり、この共用記憶媒体71上
に各計算機のプロセス管理履歴情報群のテーブル72を
設け、全ての計算機情報をどの計算機からも参照できる
ようにする。他系計算機2A〜8Dの情報は書き込み
(7−1)によって各計算機上で管理情報の更新時に共
用記憶媒体71へ反映する。他系計算機上でプロセス起
動を行なおうとする自系計算機Kは、要求を発行する前
に共用記憶媒体72の情報を読み取り(7−2)により
得て、現在もっとも負荷の軽い計算機を選出する。
【0053】このように、共用記憶媒体71に各計算機
内のプロセス管理動作履歴を置くことによって、共用記
憶媒体71を用いてシステム全体の管理履歴情報が参照
でき、最も負荷の低い他系計算機へ直接要求が発行で
き、起動要求から実行までの時間を短縮する効果があ
る。
内のプロセス管理動作履歴を置くことによって、共用記
憶媒体71を用いてシステム全体の管理履歴情報が参照
でき、最も負荷の低い他系計算機へ直接要求が発行で
き、起動要求から実行までの時間を短縮する効果があ
る。
【0054】実施の形態8.(起動要求) 実施の形態8では、他系計算機のプロセス起動要求を発
行したが、複数計算機システム内で一の計算機上のみに
しか該当プロセスが存在しない場合、定義ファィルに設
定された計算機順に起動要求を発行して行き、必ず該当
プロセスの起動を可能とすることを目的とする。
行したが、複数計算機システム内で一の計算機上のみに
しか該当プロセスが存在しない場合、定義ファィルに設
定された計算機順に起動要求を発行して行き、必ず該当
プロセスの起動を可能とすることを目的とする。
【0055】図8において、2A,3A・・・8Dは他系
計算機であり、自系計算機Kから起動要求ソケットメッ
セージを発行し、他系計算機上に要求されたプログラム
が存在しない場合、自系計算機Kは定義ファイル中のM
ac−nameで指定されている全ての計算機に対して
優先順序にしたがって要求を発行する。
計算機であり、自系計算機Kから起動要求ソケットメッ
セージを発行し、他系計算機上に要求されたプログラム
が存在しない場合、自系計算機Kは定義ファイル中のM
ac−nameで指定されている全ての計算機に対して
優先順序にしたがって要求を発行する。
【0056】図8は他系計算機3Aだけに目的とするプ
ログラムモジュールが存在する場合を例示したもので、
起動要求ソケットメッセージ(81)を受けた他系計算
機2Aは、目的のプログラムモジュールが存在しない旨
のソケット返信メッセージ(81−2)を自系計算機K
に送信する。次に、自系計算機Kは起動要求ソケットメ
ッセージ(82)を計算機3Aに発行し、計算機3A側
で該当プログラムモジュールを起動した後、ソケット返
信メッセージ(82−2)により自系計算機Kに起動報
告がなされる。
ログラムモジュールが存在する場合を例示したもので、
起動要求ソケットメッセージ(81)を受けた他系計算
機2Aは、目的のプログラムモジュールが存在しない旨
のソケット返信メッセージ(81−2)を自系計算機K
に送信する。次に、自系計算機Kは起動要求ソケットメ
ッセージ(82)を計算機3Aに発行し、計算機3A側
で該当プログラムモジュールを起動した後、ソケット返
信メッセージ(82−2)により自系計算機Kに起動報
告がなされる。
【0057】この実施の形態8による効果は、複数計算
機システム内で一の計算機上のみにしか該当プロセスが
存在しない場合、起動要求のあったロードモジュールに
対して、必ず起動させることを目的とし、設定されてい
る全ての計算機をサーチし、該当モジュールが必ず起動
できることにある。
機システム内で一の計算機上のみにしか該当プロセスが
存在しない場合、起動要求のあったロードモジュールに
対して、必ず起動させることを目的とし、設定されてい
る全ての計算機をサーチし、該当モジュールが必ず起動
できることにある。
【0058】実施の形態9.(ハートビートメッセー
ジ) 実施の形態9では、起動要求先となっていた他系計算機
が異常状態となった場合に備え、他系プロセス監視デー
モンが定期的にハートビートメッセージを発進し、その
メッセージが一定時間途絶えた時、他系計算機の異常と
判断するようにする。異常と判断する時間は、ネットワ
ーク負荷時を考慮した時間より遅くするものである。こ
の実施の形態によれば、異常と判断した計算機に対して
要求を行なっていたプロセスの情報を参照し、速やかに
ユーザーへ報告することができる。
ジ) 実施の形態9では、起動要求先となっていた他系計算機
が異常状態となった場合に備え、他系プロセス監視デー
モンが定期的にハートビートメッセージを発進し、その
メッセージが一定時間途絶えた時、他系計算機の異常と
判断するようにする。異常と判断する時間は、ネットワ
ーク負荷時を考慮した時間より遅くするものである。こ
の実施の形態によれば、異常と判断した計算機に対して
要求を行なっていたプロセスの情報を参照し、速やかに
ユーザーへ報告することができる。
【0059】この実施の形態9を図9により説明する。
各計算機上の他系プロセス監視デーモンは、ハートビー
ト(定期間隔通知)メッセージ91を、定義ファイルに
定義された全ての計算機に対して、自系計算機が正常で
あることを認識させるために発信する。通常、他系計算
機に要求を発行した場合、処理の途中で計算機に異常が
発生してもそれがわからなければ、処理中だと認識して
しまうことになる。そこで定期連続メッセージ91をハ
ートビートの役割とし、92に示すようにハートビート
メッセージが断続的に途絶えた場合、メッセージが途絶
えた計算機へ要求した処理を、即座に中断させるように
する。
各計算機上の他系プロセス監視デーモンは、ハートビー
ト(定期間隔通知)メッセージ91を、定義ファイルに
定義された全ての計算機に対して、自系計算機が正常で
あることを認識させるために発信する。通常、他系計算
機に要求を発行した場合、処理の途中で計算機に異常が
発生してもそれがわからなければ、処理中だと認識して
しまうことになる。そこで定期連続メッセージ91をハ
ートビートの役割とし、92に示すようにハートビート
メッセージが断続的に途絶えた場合、メッセージが途絶
えた計算機へ要求した処理を、即座に中断させるように
する。
【0060】この実施の形態9による効果は、他系計算
機で動作中のプロセスを自系で管理している場合に、他
系計算機が異常となった時、その状態を即座に認識する
ことができ、それに対応する処置を即座に行なうことが
できる。
機で動作中のプロセスを自系で管理している場合に、他
系計算機が異常となった時、その状態を即座に認識する
ことができ、それに対応する処置を即座に行なうことが
できる。
【0061】実施の形態10.実施の形態10は、図7
に示す共用記憶媒体を持たない複数計算機システムにお
いて、実施の形態7と実施の形態9の機能を実現するも
のであり、上記ハートビートメッセージ上に各計算機内
におけるプロセス管理動作履歴をデータとして乗せて発
信するようにする。計算機は全系からのハートビートメ
ッセージを受信することにより、各計算機毎の履歴情報
を確認してプロセス管理状況負荷の一番低い計算機に対
して起動要求を行なうことができる。
に示す共用記憶媒体を持たない複数計算機システムにお
いて、実施の形態7と実施の形態9の機能を実現するも
のであり、上記ハートビートメッセージ上に各計算機内
におけるプロセス管理動作履歴をデータとして乗せて発
信するようにする。計算機は全系からのハートビートメ
ッセージを受信することにより、各計算機毎の履歴情報
を確認してプロセス管理状況負荷の一番低い計算機に対
して起動要求を行なうことができる。
【0062】本実施の形態10を図10について説明す
る。この実施の形態では図7のような共用記憶媒体が存
在しない。そこで、自系計算機Kは、ネットワークに接
続された他の計算機より、各計算機のプロセス管理履歴
情報を、定期的にハートビートの役割を兼ねたプロセス
履歴情報メッセージ(2A−1),…,(8D−1)に
より受信する。そして、そのメッセージを自系計算機K
内のシェアードメモリ内テーブル上に(101)により
書き込んで集計し、全体の履歴情報を計算機内で確認す
る。そして、上記履歴情報の読み取り(102)の結果
から、他系プロセス監視デーモンは例えば一番負荷の軽
い計算機8Dに対し起動要求ソケットメッセージ103
を発行するものである。
る。この実施の形態では図7のような共用記憶媒体が存
在しない。そこで、自系計算機Kは、ネットワークに接
続された他の計算機より、各計算機のプロセス管理履歴
情報を、定期的にハートビートの役割を兼ねたプロセス
履歴情報メッセージ(2A−1),…,(8D−1)に
より受信する。そして、そのメッセージを自系計算機K
内のシェアードメモリ内テーブル上に(101)により
書き込んで集計し、全体の履歴情報を計算機内で確認す
る。そして、上記履歴情報の読み取り(102)の結果
から、他系プロセス監視デーモンは例えば一番負荷の軽
い計算機8Dに対し起動要求ソケットメッセージ103
を発行するものである。
【0063】この実施の形態10による効果は、共用記
憶媒体を持たないシステムにおいても、ハートビートメ
ッセージのデータに各計算機の管理履歴情報を乗せて送
ることにより、共用記憶媒体を利用した時と同等のシス
テム全体の情報を各計算機で参照できるとともに、定期
的なハートビートメッセージを利用するため、他系計算
機の状態を一度に確認できる効果がある。
憶媒体を持たないシステムにおいても、ハートビートメ
ッセージのデータに各計算機の管理履歴情報を乗せて送
ることにより、共用記憶媒体を利用した時と同等のシス
テム全体の情報を各計算機で参照できるとともに、定期
的なハートビートメッセージを利用するため、他系計算
機の状態を一度に確認できる効果がある。
【0064】
【発明の効果】以上のようにこの発明によれば、複数計
算機システムにおける各計算機の負荷や正常状態以外の
状態時でも、アプリケーションからの要求を、3つの分
散プロセス管理を実現するデーモンプロセスにより、タ
イミング的な依存を抑えて実行できるように構成したの
で、予め提供する定義ファイルにより、システムの設定
を行なうことにより、アプリケーションは各計算機情報
を意識する必要がなく、ライブラリに定義するパラメー
タについてもシンプルな設定で済み、同アプリケーショ
ンのソースを修正することなく各計算機で実行できる効
果がある。
算機システムにおける各計算機の負荷や正常状態以外の
状態時でも、アプリケーションからの要求を、3つの分
散プロセス管理を実現するデーモンプロセスにより、タ
イミング的な依存を抑えて実行できるように構成したの
で、予め提供する定義ファイルにより、システムの設定
を行なうことにより、アプリケーションは各計算機情報
を意識する必要がなく、ライブラリに定義するパラメー
タについてもシンプルな設定で済み、同アプリケーショ
ンのソースを修正することなく各計算機で実行できる効
果がある。
【図1】 この発明の実施の形態による分散プロセス管
理システムの構成及び処理の流れを表した図である。
理システムの構成及び処理の流れを表した図である。
【図2】 この発明の実施の形態に示すLANで接続さ
れた複数計算機システムを表した図である。
れた複数計算機システムを表した図である。
【図3】 この発明の実施の形態による複数計算機シス
テムを管理するための定義ファイルの内容を示す図であ
る。
テムを管理するための定義ファイルの内容を示す図であ
る。
【図4】 この発明の実施の形態によるアプリケーショ
ンから要求された自系計算機内での処理の流れを表わし
た図である。
ンから要求された自系計算機内での処理の流れを表わし
た図である。
【図5】 この発明の実施の形態による自系計算機の状
態の変化に影響を受けず処理の連続性を保つ手段を表し
た図である。
態の変化に影響を受けず処理の連続性を保つ手段を表し
た図である。
【図6】 この発明の実施の形態による必要最小限のシ
ステムコールの発行を実現するために、他系計算機に対
する要求の前に予め伺いをたてて処理を行なうことを表
す図である。
ステムコールの発行を実現するために、他系計算機に対
する要求の前に予め伺いをたてて処理を行なうことを表
す図である。
【図7】 この発明の実施の形態による共用記憶媒体を
利用して、システム全体の管理情報を集中的に一ケ所に
管理した処理を表わす図である。
利用して、システム全体の管理情報を集中的に一ケ所に
管理した処理を表わす図である。
【図8】 この発明の実施の形態による複数計算機シス
テムにおいて、要求のあった該当するプログラムがシス
テム中に1台の計算機上にのみ存在する場合の処理の流
れを表わした図である。
テムにおいて、要求のあった該当するプログラムがシス
テム中に1台の計算機上にのみ存在する場合の処理の流
れを表わした図である。
【図9】 この発明の実施の形態による計算機間の状態
を確認する動作を表わした図である。
を確認する動作を表わした図である。
【図10】 この発明の実施の形態による共用記憶媒体
を利用しないシステムにおいて、計算機間の状態の認識
と各計算機上の情報を組み合わせた処理を表わした図で
ある。
を利用しないシステムにおいて、計算機間の状態の認識
と各計算機上の情報を組み合わせた処理を表わした図で
ある。
K1,M1,N1 他系プロセス監視デーモン、K2,
M2,N2 他系プロセス管理デーモン、K3,M3,
N3 自系プロセス管理デーモン、K4 ユーザアプリ
ケーション、(1) Socket通信によるプロセス
要求、(2)メッセージ、(3) プロセスに対するア
クション及び結果、(4) 結果報告メッセージ、
(5) プロセスに対する結果及び他系情報メッセー
ジ、(6)結果報告Socket通信、2A,3A,4
B,5B,6C,7C,8D マシン名(IPアドレス
で設定されたHost name)、System L
ANに接続された分散プロセス管理を行なう計算機の台
数、Mac−name マシン名(IPアドレスで設定
されたHost name)、Prc−count各計
算機毎の管理数、Prc−path プログラム起動の
際にプログラムを探すpath、Prc−Env プロ
グラム起動の際に引継がせる環境変数、(41) メッ
セージ(ライブラリによる要求)、(42−1) 他系
計算機に対する要求メッセージ、(42−2) 自系計
算機内部でのプロセス管理処理、(42−3),(42
−3) Socket通信、(43) 他系計算機での
プロセス管理処理結果メッセージ、(44) プロセス
管理処理結果(ライブラリのリターン)、50 共用メ
モリ、51 他系プロセス情報管理テーブル、52 自
系プロセス情報管理テーブル、53 共用記憶媒体、5
4 共用媒体に対する書き込み要求、(6−1) 起動
要求可否伺いメッセージ、(6−2) 可/否メッセー
ジ情報、71 共用記憶媒体、72 プロセス管理履歴
情報集中管理テーブル、(7−1) 書き込み、(7−
2) 読み取り、(81),(82) 起動要求Soc
ketメッセージ、(81−2),(82−2) 要求
処理結果Socket返信メッセージ、91 ハートビ
ート(定期間隔通知)メッセージ、92 ハートビート
メッセージの途断、101 シェアードメモリ内デーブ
ルに書き込み、102 履歴情報読み取り、103 起
動要求Socketメッセージ、(2A−1),(8D
−1) ハートビート+プロセス履歴情報メッセージ。
M2,N2 他系プロセス管理デーモン、K3,M3,
N3 自系プロセス管理デーモン、K4 ユーザアプリ
ケーション、(1) Socket通信によるプロセス
要求、(2)メッセージ、(3) プロセスに対するア
クション及び結果、(4) 結果報告メッセージ、
(5) プロセスに対する結果及び他系情報メッセー
ジ、(6)結果報告Socket通信、2A,3A,4
B,5B,6C,7C,8D マシン名(IPアドレス
で設定されたHost name)、System L
ANに接続された分散プロセス管理を行なう計算機の台
数、Mac−name マシン名(IPアドレスで設定
されたHost name)、Prc−count各計
算機毎の管理数、Prc−path プログラム起動の
際にプログラムを探すpath、Prc−Env プロ
グラム起動の際に引継がせる環境変数、(41) メッ
セージ(ライブラリによる要求)、(42−1) 他系
計算機に対する要求メッセージ、(42−2) 自系計
算機内部でのプロセス管理処理、(42−3),(42
−3) Socket通信、(43) 他系計算機での
プロセス管理処理結果メッセージ、(44) プロセス
管理処理結果(ライブラリのリターン)、50 共用メ
モリ、51 他系プロセス情報管理テーブル、52 自
系プロセス情報管理テーブル、53 共用記憶媒体、5
4 共用媒体に対する書き込み要求、(6−1) 起動
要求可否伺いメッセージ、(6−2) 可/否メッセー
ジ情報、71 共用記憶媒体、72 プロセス管理履歴
情報集中管理テーブル、(7−1) 書き込み、(7−
2) 読み取り、(81),(82) 起動要求Soc
ketメッセージ、(81−2),(82−2) 要求
処理結果Socket返信メッセージ、91 ハートビ
ート(定期間隔通知)メッセージ、92 ハートビート
メッセージの途断、101 シェアードメモリ内デーブ
ルに書き込み、102 履歴情報読み取り、103 起
動要求Socketメッセージ、(2A−1),(8D
−1) ハートビート+プロセス履歴情報メッセージ。
Claims (12)
- 【請求項1】 ネットワークを介して接続された複数計
算機の分散プロセス管理システムにおいて、 自系計算機内のプログラムの動作を管理し、プログラム
の起動,終了,同期,シグナルの送付等を要求する自系
プロセス管理デーモンと、 他系計算機で動作する上記プログラムの起動,同期,シ
グナルの送付の要求を発行し、他系計算機で動作するプ
ログラムの状態を監視する他系プロセス監視デーモン
と、 他系計算機からの上記要求を受け取り上記自系プロセス
管理デーモンへ送信し、その処理結果を自系計算機内の
他系プロセス監視デーモンへ報告する他系プロセス管理
デーモンの3つのデーモン構成からなる分散プロセス管
理システム。 - 【請求項2】 上記デーモンは上記プロセスを管理する
手段として定義ファイルを利用し、この定義ファイルは
複数計算機間で動作するプロセス管理デーモンの計算機
名を列挙していることを特徴とする請求項1記載の分散
プロセス管理システム。 - 【請求項3】 上記定義ファイルで設定された計算機名
は、自系計算機以外で起動するプログラムの起動要求発
行先の他系計算機であって、その順序は優先起動順位を
示し、上記要求発行先の計算機の状態をチェックし、計
算機負荷に余裕がありかつプログラムの起動が可能な計
算機を設定順に確認することを特徴とする請求項2記載
の分散プロセス管理システム。 - 【請求項4】 上記定義ファイルには、予めプログラム
起動権限を与える計算機名と起動パスを設定し、起動要
求を行なう際にはプロセス名の指定のみの要求で、定義
ファイル中に定義された計算機内の該当するパス下をサ
ーチし、プロセス名と一致するモジュールが起動可能で
ある場合、当該プロセスの起動を行なうことを特徴とす
る請求項2又は請求項3記載の分散プロセス管理システ
ム。 - 【請求項5】 プロセス管理専用のライブラリをユーザ
に提供し、ユーザに提供するライブラリは、プログラム
の起動(振り逃げ/完了),同期要求等を含み、上記デ
ーモン間及びデーモン−アプリケーション間の通信には
メッセージを利用するとともに、計算機間をまたがる通
信には、プロセス管理専用のソケット通信により行なう
ことを特徴とする請求項1から請求項4のいずれか1項
に記載の分散プロセス管理システム。 - 【請求項6】 上記三種類のデーモンがプロセス管理の
ために利用する共用メモリを設置し、この共用メモリは
他系プロセス情報管理テーブルと自系プロセス管理テー
ブルを有することを特徴とする請求項1から請求項5の
いずれか1項に記載の分散プロセス管理システム。 - 【請求項7】 上記共用メモリの管理内容の更新時に当
該内容が反映される共用記録媒体を設置し、上記共用メ
モリは他系計算機でプログラムが動作中に自系計算機が
停止して再度動作可能となったタイミングで上記共用記
録媒体から情報を取り込むことを特徴とする請求項6記
載の分散プロセス管理システム。 - 【請求項8】 上記共用記憶媒体が複数計算機に接続さ
れているシステムにおいて、各計算機内におけるプロセ
ス管理動作履歴情報を上記共用記憶媒体に取り込み、現
時点でプロセスの管理負荷の小さい計算機を見つけてそ
の計算機に起動要求を行なうことを特徴とする請求項7
記載の分散プロセス管理システム。 - 【請求項9】 他系計算機で動作するプロセスの負荷バ
ランスを一定にするために、他系計算機でプロセスを起
動する場合に、予め起動要求を行なう予定の計算機に現
状プロセス管理状況を確認した後に要求を発行すること
を特徴とする請求項1から請求項8のいずれか1項に記
載の分散プロセス管理システム。 - 【請求項10】 他系計算機のプロセス起動要求を発行
する場合、システム内に一計算機上のみにしか該当プロ
セスが存在しない場合、定義ファィルに設定された計算
機順に起動要求を発行していくことを請求項1から請求
項9のいずれか1項に記載の特徴とする分散プロセス管
理システム。 - 【請求項11】 上記他系プロセス監視デーモンはハー
トビートメッセージを定期的に発進し、起動要求先とな
っていた他系計算機が異常状態となった場合、当該他系
計算機が発進するハートビートメッセージが一定時間途
絶えることによって、他系計算機の異常と判断すること
を特徴とする請求項1から請求項10のいずれか1項に
記載の分散プロセス管理システム。 - 【請求項12】 共用記憶媒体を持たない複数計算機シ
ステムにおいて、各計算機内におけるプロセス管理動作
履歴をハートビートメッセージにデータとして乗せて発
信することを特徴とする請求項1から請求項7ないし請
求項9から請求項11のいずれか1項に記載の分散プロ
セス管理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8137987A JPH09319720A (ja) | 1996-05-31 | 1996-05-31 | 分散プロセス管理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8137987A JPH09319720A (ja) | 1996-05-31 | 1996-05-31 | 分散プロセス管理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09319720A true JPH09319720A (ja) | 1997-12-12 |
Family
ID=15211415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8137987A Pending JPH09319720A (ja) | 1996-05-31 | 1996-05-31 | 分散プロセス管理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09319720A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7546366B2 (en) | 2003-05-27 | 2009-06-09 | Nokia Corporation | Data collection in a computer cluster |
WO2011070607A1 (ja) * | 2009-12-07 | 2011-06-16 | 富士通株式会社 | サーバシステムの制御方法及びサーバの制御プログラム |
US8098573B2 (en) | 2008-07-16 | 2012-01-17 | Nec Corporation | Bridge, system, bridge control method and program recording medium |
US8234644B2 (en) | 2007-07-12 | 2012-07-31 | International Business Machines Corporation | Selecting a system management product for performance of system management tasks |
WO2013121545A1 (ja) | 2012-02-15 | 2013-08-22 | トヨタ自動車株式会社 | 車両用電子制御装置、データ受信方法 |
JP2015079413A (ja) * | 2013-10-18 | 2015-04-23 | 日本電信電話株式会社 | プロセス監視システム、プロセス監視方法 |
JPWO2016129275A1 (ja) * | 2015-02-10 | 2017-12-28 | 日本電気株式会社 | 情報処理装置、ログ管理システム、ログ管理方法及びプログラム |
-
1996
- 1996-05-31 JP JP8137987A patent/JPH09319720A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7546366B2 (en) | 2003-05-27 | 2009-06-09 | Nokia Corporation | Data collection in a computer cluster |
US8234644B2 (en) | 2007-07-12 | 2012-07-31 | International Business Machines Corporation | Selecting a system management product for performance of system management tasks |
US8098573B2 (en) | 2008-07-16 | 2012-01-17 | Nec Corporation | Bridge, system, bridge control method and program recording medium |
WO2011070607A1 (ja) * | 2009-12-07 | 2011-06-16 | 富士通株式会社 | サーバシステムの制御方法及びサーバの制御プログラム |
WO2013121545A1 (ja) | 2012-02-15 | 2013-08-22 | トヨタ自動車株式会社 | 車両用電子制御装置、データ受信方法 |
US9430298B2 (en) | 2012-02-15 | 2016-08-30 | Toyota Jidosha Kabushiki Kaisha | Vehicle electronic control device and data-receiving method |
JP2015079413A (ja) * | 2013-10-18 | 2015-04-23 | 日本電信電話株式会社 | プロセス監視システム、プロセス監視方法 |
JPWO2016129275A1 (ja) * | 2015-02-10 | 2017-12-28 | 日本電気株式会社 | 情報処理装置、ログ管理システム、ログ管理方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5828888A (en) | Computer network having os-versions management table to initiate network boot process via master computer | |
US8010830B2 (en) | Failover method, program, failover apparatus and failover system | |
US7203774B1 (en) | Bus specific device enumeration system and method | |
EP2816467B1 (en) | Method and device for checkpoint and restart of container state | |
US5687372A (en) | Customer information control system and method in a loosely coupled parallel processing environment | |
JP4855355B2 (ja) | フェールオーバにおける引き継ぎ先を自律的に変更する計算機システム及び方法 | |
US20040205148A1 (en) | Method for operating a computer cluster | |
JP2008293245A (ja) | フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法 | |
CN111597270B (zh) | 数据同步方法、装置、设备及计算机存储介质 | |
CN114064414A (zh) | 一种高可用的集群状态监控方法及系统 | |
CN117076096B (zh) | 任务流程的执行方法、装置、计算机可读介质及电子设备 | |
WO2006125391A1 (fr) | Systeme de traitement informatique pour la mise a niveau de donnees et procede de mise a niveau de donnees | |
US5682507A (en) | Plurality of servers having identical customer information control procedure functions using temporary storage file of a predetermined server for centrally storing temporary data records | |
US7543121B2 (en) | Computer system allowing any computer to copy any storage area within a storage system | |
US5790868A (en) | Customer information control system and method with transaction serialization control functions in a loosely coupled parallel processing environment | |
JP2000259585A (ja) | システムアプリケーション管理方式とその管理方式を実行するためのプログラムを記録した記録媒体 | |
JP3765201B2 (ja) | 計算機システム | |
US11397632B2 (en) | Safely recovering workloads within a finite timeframe from unhealthy cluster nodes | |
US8499080B2 (en) | Cluster control apparatus, control system, control method, and control program | |
US5630133A (en) | Customer information control system and method with API start and cancel transaction functions in a loosely coupled parallel processing environment | |
JPH09319720A (ja) | 分散プロセス管理システム | |
EP4443291A1 (en) | Cluster management method and device, and computing system | |
JP2009271858A (ja) | 計算機システム及びプログラム | |
JPH11232233A (ja) | ネットワークコンピュータ管理方法及びネットワークコンピュータシステム | |
CN113687915B (zh) | 容器运行方法、装置、设备及存储介质 |