JPS62143141A - Detecting system for down of processor - Google Patents
Detecting system for down of processorInfo
- Publication number
- JPS62143141A JPS62143141A JP60283904A JP28390485A JPS62143141A JP S62143141 A JPS62143141 A JP S62143141A JP 60283904 A JP60283904 A JP 60283904A JP 28390485 A JP28390485 A JP 28390485A JP S62143141 A JPS62143141 A JP S62143141A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- master
- notification
- auto
- repute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 1
Landscapes
- Multi Processors (AREA)
- Hardware Redundancy (AREA)
Abstract
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明はプロセサのダウン検出方式に関し、特に疎結合
マルチプロセサシステムにおケルプロセサダウン検出方
式に関する。DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a processor down detection method, and more particularly to a Kel processor down detection method for a loosely coupled multiprocessor system.
(従来の技術)
従来、疎結合マルチプロセサシステムにおいてプロセサ
のダウンを検出するためには、各プロセサが共有する装
置、あるいは特定のプロセサにウオッチドックタイマを
もたせ、各プロセサから定期的にウォッチドッグタイマ
をリセットすることができるように通知を発行する必要
がある。(Prior Art) Conventionally, in order to detect when a processor is down in a loosely coupled multiprocessor system, a watchdog timer is provided in a device shared by each processor or in a specific processor, and the watchdog timer is periodically transmitted from each processor. A notification needs to be issued so that it can be reset.
(発明が解決しようとする問題点)
上述した従来のプロセサダウン検出方式では、定期的に
通知を発行するため、CPUに重い負担がかかるという
欠点がある。また、上記通知の発行によってバスが定期
的にビジーになるという欠点もある。(Problems to be Solved by the Invention) The conventional processor down detection method described above has the drawback of placing a heavy burden on the CPU because notifications are issued periodically. Another drawback is that the bus becomes busy periodically due to the issuance of the above notifications.
本発明の目的は、マスタプロセサ、マスタ代替えプロセ
サ、ならびに複数のスレーブプロセサを有し、オートリ
プート機能(コンピュータシステムを運用中に障害が発
生して続行不可能になった場合、自動的に7ステムを初
期化して立上げることをいう。)をもった疎結合マルチ
プロセサシステムにおいて、各プロセサはオートリプー
ト通知制御装置にオートリプートの開始および終了の通
知をし、オートリプート通知制御前記装置では各プロセ
サからオートリプートの開始および終了の通知を受取り
、上記通知がマスタプロセサ以外から到来した場合には
プロセサ識別番号と上記通知とをマスタプロセサに送出
し、上記通知がマスタプロセサからきた場合には上記通
知をマスタ代替えプロセサに送出することによって上記
欠点を除去し、オートリプートの開始の通知を受取った
プロセサでは一定期間内にオートリプートの終了の通知
が到来しなければオー) IJプートの開始の通知を送
出したプロセサはダウンしたものとみなすことができる
ように構成したプロセサダウン検出方式を提供すること
にある。The object of the present invention is to have a master processor, a master replacement processor, and a plurality of slave processors, and an auto-reput function (if a failure occurs during operation of the computer system and it becomes impossible to continue, the system automatically restarts the 7-system system). ), each processor notifies an autoreput notification control device of the start and end of autoreput. Receives notifications of the start and end of autoreput, and if the above notification comes from a source other than the master processor, sends the processor identification number and the above notification to the master processor, and if the above notification comes from the master processor, sends the above notification to the master processor. The above drawback is removed by sending the notification to the master alternative processor, and if the processor that receives the notification of the start of autoreput does not receive the notification of the end of autoreput within a certain period of time, it sends the notification of the start of IJ put. It is an object of the present invention to provide a processor down detection method configured so that a processor that has failed can be regarded as having gone down.
(問題点を解決するための手段)
本発明によるプロセサダウン検出方式は、マスタプロセ
サ、マスタ代替えプロセサ、ならびに複数のスレーブプ
ロセサと、オートリプート通知制御装置とを具備して構
成したものである。(Means for Solving the Problems) A processor down detection method according to the present invention is configured to include a master processor, a master replacement processor, a plurality of slave processors, and an autoreput notification control device.
マスタプロセサ、マスタ代替えプロセサ、ならびに複数
のスレーブプロセサは、それぞれ共有記憶装置に接続さ
れていて疎結合され、オートリプートの開始/終了を通
知することができるとともに、自体に障害が発生した場
合には自動再立上げを行うためのオー) IJブート機
能を有するものである。The master processor, master replacement processor, and multiple slave processors are each connected to a shared storage device and are loosely coupled, and can notify the start/end of autoreput, and can also notify the start/end of autoreput in the event of a failure. It has an IJ boot function for automatic restart.
オートリプート通知制御装置は、オートリプートの開始
/終了の通知を受取シ、上記通知がマスタ代替えプロセ
サまたはスレーブプロセサから到来した場合にはマスタ
プロセサに上記通知およびプロセサ識別番号を送出し、
上記通知がマスタプロセサから到来した場合にはマスタ
代替えプロセサに上記通知を送出して処理を制御するた
めのものである。The autoreput notification control device receives a notification of the start/end of autoreput, and if the notification arrives from a master replacement processor or a slave processor, sends the notification and processor identification number to the master processor,
When the notification arrives from the master processor, it is sent to the master replacement processor to control processing.
(実施例) 次に、本発明について図面を参照して説明する。(Example) Next, the present invention will be explained with reference to the drawings.
第1図は、本発明によるプロセサダウン検出方式を実現
するだめの一実施例を示すブロック図である。第1図に
おいて、llはマスタプロセサ、12はマスタ代替えプ
ロセサ、13はスレーブプロセサ、14はスレーブプロ
セサ、2はオートリプート通知制御装置、3は共有記憶
装置である。FIG. 1 is a block diagram showing an embodiment of the processor down detection method according to the present invention. In FIG. 1, 11 is a master processor, 12 is a master replacement processor, 13 is a slave processor, 14 is a slave processor, 2 is an autoreput notification control device, and 3 is a shared storage device.
第1図において、プロセサ11−14はそれぞれオート
リプート通知制御装置2および共有記憶装#3に接続さ
れている。プロセサ11−14は自プロセサ内で障害が
発生すると、オートリプート機能により自動再立上げを
行うことができる。In FIG. 1, processors 11-14 are connected to autoreput notification control device 2 and shared storage device #3, respectively. When a failure occurs within the processors 11-14, the processors 11-14 can be automatically restarted using an autoreput function.
このとき、オートリプートの開始時には各プロセサはオ
ートリプートの開始の通知をオートリーグ通知制御装置
に送出し、オートリプートの終了時にはオートリプート
の終了の通知をオートリプート通知制御装置2に送出す
る。オートリプートの開始の通知、またはオートリプー
トの終了の通知がプロセサ12〜14から送出されてく
ると、オートリプート通知制御装置2はプロセサ番号と
上記通知とをマスタプロセサ11に送出する。一方、上
記通知がマスタプロセサ11から送られてくると、マス
タ代替えプロセサ12にこれを送出する。At this time, each processor sends a notification of the start of autoreputation to the autoleague notification control device at the start of autoreputation, and sends a notification of the end of autoreputation to the autoreputation notification control device 2 at the end of autoreputation. When a notification of the start of autoreput or a notification of the end of autoreput is sent from the processors 12 to 14, the autoreput notification control device 2 sends the processor number and the above notification to the master processor 11. On the other hand, when the above notification is sent from the master processor 11, it is sent to the master substitute processor 12.
オートリプートの開始の通知を受取ったマスタプロセサ
ILまたはマスタ代替えプロセサ12は時間監視を開始
し、オートリプートの終了の通知を待つ。一定時間内に
オートリプートの終了の通知が到来しなければ、オート
リプートの開始の通知を送出したプロセサは、オートリ
プート中に障害が発生し、オー) IJブートの続行が
不可能となってダウンしたものとみなされる。The master processor IL or the master substitute processor 12, which has received the notification of the start of autoreputation, starts time monitoring and waits for the notification of the end of autoreputation. If the notification of the end of autoreput does not arrive within a certain period of time, the processor that sent the notification of the start of autoreput will fail during autoreput, and will be unable to continue IJ boot and go down. shall be deemed to have been done.
プロセサのダウンを検出したマスタプロセサ11または
マスタ代替えプロセサ12は、ダウンしたプロセサの番
号をプロセサ間通信によって他のすべてのプロセサに通
知する。ダウンしたプロセサがマスタプロセサ11であ
る場合には、マスタ代替えプロセサ12がマスタプロセ
サとなシ、その後のオートリプート時間監視等の処理を
マスタプロセサ11に代って実行する。The master processor 11 or master substitute processor 12 that has detected that a processor is down notifies all other processors of the number of the down processor through inter-processor communication. If the processor that has gone down is the master processor 11, the master replacement processor 12 takes over as the master processor and executes subsequent processes such as monitoring autoreput time in place of the master processor 11.
ここで、プロセサ11−14は逐次、自グロセサの運用
状態を共有記憶装置3に書込むので、あるプロセサがダ
ウンした場合には、あらかじめ指定されているプロセサ
によってダウンしたプロセサの処理が引継がれる。この
引継ぎは、ダウンしたプロセサの番号が通知されてきた
時点で行われる。Here, the processors 11-14 sequentially write the operating status of their own processors to the shared storage device 3, so if a certain processor goes down, a previously designated processor takes over the processing of the down processor. This handover is performed when the number of the down processor is notified.
(発明の効果)
以上説明したように本発明によれば、マスタプロセサ、
マスタ代替えプロセサ、ならびに複数のスレーブプロセ
サを有し、オートリゲート機能をもつ疎結合マルチグロ
セサ7ステムにおいて、各プロセサはオートリプート通
知制御装置にオートリプートの開始および終了の通知を
送出し、オートリプート通知制御装置が各プロセサから
オートリプートの開始および終了の通知を受取り、上記
通知がマスタプロセサ以外から到来した場合にはプロセ
サ番号と上記通知とをマスタプロセサに送出し、上記通
知がマスタプロセサから到来した場合にはマスタ代替え
プロセサに送出することにより、通常の運用時にCPU
へ重い負担をかけず、またバスをビジーにすることもな
くプロセサのダウンを検出することができるという効果
がある。(Effects of the Invention) As explained above, according to the present invention, the master processor,
In a loosely coupled multi-grocer 7 system that has a master replacement processor and multiple slave processors and has an autoregate function, each processor sends autoreput start and end notifications to the autoreput notification control device, and performs autoreput notification control. The device receives notifications of the start and end of autoreput from each processor, and if the above notifications arrive from a source other than the master processor, sends the processor number and the above notifications to the master processor, and if the above notifications arrive from the master processor. By sending the data to the master alternative processor, the CPU
This has the effect of being able to detect processor failure without placing a heavy burden on the processor or making the bus busy.
第1図は、本発明によるプロセサダウン検出方式を実現
するだめの一実施例を示すブロック図である。
11・・・マスタプロセサ
12・・・マスタ代替えプロセサ
13.14・争・スレーブプロセサ
2修・・オー) IJプート通知制御装置3・・・共有
記憶装置FIG. 1 is a block diagram showing an embodiment of the processor down detection method according to the present invention. 11...Master processor 12...Master replacement processor 13.14・Conflict・Slave processor 2 repair...O) IJ put notification control device 3...Shared storage device
Claims (1)
ートリプートの開始/終了を通知することができるとと
もに、自体に障害が発生した場合には自動再立上げを行
うためのオートリプート機能を有するマスタプロセサ、
マスタ代替えプロセサ、ならびに複数のスレーブプロセ
サと、前記オートリプートの開始/終了の通知を受取り
、前記通知が前記マスタ代替えプロセサまたは前記スレ
ーブプロセサから到来した場合には前記マスタプロセサ
に前記通知およびプロセサ識別番号を送出し、前記通知
が前記マスタプロセサから到来した場合には前記マスタ
代替えプロセサに前記通知を送出して処理を制御するた
めのオートリプート通知制御装置とを具備して構成した
ことを特徴とするプロセサダウン検出方式。Each master is connected to a shared storage device, is loosely coupled, can notify the start/end of autoreput, and has an autoreput function to automatically restart itself in the event of a failure. processor,
A master replacement processor and a plurality of slave processors receive a notification of the start/end of the autoreput, and if the notification comes from the master replacement processor or the slave processor, send the notification and the processor identification number to the master processor. and an autoreput notification control device for sending the notification to the master replacement processor to control processing when the notification arrives from the master processor. Processor down detection method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60283904A JPS62143141A (en) | 1985-12-17 | 1985-12-17 | Detecting system for down of processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60283904A JPS62143141A (en) | 1985-12-17 | 1985-12-17 | Detecting system for down of processor |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS62143141A true JPS62143141A (en) | 1987-06-26 |
Family
ID=17671688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60283904A Pending JPS62143141A (en) | 1985-12-17 | 1985-12-17 | Detecting system for down of processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62143141A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07200091A (en) * | 1993-12-29 | 1995-08-04 | Nec Corp | Notifying system for automatic restart |
-
1985
- 1985-12-17 JP JP60283904A patent/JPS62143141A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07200091A (en) * | 1993-12-29 | 1995-08-04 | Nec Corp | Notifying system for automatic restart |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7941810B2 (en) | Extensible and flexible firmware architecture for reliability, availability, serviceability features | |
US4894828A (en) | Multiple sup swap mechanism | |
US20150006978A1 (en) | Processor system | |
KR20000011835A (en) | Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applicatons in a network | |
CN105204952B (en) | A kind of multi-core operation System Fault Tolerance management method | |
AU2014376751B2 (en) | Redundant system and method for managing redundant system | |
JPH04178871A (en) | Initialization processing device | |
CN116991637B (en) | Operation control method and device of embedded system, electronic equipment and storage medium | |
JPS62143141A (en) | Detecting system for down of processor | |
JP2006172218A (en) | Computer system and system monitoring program | |
JPH10116261A (en) | Checkpoint restart method for parallel computer system | |
JPH06236299A (en) | System monitoring method and monitoring device | |
JPH02105961A (en) | Multiprocessor synchronization system | |
JP2785992B2 (en) | Server program management processing method | |
JP2002351855A (en) | Computer abnormality handling system, computer abnormality handling method, computer abnormality handling program running on computer and computer abnormality handling program stored in machine readable storage medium | |
KR20000041926A (en) | Restarting system and method for specific processor in inter processor communication system | |
JPS6128141B2 (en) | ||
JPS6356755A (en) | Slave processor error monitoring method | |
JP3318926B2 (en) | Time synchronization method | |
JPH0628407A (en) | Data base system | |
JPS622334B2 (en) | ||
CN119690618A (en) | IPMI command processing method and device | |
JPH10143393A (en) | Diagnosis and processing device | |
JPH02310755A (en) | Health check system | |
JPH0756773A (en) | Method for diagnosing control device |