JP2002287997A - 多重系処理方法 - Google Patents
多重系処理方法Info
- Publication number
- JP2002287997A JP2002287997A JP2001086329A JP2001086329A JP2002287997A JP 2002287997 A JP2002287997 A JP 2002287997A JP 2001086329 A JP2001086329 A JP 2001086329A JP 2001086329 A JP2001086329 A JP 2001086329A JP 2002287997 A JP2002287997 A JP 2002287997A
- Authority
- JP
- Japan
- Prior art keywords
- data
- element processing
- processing
- processing device
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/182—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits based on mutual exchange of the output between redundant processing components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1675—Temporal synchronisation or re-synchronisation of redundant processing components
- G06F11/1691—Temporal synchronisation or re-synchronisation of redundant processing components using a quantum
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
系処理装置では、アプリケーションに応じて専用のもの
を用いていたため、低コスト化が困難であるなどの問題
点があった。 【解決手段】 個別のクロックにより駆動される複数の
要素処理装置と、各要素処理装置が互いにデータの提供
および取得をする情報伝達媒体を用い、各要素処理装置
が、トリガデータの提供または取得をしたタイミングに
て周期的なデータ処理を独自の判断で開始し、入力対象
からの入力データを取得して所定の演算処理をし、演算
結果を情報伝達媒体に提供し、情報伝達媒体から他の要
素処理装置が提供した演算結果を取得し、複数の演算結
果から論理決定で得た演算結果を出力データとして、出
力データを有する要素処理装置のうちのいずれかが出力
対象に出力データを出力する多重系処理方法とし、個々
のクロックで駆動される複数の要素処理装置を用いた疎
結合方式でありながら各要素処理装置によるデータ処理
を同期させて良好なオンライン処理を実現する。
Description
置を備えた多重系処理装置(フォールトトレラント型コ
ンピュータシステム)に用いる多重系処理方法に関する
ものである。
はプロセッサエレメント、またはCPUノード、または
ノード)を多重系とすることでフォールトトレラント
(故障許容)を実現する多重系処理装置(冗長系処理装
置)では、いずれかの要素処理装置が故障してオフライ
ン状態になったとき、実行するアプリケーションによっ
て故障した要素処理装置の扱いが異なるものであった。
と、ロケットの航法誘導制御用搭載コンピュータの場合
には、制御周期が数十ミリ秒程度と非常に短く、且つ運
用時間も約10分程度と短いため、1つの要素処理装置
が故障した場合には、その要素処理装置を復帰させずに
切り捨て、他の正常な要素処理装置のオンライン状態を
継続するようにしている。つまり、要素処理装置が1つ
減少したとしても、制御周期や運用時間が短いため、故
障した要素処理装置の復帰よりもオンライン処理の継続
を優先させている。
コンピュータの場合には、故障により制御を停止してよ
い許容時間が1〜3秒程度と比較的余裕があり、且つ運
用時間も数ヶ月から数年に及ぶことから、要素処理装置
の減少をできるだけ避けることが望ましく、故障した要
素処理装置の復帰を行っている。すなわち、1つの要素
処理装置が故障してオフライン状態になったときには、
待機多重系を立ち上げたり、正常な要素処理装置が故障
した要素処理装置に対してメモリ内容のコピーを行った
り、全ての要素処理装置が正常に処理を行っていた時点
まで遡って処理を再開するロールバック処理を行ったり
しており、この際、正常な要素処理装置が故障した要素
処理装置の修復および復帰に関わることから、オンライ
ン処理は中断することとなる。
機は、ロケットと衛星の両方の性質を有している。例え
ばスペースシャトルでは、5重系の多重系処理装置を採
用しており、軌道周回中であるオービタルフェーズにお
いては、故障した要素処理装置に対して切り捨ておよび
待機多重系への切り替えを行っているが、打ち上げおよ
び着陸のクリティカルフェーズにおいては、上記したロ
ケットの搭載コンピュータと同様に短い制御周期が要求
されるため、故障した要素処理装置の復帰は行っていな
い。
星あるいは宇宙往還機の夫々のアプリケーションに応じ
て専用の多重系処理装置が研究開発され且つ実用化され
ていた。なお、従来の多重系処理装置としては、例え
ば、『技術試験衛星VI型姿勢制御電子回路・フォール
トトレラント・マルチプロセッサ・オペレーティングシ
ステム(田中俊輔・他)』SANE89−40に記載さ
れているものがある。
うな従来の多重系処理装置にあっては、各要素処理装置
はオンライン処理中の要素処理装置の増減が不可能であ
り、また、アプリケーションに応じた専用装置を用いて
いたため、低コスト化が困難であるという問題点があっ
た。さらに、制御周期や運用時間が短い場合には、故障
した要素処理装置を切り捨てるようにしていたが、この
場合においても、故障した要素処理装置の復帰が可能で
ある方が多重系処理装置として当然望ましいことが明ら
かである。
れたものであって、個々のクロックで駆動される複数の
要素処理装置を用いた疎結合方式(非同期方式)であり
ながら各要素処理装置によるデータ処理を同期させて良
好なオンライン処理を行うことができ、各要素処理装置
のうちのいずれかが故障した場合でも、オンライン処理
を中断することなく故障した要素処理装置の復帰に対処
することが可能であると共に、オンライン処理中におい
ても要素処理装置の増減が可能である多重系処理方法を
提供することを目的としている。
理方法は、請求項1として、入力対象から入力した入力
データに基づいて複数の要素処理装置で演算処理を行
い、その演算結果を出力データとして出力対象に出力す
るに際し、個別のクロックにより駆動される複数の要素
処理装置と、各要素処理装置が互いにデータの提供およ
び取得をする情報伝達媒体を用い、各要素処理装置が、
トリガデータの提供または取得をしたタイミングにて周
期的なデータ処理を独自の判断で開始すると共に、入力
対象からの入力データを取得して所定の演算処理を行
い、その演算結果を情報伝達媒体に提供すると共に、情
報伝達媒体から他の要素処理装置が提供した演算結果を
取得し、複数の演算結果から論理決定で得た演算結果を
出力データとして、その出力データを有する要素処理装
置のうちのいずれかが出力対象に出力データを出力する
構成とし、請求項2として、各要素処理装置が、設定時
間内に取得したデータを正常とし且つ設定時間外に取得
したデータを異常とするためのウインドウ機能を有する
構成とし、請求項3として、各要素処理装置のうちのい
ずれかが自己の故障を検出した際に、故障を検出した要
素処理装置が、独自にオフライン状態となって修復処理
を経た後、入力データの取得、演算処理、および正常な
要素処理装置が情報伝達媒体に提供した演算結果の取得
を行い、自己の演算結果と正常な要素処理装置の演算結
果とが一致したときに正常な要素処理装置のデータ処理
周期にタイミングを合わせてオンライン状態に自律的に
復帰する構成とし、請求項4として、故障を検出した要
素処理装置が、自己の演算結果と他の要素処理装置の演
算結果とが一致するまで情報伝達媒体へのデータの提供
を停止する構成としており、上記構成をもって従来の課
題を解決するための手段としている。
は例えばセンサ類が挙げられ、出力対象としては例えば
アクチュエータ類が挙げられる。また、各要素処理装置
が提供または取得するトリガデータとしては、例えば、
所定のデータ処理を行うためのリクエストである入力デ
ータリクエストメッセージ、他の要素処理装置が提供し
た入力データリクエストメッセージ、入力対象から周期
的に入力される入力データ、あるいは出力対象に出力す
る出力データがある。
法によれば、個々のクロックで駆動される複数の要素処
理装置を用いた疎結合方式(非同期方式)でありなが
ら、各要素処理装置によるデータ処理を独自の判断で開
始したうえで、夫々のデータ処理を同期させて良好なオ
ンライン処理を行うことができる。また、各要素処理装
置のうちのいずれかが故障を検出した場合には、正常な
要素処理装置によるオンライン処理を中断することなく
故障を検出した要素処理装置の自律的な復帰に対処する
ことが可能になると共に、オンライン処理中においても
要素処理装置の増減が可能になる。これにより、拡張性
や汎用性に優れた多重系処理装置の実現に貢献すること
ができる。
によれば、請求項1と同様の効果を得ることができるう
えに、設定時間内に取得したデータを正常とし且つ設定
時間外に取得したデータを異常とするためのウインドウ
機能を有することから、何らかの原因で発生した異常デ
ータがオンライン処理中の要素処理装置に入力されたと
しても、その異常データを排除することができ、正常デ
ータのみを用いて良好にデータ処理を行うことができ
る。
によれば、請求項1および2と同様の効果を得ることが
できるうえに、各要素処理装置が自己の故障を検出した
場合には、正常な要素処理装置によるオンライン処理を
全く中断することなく、故障を検出した要素処理装置
が、独自にオフライン状態となって修復処理を経た後、
完全に正常に戻ったことを独自に確認してから正常な要
素処理装置のデータ処理にタイミングを合わせてオンラ
イン処理に自律的に復帰し得るので、制御周期や運用時
間の長短に何ら左右されることなく且つ冗長度の減少な
どのロバスト性も低下させること無く、様々なアプリケ
ーションに対応することができ、例えば、ロケットの航
法誘導制御、人工衛星の姿勢制御、電力制御、データハ
ンドリング、あるいはミッション機器制御といった宇宙
機用アプリケーションだけでなく、一般的な制御用アプ
リケーションにも共通して使用することができ、きわめ
て汎用性の高いものとなっていて、制御システムの大幅
な低コスト化を実現することができるという優れた効果
がもたらされる。
ライン処理を行う要素処理装置の数や、同時に復帰する
要素処理装置の数に制限が無く、極端に言えば、正常な
要素処理装置が1つだけであっても、オンライン処理を
中断することなく故障を検出した複数の要素処理装置の
自律的復帰を行うことができ、要素処理装置の数が少な
いシステムからその数が数百を超えるシステムに至るま
で共通して用いることができる。
によれば、請求項3と同様の効果を得ることができるう
えに、故障を検出した要素処理装置が、オンライン処理
に自律的に復帰するまで自己の演算結果を情報伝達媒体
に提供しないことにより、自己の演算結果がオンライン
処理を継続している正常な要素処理装置に悪影響を与え
る恐れを完全に無くすことができ、データ処理機能のさ
らなる向上を実現することができる。
用される多重系処理装置の一実施例を説明する図であ
る。図示の多重系処理装置は、センサ等の入力対象IP
から入力した入力データに基づいて演算処理をし、その
演算結果を出力データとしてアクチュエータ等の出力対
象OPに出力するものであって、複数の要素処理装置P
N1〜PN3を備えると共に、入力対象IPおよび出力
対象OPと各要素処理装置PN1〜PN3との間に共通
の情報伝達媒体DFを備えている。各要素処理装置PN
1〜PN3は、情報伝達媒体DFにバス接続してあり、
この情報伝達媒体DFを介して互いにデータの提供およ
び取得を行うことができる。また、図示の場合、入力対
象IPおよび出力対象OPは、専用線にて入力用および
出力用の要素処理装置PNに接続してあり、これらの要
素処理装置PNを介して情報伝達媒体DFに接続してあ
る。
の要素処理装置PN1〜PN3を示したが、その数が制
限されることは無い。また、情報伝達媒体DFにあって
も、必要な通信速度および通信量が得られない場合や、
信頼性の観点から情報伝達媒体DFの冗長性を取りたい
場合には、多重系にすることができ、その数が制限され
ることは無い。さらに、入力用および出力用の要素処理
装置PNにあっても、安全性や信頼性の要求に応じて多
重系にすることができ、その数が制限されることは無
い。
PN3は、その1つ(PN1)を図1中に拡大して示す
ように、中央処理装置(CPU)1と、駆動用のクロッ
ク2と、メモリ3と、情報伝達媒体DFに対して自己の
データを提供し且つ情報伝達媒体DFから入力データや
他の要素処理装置PN2,PN3のデータを取得するた
めの情報伝達媒体コントローラ4を備えると共に、自己
の故障を検出するとともに独自にオフライン状態にして
修復処理をするためのフォールト検出対策手段として、
例えば、ウオッチドッグタイマ5、誤り検出訂正(ED
AC:Error Detecting And Correcting)回路6、過電
流発生検出修復回路7、および中央処理装置1中の論理
決定機能、周期タイマ機能、ウインドウ機能等を備えた
ものとなっている。なお、情報伝達媒体コントローラ4
は、情報伝達媒体DFが多重系である場合にはその数に
対応して設ける。
理装置PN1〜PN3間のデータインターフィースは情
報伝達媒体DFのみであり、基本的に他のインターフェ
ースは存在しない。各要素処理装置PN1〜PN3は、
データの提供を全て情報伝達媒体DFに対して行い、デ
ータの取得も全て情報伝達媒体DFから行う。すなわ
ち、この多重系処理装置は、個々のクロック2で駆動さ
れる複数の要素処理装置PN1〜PN3を用いた疎結合
方式(非同期方式)となっている。
データは、宛先アドレスをもたないものであって、図2
にフォーマットを示すように、格納されたセンサデータ
や演算結果データの内容を示す内容コードCCを有して
いる。したがって、データを取得する要素処理装置は、
データの内容コードCCを確認し、必要な場合にのみそ
のデータを処理する。
ク2をカウントするタイマによる割り込み、または情報
伝達媒体DFからのデータ取得によって自律的に各機能
を動作させる。各要素処理装置PN1〜PN3は、図3
に示すように、入力データの取得時間になると、夫々の
入力データリクエストメッセージを情報伝達媒体DFに
提供し、また、他の要素処理装置が提供した入力データ
リクエストメッセージ情報伝達媒体DFから取得する。
ここで、各要素処理装置PN1〜PN3は、最初に提供
または取得したデータをトリガデータとし、このトリガ
データを提供または取得したタイミングにて周期的なデ
ータ処理を独自の判断で開始する。したがって、図3か
ら明らかなように、各要素処理装置PN1〜PN3は、
入力データリクエストメッセージを情報伝達媒体DFに
提供するタイミングにずれがあっても、他の要素処理装
置が提供した入力データリクエストメッセージを取得し
ているので、データ処理を開始するタイミングは一致す
る。
は、入力対象IPからの入力データを情報伝達媒体DF
を介して取得し、この入力データに基づいて演算処理C
を行った後、演算結果データを情報伝達媒体DFに再び
提供する。各要素処理装置PN1〜PN3は、再提供さ
れた演算結果データから予め登録した内容コードCCを
もつものを取得し、各々が取得したデータ数に応じた多
数決などの論理決定処理VOを行い、論理決定により得
た演算結果を出力データとし、この出力データを有する
要素処理装置のいずれか出力データを情報伝達媒体DF
に提供する。この出力データが出力対象OPに対して出
力される。
情報伝達媒体DFに提供された出力データを取得して、
出力すべき要素処理装置が正しい内容の出力データを出
力したか否かを検証(VE)し、1サイクルのデータ処
理を終了する。そして、各要素処理装置PN1〜PN3
は、先述の如くトリガデータを提供または取得した時点
で1サイクルのデータ処理を開始しているので、その後
は夫々のデータ処理が同期して行われることとなる。
極的に入力データをリクエストする場合であるが、入力
対象IPが周期的あるいは任意のタイミングで情報伝達
媒体DFに入力データを提供する場合には、各要素処理
装置PN1〜PN3は入力データリクエストメッセージ
を提供せず、入力対象IPから情報伝達媒体DFを介し
て入力された入力データを取得して処理を行えば良い。
この場合には、入力対象IPからの入力データがトリガ
データとなり、この入力データを取得したタイミングに
て各要素処理装置PN1〜PN3が独自の判断で周期的
なデータ処理を開始し、その後は夫々のデータ処理が同
期して行われる。
Pおよび出力対象OPは、入力用および出力用の要素処
理装置PNを介して情報伝達媒体DFに接続されてい
る。そして、入力用要素処理装置PNは、多重系処理装
置からの入力データリクエストメッセージあるいはアプ
リケーションによっては自らの判断によって入力対象I
Pから入力データを取得し、必要なデータ処理を行った
後、その結果を情報伝達媒体DFに提供する。また、出
力用要素処理装置PNは、多重系処理装置からの出力デ
ータを情報伝達媒体DFを介して取得し、出力対象OP
を駆動することとなる。
る多重系処理方法では、情報伝達媒体DF以外に要素処
理装置PN1〜PN3間の専用インターフェースをもた
ないので、特定の要素処理装置の電源のON/OFFや
復帰が他の要素処理装置のハードウエアに影響を与える
ことがきわめて少なく、各要素処理装置PN1〜PN3
は個々のクロック2で動作する疎結合方式(非同期方
式)でありながらデータ処理が同期することとなり、後
記する復帰のタイミングは、故障を検出した要素処理装
置が他の正常な要素処理装置から提供されるデータを取
得しつつ独自に判断することになる。
されるメッセージには宛先アドレスが無いため、メッセ
ージを提供する要素処理装置は情報伝達媒体DFにどの
要素処理装置が存在するかを知る必要は無く、且つどの
要素処理装置に対して提供するかを事前に知らせる必要
も無い。逆に、メッセージを取得する要素処理装置は、
メッセージの提供を他の要素処理装置に依頼することも
無い。
〜PN3は、自律的なデータの提供および取得が可能と
なるため、他の要素処理装置の状態に関わらずオンライ
ン処理を行うことが可能になる。また、自律的に取得し
たデータを利用することで、自らの故障検知が可能にな
り、且つ他の要素処理装置に影響を与えずに復帰するこ
とが可能になる。
必要な各機能について説明する。これらの機能として
は、メッセージ取得ウインドウ機能、周期タイマ機能、
入力データ取得機能、演算機能、演算結果出力機能、論
理決定機能、出力データ出力機能、および整合性チェッ
ク機能がある。
れた設定時間内に情報伝達媒体DFから取得したデータ
を『正常』とみなして処理を行い、設定時間外に取得し
たデータは『異常』とみなすためのものである。したが
って、何らかの原因で発生した異常データがオンライン
処理中の要素処理装置に入力されたとしても、その異常
データを排除し、正常データのみを用いて良好なデータ
処理が行われることになる。このウインドウ機能は、各
要素処理装置PN1〜PN3が個々のタイマ等を用いて
構成する。
の要素処理装置が提供した入力データリクエストメッセ
ージおよび入力データを取得するためのウインドウ<A>
と、演算結果データを取得するためのウインドウ<B>
と、出力データを取得するためのウインドウ<C>と、図
7に示すように、電源のONやリセットに伴う初期化処
理後における入力データリクエストメッセージを取得す
るためのウインドウ<D>がある。
〜PN3が周期的に入力データを取得したり周期的に出
力データを出力したりするアプリケーションの場合に必
要であり、各要素処理装置PN1〜PN3はその内部に
周期タイマを備えている。この周期タイマは、ソフトウ
エアあるいはハードウエアのいずれでも構成することが
できる。周期タイマが予め定められた周期Tc(秒)をカ
ウントすると、入力データリクエストメッセージを情報
伝達媒体DFに提供する。また、自己が入力データリク
エストメッセージを提供するタイミング、あるいはウイ
ンドウ<A>内で最初に他の要素処理装置の入力データリ
クエストメッセージを取得したタイミングの早い方のタ
イミングで周期タイマを再スタートする。
からウインドウ<A>内に入力データを取得するためのも
のであって、各要素処理装置PN1〜PN3はその入力
データを演算処理Cに用いる。入力データは、情報伝達
媒体DFに接続した入力用要素処理装置PNが入力デー
タリクエストメッセージを取得したとき、あるいはアプ
リケーションによっては入力用要素処理装置PNが任意
のタイミングで入力対象IPより取得して必要な加工を
施した後に、情報伝達媒体DFに対して提供される。
予め定めた演算を行うためのものであって、例えば加速
度センサの入力データから速度や位置を求める演算処理
等のように過去の演算結果データや過去の入力データを
必要とするアプリケーションの場合には、それらのデー
タをメモリ3に格納する。
果または必要に応じて演算の途中結果を演算結果データ
として情報伝達媒体DFに提供するためのものであっ
て、積算値を用いる演算アプリケーションの場合には、
積算値も含めて情報伝達媒体DFに提供する。
PN3の自己の演算結果データとウインドウ<B>内に取
得した他の要素処理装置の演算結果データを用いて多数
決に代表されるような論理決定処理VOを行うためのも
のであって、自己の演算結果データが論理決定において
敗れた場合は、演算処理Cにおいてメモリ3に格納した
自己の演算結果データを論理決定に勝った演算結果デー
タに置き換えることにより、誤った過去のデータを用い
ることによる連続誤りを回避する。
N1〜PN3のうちのいずれか1つが最終的な出力デー
タを出力させるものであって、各要素処理装置PN1〜
PN3に固有の自己証明(ID)をもたせている。各要
素処理装置PN1〜PN3は、先の論理決定機能によ
り、どの要素処理装置が正常であり且つどの要素処理装
置が異常であるかを判断することができる。正常と判断
されたもののうち、例えば最も番号が小さい自己証明を
もつ要素処理装置が自己の演算結果データを出力データ
として出力することを予め決めておくことにより、各要
素処理装置PN1〜PN3は自ら出力データを出力すべ
きか否かを自律的に判断する。
N1〜PN3が情報伝達媒体DFに提供された出力デー
タを取得し、出力すべき要素処理装置が正しい内容の出
力データを出力したか否かを検証(VE)するためのも
のである。検証結果は、例えばモニターデータとして外
部に出力し、オペレータがチェックするなどの別のシス
テムにおいて使用することが可能である。
ーチン処理RP)を示す図である。図の下方に行くに従
って時間の経過を意味する。また、図4は、図3に示す
ルーチン処理を長い時間にわたって繰り返し行う状態を
示す図である。周期的アプリケーションの場合には、ル
ーチン処理を一定周期Tc(秒)にて繰り返すことによ
り、情報伝達媒体DFを介して各要素処理装置PN1〜
PN3間の同期が成立する。また、図5に示すように、
1つの要素処理装置PN1に故障(FAULT)が発生
したとしても、他の要素処理装置PN2,PN3は何ら
影響を受けることなくオンライン処理を継続することが
でき、多重系処理装置として正しい出力データを出力す
ることができる。
生した場合について述べる。
3に付加する誤り検出訂正回路6、ウオッチドッグタイ
マ5、過電流発生検出修復回路7、あるいは他の要素処
理装置の演算結果データを用いた論理決定、ウインドウ
機能による設定時間外における異常データの取得等によ
り、故障発生を自律的に検出する。故障発生時には、図
5に示す如く正常な要素処理装置PN2,PN3がオン
ライン処理を継続するため、故障した要素処理装置PN
1はオフライン状態になっても良い。
ン状態となって故障の原因を除去するべく修復処理を行
う。例えば、誤り検出訂正回路6により検出されたメモ
リ3のビット情報の反転については、電源がONのまま
で修復処理が可能である。また、ウオッチドッグタイマ
5によって検出された場合は、中央処理装置1が自動的
にリセットされて再び初期化が行われる。自動的な修復
処理が不可能な場合には、人為的に修復処理を施すこと
も可能である。
常性をテストしたうえで稼動中のシステムに復帰させね
ばならず、そのためには以下に述べるタイミングの一致
および演算結果データの一致が必要となる。
理装置PN3は、独自にオフライン状態となって修復処
理を行った後(リセットや電源OFFが生じた場合は初
期化後)、オンライン処理を継続している正常な要素処
理装置PN1,PN2から情報伝達媒体DFに提供され
るデータ、すなわち入力データリクエストメッセージ、
入力データ、演算結果データあるいは積算値を含む演算
結果データ、および出力データを自律的に取得し、さら
に自らの周期タイマならびに各ウインドウ<A>〜<D>を
作動させることにより、オンライン処理中のシステムと
のタイミングの一致(同期化)を行う。
3は、先のルーチン処理と同様に、情報伝達媒体DFか
ら取得した入力データを用いて必要な演算処理を行って
いるが、演算処理に過去のデータを必要とするケースで
は、数回または数周期にわたって自己の演算結果データ
が他の要素処理装置PN1,PN2の演算結果データと
一致しない場合がある。そこで、各要素処理装置PN1
〜PN3は、自己の演算結果データが他の要素処理装置
の演算結果データと一致するまでは自己の演算結果を情
報伝達媒体DFに提供しない機能を有している。この一
連の動作がリカバリー処理(Rec)である。
3は、その復帰過程において他の要素処理装置PN1,
PN2がどのようなアプリケーションに対応したデータ
処理を行っているかを判断することができない。そこ
で、各要素処理装置あるいは図示しない別のデータ提供
手段から現在のモードや過去の積分データといった内部
状態データを情報伝達媒体DFに常に提供しておき、こ
の内部状態データを復帰しようとする要素処理装置PN
3に取得させることにより、復帰しようとする要素処理
装置PN3と正常な要素処理装置PN1,PN2におけ
るデータ処理を一致させることができる。
復が正しく行われていれば、図7に示すように、規定回
数(または規定周期数:図7では3周期)分の演算を行
うことで自己の演算結果データが他の演算結果データと
一致し、次回から自己の演算結果データを情報伝達媒体
DFに提供することが可能となってルーチン処理RPに
復帰する。つまり、故障した要素処理装置PN3は、そ
の正常性を自律的にテストした後、正常な要素処理装置
PN1,PN2によるデータ処理にタイミングを合わせ
てオンライン状態に自律復帰することとなる。
処理装置PN3は、オンライン処理中の正常な要素処理
装置PN1,PN2に何ら影響を与えることなく情報伝
達媒体DFから必要な情報を収集して自律的に復帰す
る。したがって、オンライン処理を全く乱すことが無
く、且つ冗長度も低下させないことが可能となる。な
お、以上の修復処理においては、2つ以上の要素処理装
置が同時に修復および復帰する場合であっても良く、最
低1つの正常な要素処理装置があれば成立する。
動作について説明する。
ングで入力データが提供されるアプリケーションについ
ては、システム電源ON時における動作は、入力対象I
Pより入力データが情報伝達媒体DFに提供されるのを
待てば良い。これに対して、当該多重系処理装置が入力
対象IPに対して入力データを周期的にリクエストしな
ければならない場合では、一般的に、各要素処理装置P
N1〜PN3にとっては、故障発生により自己のみの電
源がONあるいはリセットになったのか、処理装置全体
の電源がONになったのかを区別することができない。
このような事態に対して、当該多重系処理装置では、ハ
ードウエアによる特別な手段を用いることなく自律的に
システム電源がONとなったことを判断し得る。
源のON時には、一般に各プロセッサセッサノードPN
1〜PN3の電源がONになるタイミングが異なるもの
となる。また、各プロセッサセッサノードPN1〜PN
3は、先の復帰処理で説明したように、初期化処理IN
IT後にウインドウ<D>をスタートさせる。このとき、
ウインドウ<D>は、その期間がルーチン処理RPの周期
Tcよりも長く設定してあるため、他に稼動中の要素処
理装置があれば、情報伝達媒体DFを介してウインドウ
<D>内に他の要素処理装置が提供したデータを取得する
はずである。しかし、システム電源のON時には、その
データを取得することが無いので、ウインドウ<D>は規
定の時間に到達してタイムアップする。
アップした要素処理装置PN1がシステム電源のONで
あると判断して,リカバリー処理Recを規定数繰り返
し、演算処理Cに必要な過去のデータが揃った後、通常
の動作として演算結果データを情報伝達媒体DFに提供
するルーチン処理RPを開始する。このように、システ
ム電源がONであると判断された場合には、リカバリー
処理Rec時に他のデータは取得されないので、演算結
果データの一致条件を満足する必要は無い。
は、最初に復帰した要素処理装置PN1が情報伝達媒体
DFに提供するデータを取得して、順次ルーチン処理R
Pに参加する。これにより、システム電源がONである
ことを各プロセッサセッサノードPN1〜PN3に通知
する専用のライン等が不要になり、リカバリー処理と同
様の仕組みでシステム電源ONへの対応が可能になる。
ボードコンピュータとして用いる場合、宇宙放射線によ
る影響を考慮する必要がある。宇宙放射線が電子部品と
くに半導体部品に与える影響としては、部品に入射した
全放射線の累積効果によって生じる恒久的な損傷である
トータルドーズ効果と、単一の高エネルギー粒子の入射
により、その飛跡に沿って電子−正孔対が発生すること
で引き起こされるシングルイベント効果がある。また、
シングルイベント効果は、入射粒子により発生した電荷
が記憶素子のビット反転を引き起こすシングルイベント
アップセット(SEU)効果と、CMOSIC等に必然
的に形成される寄生サイリスタ部分に電荷が流入するこ
とによって過大な電流が流れるシングルイベントラッチ
アップ(SEL)効果に分別される。
が生じるドーズ量を地上での放射線照射試験で調べてお
き、運用する軌道におけるトータルドーズ量と比較し、
部品に対してスポットシールド等を設けることで対策が
可能である。
対しては、メモリ3に対する誤り検出訂正回路6を設け
たり、中央処理装置1に対するウオッチドッグタイマ5
を設けたり、分散ノード同士の演算結果データを比較し
たりすることで検出が可能であって、アップセットの生
じたメモリセルの値を書き直すことで復帰が可能であ
る。他方、シングルイベントラッチアップ効果について
は、過電流発生検出修復回路7で過電流の発生を検出
し、電流を制限した後、そのデバイスに対する電源を一
旦OFFにして再度ONにすることにより、永久故障を
避けることが可能である。このように、シングルイベン
ト効果に対しては、上記の如き適切な処理を施すことで
一過性の故障として扱うことが可能である。
個々のクロックで駆動される複数の要素処理装置を用い
た疎結合方式(非同期方式)でありながら、各要素処理
装置によるデータ処理を独自の判断で開始したうえで、
夫々のデータ処理を同期させて良好なオンライン処理が
行われることとなり、各要素処理装置のうちのいずれか
が故障した場合でも、オンライン処理を良好に継続しな
がら故障した要素処理装置を自律的に復帰させることが
できると共に、上記したように宇宙放射線による影響に
も対処し得ることから、宇宙機用のアプリケーションに
充分に適応することができ、勿論一般的な制御アプリケ
ーションに用いることもでき、制御周期や運用時間に左
右されること無く様々なアプリケーションに適用し得る
点できわめて汎用性の高いものとなる。
適用される多重系処理装置の他の実施例を説明する図で
ある。
対象OPと各要素処理装置PN1〜PN3との間に情報
伝達媒体DFが介在し、この情報伝達媒体DFを介して
各データの提供および取得を行う場合を説明したが、こ
の実施例では、個々のクロックで駆動される各要素処理
装置PN1〜PN3を情報伝達媒体DFにバス接続する
一方で、入力対象IPおよび出力対象OPと各要素処理
装置PN1〜PN3とを専用線により直接接続したもの
となっている。なお、その他の構成や機能については先
の実施例と同様のものを採用することができ、要素処理
装置PN1〜PN3や情報伝達媒体DFの数が限定され
ることも無い。
〜PN3は、入力対象IPから入力データを直接入力
し、且つ出力対象OPへ出力データを直接出力すると共
に、情報伝達媒体DFを介して、入力データリクエスト
メッセージ、演算結果データ、検証のための出力デー
タ、および内部状態データなどの各種データの提供およ
び取得を行うこととなり、通常のオンライン処理や故障
が発生した後の自律的な復帰においては、先の実施例と
同様の作用および効果を得ることができる。
重系処理装置の一実施例を説明する構成図である。
タフォーマットを示す説明図である。
を示す説明図である。
的に示す説明図である。
明図である。
を示す説明図である。
を巨視的に示す説明図である。
を示す説明図である。
重系処理装置の他の実施例を説明する構成図である。
Claims (4)
- 【請求項1】 入力対象から入力した入力データに基づ
いて複数の要素処理装置で演算処理を行い、その演算結
果を出力データとして出力対象に出力するに際し、個別
のクロックにより駆動される複数の要素処理装置と、各
要素処理装置が互いにデータの提供および取得をする情
報伝達媒体を用い、各要素処理装置が、トリガデータの
提供または取得をしたタイミングにて周期的なデータ処
理を独自の判断で開始すると共に、入力対象からの入力
データを取得して所定の演算処理を行い、その演算結果
を情報伝達媒体に提供すると共に、情報伝達媒体から他
の要素処理装置が提供した演算結果を取得し、複数の演
算結果から論理決定で得た演算結果を出力データとし
て、その出力データを有する要素処理装置のうちのいず
れかが出力対象に出力データを出力することを特徴とす
る多重系処理方法。 - 【請求項2】 各要素処理装置が、設定時間内に取得し
たデータを正常とし且つ設定時間外に取得したデータを
異常とするためのウインドウ機能を有することを特徴と
する請求項1に記載の多重系処理方法。 - 【請求項3】 各要素処理装置のうちのいずれかが自己
の故障を検出した際に、故障を検出した要素処理装置
が、独自にオフライン状態となって修復処理を経た後、
入力データの取得、演算処理、および正常な要素処理装
置が情報伝達媒体に提供した演算結果の取得を行い、自
己の演算結果と正常な要素処理装置の演算結果とが一致
したときに正常な要素処理装置のデータ処理周期にタイ
ミングを合わせてオンライン状態に自律的に復帰するこ
とを特徴とする請求項1または2に記載の多重系処理方
法。 - 【請求項4】 故障を検出した要素処理装置が、自己の
演算結果と他の要素処理装置の演算結果とが一致するま
で情報伝達媒体へのデータの提供を停止することを特徴
とする請求項3に記載の多重系処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001086329A JP2002287997A (ja) | 2001-03-23 | 2001-03-23 | 多重系処理方法 |
US10/101,714 US7328235B2 (en) | 2001-03-23 | 2002-03-21 | Multiple processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001086329A JP2002287997A (ja) | 2001-03-23 | 2001-03-23 | 多重系処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002287997A true JP2002287997A (ja) | 2002-10-04 |
Family
ID=18941724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001086329A Pending JP2002287997A (ja) | 2001-03-23 | 2001-03-23 | 多重系処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7328235B2 (ja) |
JP (1) | JP2002287997A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020364A (ja) * | 2008-07-08 | 2010-01-28 | Omron Corp | 演算装置、乗車料金算出装置、演算方法、および演算プログラム |
EP2259268A2 (en) | 2002-01-17 | 2010-12-08 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device |
US9491228B2 (en) | 2011-03-10 | 2016-11-08 | Mitsubishi Electric Corporation | Redundancy device |
JP2017016319A (ja) * | 2015-06-30 | 2017-01-19 | 日本信号株式会社 | 多重化データ処理装置 |
JP2017033236A (ja) * | 2015-07-31 | 2017-02-09 | 日立オートモティブシステムズ株式会社 | 車両制御装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7706266B2 (en) * | 2007-03-12 | 2010-04-27 | Citrix Systems, Inc. | Systems and methods of providing proxy-based quality of service |
US8255732B2 (en) * | 2008-05-28 | 2012-08-28 | The United States Of America, As Represented By The Administrator Of The National Aeronautics And Space Administration | Self-stabilizing byzantine-fault-tolerant clock synchronization system and method |
US7877627B1 (en) | 2008-12-18 | 2011-01-25 | Supercon, L.L.C. | Multiple redundant computer system combining fault diagnostics and majority voting with dissimilar redundancy technology |
RU2397538C1 (ru) * | 2008-12-25 | 2010-08-20 | ООО Научно-исследовательский центр супер-ЭВМ и нейрокомпьютеров | Многопроцессорный модуль |
RU2402807C1 (ru) * | 2009-05-04 | 2010-10-27 | Федеральное Государственное Унитарное Предприятие "Государственный Рязанский Приборный Завод" | Устройство цифровой обработки сигналов |
US10025344B2 (en) | 2015-04-21 | 2018-07-17 | The United States Of America As Represented By The Administrator Of Nasa | Self-stabilizing distributed symmetric-fault tolerant synchronization protocol |
CN110190890A (zh) * | 2019-05-09 | 2019-08-30 | 中国人民解放军32039部队 | 一种基于通信卫星系统的航天器在线申请方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0371237A (ja) * | 1989-08-10 | 1991-03-27 | Kyosan Electric Mfg Co Ltd | 並列2重系の処理装置および運転方法 |
JPH06250868A (ja) * | 1993-02-25 | 1994-09-09 | Mitsubishi Electric Corp | 計算機 |
JPH06348524A (ja) * | 1993-06-10 | 1994-12-22 | Hitachi Ltd | 多重化制御装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4021784A (en) * | 1976-03-12 | 1977-05-03 | Sperry Rand Corporation | Clock synchronization system |
US4363094A (en) * | 1977-12-29 | 1982-12-07 | M/A-COM DDC, Inc. | Communications processor |
US4428048A (en) * | 1981-01-28 | 1984-01-24 | Grumman Aerospace Corporation | Multiprocessor with staggered processing |
EP0340901A3 (en) * | 1988-03-23 | 1992-12-30 | Du Pont Pixel Systems Limited | Access system for dual port memory |
US5016168A (en) * | 1988-12-23 | 1991-05-14 | International Business Machines Corporation | Method for storing into non-exclusive cache lines in multiprocessor systems |
JP2510750B2 (ja) | 1990-03-16 | 1996-06-26 | 株式会社日立製作所 | フォ―ルト・トレラント・システム及びその冗長系間の同期方法並びに多重化クロツク発振器 |
US5590345A (en) * | 1990-11-13 | 1996-12-31 | International Business Machines Corporation | Advanced parallel array processor(APAP) |
US5625836A (en) * | 1990-11-13 | 1997-04-29 | International Business Machines Corporation | SIMD/MIMD processing memory element (PME) |
US5423044A (en) * | 1992-06-16 | 1995-06-06 | International Business Machines Corporation | Shared, distributed lock manager for loosely coupled processing systems |
US5751932A (en) * | 1992-12-17 | 1998-05-12 | Tandem Computers Incorporated | Fail-fast, fail-functional, fault-tolerant multiprocessor system |
US5459864A (en) * | 1993-02-02 | 1995-10-17 | International Business Machines Corporation | Load balancing, error recovery, and reconfiguration control in a data movement subsystem with cooperating plural queue processors |
US5734825A (en) * | 1994-07-18 | 1998-03-31 | Digital Equipment Corporation | Traffic control system having distributed rate calculation and link by link flow control |
FR2737030B1 (fr) * | 1995-07-21 | 1997-08-14 | Bull Sa | Procede de transfert de messages dans un systeme informatique multinodal |
US6078681A (en) * | 1996-03-18 | 2000-06-20 | Marine Biological Laboratory | Analytical imaging system and process |
US5964846A (en) * | 1997-07-07 | 1999-10-12 | International Business Machines Corporation | System and method for mapping processor clock values in a multiprocessor system |
EP1029267B1 (en) * | 1997-11-14 | 2002-03-27 | Marathon Technologies Corporation | Method for maintaining the synchronized execution in fault resilient/fault tolerant computer systems |
US6557123B1 (en) * | 1999-08-02 | 2003-04-29 | Inostor Corporation | Data redundancy methods and apparatus |
EP1231526A4 (en) * | 1999-10-15 | 2009-04-29 | Omron Tateisi Electronics Co | NETWORK DEVICE, CONTROL METHOD, CONTROL DEVICE, AND MULTIPLE PROCESSOR ARRANGEMENT |
WO2001044967A1 (en) * | 1999-12-14 | 2001-06-21 | Fujitsu Limited | Multiprocessor system |
US7562112B2 (en) * | 2001-07-06 | 2009-07-14 | Intel Corporation | Method and apparatus for peer-to-peer services for efficient transfer of information between networks |
US6766245B2 (en) * | 2002-03-14 | 2004-07-20 | Microsoft Corporation | Landmark-based location of users |
-
2001
- 2001-03-23 JP JP2001086329A patent/JP2002287997A/ja active Pending
-
2002
- 2002-03-21 US US10/101,714 patent/US7328235B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0371237A (ja) * | 1989-08-10 | 1991-03-27 | Kyosan Electric Mfg Co Ltd | 並列2重系の処理装置および運転方法 |
JPH06250868A (ja) * | 1993-02-25 | 1994-09-09 | Mitsubishi Electric Corp | 計算機 |
JPH06348524A (ja) * | 1993-06-10 | 1994-12-22 | Hitachi Ltd | 多重化制御装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2259268A2 (en) | 2002-01-17 | 2010-12-08 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device |
JP2010020364A (ja) * | 2008-07-08 | 2010-01-28 | Omron Corp | 演算装置、乗車料金算出装置、演算方法、および演算プログラム |
US9491228B2 (en) | 2011-03-10 | 2016-11-08 | Mitsubishi Electric Corporation | Redundancy device |
JP2017016319A (ja) * | 2015-06-30 | 2017-01-19 | 日本信号株式会社 | 多重化データ処理装置 |
JP2017033236A (ja) * | 2015-07-31 | 2017-02-09 | 日立オートモティブシステムズ株式会社 | 車両制御装置 |
US10788826B2 (en) | 2015-07-31 | 2020-09-29 | Hitachi Automotive Systems, Ltd. | Vehicle control device |
Also Published As
Publication number | Publication date |
---|---|
US7328235B2 (en) | 2008-02-05 |
US20020138550A1 (en) | 2002-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5903717A (en) | Fault tolerant computer system | |
US5923830A (en) | Non-interrupting power control for fault tolerant computer systems | |
CN111913469B (zh) | 一种航天器控制系统在轨稳定运行能力构建方法 | |
US8260492B2 (en) | Method and system for redundancy management of distributed and recoverable digital control system | |
JP2002287997A (ja) | 多重系処理方法 | |
US10078565B1 (en) | Error recovery for redundant processing circuits | |
US5572620A (en) | Fault-tolerant voter system for output data from a plurality of non-synchronized redundant processors | |
CN101313281A (zh) | 用于在包括至少两个具有寄存器的执行单元的系统中消除错误的装置和方法 | |
CN113485185B (zh) | N倍冗余控制系统的方法 | |
CN105093244A (zh) | 一种gnss实时定轨系统和定轨方法 | |
EP1146423B1 (en) | Voted processing system | |
CN114578896A (zh) | 用于核同步的调试跟踪流 | |
CN107038095A (zh) | 用于冗余地处理数据的方法 | |
JP5176405B2 (ja) | コンピュータの異常検出・復旧方式 | |
CN118981398A (zh) | 卫星综合电子系统的控制方法、装置和电子设备 | |
CN113973025A (zh) | 基于can总线的星载计算机通讯可靠性与容错设计方法 | |
US11662764B2 (en) | Method for controlling and automatically restarting a technical apparatus | |
Duarte et al. | A fault-tolerant attitude determination system based on COTS devices | |
Yan et al. | Ground test verification method for fault diagnosis and disposal of satellite attitude and orbit control subsystem | |
CN117859117A (zh) | 用于安全关键应用中的至少一个接收设备的控制系统 | |
US7711985B2 (en) | Restarting an errored object of a first class | |
JP2654072B2 (ja) | 故障容認計算機装置 | |
Yashiro et al. | A high assurance on-line recovery technology for a space on-board computer | |
US11687398B2 (en) | Method for controlling a technical apparatus | |
Caldwell et al. | Minimalist recovery techniques for single event effects in spaceborne microcontrollers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091102 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091221 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100518 |