JP6540113B2 - Fault-tolerant server, synchronization method, and computer program - Google Patents
Fault-tolerant server, synchronization method, and computer program Download PDFInfo
- Publication number
- JP6540113B2 JP6540113B2 JP2015049202A JP2015049202A JP6540113B2 JP 6540113 B2 JP6540113 B2 JP 6540113B2 JP 2015049202 A JP2015049202 A JP 2015049202A JP 2015049202 A JP2015049202 A JP 2015049202A JP 6540113 B2 JP6540113 B2 JP 6540113B2
- Authority
- JP
- Japan
- Prior art keywords
- subsystem
- cpu
- cpu subsystem
- synchronization
- control means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Description
本発明は、フォールトトレラントサーバにおける同期化方法に関する。 The present invention relates to a synchronization method in a fault tolerant server.
フォールトトレラントサーバは、そのサーバを構成するハードウェア部品のうちで一つのハードウェア部品が故障した場合でも、システムを停止することなく稼働を続けることが可能なサーバである。フォールトトレラントサーバ(以下において、「FTサーバ」ともいう)は、CPU(Central Processing Unit)、メインメモリ、ハードディスク及びI/O関連機器のすべてが二重に搭載されている。そして、それらの二重化された機器(デバイス)は、同期されている。 The fault tolerant server is a server that can continue operation without stopping the system even if one of the hardware components constituting the server fails. In a fault tolerant server (hereinafter, also referred to as “FT server”), a central processing unit (CPU), a main memory, a hard disk, and I / O related devices are all mounted in duplicate. And those duplicate devices (devices) are synchronized.
デバイスの同期制御は、一般的に、外部からの信号やソフトウェア制御、タイミング調整などの方法により行われる。しかし、例えば、フォールトトレラントサーバを構成するCPUサブシステムなどのように、その一部がブラックボックスとなっているデバイスは、上述の方法では、完全に制御できない部分も存在する。すなわち、CPUサブシステムは、個体差による稀なキャリビレーションミスの発生や、起動時に保持しているレジスタ値を変更できないために、外部環境変化時に同期がとれないことがある。 The synchronization control of the device is generally performed by a method such as an external signal or software control, timing adjustment. However, for example, a device whose part is a black box, such as a CPU subsystem that constitutes a fault tolerant server, has a part that can not be completely controlled by the above-mentioned method. That is, the CPU subsystem may not be synchronized at the time of external environment change because rare calibration errors occur due to individual differences and the register values held at the time of activation can not be changed.
CPUサブシステムの同期ずれを解消するためには、CPUサブシステムにパワーサイクル(電源をオフ、再度電源をオン)を実施する方法が最も一般的である。 In order to eliminate the out-of-synchronization condition of the CPU subsystem, a method of performing a power cycle (power off, power on again) on the CPU subsystem is the most general.
ここで、#0系(主系)と#1系(従系)の2つのCPUサブシステムが同期動作するFTサーバの一般的な同期化処理について、図11のフローチャートを用いて説明する。始めに、FTサーバは、両系(#0系および#1系)のCPUサブシステムを起動する(ステップS910、S920)。次に、FTサーバは、#0系のCPUサブシステムから#1系のCPUサブシステムにコンテキストをコピーする(ステップS930)。ここで、コンテキストとは、メモリやCPUのレジスタの内容である。そして、同期のために両系にリセットをかける(ステップS940)。その結果、同期ずれがない場合(ステップS950にて「No」)、#0系のCPUサブシステムと#1系のCPUサブシステムは、同期化完了となる。 Here, a general synchronization process of the FT server in which two CPU subsystems of system # 0 (main system) and system # 1 (follow system) operate synchronously will be described using the flowchart of FIG. First, the FT server activates the CPU subsystem of both systems (# 0 system and # 1 system) (steps S910 and S920). Next, the FT server copies a context from the # 0 CPU subsystem to the # 1 CPU subsystem (step S930). Here, the context is the contents of the memory or the register of the CPU. Then, both systems are reset for synchronization (step S940). As a result, when there is no synchronization deviation ("No" in step S950), the CPU subsystem of # 0 system and the CPU subsystem of # 1 system become synchronization complete.
CPUの同期制御は、基準となるクロック信号に対してタイミングの調整を行う。しかし、CPUの仕様によっては、外部からの信号やソフトウェア手続きだけでは完全に制御できない部分も存在し、稀に個体差や環境の変化から期待と異なるレジスタ値設定やクロック間位相差が発生することがある。そのため、同期ずれ発生時(ステップS950にて「Yes」)にFTサーバは、従系のCPUサブシステムを切り離し(ステップS980)、再度組み込む(ステップS960)ことにより従系のCPUサブシステムにパワーサイクルをかける。これにより、もしも従系のCPUサブシステムが期待と異なる状態となっていた場合に同期ずれを解消できる。 The synchronous control of the CPU adjusts the timing of the reference clock signal. However, depending on CPU specifications, there may be parts that can not be completely controlled only by external signals or software procedures, and rarely cause register value settings or clock phase differences that differ from expectations due to individual differences or environmental changes. There is. Therefore, the FT server disconnects the slave CPU subsystem (step S 980) and reassembles the slave CPU subsystem (step S 960) at the time of out-of-synchronization (“Yes” in step S 950). multiply. As a result, if the slave CPU subsystem is in a state different from the expected state, the synchronization deviation can be eliminated.
しかし、従系ではなく、主系のCPUサブシステムが期待と異なる状態になっていた場合、このFTサーバは、従系のCPUサブシステムの切り離しと、組み込みを行っても、同期ずれを解消することはできない。そして、FTサーバは、従系のCPUサブシステムをN回(Nは、あらかじめ定めた閾値)以上切り離した後(ステップS970にて「Yes」)に、従系(#1系)のCPUサブシステムが故障していると判定する(ステップS990)。したがって、主系のCPUサブシステムが期待と異なる状態になっていた場合に、同期ずれを解消できないままとなる。その結果、フォールトトレラントサーバの安定的な運用ができない。 However, when the main CPU subsystem is not in the slave status but in a different state from expected, this FT server resolves the synchronization deviation even if the slave CPU subsystem is disconnected and incorporated. It is not possible. Then, the FT server disconnects the slave CPU subsystem N times (N is a predetermined threshold) or more ("Yes" in step S970), and then the slave CPU subsystem (# 1 system) is generated. Is determined to be broken (step S990). Therefore, when the main CPU subsystem is in a different state from expected, the synchronization deviation can not be eliminated. As a result, stable operation of the fault tolerant server can not be performed.
ここで、関連技術としては、例えば以下の特許文献がある。 Here, as related art, there are, for example, the following patent documents.
特許文献1は、二重化計算機のオンライン稼働時の片系保守における信頼性を向上させると共に、簡潔な構成のI/O(Input/Output)装置の使用を可能とする二重化計算機を開示している。
特許文献2は、オンライン業務中にプロセッサモジュールの処理能力を拡張することができるフォールトトレラントコンピュータを開示している。 Patent Document 2 discloses a fault tolerant computer capable of expanding the processing capability of a processor module during online operation.
特許文献1に提案されている技術は、復旧系(従系)のIO(Input Output)サブシステムで障害が発生した場合に、そのIOサブシステムを交換後、稼働系(主系)に接続する前に、その復旧系のIOサブシステムを、復旧系のCPUサブシステムに接続して評価を行う。
The technology proposed in
図11に示す関連技術と特許文献1と2に提案されている技術は、次の点を考慮していない。それら技術は、主系と従系のCPUサブシステムを切り替える前に、従系のCPUサブシステムから各々(主系及び従系の各々)のIOサブシステムへのインタフェースが正常に動作していることを確認することを考慮していない。そのため、例えば従系のCPUサブシステムと主系のIOサブシステムとの間のパスに不良が生じていたりアクセス先に不良がある場合に、主系と従系のCPUサブシステムを切り替えることによって、予期せぬ動作を誘引し、ストール等が発生する虞がある。
The related art shown in FIG. 11 and the techniques proposed in
したがって、前述した関連技術では、サーバを停止させないで、二重化への復帰を安定的に実現することができない。 Therefore, in the related art described above, recovery to duplexing can not be stably realized without stopping the server.
そこで、本発明は、フォールトトレラントサーバにおけるCPUの同期ずれを解消する動作において、無停止で、二重化への復帰を安定的に実現することが可能なフォールトトレラントサーバ等の提供を主たる目的とする。 Therefore, the present invention has as its main object to provide a fault tolerant server or the like which can stably realize the return to the duplex without stopping in the operation of resolving the CPU synchronization deviation in the fault tolerant server.
上記の目的を達成すべく、本発明の一態様に係るフォールトトレラントサーバは、以下の構成を備える。 In order to achieve the above object, a fault tolerant server according to an aspect of the present invention has the following configuration.
即ち、本発明の一態様に係るフォールトトレラントサーバは、
第1のCPUサブシステムと、第1のIOサブシステムと、前記第1のCPUサブシステムおよび前記第1のIOサブシステムに接続する第1の制御手段とを備えた第1のサブシステムと、
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成され、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する。
That is, a fault tolerant server according to an aspect of the present invention is
A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
It is configured to control duplexing in which one of the first subsystem and the second subsystem is a main system and the other is a slave system, and control a connection state between the two systems and between the systems.
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; Reset for synchronization with the second CPU subsystem and the second CPU subsystem,
When the synchronization deviation can not be eliminated, the interface between the second CPU subsystem and the second IO subsystem, and the interface between the second CPU subsystem and the first IO subsystem are normal. Change the connection status to confirm that it is working.
同目的を達成する本発明の一態様に係る同期化方法は、
第1のCPUサブシステムと、第1のIOサブシステムと、前記第1のCPUサブシステムおよび前記第1のIOサブシステムに接続する第1の制御手段とを備えた第1のサブシステムと、
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成されるフォールトトレラントサーバにおいて、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する。
A synchronization method according to an aspect of the present invention for achieving the same object is
A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
A fault tolerant server configured to control duplexing in which one of the first subsystem and the second subsystem is a primary system and the other is a secondary system, and to control the connection state between the two systems and between the systems. In
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; Reset for synchronization with the second CPU subsystem and the second CPU subsystem,
When the synchronization deviation can not be eliminated, the interface between the second CPU subsystem and the second IO subsystem, and the interface between the second CPU subsystem and the first IO subsystem are normal. Change the connection status to confirm that it is working.
更に、同目的は、上記構成を有するフォールトトレラントサーバ、或いは、同期化方法を、コンピュータによって実現するコンピュータ・プログラム、及びそのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。 Furthermore, the same object is also achieved by a fault tolerant server having the above configuration, or a computer program that implements a synchronization method by a computer, and a computer readable storage medium storing the computer program. Ru.
上記の本発明によれば、フォールトトレラントサーバにおけるCPUの同期ずれを解消する動作において、無停止で、二重化への復帰を安定的に実現することができるという効果がある。 According to the above-described present invention, in the operation of resolving a CPU synchronization deviation in a fault tolerant server, there is an effect that recovery to duplexing can be stably realized without interruption.
次に、本発明を実施する形態について図面を参照して詳細に説明する。 Next, embodiments of the present invention will be described in detail with reference to the drawings.
<第1の実施形態>
図1は、本発明の第1の実施形態に係るフォールトトレラントサーバの構成を示すブロック図である。
First Embodiment
FIG. 1 is a block diagram showing the configuration of a fault tolerant server according to a first embodiment of the present invention.
図1を参照すると、本実施形態に係るフォールトトレラントサーバは、第1のサブシステム11と、第2のサブシステム21とを備えている。第1のサブシステム11は、第1のCPUサブシステム12と、第1のIOサブシステム13と、第1の制御部14とを含む。また、第2のサブシステム21は、第2のCPUサブシステム22と、第2のIOサブシステム23と、第2の制御部24とを含む。
Referring to FIG. 1, the fault tolerant server according to the present embodiment includes a
第1の制御部14と第2の制御部24は、第1のサブシステム11と第2のサブシステム21の一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成される。
The
また、第1のCPUサブシステム12が主系、第2のCPUサブシステム22が従系のCPUサブシステムとして動作中に、第1のCPUサブシステム12と前記第2のCPUサブシステム22との同期ずれが発生した場合、第1の制御部14と第2の制御部24は、次のように動作する。
Further, while the
(1)第2のCPUサブシステム22の電源オフ、電源オンを行った後に、第1のCPUサブシステム12のコンテキストを第2のCPUサブシステム22にコピーする。
(1) After power-off and power-on of the
(2)コピー後に、第1のCPUサブシステム12および前記第2のCPUサブシステム22に対し、同期のためにリセットをかける。
(2) After copying, reset the
(3)リセット後も同期ずれが解消できない場合に、第2のCPUサブシステム22と第2のIOサブシステム23とのインタフェースと、第2のCPUサブシステム22と第1のIOサブシステム13とのインタフェースが正常に動作していることを確認可能な接続状態に変更する。
(3) The interface between the
以上のように、本実施形態のフォールトトレラントサーバは、CPUサブシステムの系切り替え(主系と従系の切り替え)処理を行う前に、切り替え先のCPUサブシステムと各々のIOサブシステムとのインタフェースの動作を接続状態の変更によって検証する。これによって、切り替え後に動作不良が発生する可能性を排除する。 As described above, in the fault tolerant server according to the present embodiment, the interface between the CPU subsystem of the switching destination and each IO subsystem before performing system switching (switching between primary and secondary) of the CPU subsystem is performed. Verify the behavior of the connection by changing the connection state. This eliminates the possibility of malfunctioning after switching.
ところで、第1の制御部14は、第1の同期部31と、第1の接続部32とを含む。そして、第2の制御部24は、第2の同期部41と、第2の接続部42とを含む。第1の制御部14と第2の制御部24は、互いに接続され、相互に通信が可能である。つぎに、これら各部の構成と動作について説明する。
The
第1同期部31と第2同期部41は、互いに連携して同期ずれの復旧動作を行う。第1の同期部31は、同期ずれの復旧動作時に、第1のCPUサブシステム12のコンテキストを取得し、第2の同期部41に渡すことができる。第2の同期部41は、第1のCPUサブシステム12のコンテキストを第2のCPUサブシステム22にコピーすることができる。
The
第1の接続部32は、第1のCPUサブシステム12の接続先と、第1のIOサブシステム13の接続先とをそれぞれ決定する、接続状態の設定及び変更機能を有する。たとえば、第1の接続部32は、第1のCPUサブシステム12の接続先として、第1のIOサブシステム13、第2のIOサブシステム23またはそれら2つのIOサブシステムに設定することを可能にする。また、第1の接続部32は、第1のIOサブシステム13の接続先として、第1のCPUサブシステム12または第2のCPUサブシステム22に設定することを可能にする。
The
第2の接続部42は、第2のCPUサブシステム22の接続先と、第2のIOサブシステム23の接続先とをそれぞれ決定する、接続状態の設定及び変更機能を有する。たとえば、第2の接続部42は、第2のCPUサブシステム22の接続先として、第1のIOサブシステム13、第2のIOサブシステム23またはそれら2つのIOサブシステムに設定することを可能にする。また、第2の接続部42は、第2のIOサブシステム23の接続先として、第1のCPUサブシステム12または第2のCPUサブシステム22に設定することを可能にする。
The
第1の接続部32と第2の接続部42は、互いに連携して接続状態を制御してもよい。
The
第1のCPUサブシステム12を主系のCPUサブシステムとして動作中に、第1のCPUサブシステム12と第2のCPUサブシステム22に同期ずれが発生した場合、第1の制御部14と第2の制御部24は、次のように動作する。
If the
最初、第2の同期部41は、第2のCPUサブシステム22に対して電源をオフ、再度電源をオンする。それから、第1の同期部31および第2の同期部41は、第1のCPUサブシステム12のコンテキストを第2のCPUサブシステム22にコピーする。コピー完了後に、第1の同期部31は、第1のCPUサブシステム12に対し、および第2の同期部41を経由して前記第2のCPUサブシステム22に対し、同期のためにリセットを同時にかける。
First, the
第1の同期部31および第2の同期部41により同期ずれが解消できない場合に、第1の接続部32および第2の接続部42は、第2のCPUサブシステム22と第2のIOサブシステム23とのインタフェースと、第2のCPUサブシステム22と前記第1のIOサブシステム13とのインタフェースとがそれぞれ正常であるかを確認できるよう接続状態を変更する。
When the
第1の接続部32および第2の接続部42による接続状態の変更に応じて、第2のCPUサブシステム22がそれぞれのインタフェースが正常であることを確認できた場合に、第1の接続部32は、次のように動作する。第1の制御部14の第1の接続部32は、主系のCPUサブシステムを、第1のCPUサブシステム12から第2のCPUサブシステム22に切り替える。
When the
以上、説明したように、第1の実施形態には、フォールトトレラントサーバにおけるCPUの同期ずれを解消する動作において、無停止で、二重化への復帰を安定的に実現することができるという効果がある。その理由は、CPUサブシステムの系切り替え処理を行う前に切り替え先のCPUサブシステムと各々のIOサブシステムとのインタフェースの動作を接続状態の変更によって検証するからである。これによって、切り替え後に動作不良が発生する可能性を排除する。 As described above, according to the first embodiment, in the operation of eliminating a CPU synchronization deviation in a fault tolerant server, there is an effect that recovery to duplexing can be stably realized without interruption. . The reason is that the operation of the interface between the CPU subsystem of the switching destination and each IO subsystem is verified by changing the connection state before system switchover processing of the CPU subsystem is performed. This eliminates the possibility of malfunctioning after switching.
<第2の実施形態>
次に上述した第1の実施形態に係るフォールトトレラントサーバを基本とする第2の実施形態について説明する。図2は、本発明の第2の実施形態に係るフォールトトレラントサーバの構成を示すブロック図である。ただし、図2に示す構成は、一例であって、本発明は、図2に示すフォールトトレラントサーバに限定されない。
Second Embodiment
Next, a second embodiment based on the fault tolerant server according to the first embodiment described above will be described. FIG. 2 is a block diagram showing the configuration of a fault tolerant server according to a second embodiment of the present invention. However, the configuration shown in FIG. 2 is an example, and the present invention is not limited to the fault tolerant server shown in FIG.
本実施形態に係るフォールトトレラントサーバは、#0系サブシステム101と、#1系サブシステム111とが同期動作し、CPUとIOの二重化を実現している。#0系サブシステム101と、#1系サブシステム111は、一方が主系のサブシステムとして動作し、もう一方が従系のサブシステムとして動作する。
In the fault tolerant server according to the present embodiment, the # 0
#0系サブシステム101は、#0系CPUサブシステム102と、CPU二重化制御回路105と、IO二重化制御回路106と、#0系IOサブシステム107とを含む。同様に、#1系サブシステム111は、1系CPUサブシステム112と、CPU二重化制御回路115と、IO二重化制御回路116と、#1系IOサブシステム117とを含む。
The # 0
CPU二重化制御回路105と、IO二重化制御回路106は、第1の実施形態の第1の制御部14の一例である。同様に、CPU二重化制御回路115と、IO二重化制御回路116は、第1の実施形態の第2の制御部24の一例である。
The CPU
#0系CPUサブシステム102は、CPU104とDIMM103(メモリ、DIMM:Dual Inline Memory Module)とを含み、#1系CPUサブシステム112とクロック単位で同期している。#1系CPUサブシステム112は、CPU114とDIMM113とを含む。
The # 0
#0系IOサブシステム107は、増設PCIカード108(PCI:Peripheral Components Interconnect)と、オンボードLAN109(LAN:Local Area Network)と、HDD110(HDD:Hard Disk Drive)とを含む。そして、#0系IOサブシステム107は、#1系IOサブシステム117と同期動作している。#1系IOサブシステム117は、増設PCIカード118と、オンボードLAN119と、HDD120とを含む。
The # 0
これらのサブシステムの要素を同期動作させるため、#0系サブシステム101と#1系サブシステム111は、それぞれ、CPU二重化制御回路105、115と、IO二重化制御回路106、116とを組み込んだチップを搭載している。#0系サブシステム101と#1系サブシステム111は、システムバックプレーン121によって接続されている。
In order to synchronously operate the elements of these subsystems, the # 0
二重化時には、CPU二重化制御回路105、115は、IO二重化制御回路106、116と、図2に示すように接続されている。すなわち、#0系のCPU二重化制御回路105は、#1系のCPU二重化制御回路115と#0系、#1系のIO二重化制御回路106、116とに接続されている。同様に、#1系のCPU二重化制御回路115は、#0系のCPU二重化制御回路105と#0系、#1系のIO二重化制御回路106、116とに接続されている。
At the time of duplexing, the CPU
しかし、二重化されていない状態では、CPU二重化制御回路105、115の一方と、IO二重化制御回路106、116の一方とが接続可能である。たとえば、図3に示すように、#0系のCPU二重化制御回路105は、#1系のIO二重化制御回路116と接続されて、#1系のCPU二重化制御回路115と、#0系のIO二重化制御回路106とは接続されない。同様に、#1系のCPU二重化制御回路115は、#0系のIO二重化制御回路106と接続されて、#0系のCPU二重化制御回路105と、#1系のIO二重化制御回路116とは接続されない。このような接続方法は、CPU二重化制御回路105、115と、IO二重化制御回路106、116を実装する制御ソフトウェアによって実現される。
However, in the non-duplexed state, one of the CPU
図4は、本発明の第2の実施形態に係るCPU二重化制御回路とIO二重化制御回路の構成を示すブロック図である。図4に示すように、CPU二重化制御回路105は、CPU同期部1051と、CPU接続部1052とを含む。CPU二重化制御回路115は、CPU同期部1151と、CPU接続部1152とを含む。また、IO二重化制御回路106は、IO同期部1061と、IO接続部1062とを含む。IO二重化制御回路116は、IO同期部1161と、IO接続部1162とを含む。
FIG. 4 is a block diagram showing a configuration of a CPU dual control circuit and an IO dual control circuit according to a second embodiment of the present invention. As shown in FIG. 4, the CPU
CPU同期部1051とCPU同期部1151は、互いに連携して、#0系CPUサブシステム102と#1系CPUサブシステム112との同期ずれの復旧動作を行う。
The
CPU接続部1052は、#0系CPUサブシステム102の接続先を決定する、接続状態の設定及び変更機能を有する。
The
CPU接続部1152は、#1系CPUサブシステム112の接続先を決定する、接続状態の設定及び変更機能を有する。
The
IO同期部1061とIO同期部1161は、互いに連携して、#0系IOサブシステム107と#1系IOサブシステム117とを二重化するための動作を行う。
The
IO接続部1062は、#0系IOサブシステム107の接続先を決定する、接続状態の設定及び変更機能を有する。
The
IO接続部1162は、#1系IOサブシステム117の接続先を決定する、接続状態の設定及び変更機能を有する。
The
本実施形態における処理の流れについて、図5〜8に示すフローチャートを用いて説明する。 The flow of processing in the present embodiment will be described using the flowcharts shown in FIGS.
図5は、本発明の第2の実施形態に係るフォールトトレラントサーバ(FTサーバ)におけるCPUサブシステムを再同期する処理を説明するフローチャートである。#0系と#1系の2つのCPUサブシステムが同期動作するFTサーバにおいて、初回起動時における主系のCPUサブシステムは、#0系CPUサブシステム102として説明する。
FIG. 5 is a flow chart for explaining the process of resynchronizing the CPU subsystem in the fault tolerant server (FT server) according to the second embodiment of the present invention. In the FT server in which two
始めに、FTサーバは、両系(#0系および#1系)のCPUサブシステム(#0系CPUサブシステム102および#1系CPUサブシステム112)を起動する(ステップS110、S120)。次に、CPU同期部1051とCPU同期部1151は、#0系CPUサブシステム102から#1系CPUサブシステム112にコンテキストをコピーする(ステップS130)。ここで、コンテキストとは、メモリ(DIMM103)やCPU104のレジスタの内容である。そして、主系である#0系のCPU同期部1051は、同期のために両系(2つのCPUサブシステム)に同時にリセットをかける(ステップS140)。その結果、CPU同期部1051は同期ずれがないと判断した場合(ステップS150にて「No」)、#0系CPUサブシステム102と#1系CPUサブシステム112は、同期化完了となる。
First, the FT server activates the CPU subsystems (# 0
CPUの同期制御は、基準となるクロック信号に対してタイミングの調整を行う。しかし、CPUの仕様によっては、外部からの信号やソフトウェア手続きだけでは完全に制御できない部分も存在し、稀に個体差や環境の変化から期待と異なるレジスタ値設定やクロック間位相差が発生することがある。 The synchronous control of the CPU adjusts the timing of the reference clock signal. However, depending on CPU specifications, there may be parts that can not be completely controlled only by external signals or software procedures, and rarely cause register value settings or clock phase differences that differ from expectations due to individual differences or environmental changes. There is.
そのため、同期ずれ発生時(ステップS150にて「Yes」)に、CPU同期部1151は、従系のCPUサブシステム(#1系CPUサブシステム112)を切り離し(ステップS180)、再度組み込む(ステップS160)。すなわち、従系のCPU同期部1151は、#1系CPUサブシステム112に電源をオフ、再度電源をオンする(パワーサイクルをかける)。これにより、もしも従系のCPUサブシステム(#1系CPUサブシステム112)が期待と異なる状態となっていた場合に同期ずれを解消できる。
Therefore, at the time of out-of-synchronization ("Yes" in step S150), the
しかし、従系ではなく、主系のCPUサブシステム(#0系CPUサブシステム102)が期待と異なる状態になっていた場合、このFTサーバは、従系のCPUサブシステムの切り離しと、組み込みを行っても、同期ずれを解消することはできない。その結果、CPU同期部1151は、従系のCPUサブシステムをN回(Nは、あらかじめ定めた閾値)以上繰り返して切り離す(電源をオフにする)ことになる。N回以上切り離した後(ステップS170にて「Yes」)に、従系のCPUサブシステム(#1系CPUサブシステム112)の電源がオンになり起動する。そして、#1系CPUサブシステム112は、#1系CPUサブシステム112と、IOサブシステム(#0系IOサブシステム107および#1系IOサブシステム117)とのインタフェースの動作を確認する(ステップS190)。この場合、CPU接続部1052、CPU接続部1152、IO接続部1062およびIO接続部1162による接続状態の変更に応じて、#1系CPUサブシステム112は、変更された接続状態での動作を確認する。
However, if the main CPU subsystem (# 0 CPU subsystem 102) is not in the slave status but is in a different state from expected, this FT server disconnects and incorporates the slave CPU subsystem. Even if it does, it can not cancel out of sync. As a result, the
上記の各インタフェースで動作が正常であることが確認されると、CPU二重化制御回路1051のCPU接続部1052は、CPU接続部1152およびIO接続部1162と連係して主系のCPUサブシステムを切り替える(ステップS200)。すなわち、主系のCPUサブシステムは、#0系CPUサブシステム102から#1系CPUサブシステム112に切り替わる。これにより、FTサーバは、同期するようになる。
When it is confirmed that the operation is normal in each of the above interfaces, the
図5におけるS190の従系のCPUサブシステムと各IOサブシステムとのI/Fを確認する処理について、図6のフローチャートを用いて、従系のCPUサブシステムが#1系である場合を例に説明する。 With regard to the processing of confirming the I / F between the slave CPU subsystem and each IO subsystem in S190 in FIG. 5, using the flowchart in FIG. Explain to.
図6は、本発明の第2の実施形態に係るフォールトトレラントサーバにおいて、従系のCPUサブシステムとIOサブシステムとのI/Fを確認する処理を説明するフローチャートである。また、図9は、本発明の第2の実施形態に係るフォールトトレラントサーバにおけるサブシステムの接続状態を説明する図である。図9は、従系のCPUサブシステムとIOサブシステムとのインタフェース(I/F)を確認する処理における#0系CPUサブシステム102、#0系IOサブシステム107、#1系CPUサブシステム112、#1系IOサブシステム117の接続状態を説明する図である。なお、図を簡素化するために二重化回路の記述は、省略している。
FIG. 6 is a flowchart for explaining the process of confirming the I / F between the slave CPU subsystem and the IO subsystem in the fault tolerant server according to the second embodiment of the present invention. FIG. 9 is a diagram for explaining the connection state of subsystems in the fault tolerant server according to the second embodiment of the present invention. FIG. 9 shows # 0
図6において、FTサーバの#1系CPUサブシステム112は、始めに、#1系CPUサブシステム112と、#1系IOサブシステム117とのI/Fが正常に動作していることを確認する(ステップS191)。
In FIG. 6, the # 1
S191の処理の詳細を、図7を用いて説明する。図7は、本発明の第2の実施形態に係るフォールトトレラントサーバにおいて、#1系CPUサブシステム112と、#1系IOサブシステム117とのI/Fを確認する処理を説明するフローチャートである。
Details of the process of S191 will be described with reference to FIG. FIG. 7 is a flowchart for explaining the process of confirming the I / F between the # 1
始めに、FTサーバは、従系である#1系CPUサブシステム112を起動する(ステップS310)。次に、CPU同期部1051とCPU同期部1151は、主系である#0系CPUサブシステム102から、従系である#1系CPUサブシステム112にコンテキストをコピーして、両系を一致させる(ステップS320)。S310〜S320において、サブシステムの接続状態は、図9の(a)の状態である。
First, the FT server activates the
それから、CPU接続部(1052および1152)と、IO接続部(1062および1162)は、主系のサブシステム(#0系サブシステム101)と、従系のサブシステム(#1系サブシステム111)の動作を分離する(ステップS330)。この状態(図9の(b)の接続状態)において、#0系サブシステム101は、#1系サブシステム111と接続されていないように見える。このとき、同様に、#1系サブシステム111からは、#0系サブシステム101と接続されていないように見える。サブシステムを分離した後は、#0系CPUサブシステム102と#0系IOサブシステム107によって、運用は、継続される。
Then, the CPU connections (1052 and 1152) and IO connections (1062 and 1162) are the main subsystem (# 0 system subsystem 101) and the slave subsystem (# 1 system subsystem 111). Operation is separated (step S330). In this state (connection state in FIG. 9B), it appears that the # 0
一方、図9の(b)の接続状態において、#1系CPUサブシステム112は、#1系CPUサブシステム112と#1系IOサブシステム117とのI/Fが正常に動作しているかを確認する(ステップS340)。#1系CPUサブシステム112は、例えば、ダミーのデータを、(CPU接続部1152及びIO接続部1162を経由して)#1系IOサブシステム117に送り、返却される結果が期待値の通りであるかを確認する。S330〜S340において、サブシステムの接続状態は、図9の(b)の状態である。
On the other hand, in the connection state shown in FIG. 9B, the # 1
確認した結果が正常でない場合(図6のS192にて「No」)、#1系サブシステム111は、交換する必要があると#1系CPUサブシステム112によって判断される(ステップS195)。確認した結果が正常である場合(図6のS192にて「Yes」)、#1系CPUサブシステム112は、#1系CPUサブシステム112と、#0系IOサブシステム107とのI/Fが正常に動作しているかを確認する(ステップS193)。
If the confirmed result is not normal ("No" in S192 of FIG. 6), it is determined by the # 1
ステップS193での確認処理の詳細について、図8を用いて説明する。図8は、本発明の第2の実施形態に係るフォールトトレラントサーバにおいて、#1系CPUサブシステム112と、#0系IOサブシステム107とのI/Fを確認する処理を説明するフローチャートである。
Details of the confirmation process in step S193 will be described with reference to FIG. FIG. 8 is a flow chart for explaining the process of confirming the I / F between the # 1
始めに、CPU接続部1152と、IO接続部1162は、#1系CPUサブシステム112と#1系IOサブシステム117を切り離す(ステップS410)。次に、IO同期部(1061および1161)は、#0系IOサブシステム107から#1系IOサブシステム117に、コンテキストをコピーして、IOを二重化する(ステップS420)。それから、FTサーバは、#1系CPUサブシステム112を起動する(ステップS430)。CPU同期部(1051および1151)は、運用中の#0系CPUサブシステム102のコンテキストを#1系CPUサブシステム112にコピーする(ステップS440)。S410〜S440において、サブシステムの接続状態は、図9の(c)の状態である。
First, the
CPU接続部1052とIO接続部1062は、#0系IOサブシステム107を#0系CPUサブシステム102から切り離す(ステップS450)。#0系CPUサブシステム102と#1系IOサブシステム117により、運用は、継続される。ここで、CPU接続部1152とIO接続部1062は、切り離された#0系IOサブシステム107を#1系CPUサブシステム112に組み込む。そして、#1系CPUサブシステム112は、#1系CPUサブシステム112と#0系IOサブシステム107とのI/Fが正常に動作していることを確認する(ステップS460)。S450〜S460において、サブシステムの接続状態は、図9の(d)の状態である。
The
それから、IO同期部(1061および1161)は、運用中の#1系IOサブシステム117から#0系IOサブシステム107にコンテキストをコピーして二重化を行う(ステップS470)。その後、CPU接続部1152とIO接続部1062は、#0系IOサブシステム107を#1系CPUサブシステム112から切り離す(ステップS480)。S470〜S480において、サブシステムの接続状態は、図9の(e)の状態である。
Then, the IO synchronization unit (1061 and 1161) copies the context from the # 1
確認した結果が正常でない場合(図6のS194にて「No」)、CPU接続部1052とIO接続部1162は、#1系IOサブシステム117を#0系CPUサブシステム102から切り離す(ステップS196)。そして、#1系サブシステム111を交換(ステップS195)した後に、FTサーバは、S191から処理する。確認した結果が正常である場合(図6のS194にて「Yes」)、図6に示す従系のCPUサブシステムとIOサブシステムとのI/Fを確認する処理(図5のS190)を終了する。そして、CPU二重化制御回路1051は、主系のCPUサブシステムを、#0系CPUサブシステム102から#1系CPUサブシステム112に切り替える(ステップS200)。
If the confirmed result is not normal ("No" in S194 of FIG. 6), the
次に、図5におけるS200の主系のCPUサブシステムを切り替える処理について、図10のフローチャートを用いて説明する。 Next, the process of switching the main CPU subsystem in S200 of FIG. 5 will be described using the flowchart of FIG.
図10は、本発明の第2の実施形態に係るフォールトトレラントサーバにおける主系のCPUサブシステムを切り替える処理を説明するフローチャートである。始めに、FTサーバは、従系のCPUサブシステム(#1系CPUサブシステム112)を起動する(ステップS201)。それから、CPU同期部1051とCPU同期部1151は、主系のCPUサブシステムから、従系のCPUサブシステムにコンテキストをコピーし、両系のコンテキストを一致させる(ステップS202)。すなわち、CPU同期部1051とCPU同期部1151は、#0系CPUサブシステム102から#1系CPUサブシステム112にコンテキストをコピーする。それから、CPU二重化制御回路105は、主系と従系を切り替える(ステップS203)。
FIG. 10 is a flow chart for explaining the process of switching the main CPU subsystem in the fault tolerant server according to the second embodiment of the present invention. First, the FT server activates the slave CPU subsystem (# 1 CPU subsystem 112) (step S201). Then, the
次に、FTサーバは、従系となった#0系CPUサブシステム102にパワーサイクルを実施する(ステップS204)。CPU同期部1051とCPU同期部1151は、主系のCPUサブシステムから、従系のCPUサブシステムにコンテキストをコピーし、両系のコンテキストを一致させる(ステップS205)。すなわち、CPU同期部1051とCPU同期部1151は、#1系CPUサブシステム112からと、#0系CPUサブシステム102にコンテキストをコピーする。そして、CPU同期部1151は、同期するために#1系CPUサブシステム112と#0系CPUサブシステム102にリセットをかける(ステップS206)。このようにして、FTサーバは、同期化を完了する。
Next, the FT server carries out a power cycle on the # 0
この手法を用いることにより、主系のCPUサブシステムであった#0系CPUサブシステム102にパワーサイクルをかけることが可能となり、図11を用いて前述した主系のCPUサブシステムが期待と異なる状態になっていた場合にも同期ずれを解消することができる。
By using this method, it is possible to apply a power cycle to # 0
以上、説明したように、第2の実施形態には、フォールトトレラントサーバにおけるCPUの同期ずれを解消する動作において、無停止で、二重化への復帰を安定的に実現することができるという効果がある。その理由は、CPUサブシステムの系切り替え処理を行う前に切り替え先のCPUサブシステムとIOサブシステムとの動作を検証することによって、切り替え後に動作不良が発生する可能性を排除するからである。 As described above, according to the second embodiment, in the operation for eliminating the CPU synchronization deviation in the fault tolerant server, there is an effect that recovery to duplexing can be stably realized without interruption. . The reason is that the possibility of an operation failure occurring after switching is eliminated by verifying the operation of the switching target CPU subsystem and the IO subsystem before system switching processing of the CPU subsystem is performed.
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. The configurations and details of the present invention can be modified in various ways that can be understood by those skilled in the art within the scope of the present invention.
11 第1のサブシステム
12 第1のCPUサブシステム
13 第1のIOサブシステム
14 第1の制御部
21 第2のサブシステム
22 第2のCPUサブシステム
23 第2のIOサブシステム
24 第2の制御部
31 第1の同期部
32 第1の接続部
41 第2の同期部
42 第2の接続部
101 #0系サブシステム
102 #0系CPUサブシステム
103 DIMM
104 CPU
105 CPU二重化制御回路
106 IO二重化制御回路
107 #0系IOサブシステム
108 増設PCIカード
109 オンボードLAN
110 HDD
111 #1系サブシステム
112 #1系CPUサブシステム
113 DIMM
114 CPU
115 CPU二重化制御回路
116 IO二重化制御回路
117 #1系IOサブシステム
118 増設PCIカード
119 オンボードLAN
120 HDD
11
104 CPU
105 CPU
110 HDD
111 # 1
114 CPU
115 CPU
120 HDD
Claims (7)
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成され、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する、
フォールトトレラントサーバ。 A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
It is configured to control duplexing in which one of the first subsystem and the second subsystem is a main system and the other is a slave system, and control a connection state between the two systems and between the systems.
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; Reset for synchronization with the second CPU subsystem and the second CPU subsystem,
When the synchronization deviation can not be eliminated, the interface between the second CPU subsystem and the second IO subsystem, and the interface between the second CPU subsystem and the first IO subsystem are normal. Change the connection status to confirm that it is working.
Fault-tolerant server.
前記第2の制御手段は、前記第1の同期手段と連係する第2の同期手段と、第2の接続手段とを備え、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムに同期ずれが発生した場合、前記第2の同期手段が前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1の同期手段および前記第2の同期手段は、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記第1の同期手段および前記第2の同期手段により同期ずれが解消できない場合に、前記第1の接続手段および前記第2の接続手段は、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する
請求項1に記載のフォールトトレラントサーバ。 The first control means comprises a first synchronization means and a first connection means.
The second control means comprises a second synchronization means associated with the first synchronization means, and a second connection means.
When the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem, the first CPU subsystem and the second CPU subsystem The first synchronization means and the second synchronization means perform the first synchronization after the second synchronization means performs the power-off and the power-on of the second CPU subsystem when the synchronization deviation occurs. Copy the context of the CPU subsystem to the second CPU subsystem, and reset the first CPU subsystem and the second CPU subsystem for synchronization.
When the first synchronization means and the second synchronization means can not eliminate the synchronization deviation, the first connection means and the second connection means are the second CPU subsystem and the second IO. The fault tolerant system according to claim 1, wherein the connection state is changed so that it can be confirmed that the interface with the subsystem and the interface between the second CPU subsystem and the first IO subsystem are operating properly. server.
請求項2に記載のフォールトトレラントサーバ。 The second CPU subsystem interfaces with the second CPU subsystem and the second IO subsystem after the connection state is changed by the connection unit, and the second CPU subsystem and the first The first control means switches the main CPU subsystem from the first CPU subsystem to the second CPU subsystem when it is confirmed that the IO subsystem is normal The fault tolerant server according to claim 2.
請求項1乃至3の何れか一項に記載のフォールトトレラントサーバ。 The first control means according to any one of claims 1 to 3, wherein the first control means includes a CPU duplication control circuit for controlling the first CPU subsystem and an IO duplication control circuit for controlling the IO subsystem. A fault tolerant server according to any one of the claims.
前記第1の同期手段が前記第1のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1の同期手段および前記第2の同期手段は、前記第2のCPUサブシステムのコンテキストを前記第1のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかける
請求項2又は3に記載のフォールトトレラントサーバ。 After switching the main CPU subsystem from the first CPU subsystem to the second CPU subsystem by the first control means,
After the first synchronization means powers off and powers on the first CPU subsystem, the first synchronization means and the second synchronization means execute the context of the second CPU subsystem. The fault tolerant server according to claim 2 or 3 , wherein the first CPU subsystem and the second CPU subsystem are reset for synchronization by copying to the first CPU subsystem.
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成されるフォールトトレラントサーバにおいて、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する、
同期化方法。 A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
A fault tolerant server configured to control duplexing in which one of the first subsystem and the second subsystem is a primary system and the other is a secondary system, and to control the connection state between the two systems and between the systems. In
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; Reset for synchronization with the second CPU subsystem and the second CPU subsystem,
When the synchronization deviation can not be eliminated, the interface between the second CPU subsystem and the second IO subsystem, and the interface between the second CPU subsystem and the first IO subsystem are normal. Change the connection status to confirm that it is working.
Synchronization method.
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成されるフォールトトレラントサーバに、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかける同期機能と、
前記同期機能により前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する接続機能と
を、実現させる
コンピュータ・プログラム。 A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
A fault tolerant server configured to control duplexing in which one of the first subsystem and the second subsystem is a primary system and the other is a secondary system, and to control the connection state between the two systems and between the systems. To
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; A synchronization function for resetting for synchronization with the second CPU subsystem and the second CPU subsystem;
When the synchronization deviation can not be eliminated by the synchronization function, an interface between the second CPU subsystem and the second IO subsystem, and between the second CPU subsystem and the first IO subsystem A computer program that implements a connection function that changes the connection state to one that can confirm that the interface is operating properly.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015049202A JP6540113B2 (en) | 2015-03-12 | 2015-03-12 | Fault-tolerant server, synchronization method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015049202A JP6540113B2 (en) | 2015-03-12 | 2015-03-12 | Fault-tolerant server, synchronization method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016170577A JP2016170577A (en) | 2016-09-23 |
JP6540113B2 true JP6540113B2 (en) | 2019-07-10 |
Family
ID=56983824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015049202A Active JP6540113B2 (en) | 2015-03-12 | 2015-03-12 | Fault-tolerant server, synchronization method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6540113B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1011370A (en) * | 1996-06-19 | 1998-01-16 | Oki Electric Ind Co Ltd | Multiple system |
US6425094B1 (en) * | 1999-08-09 | 2002-07-23 | Sun Microsystems, Inc. | Diagnostic cage for testing redundant system controllers |
JP2006178616A (en) * | 2004-12-21 | 2006-07-06 | Nec Corp | Fault tolerant system, controller used thereform, operation method and operation program |
-
2015
- 2015-03-12 JP JP2015049202A patent/JP6540113B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016170577A (en) | 2016-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8503484B2 (en) | System and method for a cross channel data link | |
US7519856B2 (en) | Fault tolerant system and controller, operation method, and operation program used in the fault tolerant system | |
US9465706B2 (en) | Selectively coupling a PCI host bridge to multiple PCI communication paths | |
JP6098778B2 (en) | Redundant system, redundancy method, redundancy system availability improving method, and program | |
JP6083480B1 (en) | Monitoring device, fault tolerant system and method | |
KR101560497B1 (en) | Method for controlling reset of lockstep replicated processor cores and lockstep system using the same | |
CN115168322A (en) | Database system, main library election method and device | |
JP2005518012A (en) | Seamless clock | |
JP6540113B2 (en) | Fault-tolerant server, synchronization method, and computer program | |
CN112202601B (en) | Application method of two physical node mongo clusters operated in duplicate set mode | |
JP2017167602A (en) | Storage system | |
WO2024179427A1 (en) | Disaster recovery method under double az cluster and related device | |
JP2009098988A (en) | Fault tolerant computer system | |
CN111367998A (en) | Database cluster recovery method based on Galera and terminal equipment | |
JP5176914B2 (en) | Transmission device and system switching method for redundant configuration unit | |
JP6511737B2 (en) | Redundant system, redundant method and redundant program | |
JP6227909B2 (en) | Alternative control device, alternative control method, and alternative control program | |
JP4165499B2 (en) | Computer system, fault tolerant system using the same, and operation control method thereof | |
JP5604799B2 (en) | Fault tolerant computer | |
US10909002B2 (en) | Fault tolerance method and system for virtual machine group | |
JP2016009499A (en) | Methods and systems for managing interconnection | |
JP2015194847A (en) | Fault-tolerant server, synchronization method, and program | |
JP6069951B2 (en) | Fault-tolerant computer system, fault-tolerant computer system startup method, and fault-tolerant computer system startup program | |
JP2011028481A (en) | Fault tolerant server, processor switching method, and processor switching program | |
JP6511738B2 (en) | Redundant system, redundant method and redundant program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181030 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190527 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6540113 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |