[go: up one dir, main page]

JP6540113B2 - Fault-tolerant server, synchronization method, and computer program - Google Patents

Fault-tolerant server, synchronization method, and computer program Download PDF

Info

Publication number
JP6540113B2
JP6540113B2 JP2015049202A JP2015049202A JP6540113B2 JP 6540113 B2 JP6540113 B2 JP 6540113B2 JP 2015049202 A JP2015049202 A JP 2015049202A JP 2015049202 A JP2015049202 A JP 2015049202A JP 6540113 B2 JP6540113 B2 JP 6540113B2
Authority
JP
Japan
Prior art keywords
subsystem
cpu
cpu subsystem
synchronization
control means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015049202A
Other languages
Japanese (ja)
Other versions
JP2016170577A (en
Inventor
貴之 加瀬
貴之 加瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015049202A priority Critical patent/JP6540113B2/en
Publication of JP2016170577A publication Critical patent/JP2016170577A/en
Application granted granted Critical
Publication of JP6540113B2 publication Critical patent/JP6540113B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本発明は、フォールトトレラントサーバにおける同期化方法に関する。   The present invention relates to a synchronization method in a fault tolerant server.

フォールトトレラントサーバは、そのサーバを構成するハードウェア部品のうちで一つのハードウェア部品が故障した場合でも、システムを停止することなく稼働を続けることが可能なサーバである。フォールトトレラントサーバ(以下において、「FTサーバ」ともいう)は、CPU(Central Processing Unit)、メインメモリ、ハードディスク及びI/O関連機器のすべてが二重に搭載されている。そして、それらの二重化された機器(デバイス)は、同期されている。   The fault tolerant server is a server that can continue operation without stopping the system even if one of the hardware components constituting the server fails. In a fault tolerant server (hereinafter, also referred to as “FT server”), a central processing unit (CPU), a main memory, a hard disk, and I / O related devices are all mounted in duplicate. And those duplicate devices (devices) are synchronized.

デバイスの同期制御は、一般的に、外部からの信号やソフトウェア制御、タイミング調整などの方法により行われる。しかし、例えば、フォールトトレラントサーバを構成するCPUサブシステムなどのように、その一部がブラックボックスとなっているデバイスは、上述の方法では、完全に制御できない部分も存在する。すなわち、CPUサブシステムは、個体差による稀なキャリビレーションミスの発生や、起動時に保持しているレジスタ値を変更できないために、外部環境変化時に同期がとれないことがある。   The synchronization control of the device is generally performed by a method such as an external signal or software control, timing adjustment. However, for example, a device whose part is a black box, such as a CPU subsystem that constitutes a fault tolerant server, has a part that can not be completely controlled by the above-mentioned method. That is, the CPU subsystem may not be synchronized at the time of external environment change because rare calibration errors occur due to individual differences and the register values held at the time of activation can not be changed.

CPUサブシステムの同期ずれを解消するためには、CPUサブシステムにパワーサイクル(電源をオフ、再度電源をオン)を実施する方法が最も一般的である。   In order to eliminate the out-of-synchronization condition of the CPU subsystem, a method of performing a power cycle (power off, power on again) on the CPU subsystem is the most general.

ここで、#0系(主系)と#1系(従系)の2つのCPUサブシステムが同期動作するFTサーバの一般的な同期化処理について、図11のフローチャートを用いて説明する。始めに、FTサーバは、両系(#0系および#1系)のCPUサブシステムを起動する(ステップS910、S920)。次に、FTサーバは、#0系のCPUサブシステムから#1系のCPUサブシステムにコンテキストをコピーする(ステップS930)。ここで、コンテキストとは、メモリやCPUのレジスタの内容である。そして、同期のために両系にリセットをかける(ステップS940)。その結果、同期ずれがない場合(ステップS950にて「No」)、#0系のCPUサブシステムと#1系のCPUサブシステムは、同期化完了となる。   Here, a general synchronization process of the FT server in which two CPU subsystems of system # 0 (main system) and system # 1 (follow system) operate synchronously will be described using the flowchart of FIG. First, the FT server activates the CPU subsystem of both systems (# 0 system and # 1 system) (steps S910 and S920). Next, the FT server copies a context from the # 0 CPU subsystem to the # 1 CPU subsystem (step S930). Here, the context is the contents of the memory or the register of the CPU. Then, both systems are reset for synchronization (step S940). As a result, when there is no synchronization deviation ("No" in step S950), the CPU subsystem of # 0 system and the CPU subsystem of # 1 system become synchronization complete.

CPUの同期制御は、基準となるクロック信号に対してタイミングの調整を行う。しかし、CPUの仕様によっては、外部からの信号やソフトウェア手続きだけでは完全に制御できない部分も存在し、稀に個体差や環境の変化から期待と異なるレジスタ値設定やクロック間位相差が発生することがある。そのため、同期ずれ発生時(ステップS950にて「Yes」)にFTサーバは、従系のCPUサブシステムを切り離し(ステップS980)、再度組み込む(ステップS960)ことにより従系のCPUサブシステムにパワーサイクルをかける。これにより、もしも従系のCPUサブシステムが期待と異なる状態となっていた場合に同期ずれを解消できる。   The synchronous control of the CPU adjusts the timing of the reference clock signal. However, depending on CPU specifications, there may be parts that can not be completely controlled only by external signals or software procedures, and rarely cause register value settings or clock phase differences that differ from expectations due to individual differences or environmental changes. There is. Therefore, the FT server disconnects the slave CPU subsystem (step S 980) and reassembles the slave CPU subsystem (step S 960) at the time of out-of-synchronization (“Yes” in step S 950). multiply. As a result, if the slave CPU subsystem is in a state different from the expected state, the synchronization deviation can be eliminated.

しかし、従系ではなく、主系のCPUサブシステムが期待と異なる状態になっていた場合、このFTサーバは、従系のCPUサブシステムの切り離しと、組み込みを行っても、同期ずれを解消することはできない。そして、FTサーバは、従系のCPUサブシステムをN回(Nは、あらかじめ定めた閾値)以上切り離した後(ステップS970にて「Yes」)に、従系(#1系)のCPUサブシステムが故障していると判定する(ステップS990)。したがって、主系のCPUサブシステムが期待と異なる状態になっていた場合に、同期ずれを解消できないままとなる。その結果、フォールトトレラントサーバの安定的な運用ができない。   However, when the main CPU subsystem is not in the slave status but in a different state from expected, this FT server resolves the synchronization deviation even if the slave CPU subsystem is disconnected and incorporated. It is not possible. Then, the FT server disconnects the slave CPU subsystem N times (N is a predetermined threshold) or more ("Yes" in step S970), and then the slave CPU subsystem (# 1 system) is generated. Is determined to be broken (step S990). Therefore, when the main CPU subsystem is in a different state from expected, the synchronization deviation can not be eliminated. As a result, stable operation of the fault tolerant server can not be performed.

ここで、関連技術としては、例えば以下の特許文献がある。   Here, as related art, there are, for example, the following patent documents.

特許文献1は、二重化計算機のオンライン稼働時の片系保守における信頼性を向上させると共に、簡潔な構成のI/O(Input/Output)装置の使用を可能とする二重化計算機を開示している。   Patent Document 1 discloses a duplex computer that improves the reliability of one-system maintenance in online operation of the duplex computer and enables the use of a simple configuration of an input / output (I / O) device.

特許文献2は、オンライン業務中にプロセッサモジュールの処理能力を拡張することができるフォールトトレラントコンピュータを開示している。   Patent Document 2 discloses a fault tolerant computer capable of expanding the processing capability of a processor module during online operation.

特開平09−146853号公報JP 09-146853 A 特開平08−016533号公報Japanese Patent Application Publication No. 08-016533

特許文献1に提案されている技術は、復旧系(従系)のIO(Input Output)サブシステムで障害が発生した場合に、そのIOサブシステムを交換後、稼働系(主系)に接続する前に、その復旧系のIOサブシステムを、復旧系のCPUサブシステムに接続して評価を行う。   The technology proposed in Patent Document 1 connects an operating system (main system) after replacing the IO subsystem after a failure occurs in a recovery system (seding system) IO (Input Output) subsystem. Before that, evaluation is performed by connecting the recovery IO subsystem to the recovery CPU subsystem.

図11に示す関連技術と特許文献1と2に提案されている技術は、次の点を考慮していない。それら技術は、主系と従系のCPUサブシステムを切り替える前に、従系のCPUサブシステムから各々(主系及び従系の各々)のIOサブシステムへのインタフェースが正常に動作していることを確認することを考慮していない。そのため、例えば従系のCPUサブシステムと主系のIOサブシステムとの間のパスに不良が生じていたりアクセス先に不良がある場合に、主系と従系のCPUサブシステムを切り替えることによって、予期せぬ動作を誘引し、ストール等が発生する虞がある。   The related art shown in FIG. 11 and the techniques proposed in Patent Documents 1 and 2 do not consider the following points. In these technologies, the interface from the slave CPU subsystem to the respective (each master and slave) IO subsystem is operating normally before switching the master CPU subsystem and the slave CPU subsystem. Do not consider to confirm. Therefore, for example, when there is a defect in the path between the slave CPU subsystem and the master IO subsystem or there is a defect in the access destination, by switching the master CPU subsystem and the slave CPU subsystem, Unintended motion may be induced to cause a stall or the like.

したがって、前述した関連技術では、サーバを停止させないで、二重化への復帰を安定的に実現することができない。   Therefore, in the related art described above, recovery to duplexing can not be stably realized without stopping the server.

そこで、本発明は、フォールトトレラントサーバにおけるCPUの同期ずれを解消する動作において、無停止で、二重化への復帰を安定的に実現することが可能なフォールトトレラントサーバ等の提供を主たる目的とする。   Therefore, the present invention has as its main object to provide a fault tolerant server or the like which can stably realize the return to the duplex without stopping in the operation of resolving the CPU synchronization deviation in the fault tolerant server.

上記の目的を達成すべく、本発明の一態様に係るフォールトトレラントサーバは、以下の構成を備える。   In order to achieve the above object, a fault tolerant server according to an aspect of the present invention has the following configuration.

即ち、本発明の一態様に係るフォールトトレラントサーバは、
第1のCPUサブシステムと、第1のIOサブシステムと、前記第1のCPUサブシステムおよび前記第1のIOサブシステムに接続する第1の制御手段とを備えた第1のサブシステムと、
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成され、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する。
That is, a fault tolerant server according to an aspect of the present invention is
A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
It is configured to control duplexing in which one of the first subsystem and the second subsystem is a main system and the other is a slave system, and control a connection state between the two systems and between the systems.
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; Reset for synchronization with the second CPU subsystem and the second CPU subsystem,
When the synchronization deviation can not be eliminated, the interface between the second CPU subsystem and the second IO subsystem, and the interface between the second CPU subsystem and the first IO subsystem are normal. Change the connection status to confirm that it is working.

同目的を達成する本発明の一態様に係る同期化方法は、
第1のCPUサブシステムと、第1のIOサブシステムと、前記第1のCPUサブシステムおよび前記第1のIOサブシステムに接続する第1の制御手段とを備えた第1のサブシステムと、
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成されるフォールトトレラントサーバにおいて、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する。
A synchronization method according to an aspect of the present invention for achieving the same object is
A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
A fault tolerant server configured to control duplexing in which one of the first subsystem and the second subsystem is a primary system and the other is a secondary system, and to control the connection state between the two systems and between the systems. In
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; Reset for synchronization with the second CPU subsystem and the second CPU subsystem,
When the synchronization deviation can not be eliminated, the interface between the second CPU subsystem and the second IO subsystem, and the interface between the second CPU subsystem and the first IO subsystem are normal. Change the connection status to confirm that it is working.

更に、同目的は、上記構成を有するフォールトトレラントサーバ、或いは、同期化方法を、コンピュータによって実現するコンピュータ・プログラム、及びそのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。   Furthermore, the same object is also achieved by a fault tolerant server having the above configuration, or a computer program that implements a synchronization method by a computer, and a computer readable storage medium storing the computer program. Ru.

上記の本発明によれば、フォールトトレラントサーバにおけるCPUの同期ずれを解消する動作において、無停止で、二重化への復帰を安定的に実現することができるという効果がある。   According to the above-described present invention, in the operation of resolving a CPU synchronization deviation in a fault tolerant server, there is an effect that recovery to duplexing can be stably realized without interruption.

本発明の第1の実施形態に係るフォールトトレラントサーバの構成を示すブロック図である。It is a block diagram showing composition of a fault tolerant server concerning a 1st embodiment of the present invention. 本発明の第2の実施形態に係るフォールトトレラントサーバの構成を示すブロック図である。It is a block diagram which shows the structure of the fault tolerant server which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係るフォールトトレラントサーバにおけるサブシステムの接続状態の一例を説明する図である。It is a figure explaining an example of the connection state of the subsystem in the fault tolerant server which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係るCPU二重化制御回路およびIO二重化制御回路の構成を示すブロック図である。FIG. 6 is a block diagram showing configurations of a CPU duplication control circuit and an IO duplication control circuit according to a second embodiment of the present invention. 本発明の第2の実施形態に係るフォールトトレラントサーバにおけるCPUサブシステムを再同期する処理を説明するフローチャートである。It is a flowchart explaining the process which resynchronizes the CPU subsystem in the fault tolerant server which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係るフォールトトレラントサーバにおける従系のCPUサブシステムと、IOサブシステムとのI/F(InterFace)を確認する処理を説明するフローチャートである。It is a flowchart explaining the process which confirms I / F (InterFace) of the subordinate CPU subsystem and IO subsystem in the fault tolerant server which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係るフォールトトレラントサーバにおいて、#1系CPUサブシステムと、#1系IOサブシステムとのI/Fを確認する処理を説明するフローチャートである。In the fault tolerant server which relates to the 2nd execution form of this invention, it is the flowchart which explains the processing which verifies the I / F of # 1 system CPU subsystem and # 1 system IO subsystem. 本発明の第2の実施形態に係るフォールトトレラントサーバにおいて、#1系CPUサブシステムと、#0系IOサブシステムとのI/Fを確認する処理を説明するフローチャートである。It is a flowchart which demonstrates the process which confirms I / F of # 1 type | system | group CPU subsystem and # 0 type | system | group IO subsystem in the fault tolerant server which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係るフォールトトレラントサーバにおけるサブシステムの接続状態を説明する図である。It is a figure explaining the connection state of the subsystem in the fault tolerant server which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係るフォールトトレラントサーバにおける主系のCPUサブシステムを切り替える処理を説明するフローチャートである。It is a flowchart explaining the process which switches the main CPU subsystem in the fault tolerant server which concerns on the 2nd Embodiment of this invention. 一般的なフォールトトレラントサーバにおけるCPU再同期化手法を説明するフローチャートである。It is a flowchart explaining the CPU resynchronization method in a general fault tolerant server.

次に、本発明を実施する形態について図面を参照して詳細に説明する。   Next, embodiments of the present invention will be described in detail with reference to the drawings.

<第1の実施形態>
図1は、本発明の第1の実施形態に係るフォールトトレラントサーバの構成を示すブロック図である。
First Embodiment
FIG. 1 is a block diagram showing the configuration of a fault tolerant server according to a first embodiment of the present invention.

図1を参照すると、本実施形態に係るフォールトトレラントサーバは、第1のサブシステム11と、第2のサブシステム21とを備えている。第1のサブシステム11は、第1のCPUサブシステム12と、第1のIOサブシステム13と、第1の制御部14とを含む。また、第2のサブシステム21は、第2のCPUサブシステム22と、第2のIOサブシステム23と、第2の制御部24とを含む。   Referring to FIG. 1, the fault tolerant server according to the present embodiment includes a first subsystem 11 and a second subsystem 21. The first subsystem 11 includes a first CPU subsystem 12, a first IO subsystem 13, and a first control unit 14. The second subsystem 21 also includes a second CPU subsystem 22, a second IO subsystem 23, and a second control unit 24.

第1の制御部14と第2の制御部24は、第1のサブシステム11と第2のサブシステム21の一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成される。   The first control unit 14 and the second control unit 24 control duplexing in which one of the first subsystem 11 and the second subsystem 21 is a main system and the other is a slave system, It is configured to control the connection between systems.

また、第1のCPUサブシステム12が主系、第2のCPUサブシステム22が従系のCPUサブシステムとして動作中に、第1のCPUサブシステム12と前記第2のCPUサブシステム22との同期ずれが発生した場合、第1の制御部14と第2の制御部24は、次のように動作する。   Further, while the first CPU subsystem 12 is operating as a main system and the second CPU subsystem 22 is operating as a slave CPU subsystem, the first CPU subsystem 12 and the second CPU subsystem 22 When the synchronization deviation occurs, the first control unit 14 and the second control unit 24 operate as follows.

(1)第2のCPUサブシステム22の電源オフ、電源オンを行った後に、第1のCPUサブシステム12のコンテキストを第2のCPUサブシステム22にコピーする。   (1) After power-off and power-on of the second CPU subsystem 22, the context of the first CPU subsystem 12 is copied to the second CPU subsystem 22.

(2)コピー後に、第1のCPUサブシステム12および前記第2のCPUサブシステム22に対し、同期のためにリセットをかける。   (2) After copying, reset the first CPU subsystem 12 and the second CPU subsystem 22 for synchronization.

(3)リセット後も同期ずれが解消できない場合に、第2のCPUサブシステム22と第2のIOサブシステム23とのインタフェースと、第2のCPUサブシステム22と第1のIOサブシステム13とのインタフェースが正常に動作していることを確認可能な接続状態に変更する。   (3) The interface between the second CPU subsystem 22 and the second IO subsystem 23, and the second CPU subsystem 22 and the first IO subsystem 13 when the synchronization deviation can not be eliminated even after the reset. Change to a connection state that can confirm that the interface is operating properly.

以上のように、本実施形態のフォールトトレラントサーバは、CPUサブシステムの系切り替え(主系と従系の切り替え)処理を行う前に、切り替え先のCPUサブシステムと各々のIOサブシステムとのインタフェースの動作を接続状態の変更によって検証する。これによって、切り替え後に動作不良が発生する可能性を排除する。   As described above, in the fault tolerant server according to the present embodiment, the interface between the CPU subsystem of the switching destination and each IO subsystem before performing system switching (switching between primary and secondary) of the CPU subsystem is performed. Verify the behavior of the connection by changing the connection state. This eliminates the possibility of malfunctioning after switching.

ところで、第1の制御部14は、第1の同期部31と、第1の接続部32とを含む。そして、第2の制御部24は、第2の同期部41と、第2の接続部42とを含む。第1の制御部14と第2の制御部24は、互いに接続され、相互に通信が可能である。つぎに、これら各部の構成と動作について説明する。   The first control unit 14 includes a first synchronization unit 31 and a first connection unit 32. The second control unit 24 includes a second synchronization unit 41 and a second connection unit 42. The first control unit 14 and the second control unit 24 are connected to each other and can communicate with each other. Next, the configuration and operation of these units will be described.

第1同期部31と第2同期部41は、互いに連携して同期ずれの復旧動作を行う。第1の同期部31は、同期ずれの復旧動作時に、第1のCPUサブシステム12のコンテキストを取得し、第2の同期部41に渡すことができる。第2の同期部41は、第1のCPUサブシステム12のコンテキストを第2のCPUサブシステム22にコピーすることができる。   The first synchronization unit 31 and the second synchronization unit 41 cooperate with each other to perform the operation of recovering from the synchronization. The first synchronization unit 31 can acquire the context of the first CPU subsystem 12 and can pass it to the second synchronization unit 41 at the time of the operation of recovering from the synchronization. The second synchronization unit 41 can copy the context of the first CPU subsystem 12 to the second CPU subsystem 22.

第1の接続部32は、第1のCPUサブシステム12の接続先と、第1のIOサブシステム13の接続先とをそれぞれ決定する、接続状態の設定及び変更機能を有する。たとえば、第1の接続部32は、第1のCPUサブシステム12の接続先として、第1のIOサブシステム13、第2のIOサブシステム23またはそれら2つのIOサブシステムに設定することを可能にする。また、第1の接続部32は、第1のIOサブシステム13の接続先として、第1のCPUサブシステム12または第2のCPUサブシステム22に設定することを可能にする。   The first connection unit 32 has a connection state setting / changing function of determining the connection destination of the first CPU subsystem 12 and the connection destination of the first IO subsystem 13 respectively. For example, the first connection unit 32 can be set as the connection destination of the first CPU subsystem 12 to the first IO subsystem 13, the second IO subsystem 23, or those two IO subsystems. Make it Further, the first connection unit 32 enables setting to the first CPU subsystem 12 or the second CPU subsystem 22 as a connection destination of the first IO subsystem 13.

第2の接続部42は、第2のCPUサブシステム22の接続先と、第2のIOサブシステム23の接続先とをそれぞれ決定する、接続状態の設定及び変更機能を有する。たとえば、第2の接続部42は、第2のCPUサブシステム22の接続先として、第1のIOサブシステム13、第2のIOサブシステム23またはそれら2つのIOサブシステムに設定することを可能にする。また、第2の接続部42は、第2のIOサブシステム23の接続先として、第1のCPUサブシステム12または第2のCPUサブシステム22に設定することを可能にする。   The second connection unit 42 has a connection state setting / changing function of determining the connection destination of the second CPU subsystem 22 and the connection destination of the second IO subsystem 23 respectively. For example, the second connection unit 42 can be set as the connection destination of the second CPU subsystem 22 to the first IO subsystem 13, the second IO subsystem 23, or those two IO subsystems. Make it Further, the second connection unit 42 enables setting to the first CPU subsystem 12 or the second CPU subsystem 22 as a connection destination of the second IO subsystem 23.

第1の接続部32と第2の接続部42は、互いに連携して接続状態を制御してもよい。   The first connection unit 32 and the second connection unit 42 may control the connection state in cooperation with each other.

第1のCPUサブシステム12を主系のCPUサブシステムとして動作中に、第1のCPUサブシステム12と第2のCPUサブシステム22に同期ずれが発生した場合、第1の制御部14と第2の制御部24は、次のように動作する。   If the first CPU subsystem 12 and the second CPU subsystem 22 are out of sync while the first CPU subsystem 12 is operating as a main CPU subsystem, the first control unit 14 and the The second control unit 24 operates as follows.

最初、第2の同期部41は、第2のCPUサブシステム22に対して電源をオフ、再度電源をオンする。それから、第1の同期部31および第2の同期部41は、第1のCPUサブシステム12のコンテキストを第2のCPUサブシステム22にコピーする。コピー完了後に、第1の同期部31は、第1のCPUサブシステム12に対し、および第2の同期部41を経由して前記第2のCPUサブシステム22に対し、同期のためにリセットを同時にかける。   First, the second synchronization unit 41 turns off the power to the second CPU subsystem 22 and turns on the power again. Then, the first synchronization unit 31 and the second synchronization unit 41 copy the context of the first CPU subsystem 12 to the second CPU subsystem 22. After completion of copying, the first synchronization unit 31 resets the first CPU subsystem 12 and the second CPU subsystem 22 via the second synchronization unit 41 for synchronization. At the same time.

第1の同期部31および第2の同期部41により同期ずれが解消できない場合に、第1の接続部32および第2の接続部42は、第2のCPUサブシステム22と第2のIOサブシステム23とのインタフェースと、第2のCPUサブシステム22と前記第1のIOサブシステム13とのインタフェースとがそれぞれ正常であるかを確認できるよう接続状態を変更する。   When the first synchronization unit 31 and the second synchronization unit 41 can not eliminate the synchronization deviation, the first connection unit 32 and the second connection unit 42 are the second CPU subsystem 22 and the second IO subsystem. The connection state is changed to confirm whether the interface with the system 23 and the interface between the second CPU subsystem 22 and the first IO subsystem 13 are normal.

第1の接続部32および第2の接続部42による接続状態の変更に応じて、第2のCPUサブシステム22がそれぞれのインタフェースが正常であることを確認できた場合に、第1の接続部32は、次のように動作する。第1の制御部14の第1の接続部32は、主系のCPUサブシステムを、第1のCPUサブシステム12から第2のCPUサブシステム22に切り替える。   When the second CPU subsystem 22 confirms that the respective interfaces are normal according to the change of the connection state by the first connection unit 32 and the second connection unit 42, the first connection unit 32 operates as follows. The first connection unit 32 of the first control unit 14 switches the main CPU subsystem from the first CPU subsystem 12 to the second CPU subsystem 22.

以上、説明したように、第1の実施形態には、フォールトトレラントサーバにおけるCPUの同期ずれを解消する動作において、無停止で、二重化への復帰を安定的に実現することができるという効果がある。その理由は、CPUサブシステムの系切り替え処理を行う前に切り替え先のCPUサブシステムと各々のIOサブシステムとのインタフェースの動作を接続状態の変更によって検証するからである。これによって、切り替え後に動作不良が発生する可能性を排除する。   As described above, according to the first embodiment, in the operation of eliminating a CPU synchronization deviation in a fault tolerant server, there is an effect that recovery to duplexing can be stably realized without interruption. . The reason is that the operation of the interface between the CPU subsystem of the switching destination and each IO subsystem is verified by changing the connection state before system switchover processing of the CPU subsystem is performed. This eliminates the possibility of malfunctioning after switching.

<第2の実施形態>
次に上述した第1の実施形態に係るフォールトトレラントサーバを基本とする第2の実施形態について説明する。図2は、本発明の第2の実施形態に係るフォールトトレラントサーバの構成を示すブロック図である。ただし、図2に示す構成は、一例であって、本発明は、図2に示すフォールトトレラントサーバに限定されない。
Second Embodiment
Next, a second embodiment based on the fault tolerant server according to the first embodiment described above will be described. FIG. 2 is a block diagram showing the configuration of a fault tolerant server according to a second embodiment of the present invention. However, the configuration shown in FIG. 2 is an example, and the present invention is not limited to the fault tolerant server shown in FIG.

本実施形態に係るフォールトトレラントサーバは、#0系サブシステム101と、#1系サブシステム111とが同期動作し、CPUとIOの二重化を実現している。#0系サブシステム101と、#1系サブシステム111は、一方が主系のサブシステムとして動作し、もう一方が従系のサブシステムとして動作する。   In the fault tolerant server according to the present embodiment, the # 0 subsystem 101 and the # 1 subsystem 111 operate in synchronization to realize dual CPU and IO. One of the # 0 subsystem 101 and the # 1 subsystem 111 operates as a master subsystem, and the other operates as a slave subsystem.

#0系サブシステム101は、#0系CPUサブシステム102と、CPU二重化制御回路105と、IO二重化制御回路106と、#0系IOサブシステム107とを含む。同様に、#1系サブシステム111は、1系CPUサブシステム112と、CPU二重化制御回路115と、IO二重化制御回路116と、#1系IOサブシステム117とを含む。   The # 0 system subsystem 101 includes a # 0 system CPU subsystem 102, a CPU duplication control circuit 105, an IO duplication control circuit 106, and a # 0 system IO subsystem 107. Similarly, the # 1 system subsystem 111 includes a 1 system CPU subsystem 112, a CPU dual control circuit 115, an IO dual control circuit 116, and a # 1 system IO subsystem 117.

CPU二重化制御回路105と、IO二重化制御回路106は、第1の実施形態の第1の制御部14の一例である。同様に、CPU二重化制御回路115と、IO二重化制御回路116は、第1の実施形態の第2の制御部24の一例である。   The CPU duplication control circuit 105 and the IO duplication control circuit 106 are an example of the first control unit 14 of the first embodiment. Similarly, the CPU duplication control circuit 115 and the IO duplication control circuit 116 are an example of the second control unit 24 of the first embodiment.

#0系CPUサブシステム102は、CPU104とDIMM103(メモリ、DIMM:Dual Inline Memory Module)とを含み、#1系CPUサブシステム112とクロック単位で同期している。#1系CPUサブシステム112は、CPU114とDIMM113とを含む。   The # 0 system CPU subsystem 102 includes the CPU 104 and the DIMM 103 (memory, DIMM: Dual Inline Memory Module), and is synchronized with the # 1 system CPU subsystem 112 on a clock basis. The # 1 CPU subsystem 112 includes a CPU 114 and a DIMM 113.

#0系IOサブシステム107は、増設PCIカード108(PCI:Peripheral Components Interconnect)と、オンボードLAN109(LAN:Local Area Network)と、HDD110(HDD:Hard Disk Drive)とを含む。そして、#0系IOサブシステム107は、#1系IOサブシステム117と同期動作している。#1系IOサブシステム117は、増設PCIカード118と、オンボードLAN119と、HDD120とを含む。   The # 0 system IO subsystem 107 includes an expansion PCI card 108 (PCI: Peripheral Components Interconnect), an onboard LAN 109 (LAN: Local Area Network), and an HDD 110 (HDD: Hard Disk Drive). The # 0 system IO subsystem 107 operates in synchronization with the # 1 system IO subsystem 117. The # 1 system IO subsystem 117 includes an expansion PCI card 118, an onboard LAN 119, and an HDD 120.

これらのサブシステムの要素を同期動作させるため、#0系サブシステム101と#1系サブシステム111は、それぞれ、CPU二重化制御回路105、115と、IO二重化制御回路106、116とを組み込んだチップを搭載している。#0系サブシステム101と#1系サブシステム111は、システムバックプレーン121によって接続されている。   In order to synchronously operate the elements of these subsystems, the # 0 subsystem 101 and the # 1 subsystem 111 respectively have chips incorporating CPU dual control circuits 105 and 115 and IO dual control circuits 106 and 116, respectively. Is mounted. The # 0 subsystem 101 and the # 1 subsystem 111 are connected by a system backplane 121.

二重化時には、CPU二重化制御回路105、115は、IO二重化制御回路106、116と、図2に示すように接続されている。すなわち、#0系のCPU二重化制御回路105は、#1系のCPU二重化制御回路115と#0系、#1系のIO二重化制御回路106、116とに接続されている。同様に、#1系のCPU二重化制御回路115は、#0系のCPU二重化制御回路105と#0系、#1系のIO二重化制御回路106、116とに接続されている。   At the time of duplexing, the CPU duplexing control circuits 105 and 115 are connected to the IO duplexing control circuits 106 and 116 as shown in FIG. That is, the CPU duplex control circuit 105 of system # 0 is connected to the CPU duplex control circuit 115 of system # 1 and IO duplex control circuits 106 and 116 of system # 0 and system # 1. Similarly, CPU duplication control circuit 115 of # 1 system is connected to CPU duplication control circuit 105 of # 0 system and IO duplication control circuits 106 and 116 of # 0 system and # 1 system.

しかし、二重化されていない状態では、CPU二重化制御回路105、115の一方と、IO二重化制御回路106、116の一方とが接続可能である。たとえば、図3に示すように、#0系のCPU二重化制御回路105は、#1系のIO二重化制御回路116と接続されて、#1系のCPU二重化制御回路115と、#0系のIO二重化制御回路106とは接続されない。同様に、#1系のCPU二重化制御回路115は、#0系のIO二重化制御回路106と接続されて、#0系のCPU二重化制御回路105と、#1系のIO二重化制御回路116とは接続されない。このような接続方法は、CPU二重化制御回路105、115と、IO二重化制御回路106、116を実装する制御ソフトウェアによって実現される。   However, in the non-duplexed state, one of the CPU dual control circuits 105 and 115 and one of the IO dual control circuits 106 and 116 can be connected. For example, as shown in FIG. 3, the # 0 CPU duplexing control circuit 105 is connected to the # 1 system IO duplexing control circuit 116, and the # 1 system CPU duplexing control circuit 115 and the # 0 system IO It is not connected to the duplex control circuit 106. Similarly, the CPU duplication control circuit 115 of # 1 system is connected to the IO duplication control circuit 106 of # 0 system, and the CPU duplication control circuit 105 of # 0 system and the IO duplication control circuit 116 of # 1 system are Not connected Such a connection method is realized by control software that implements the CPU dual control circuits 105 and 115 and the IO dual control circuits 106 and 116.

図4は、本発明の第2の実施形態に係るCPU二重化制御回路とIO二重化制御回路の構成を示すブロック図である。図4に示すように、CPU二重化制御回路105は、CPU同期部1051と、CPU接続部1052とを含む。CPU二重化制御回路115は、CPU同期部1151と、CPU接続部1152とを含む。また、IO二重化制御回路106は、IO同期部1061と、IO接続部1062とを含む。IO二重化制御回路116は、IO同期部1161と、IO接続部1162とを含む。   FIG. 4 is a block diagram showing a configuration of a CPU dual control circuit and an IO dual control circuit according to a second embodiment of the present invention. As shown in FIG. 4, the CPU duplication control circuit 105 includes a CPU synchronization unit 1051 and a CPU connection unit 1052. The CPU duplication control circuit 115 includes a CPU synchronization unit 1151 and a CPU connection unit 1152. Also, the IO dual control circuit 106 includes an IO synchronization unit 1061 and an IO connection unit 1062. The IO duplexing control circuit 116 includes an IO synchronization unit 1161 and an IO connection unit 1162.

CPU同期部1051とCPU同期部1151は、互いに連携して、#0系CPUサブシステム102と#1系CPUサブシステム112との同期ずれの復旧動作を行う。   The CPU synchronization unit 1051 and the CPU synchronization unit 1151 cooperate with each other to perform a recovery operation of the synchronization deviation between the # 0 system CPU subsystem 102 and the # 1 system CPU subsystem 112.

CPU接続部1052は、#0系CPUサブシステム102の接続先を決定する、接続状態の設定及び変更機能を有する。   The CPU connection unit 1052 has a function of setting and changing the connection state, which determines the connection destination of the # 0 system CPU subsystem 102.

CPU接続部1152は、#1系CPUサブシステム112の接続先を決定する、接続状態の設定及び変更機能を有する。   The CPU connection unit 1152 has a function of setting and changing the connection state for determining the connection destination of the # 1 system CPU subsystem 112.

IO同期部1061とIO同期部1161は、互いに連携して、#0系IOサブシステム107と#1系IOサブシステム117とを二重化するための動作を行う。   The IO synchronization unit 1061 and the IO synchronization unit 1161 cooperate with each other to perform an operation for duplexing the # 0 system IO subsystem 107 and the # 1 system IO subsystem 117.

IO接続部1062は、#0系IOサブシステム107の接続先を決定する、接続状態の設定及び変更機能を有する。   The IO connection unit 1062 has a function of setting and changing the connection state, which determines the connection destination of the # 0 system IO subsystem 107.

IO接続部1162は、#1系IOサブシステム117の接続先を決定する、接続状態の設定及び変更機能を有する。   The IO connection unit 1162 has a function of setting and changing the connection state, which determines the connection destination of the # 1 system IO subsystem 117.

本実施形態における処理の流れについて、図5〜8に示すフローチャートを用いて説明する。   The flow of processing in the present embodiment will be described using the flowcharts shown in FIGS.

図5は、本発明の第2の実施形態に係るフォールトトレラントサーバ(FTサーバ)におけるCPUサブシステムを再同期する処理を説明するフローチャートである。#0系と#1系の2つのCPUサブシステムが同期動作するFTサーバにおいて、初回起動時における主系のCPUサブシステムは、#0系CPUサブシステム102として説明する。   FIG. 5 is a flow chart for explaining the process of resynchronizing the CPU subsystem in the fault tolerant server (FT server) according to the second embodiment of the present invention. In the FT server in which two CPU subsystems # 0 and # 1 operate synchronously, the main CPU subsystem at the time of initial startup will be described as # 0 system CPU subsystem 102.

始めに、FTサーバは、両系(#0系および#1系)のCPUサブシステム(#0系CPUサブシステム102および#1系CPUサブシステム112)を起動する(ステップS110、S120)。次に、CPU同期部1051とCPU同期部1151は、#0系CPUサブシステム102から#1系CPUサブシステム112にコンテキストをコピーする(ステップS130)。ここで、コンテキストとは、メモリ(DIMM103)やCPU104のレジスタの内容である。そして、主系である#0系のCPU同期部1051は、同期のために両系(2つのCPUサブシステム)に同時にリセットをかける(ステップS140)。その結果、CPU同期部1051は同期ずれがないと判断した場合(ステップS150にて「No」)、#0系CPUサブシステム102と#1系CPUサブシステム112は、同期化完了となる。   First, the FT server activates the CPU subsystems (# 0 system CPU subsystem 102 and # 1 system CPU subsystem 112) of both systems (# 0 system and # 1 system) (steps S110 and S120). Next, the CPU synchronization unit 1051 and the CPU synchronization unit 1151 copy the context from the # 0 system CPU subsystem 102 to the # 1 system CPU subsystem 112 (step S130). Here, the context is the contents of the memory (DIMM 103) or the register of the CPU 104. Then, the CPU synchronization unit 1051 of system # 0, which is the main system, resets both systems (two CPU subsystems) simultaneously for synchronization (step S140). As a result, when the CPU synchronization unit 1051 determines that there is no synchronization deviation ("No" in step S150), the # 0 system CPU subsystem 102 and the # 1 system CPU subsystem 112 have synchronization completion.

CPUの同期制御は、基準となるクロック信号に対してタイミングの調整を行う。しかし、CPUの仕様によっては、外部からの信号やソフトウェア手続きだけでは完全に制御できない部分も存在し、稀に個体差や環境の変化から期待と異なるレジスタ値設定やクロック間位相差が発生することがある。   The synchronous control of the CPU adjusts the timing of the reference clock signal. However, depending on CPU specifications, there may be parts that can not be completely controlled only by external signals or software procedures, and rarely cause register value settings or clock phase differences that differ from expectations due to individual differences or environmental changes. There is.

そのため、同期ずれ発生時(ステップS150にて「Yes」)に、CPU同期部1151は、従系のCPUサブシステム(#1系CPUサブシステム112)を切り離し(ステップS180)、再度組み込む(ステップS160)。すなわち、従系のCPU同期部1151は、#1系CPUサブシステム112に電源をオフ、再度電源をオンする(パワーサイクルをかける)。これにより、もしも従系のCPUサブシステム(#1系CPUサブシステム112)が期待と異なる状態となっていた場合に同期ずれを解消できる。   Therefore, at the time of out-of-synchronization ("Yes" in step S150), the CPU synchronization unit 1151 separates the slave CPU subsystem (# 1 system CPU subsystem 112) (step S180) and incorporates it again (step S160). ). That is, the slave CPU synchronization unit 1151 powers off the # 1 system CPU subsystem 112 and powers on again (power cycle is performed). As a result, if the slave CPU subsystem (# 1 CPU subsystem 112) is in a state different from the expected state, the synchronization deviation can be eliminated.

しかし、従系ではなく、主系のCPUサブシステム(#0系CPUサブシステム102)が期待と異なる状態になっていた場合、このFTサーバは、従系のCPUサブシステムの切り離しと、組み込みを行っても、同期ずれを解消することはできない。その結果、CPU同期部1151は、従系のCPUサブシステムをN回(Nは、あらかじめ定めた閾値)以上繰り返して切り離す(電源をオフにする)ことになる。N回以上切り離した後(ステップS170にて「Yes」)に、従系のCPUサブシステム(#1系CPUサブシステム112)の電源がオンになり起動する。そして、#1系CPUサブシステム112は、#1系CPUサブシステム112と、IOサブシステム(#0系IOサブシステム107および#1系IOサブシステム117)とのインタフェースの動作を確認する(ステップS190)。この場合、CPU接続部1052、CPU接続部1152、IO接続部1062およびIO接続部1162による接続状態の変更に応じて、#1系CPUサブシステム112は、変更された接続状態での動作を確認する。   However, if the main CPU subsystem (# 0 CPU subsystem 102) is not in the slave status but is in a different state from expected, this FT server disconnects and incorporates the slave CPU subsystem. Even if it does, it can not cancel out of sync. As a result, the CPU synchronization unit 1151 repeatedly disconnects (turns off the power) the subordinate CPU subsystem N times (N is a predetermined threshold) or more. After being separated N times or more ("Yes" in step S170), the power of the slave CPU subsystem (# 1 CPU subsystem 112) is turned on and activated. Then, the # 1 system CPU subsystem 112 checks the operation of the interface between the # 1 system CPU subsystem 112 and the IO subsystem (# 0 system IO subsystem 107 and # 1 system IO subsystem 117) (step S190). In this case, the # 1 CPU subsystem 112 checks the operation in the changed connection state according to the change in the connection state by the CPU connection unit 1052, the CPU connection unit 1152, the IO connection unit 1062, and the IO connection unit 1162. Do.

上記の各インタフェースで動作が正常であることが確認されると、CPU二重化制御回路1051のCPU接続部1052は、CPU接続部1152およびIO接続部1162と連係して主系のCPUサブシステムを切り替える(ステップS200)。すなわち、主系のCPUサブシステムは、#0系CPUサブシステム102から#1系CPUサブシステム112に切り替わる。これにより、FTサーバは、同期するようになる。   When it is confirmed that the operation is normal in each of the above interfaces, the CPU connection unit 1052 of the CPU duplication control circuit 1051 switches the main CPU subsystem in cooperation with the CPU connection unit 1152 and the IO connection unit 1162 (Step S200). That is, the main CPU subsystem switches from the # 0 system CPU subsystem 102 to the # 1 system CPU subsystem 112. This causes the FT server to synchronize.

図5におけるS190の従系のCPUサブシステムと各IOサブシステムとのI/Fを確認する処理について、図6のフローチャートを用いて、従系のCPUサブシステムが#1系である場合を例に説明する。   With regard to the processing of confirming the I / F between the slave CPU subsystem and each IO subsystem in S190 in FIG. 5, using the flowchart in FIG. Explain to.

図6は、本発明の第2の実施形態に係るフォールトトレラントサーバにおいて、従系のCPUサブシステムとIOサブシステムとのI/Fを確認する処理を説明するフローチャートである。また、図9は、本発明の第2の実施形態に係るフォールトトレラントサーバにおけるサブシステムの接続状態を説明する図である。図9は、従系のCPUサブシステムとIOサブシステムとのインタフェース(I/F)を確認する処理における#0系CPUサブシステム102、#0系IOサブシステム107、#1系CPUサブシステム112、#1系IOサブシステム117の接続状態を説明する図である。なお、図を簡素化するために二重化回路の記述は、省略している。   FIG. 6 is a flowchart for explaining the process of confirming the I / F between the slave CPU subsystem and the IO subsystem in the fault tolerant server according to the second embodiment of the present invention. FIG. 9 is a diagram for explaining the connection state of subsystems in the fault tolerant server according to the second embodiment of the present invention. FIG. 9 shows # 0 system CPU subsystem 102, # 0 system IO subsystem 107, # 1 system CPU subsystem 112 in the process of confirming the interface (I / F) between the slave CPU subsystem and the IO subsystem. FIG. 9 is a diagram for explaining the connection state of the # 1 system IO subsystem 117. The description of the duplex circuit is omitted to simplify the drawing.

図6において、FTサーバの#1系CPUサブシステム112は、始めに、#1系CPUサブシステム112と、#1系IOサブシステム117とのI/Fが正常に動作していることを確認する(ステップS191)。   In FIG. 6, the # 1 CPU subsystem 112 of the FT server first confirms that the I / F between the # 1 CPU subsystem 112 and the # 1 IO subsystem 117 is operating normally. (Step S191).

S191の処理の詳細を、図7を用いて説明する。図7は、本発明の第2の実施形態に係るフォールトトレラントサーバにおいて、#1系CPUサブシステム112と、#1系IOサブシステム117とのI/Fを確認する処理を説明するフローチャートである。   Details of the process of S191 will be described with reference to FIG. FIG. 7 is a flowchart for explaining the process of confirming the I / F between the # 1 system CPU subsystem 112 and the # 1 system IO subsystem 117 in the fault tolerant server according to the second embodiment of the present invention. .

始めに、FTサーバは、従系である#1系CPUサブシステム112を起動する(ステップS310)。次に、CPU同期部1051とCPU同期部1151は、主系である#0系CPUサブシステム102から、従系である#1系CPUサブシステム112にコンテキストをコピーして、両系を一致させる(ステップS320)。S310〜S320において、サブシステムの接続状態は、図9の(a)の状態である。   First, the FT server activates the subordinate # 1 CPU subsystem 112 (step S310). Next, the CPU synchronization unit 1051 and the CPU synchronization unit 1151 copy the context from the main system # 0 CPU subsystem 102 to the secondary system # 1 system CPU subsystem 112 so that both systems coincide. (Step S320). In S310 to S320, the connection state of the subsystem is the state of (a) of FIG.

それから、CPU接続部(1052および1152)と、IO接続部(1062および1162)は、主系のサブシステム(#0系サブシステム101)と、従系のサブシステム(#1系サブシステム111)の動作を分離する(ステップS330)。この状態(図9の(b)の接続状態)において、#0系サブシステム101は、#1系サブシステム111と接続されていないように見える。このとき、同様に、#1系サブシステム111からは、#0系サブシステム101と接続されていないように見える。サブシステムを分離した後は、#0系CPUサブシステム102と#0系IOサブシステム107によって、運用は、継続される。   Then, the CPU connections (1052 and 1152) and IO connections (1062 and 1162) are the main subsystem (# 0 system subsystem 101) and the slave subsystem (# 1 system subsystem 111). Operation is separated (step S330). In this state (connection state in FIG. 9B), it appears that the # 0 subsystem 101 is not connected to the # 1 subsystem 111. At this time, similarly, it appears that the # 1 subsystem 111 is not connected to the # 0 subsystem 101. After separating the subsystems, the operation is continued by the # 0 system CPU subsystem 102 and the # 0 system IO subsystem 107.

一方、図9の(b)の接続状態において、#1系CPUサブシステム112は、#1系CPUサブシステム112と#1系IOサブシステム117とのI/Fが正常に動作しているかを確認する(ステップS340)。#1系CPUサブシステム112は、例えば、ダミーのデータを、(CPU接続部1152及びIO接続部1162を経由して)#1系IOサブシステム117に送り、返却される結果が期待値の通りであるかを確認する。S330〜S340において、サブシステムの接続状態は、図9の(b)の状態である。   On the other hand, in the connection state shown in FIG. 9B, the # 1 CPU subsystem 112 determines whether the I / F between the # 1 CPU subsystem 112 and the # 1 IO subsystem 117 is operating normally. It confirms (step S340). For example, the # 1 CPU subsystem 112 sends dummy data to the # 1 system IO subsystem 117 (via the CPU connection unit 1152 and the IO connection unit 1162), and the returned result is as expected. Check if it is. In S330 to S340, the connection state of the subsystem is the state of (b) in FIG.

確認した結果が正常でない場合(図6のS192にて「No」)、#1系サブシステム111は、交換する必要があると#1系CPUサブシステム112によって判断される(ステップS195)。確認した結果が正常である場合(図6のS192にて「Yes」)、#1系CPUサブシステム112は、#1系CPUサブシステム112と、#0系IOサブシステム107とのI/Fが正常に動作しているかを確認する(ステップS193)。   If the confirmed result is not normal ("No" in S192 of FIG. 6), it is determined by the # 1 system CPU subsystem 112 that the # 1 system subsystem 111 needs to be replaced (step S195). If the confirmed result is normal ("Yes" in S192 of FIG. 6), the # 1 CPU subsystem 112 is an I / F between the # 1 CPU subsystem 112 and the # 0 IO subsystem 107. Check whether they are operating normally (step S193).

ステップS193での確認処理の詳細について、図8を用いて説明する。図8は、本発明の第2の実施形態に係るフォールトトレラントサーバにおいて、#1系CPUサブシステム112と、#0系IOサブシステム107とのI/Fを確認する処理を説明するフローチャートである。   Details of the confirmation process in step S193 will be described with reference to FIG. FIG. 8 is a flow chart for explaining the process of confirming the I / F between the # 1 system CPU subsystem 112 and the # 0 system IO subsystem 107 in the fault tolerant server according to the second embodiment of the present invention. .

始めに、CPU接続部1152と、IO接続部1162は、#1系CPUサブシステム112と#1系IOサブシステム117を切り離す(ステップS410)。次に、IO同期部(1061および1161)は、#0系IOサブシステム107から#1系IOサブシステム117に、コンテキストをコピーして、IOを二重化する(ステップS420)。それから、FTサーバは、#1系CPUサブシステム112を起動する(ステップS430)。CPU同期部(1051および1151)は、運用中の#0系CPUサブシステム102のコンテキストを#1系CPUサブシステム112にコピーする(ステップS440)。S410〜S440において、サブシステムの接続状態は、図9の(c)の状態である。   First, the CPU connection unit 1152 and the IO connection unit 1162 disconnect the # 1 system CPU subsystem 112 and the # 1 system IO subsystem 117 (step S410). Next, the IO synchronization unit (1061 and 1161) copies the context from the # 0 system IO subsystem 107 to the # 1 system IO subsystem 117 and duplicates the IO (step S420). Then, the FT server activates the # 1 system CPU subsystem 112 (step S430). The CPU synchronization units (1051 and 1151) copy the context of the # 0 system CPU subsystem 102 in operation to the # 1 system CPU subsystem 112 (step S440). In S410 to S440, the connection state of the subsystem is the state of (c) in FIG.

CPU接続部1052とIO接続部1062は、#0系IOサブシステム107を#0系CPUサブシステム102から切り離す(ステップS450)。#0系CPUサブシステム102と#1系IOサブシステム117により、運用は、継続される。ここで、CPU接続部1152とIO接続部1062は、切り離された#0系IOサブシステム107を#1系CPUサブシステム112に組み込む。そして、#1系CPUサブシステム112は、#1系CPUサブシステム112と#0系IOサブシステム107とのI/Fが正常に動作していることを確認する(ステップS460)。S450〜S460において、サブシステムの接続状態は、図9の(d)の状態である。   The CPU connection unit 1052 and the IO connection unit 1062 disconnect the # 0 system IO subsystem 107 from the # 0 system CPU subsystem 102 (step S450). Operation is continued by the # 0 system CPU subsystem 102 and the # 1 system IO subsystem 117. Here, the CPU connection unit 1152 and the IO connection unit 1062 incorporate the disconnected # 0 system IO subsystem 107 into the # 1 system CPU subsystem 112. Then, the # 1 system CPU subsystem 112 confirms that the I / F between the # 1 system CPU subsystem 112 and the # 0 system IO subsystem 107 is operating normally (step S460). In S450 to S460, the connection state of the subsystem is the state of (d) in FIG.

それから、IO同期部(1061および1161)は、運用中の#1系IOサブシステム117から#0系IOサブシステム107にコンテキストをコピーして二重化を行う(ステップS470)。その後、CPU接続部1152とIO接続部1062は、#0系IOサブシステム107を#1系CPUサブシステム112から切り離す(ステップS480)。S470〜S480において、サブシステムの接続状態は、図9の(e)の状態である。   Then, the IO synchronization unit (1061 and 1161) copies the context from the # 1 system IO subsystem 117 in operation to the # 0 system IO subsystem 107 to perform duplexing (step S470). Thereafter, the CPU connection unit 1152 and the IO connection unit 1062 disconnect the # 0 system IO subsystem 107 from the # 1 system CPU subsystem 112 (step S480). At S470 to S480, the connection state of the subsystem is the state of (e) of FIG.

確認した結果が正常でない場合(図6のS194にて「No」)、CPU接続部1052とIO接続部1162は、#1系IOサブシステム117を#0系CPUサブシステム102から切り離す(ステップS196)。そして、#1系サブシステム111を交換(ステップS195)した後に、FTサーバは、S191から処理する。確認した結果が正常である場合(図6のS194にて「Yes」)、図6に示す従系のCPUサブシステムとIOサブシステムとのI/Fを確認する処理(図5のS190)を終了する。そして、CPU二重化制御回路1051は、主系のCPUサブシステムを、#0系CPUサブシステム102から#1系CPUサブシステム112に切り替える(ステップS200)。   If the confirmed result is not normal ("No" in S194 of FIG. 6), the CPU connection unit 1052 and the IO connection unit 1162 disconnect the # 1 system IO subsystem 117 from the # 0 system CPU subsystem 102 (step S196). ). Then, after exchanging the # 1 subsystem 111 (step S195), the FT server processes from S191. If the confirmed result is normal ("Yes" in S194 of FIG. 6), the process (S190 of FIG. 5) of confirming the I / F between the slave CPU subsystem and the IO subsystem shown in FIG. finish. Then, the CPU duplication control circuit 1051 switches the main CPU subsystem from the # 0 system CPU subsystem 102 to the # 1 system CPU subsystem 112 (step S200).

次に、図5におけるS200の主系のCPUサブシステムを切り替える処理について、図10のフローチャートを用いて説明する。   Next, the process of switching the main CPU subsystem in S200 of FIG. 5 will be described using the flowchart of FIG.

図10は、本発明の第2の実施形態に係るフォールトトレラントサーバにおける主系のCPUサブシステムを切り替える処理を説明するフローチャートである。始めに、FTサーバは、従系のCPUサブシステム(#1系CPUサブシステム112)を起動する(ステップS201)。それから、CPU同期部1051とCPU同期部1151は、主系のCPUサブシステムから、従系のCPUサブシステムにコンテキストをコピーし、両系のコンテキストを一致させる(ステップS202)。すなわち、CPU同期部1051とCPU同期部1151は、#0系CPUサブシステム102から#1系CPUサブシステム112にコンテキストをコピーする。それから、CPU二重化制御回路105は、主系と従系を切り替える(ステップS203)。   FIG. 10 is a flow chart for explaining the process of switching the main CPU subsystem in the fault tolerant server according to the second embodiment of the present invention. First, the FT server activates the slave CPU subsystem (# 1 CPU subsystem 112) (step S201). Then, the CPU synchronization unit 1051 and the CPU synchronization unit 1151 copy the context from the main CPU subsystem to the slave CPU subsystem and match the contexts of both systems (step S202). That is, the CPU synchronization unit 1051 and the CPU synchronization unit 1151 copy the context from the # 0 system CPU subsystem 102 to the # 1 system CPU subsystem 112. Then, the CPU duplication control circuit 105 switches the master system and the slave system (step S203).

次に、FTサーバは、従系となった#0系CPUサブシステム102にパワーサイクルを実施する(ステップS204)。CPU同期部1051とCPU同期部1151は、主系のCPUサブシステムから、従系のCPUサブシステムにコンテキストをコピーし、両系のコンテキストを一致させる(ステップS205)。すなわち、CPU同期部1051とCPU同期部1151は、#1系CPUサブシステム112からと、#0系CPUサブシステム102にコンテキストをコピーする。そして、CPU同期部1151は、同期するために#1系CPUサブシステム112と#0系CPUサブシステム102にリセットをかける(ステップS206)。このようにして、FTサーバは、同期化を完了する。   Next, the FT server carries out a power cycle on the # 0 system CPU subsystem 102 which has become a subordinate system (step S204). The CPU synchronization unit 1051 and the CPU synchronization unit 1151 copy the context from the main CPU subsystem to the slave CPU subsystem, and match the contexts of both systems (step S205). That is, the CPU synchronization unit 1051 and the CPU synchronization unit 1151 copy contexts from the # 1 system CPU subsystem 112 and the # 0 system CPU subsystem 102. Then, the CPU synchronization unit 1151 resets the # 1 system CPU subsystem 112 and the # 0 system CPU subsystem 102 to synchronize (step S206). In this way, the FT server completes the synchronization.

この手法を用いることにより、主系のCPUサブシステムであった#0系CPUサブシステム102にパワーサイクルをかけることが可能となり、図11を用いて前述した主系のCPUサブシステムが期待と異なる状態になっていた場合にも同期ずれを解消することができる。   By using this method, it is possible to apply a power cycle to # 0 CPU subsystem 102 which was the main CPU subsystem, and the main CPU subsystem described above with reference to FIG. 11 is different from the expectation. Even in the state, it is possible to eliminate the synchronization deviation.

以上、説明したように、第2の実施形態には、フォールトトレラントサーバにおけるCPUの同期ずれを解消する動作において、無停止で、二重化への復帰を安定的に実現することができるという効果がある。その理由は、CPUサブシステムの系切り替え処理を行う前に切り替え先のCPUサブシステムとIOサブシステムとの動作を検証することによって、切り替え後に動作不良が発生する可能性を排除するからである。   As described above, according to the second embodiment, in the operation for eliminating the CPU synchronization deviation in the fault tolerant server, there is an effect that recovery to duplexing can be stably realized without interruption. . The reason is that the possibility of an operation failure occurring after switching is eliminated by verifying the operation of the switching target CPU subsystem and the IO subsystem before system switching processing of the CPU subsystem is performed.

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。   Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. The configurations and details of the present invention can be modified in various ways that can be understood by those skilled in the art within the scope of the present invention.

11 第1のサブシステム
12 第1のCPUサブシステム
13 第1のIOサブシステム
14 第1の制御部
21 第2のサブシステム
22 第2のCPUサブシステム
23 第2のIOサブシステム
24 第2の制御部
31 第1の同期部
32 第1の接続部
41 第2の同期部
42 第2の接続部
101 #0系サブシステム
102 #0系CPUサブシステム
103 DIMM
104 CPU
105 CPU二重化制御回路
106 IO二重化制御回路
107 #0系IOサブシステム
108 増設PCIカード
109 オンボードLAN
110 HDD
111 #1系サブシステム
112 #1系CPUサブシステム
113 DIMM
114 CPU
115 CPU二重化制御回路
116 IO二重化制御回路
117 #1系IOサブシステム
118 増設PCIカード
119 オンボードLAN
120 HDD
11 first subsystem 12 first CPU subsystem 13 first IO subsystem 14 first control unit 21 second subsystem 22 second CPU subsystem 23 second IO subsystem 24 second Control unit 31 first synchronization unit 32 first connection unit 41 second synchronization unit 42 second connection unit 101 # 0 system subsystem 102 # 0 system CPU subsystem 103 DIMM
104 CPU
105 CPU redundant control circuit 106 IO redundant control circuit 107 # 0 system IO subsystem 108 expansion PCI card 109 onboard LAN
110 HDD
111 # 1 system subsystem 112 # 1 system CPU subsystem 113 DIMM
114 CPU
115 CPU redundant control circuit 116 IO redundant control circuit 117 # 1 system IO subsystem 118 expansion PCI card 119 onboard LAN
120 HDD

Claims (7)

第1のCPUサブシステムと、第1のIOサブシステムと、前記第1のCPUサブシステムおよび前記第1のIOサブシステムに接続する第1の制御手段とを備えた第1のサブシステムと、
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成され、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する、
フォールトトレラントサーバ。
A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
It is configured to control duplexing in which one of the first subsystem and the second subsystem is a main system and the other is a slave system, and control a connection state between the two systems and between the systems.
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; Reset for synchronization with the second CPU subsystem and the second CPU subsystem,
When the synchronization deviation can not be eliminated, the interface between the second CPU subsystem and the second IO subsystem, and the interface between the second CPU subsystem and the first IO subsystem are normal. Change the connection status to confirm that it is working.
Fault-tolerant server.
前記第1の制御手段は、第1の同期手段と、第1の接続手段とを備え、
前記第2の制御手段は、前記第1の同期手段と連係する第2の同期手段と、第2の接続手段とを備え、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムに同期ずれが発生した場合、前記第2の同期手段が前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1の同期手段および前記第2の同期手段は、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記第1の同期手段および前記第2の同期手段により同期ずれが解消できない場合に、前記第1の接続手段および前記第2の接続手段は、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する
請求項1に記載のフォールトトレラントサーバ。
The first control means comprises a first synchronization means and a first connection means.
The second control means comprises a second synchronization means associated with the first synchronization means, and a second connection means.
When the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem, the first CPU subsystem and the second CPU subsystem The first synchronization means and the second synchronization means perform the first synchronization after the second synchronization means performs the power-off and the power-on of the second CPU subsystem when the synchronization deviation occurs. Copy the context of the CPU subsystem to the second CPU subsystem, and reset the first CPU subsystem and the second CPU subsystem for synchronization.
When the first synchronization means and the second synchronization means can not eliminate the synchronization deviation, the first connection means and the second connection means are the second CPU subsystem and the second IO. The fault tolerant system according to claim 1, wherein the connection state is changed so that it can be confirmed that the interface with the subsystem and the interface between the second CPU subsystem and the first IO subsystem are operating properly. server.
前記接続手段による接続状態の変更後に、前記第2のCPUサブシステムが前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェース、および、前記第2のCPUサブシステムと前記第1のIOサブシステムとが正常であることを確認した場合に、前記第1の制御手段は、主系のCPUサブシステムを、前記第1のCPUサブシステムから前記第2のCPUサブシステムに切り替える
請求項2に記載のフォールトトレラントサーバ。
The second CPU subsystem interfaces with the second CPU subsystem and the second IO subsystem after the connection state is changed by the connection unit, and the second CPU subsystem and the first The first control means switches the main CPU subsystem from the first CPU subsystem to the second CPU subsystem when it is confirmed that the IO subsystem is normal The fault tolerant server according to claim 2.
前記第1の制御手段は、前記第1のCPUサブシステムに対して制御を行うCPU二重化制御回路と、IOサブシステムに対して制御を行うIO二重化制御回路とを含む
請求項1乃至3の何れか一項に記載のフォールトトレラントサーバ。
The first control means according to any one of claims 1 to 3, wherein the first control means includes a CPU duplication control circuit for controlling the first CPU subsystem and an IO duplication control circuit for controlling the IO subsystem. A fault tolerant server according to any one of the claims.
前記第1の制御手段により、主系のCPUサブシステムを、前記第1のCPUサブシステムから前記第2のCPUサブシステムに切り替えた後で、
前記第1の同期手段が前記第1のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1の同期手段および前記第2の同期手段は、前記第2のCPUサブシステムのコンテキストを前記第1のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかける
請求項2又は3に記載のフォールトトレラントサーバ。
After switching the main CPU subsystem from the first CPU subsystem to the second CPU subsystem by the first control means,
After the first synchronization means powers off and powers on the first CPU subsystem, the first synchronization means and the second synchronization means execute the context of the second CPU subsystem. The fault tolerant server according to claim 2 or 3 , wherein the first CPU subsystem and the second CPU subsystem are reset for synchronization by copying to the first CPU subsystem.
第1のCPUサブシステムと、第1のIOサブシステムと、前記第1のCPUサブシステムおよび前記第1のIOサブシステムに接続する第1の制御手段とを備えた第1のサブシステムと、
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成されるフォールトトレラントサーバにおいて、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかけ、
前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する、
同期化方法。
A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
A fault tolerant server configured to control duplexing in which one of the first subsystem and the second subsystem is a primary system and the other is a secondary system, and to control the connection state between the two systems and between the systems. In
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; Reset for synchronization with the second CPU subsystem and the second CPU subsystem,
When the synchronization deviation can not be eliminated, the interface between the second CPU subsystem and the second IO subsystem, and the interface between the second CPU subsystem and the first IO subsystem are normal. Change the connection status to confirm that it is working.
Synchronization method.
第1のCPUサブシステムと、第1のIOサブシステムと、前記第1のCPUサブシステムおよび前記第1のIOサブシステムに接続する第1の制御手段とを備えた第1のサブシステムと、
第2のCPUサブシステムと、第2のIOサブシステムと、前記第2のCPUサブシステムおよび前記第2のIOサブシステムに接続する第2の制御手段とを備えた第2のサブシステムとを含み、
前記第1の制御手段と前記第2の制御手段は、
前記第1のサブシステムと前記第2のサブシステムの一方を主系、他方を従系とする二重化を制御し、2つのシステム内とシステム間の接続状態を制御するよう構成されるフォールトトレラントサーバに、
前記第1のCPUサブシステムが主系のCPUサブシステム、前記第2のCPUサブシステムが従系のCPUサブシステムとして動作中に、前記第1のCPUサブシステムと前記第2のCPUサブシステムとの同期ずれが発生した場合、前記第2のCPUサブシステムの電源オフ、電源オンを行った後に、前記第1のCPUサブシステムのコンテキストを前記第2のCPUサブシステムにコピーし、前記第1のCPUサブシステムおよび前記第2のCPUサブシステムに対し、同期のためにリセットをかける同期機能と、
前記同期機能により前記同期ずれが解消できない場合に、前記第2のCPUサブシステムと前記第2のIOサブシステムとのインタフェースと、前記第2のCPUサブシステムと前記第1のIOサブシステムとのインタフェースが正常に動作していることを確認可能な接続状態に変更する接続機能と
を、実現させる
コンピュータ・プログラム。
A first subsystem comprising a first CPU subsystem, a first IO subsystem, and first control means connected to the first CPU subsystem and the first IO subsystem;
A second subsystem comprising a second CPU subsystem, a second IO subsystem, and second control means connected to the second CPU subsystem and the second IO subsystem; Including
The first control means and the second control means
A fault tolerant server configured to control duplexing in which one of the first subsystem and the second subsystem is a primary system and the other is a secondary system, and to control the connection state between the two systems and between the systems. To
The first CPU subsystem and the second CPU subsystem operate while the first CPU subsystem operates as a master CPU subsystem and the second CPU subsystem operates as a slave CPU subsystem. When the second CPU subsystem is powered off and powered on, the context of the first CPU subsystem is copied to the second CPU subsystem; A synchronization function for resetting for synchronization with the second CPU subsystem and the second CPU subsystem;
When the synchronization deviation can not be eliminated by the synchronization function, an interface between the second CPU subsystem and the second IO subsystem, and between the second CPU subsystem and the first IO subsystem A computer program that implements a connection function that changes the connection state to one that can confirm that the interface is operating properly.
JP2015049202A 2015-03-12 2015-03-12 Fault-tolerant server, synchronization method, and computer program Active JP6540113B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015049202A JP6540113B2 (en) 2015-03-12 2015-03-12 Fault-tolerant server, synchronization method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015049202A JP6540113B2 (en) 2015-03-12 2015-03-12 Fault-tolerant server, synchronization method, and computer program

Publications (2)

Publication Number Publication Date
JP2016170577A JP2016170577A (en) 2016-09-23
JP6540113B2 true JP6540113B2 (en) 2019-07-10

Family

ID=56983824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015049202A Active JP6540113B2 (en) 2015-03-12 2015-03-12 Fault-tolerant server, synchronization method, and computer program

Country Status (1)

Country Link
JP (1) JP6540113B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011370A (en) * 1996-06-19 1998-01-16 Oki Electric Ind Co Ltd Multiple system
US6425094B1 (en) * 1999-08-09 2002-07-23 Sun Microsystems, Inc. Diagnostic cage for testing redundant system controllers
JP2006178616A (en) * 2004-12-21 2006-07-06 Nec Corp Fault tolerant system, controller used thereform, operation method and operation program

Also Published As

Publication number Publication date
JP2016170577A (en) 2016-09-23

Similar Documents

Publication Publication Date Title
US8503484B2 (en) System and method for a cross channel data link
US7519856B2 (en) Fault tolerant system and controller, operation method, and operation program used in the fault tolerant system
US9465706B2 (en) Selectively coupling a PCI host bridge to multiple PCI communication paths
JP6098778B2 (en) Redundant system, redundancy method, redundancy system availability improving method, and program
JP6083480B1 (en) Monitoring device, fault tolerant system and method
KR101560497B1 (en) Method for controlling reset of lockstep replicated processor cores and lockstep system using the same
CN115168322A (en) Database system, main library election method and device
JP2005518012A (en) Seamless clock
JP6540113B2 (en) Fault-tolerant server, synchronization method, and computer program
CN112202601B (en) Application method of two physical node mongo clusters operated in duplicate set mode
JP2017167602A (en) Storage system
WO2024179427A1 (en) Disaster recovery method under double az cluster and related device
JP2009098988A (en) Fault tolerant computer system
CN111367998A (en) Database cluster recovery method based on Galera and terminal equipment
JP5176914B2 (en) Transmission device and system switching method for redundant configuration unit
JP6511737B2 (en) Redundant system, redundant method and redundant program
JP6227909B2 (en) Alternative control device, alternative control method, and alternative control program
JP4165499B2 (en) Computer system, fault tolerant system using the same, and operation control method thereof
JP5604799B2 (en) Fault tolerant computer
US10909002B2 (en) Fault tolerance method and system for virtual machine group
JP2016009499A (en) Methods and systems for managing interconnection
JP2015194847A (en) Fault-tolerant server, synchronization method, and program
JP6069951B2 (en) Fault-tolerant computer system, fault-tolerant computer system startup method, and fault-tolerant computer system startup program
JP2011028481A (en) Fault tolerant server, processor switching method, and processor switching program
JP6511738B2 (en) Redundant system, redundant method and redundant program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190527

R150 Certificate of patent or registration of utility model

Ref document number: 6540113

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150