[go: up one dir, main page]

JP2001290670A - クラスタシステム - Google Patents

クラスタシステム

Info

Publication number
JP2001290670A
JP2001290670A JP2000108501A JP2000108501A JP2001290670A JP 2001290670 A JP2001290670 A JP 2001290670A JP 2000108501 A JP2000108501 A JP 2000108501A JP 2000108501 A JP2000108501 A JP 2000108501A JP 2001290670 A JP2001290670 A JP 2001290670A
Authority
JP
Japan
Prior art keywords
storage device
data
fault
computer system
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000108501A
Other languages
English (en)
Inventor
Ryoichi Tanabe
亮一 田辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000108501A priority Critical patent/JP2001290670A/ja
Publication of JP2001290670A publication Critical patent/JP2001290670A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【課題】 従来のクラスタシステムでは、障害発生毎に
手動で予備計算機装置に処理の切り換えを行う必要があ
る。 【解決手段】 現用計算機装置100の磁気記憶装置1
30の障害を検知する障害検知手段101、障害が検知
された時に現用計算機装置の主記憶装置110のデータ
を予備計算機装置200に送信するデータ送信手段10
3、送信されたデータを受信し予備計算機装置側の主記
憶装置210に格納するデータ受信手段201を備え、
データの送受信終了後に現用計算機装置を停止し、且
つ、予備計算機装置においてアプリケーションを起動
し、当該アプリケーションは主記憶装置210に格納さ
れたデータを参照して処理を実行することにより現用計
算機装置の処理を継続して行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、現用計算機装置と
予備計算機装置から成るクラスタシステム、特に障害発
生時の主記憶装置のデータを予備計算機装置に引き継ぐ
場合の引き継ぎ方式に関するものである。
【0002】
【従来の技術】従来、このようなクラスタシステムは1
台あるいは複数台の計算機装置と1台の予備計算機装置
で構成され、いずれか1つの計算機装置で障害が発生す
ると、障害の発生した計算機装置の処理を予備計算機装
置で肩代わりすることによってシステムの運用を行って
いる。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来のクラスタシステムでは、計算機装置に障害が発生し
た時に手動によって予備計算機装置に処理の切り換えを
行っており、主記憶装置のデータを予備計算機装置に送
信して処理の引き継ぎを自動化することは行っていなか
った。そのため、障害発生毎に手動で予備計算機装置へ
の処理の引き継ぎを行う必要があった。
【0004】本発明は、上記従来の問題点に鑑みなされ
たもので、その目的は、障害発生時に主記憶装置のデー
タを予備計算機装置に送信し、自動的に処理の引き継ぎ
を行うことが可能なクラスタシステムを提供することに
ある。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するため、現用計算機装置及び予備計算機装置から成
るクラスタシステムにおいて、前記現用計算機装置の補
助記憶装置の障害を検知する手段と、前記障害検知手段
により障害が検知された時に前記現用計算機装置の主記
憶装置のデータを前記予備計算機装置に送信する手段
と、送信されたデータを受信し予備計算機装置側の主記
憶装置に格納する手段とを備え、前記データの送受信終
了後に前記現用計算機装置を停止し、且つ、前記予備計
算機装置においてアプリケーションを起動し、当該アプ
リケーションは前記主記憶装置に格納されたデータを参
照して処理を実行することにより現用計算機装置の処理
を継続して行うことを特徴としている。
【0006】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。図1は本発明のクラ
スタシステムの一実施形態の構成を示すブロック図であ
る。図1において、クラスタシステムは、現用計算機装
置100、予備計算機装置200から成っていて、現用
計算機装置100に障害が発生した時は予備計算機装置
200に処理が引き継がれる。なお、図1では現用計算
機装置100を1台としているが、現用計算機装置10
0を複数台としてもよい。
【0007】現用計算機装置100は、補助記憶装置で
ある磁気記憶装置130、磁気記憶装置130のデータ
の入出力を制御する入出力制御部120、磁気記憶装置
130の障害を検知する障害検知手段101、障害発生
時に現用計算機装置100の緊急停止を行う緊急停止手
段102、主記憶装置110、障害発生時に主記憶装置
110上のデータを予備計算機装置200に送信するデ
ータ送信手段103を備えている。300は現用計算機
装置100上のアプリケーションプログラム(以下、ア
プリケーションと略す)である。
【0008】また、予備計算機装置200は現用計算機
装置100から送信されたデータを受信するデータ受信
手段201、主記憶装置210、アプリケーション起動
手段202、磁気記憶装置230、入出力制御部220
から構成されている。なお、400はクラスタシステム
に接続された計算機端末、500は計算機端末400上
のアプリケーションである。ここで、本実施形態では、
障害検知手段101は磁気記憶装置130の障害を検知
しており、現用計算機装置100においてアプリケーシ
ョン300の処理が継続不可能な障害として磁気記憶装
置130の障害を想定している。
【0009】次に、本実施形態の具体的な動作について
図2〜図6のフローチャートを参照して詳細に説明す
る。まず、図2は障害検知手段101の障害検知処理を
示すフローチャートである。図2において、障害検知手
段101はシステムの起動時に図示しない設定値ファイ
ルから対象装置(この場合は、磁気記憶装置130)、
チェックする時間間隔等の設定値を取得する(ステップ
A1)。障害検知手段101はシステムの運用時におい
て取得した設定値に基づいてテストI/Oによる障害検
知を行う。
【0010】即ち、磁気記憶装置130にテストI/O
を発行し(ステップA2)、磁気記憶装置130からの
テストI/Oに対する返信情報に基づいて正常か否かの
判定を行う(ステップA3)。この時、正常であれば、
障害検知手段101は一定時間停止した後(ステップA
4)、再度、ステップA2に戻ってテストI/Oを発行
し、正常か否かの判定を行う(ステップA3)。以下、
ステップA2〜A4の処理を繰り返し行い、定期的にテ
ストI/Oを発行して磁気記憶装置130が正常か否か
を監視している。一方、システムの稼動中にステップA
3で磁気記憶装置130のディスク故障が発生し障害を
検知すると、障害検知手段101は障害の発生を緊急停
止手段102へ通知する。
【0011】図3は障害発生時の緊急停止手段102の
処理の流れを示すフローチャートである。図3におい
て、緊急停止手段102は障害発生が通知されると、ま
ず、アプリケーション300を閉塞状態にするために、
閉塞処理を行う(ステップB1)。閉塞状態とは、アプ
リケーション300に対するトランザクション要求を受
け付けない状態のことをいう。また、閉塞処理とは、閉
塞状態テーブル(図示せず)を閉塞状態に変更し、稼動
中のトランザクションの終了を待ち合わせる処理のこと
をいう。
【0012】ここで、計算機端末400のアプリケーシ
ョン500は、アプリケーション300に対するトラン
ザクション要求を発行する前に閉塞状態テーブルを参照
してアプリケーション300が閉塞状態か否かをチェッ
クし、新たなトランザクション要求が可能かどうかを確
認している。従って、アプリケーション500は、閉塞
処理を行った後はアプリケーション300が閉塞状態で
あると判断し、新たなトランザクション要求は行わな
い。
【0013】閉塞処理を終了すると、データ送信手段1
03は主記憶装置110上のデータを予備計算機装置2
00に送信する処理を行う(ステップB2)。このデー
タ送信手段103の処理を図4のフローチャートに示
す。図4において、まず、データ送信手段103は設定
値ファイル(図示せず)からメモリ識別子や送信すべき
データの大きさ等の設定値を取得する(ステップC
1)。
【0014】次いで、得られた識別子を用いてメモリ
(主記憶装置110)のアタッチを行い(ステップC
2)、予備計算機装置200上のデータ受信手段201
とTCP/IPプロトコルを用いた通信を行うためにソ
ケットの作成やコネクションの確立を行う(ステップC
3)。また、データ送信手段103は主記憶装置110
のデータを読み込み(ステップC4)、データの送信を
行う(ステップC5)。この場合、データ送信手段10
3はアタッチにより得られたアドレスから、設定値ファ
イルで得られた大きさの分だけ主記憶装置110からデ
ータを読み出し、予備計算機装置200に送信する。
【0015】次に、データ受信手段201の処理を図5
のフローチャートを参照して説明する。図5において、
まず、データ受信手段201の起動は、予め予備として
起動している予備計算機装置200側で基本ソフト(O
S)の起動時に行われる。初めに、設定値ファイルから
メモリ識別子、データの大きさ等の設定値を取得し(ス
テップD1)、それに基づいてデータを格納するメモリ
を確保する。また、メモリ(主記憶装置210)のアタ
ッチを行う(ステップD2)。この時のメモリ識別子や
データの大きさは現用計算機装置100におけるデータ
送信手段103の場合の設定値と同じである。
【0016】続いて、データ受信手段201はTCP/
IPによる通信手順として、ソケットの作成、ポートへ
の対応付け、キューのセット及び接続要求待ちとなるよ
うに処理を行い、通信準備を行う(ステップD3)。こ
れによって、データ送信手段103から何時でもコネク
ション要求を受け付け可能な状態となる(ステップD
4)。この状態で、データ送信手段103からコネクシ
ョン要求があると、コネクションの確立を行い、データ
受信手段201からのデータの送信を待ち、データの受
信を行う(ステップD5)。受信データは主記憶装置2
10に対しアタッチで得られたアドレスに書き込まれる
(ステップD6)。
【0017】図3に戻る。このようにしてデータの送受
信を完了すると、緊急停止手段102は、図3のステッ
プB3においてアプリケーション300の緊急停止処理
を行う。次いで、基本ソフト(OS)の緊急停止を行い
(ステップB4)、現用計算機装置100の停止処理を
完了する。
【0018】一方、予備計算機装置200上ではアプリ
ケーション300が起動され、現用計算機装置100の
処理を引き続き行う。図6はこの時のアプリケーション
起動手段202の処理を示す。図6において、アプリケ
ーション起動手段202は設定値ファイルからデータ受
信手段201の設定値と同じメモリ識別子を取得し(ス
テップE1)、アプリケーション300の起動を行う
(ステップE2)。この場合、アプリケーション300
は得られたメモリ識別子を用いて主記憶装置210のデ
ータを参照して処理を行い、これによって現用計算機装
置100の切り換え以前からの処理を継続して処理する
ことが可能となる。
【0019】次に、本発明の他の実施形態について説明
する。本実施形態では、障害検知手段101の障害検知
方法が異なっている。その他の構成は図1の実施形態と
同様である。図7は本実施形態の障害検知手段101の
処理を示すフローチャートである。図7において、ま
ず、障害検知手段101は磁気記憶装置130に対しテ
ストI/Oを発行し(ステップF1)、テストI/Oに
よる結果が正常か否かで障害の検知を行う(ステップF
2)。正常であれば、一定時間停止した後(ステップF
3)、ステップF1に戻って、再度テストI/Oを発行
し、正常か否かの判定を行う(ステップF2)。
【0020】このように定期的にテストI/Oを発行
し、磁気記憶装置130が正常か否かを監視している。
ここで、障害検知手段101はステップF2において異
常と判定された回数をカウントし(ステップF4)、カ
ウント値と予め設定された閾値を比較する(ステップF
5)。この場合、磁気記憶装置130のディスクの劣化
により間欠的な障害が発生すると、テストI/Oが異常
となるが、カウント値が閾値以下である時はステップF
1に戻って正常として扱い、カウント値が閾値を越える
と障害であると判定する。
【0021】このように本実施形態では、異常と判定さ
れた回数をカウントし、カウント値が閾値を越えた時に
障害の発生を検知しているので、ディスクの劣化に伴う
間欠的な障害によって生じる不要な予備計算機装置20
0への切り換えを防ぐことができる。従って、計算機装
置の切り換えに伴う時間を削減でき、システムの処理効
率を向上することができる。また、本実施形態では、閾
値を調整することにより、積極的に計算機装置を切り換
えたり、あるいは切り換えの頻度を小さくすることが可
能である。
【0022】
【発明の効果】以上説明したように本発明は、次の効果
がある。 (1)アプリケーションの処理に必要な補助記憶装置に
障害が発生した場合、現用計算機装置の主記憶装置上の
データを予備計算機装置に送信し、主記憶装置に格納し
ているので、予備計算機装置において現用計算機装置の
処理を引き続いて行うことができる。 (2)データの送受信前にアプリケーションに対するト
ランザクション要求を受け付けない状態とする閉塞処理
を行うことにより、矛盾のないデータの引き継ぎを行う
ことができる。 (3)データの送受信は計算機装置の切り換え時に行う
ので、通常のシステムの運用時においては余分な通信を
行う必要がない。 (4)現用計算機装置が複数台になったとしても予備計
算機装置では現用計算機装置一台分のメモリ容量で済む
ため、メモリ容量が増加することはない。
【図面の簡単な説明】
【図1】本発明のクラスタシステムの一実施形態の構成
を示すブロック図である。
【図2】図1の障害検知手段の処理を示すフローチャー
トである。
【図3】図1の緊急停止手段の処理を示すフローチャー
トである。
【図4】図1のデータ送信手段の処理を示すフローチャ
ートである。
【図5】図1のデータ受信手段の処理を示すフローチャ
ートである。
【図6】図1のアプリケーション起動手段の処理を示す
フローチャートである。
【図7】本発明の他の実施形態の障害検知手段の処理を
示すフローチャートである。
【符号の説明】
100 現用計算機装置 101 障害検知手段 102 緊急停止手段 103 データ送信手段 110 主記憶装置 120 入出力制御部 130 磁気記憶装置 200 予備計算機装置 201 データ受信手段 202 アプリケーション起動手段 210 主記憶装置 220 入出力制御部 230 磁気記憶装置 300 アプリケーション 400 計算機端末 500 アプリケーション

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 現用計算機装置及び予備計算機装置から
    成るクラスタシステムにおいて、前記現用計算機装置の
    補助記憶装置の障害を検知する手段と、前記障害検知手
    段により障害が検知された時に前記現用計算機装置の主
    記憶装置のデータを前記予備計算機装置に送信する手段
    と、送信されたデータを受信し予備計算機装置側の主記
    憶装置に格納する手段とを備え、前記データの送受信終
    了後に前記現用計算機装置を停止し、且つ、前記予備計
    算機装置においてアプリケーションを起動し、当該アプ
    リケーションは前記主記憶装置に格納されたデータを参
    照して処理を実行することにより現用計算機装置の処理
    を継続して行うことを特徴とするクラスタシステム。
  2. 【請求項2】 更に、前記障害検知手段によって補助記
    憶装置の障害が検知された時にアプリケーションに対す
    るトランザクション要求を受け付けない状態とする閉塞
    処理を行う手段を有することを特徴とする請求項1に記
    載のクラスタシステム。
  3. 【請求項3】 前記障害検知手段は、前記補助記憶装置
    に定期的にテストI/Oを発行し、テストI/Oに対す
    る返信結果に基づいて前記補助記憶装置の障害を検知す
    ることを特徴とする請求項1に記載のクラスタシステ
    ム。
  4. 【請求項4】 前記障害検知手段は、テストI/Oの結
    果、異常である回数をカウントし、カウント値が所定値
    以上となった時に前記補助記憶装置の障害を検知するこ
    とを特徴とする請求項3に記載のクラスタシステム。
JP2000108501A 2000-04-10 2000-04-10 クラスタシステム Pending JP2001290670A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000108501A JP2001290670A (ja) 2000-04-10 2000-04-10 クラスタシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000108501A JP2001290670A (ja) 2000-04-10 2000-04-10 クラスタシステム

Publications (1)

Publication Number Publication Date
JP2001290670A true JP2001290670A (ja) 2001-10-19

Family

ID=18621329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000108501A Pending JP2001290670A (ja) 2000-04-10 2000-04-10 クラスタシステム

Country Status (1)

Country Link
JP (1) JP2001290670A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100420266B1 (ko) * 2001-10-23 2004-03-02 한국전자통신연구원 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치
CN109565529A (zh) * 2016-10-31 2019-04-02 华为技术有限公司 一种应用启动方法及终端设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100420266B1 (ko) * 2001-10-23 2004-03-02 한국전자통신연구원 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치
CN109565529A (zh) * 2016-10-31 2019-04-02 华为技术有限公司 一种应用启动方法及终端设备
US10908923B2 (en) 2016-10-31 2021-02-02 Huawei Technologies Co., Ltd. Application starting method and terminal device
CN109565529B (zh) * 2016-10-31 2021-07-09 华为技术有限公司 一种应用启动方法及终端设备

Similar Documents

Publication Publication Date Title
US7240234B2 (en) Storage device for monitoring the status of host devices and dynamically controlling priorities of the host devices based on the status
US8321622B2 (en) Storage system with multiple controllers and multiple processing paths
US6012150A (en) Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system
JP2006072591A (ja) 仮想計算機制御方法
US8347139B2 (en) Power supply control device, a storage system, a control method of the power supply control device, a control method of a disk array unit and a computer readable medium thereof
US20240289243A1 (en) Server and control method therefor
US7370147B2 (en) Disk array device and control method therefor
US20080215771A1 (en) Pool i/o device operation confirmation method and computer system
US9558149B2 (en) Dual system
JP2010160660A (ja) ネットワークインタフェース、計算機システム、それらの動作方法、及びプログラム
JP5056504B2 (ja) 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
CN118567462A (zh) 备电系统、方法、装置、设备、介质及计算机程序产品
JP2001290670A (ja) クラスタシステム
CN115934845A (zh) 一种自适应的数据同步系统、方法及存储介质
US5878278A (en) System for controlling connection requests by each IO controllers storing and managing a request queue wherein additional channel addresses can be added
CN113709068A (zh) 交换机系统和交换机的执行处理方法
JP2776442B2 (ja) 複合コンピュータシステム
JP2000148525A (ja) サービスプロセッサ二重化システムの現用系負荷軽減方法
JP2591334B2 (ja) 相互スタンバイシステム
JP3465637B2 (ja) サーバ及びその制御方法
CN101616025B (zh) 一种控制板上业务的主备确定方法和装置
JP3082704B2 (ja) 通信装置管理方式
CN119025448A (zh) 存储装置以及存储控制器的控制方法
CN118132471A (zh) 一种硬盘控制方法、装置
CN118631725A (zh) 一种智能网卡链路聚合的方法及装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040129