[go: up one dir, main page]

KR101444783B1 - 시스템 가용성 향상을 위한 시스템 운용 방법 - Google Patents

시스템 가용성 향상을 위한 시스템 운용 방법 Download PDF

Info

Publication number
KR101444783B1
KR101444783B1 KR1020130055853A KR20130055853A KR101444783B1 KR 101444783 B1 KR101444783 B1 KR 101444783B1 KR 1020130055853 A KR1020130055853 A KR 1020130055853A KR 20130055853 A KR20130055853 A KR 20130055853A KR 101444783 B1 KR101444783 B1 KR 101444783B1
Authority
KR
South Korea
Prior art keywords
computers
computer
availability
failover
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020130055853A
Other languages
English (en)
Inventor
추증호
장혜민
박원익
김도종
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020130055853A priority Critical patent/KR101444783B1/ko
Application granted granted Critical
Publication of KR101444783B1 publication Critical patent/KR101444783B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/452Remote windowing, e.g. X-Window System, desktop virtualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Hardware Redundancy (AREA)

Abstract

본 명세서는 시스템에 페일오버(failover, 장애 극복 기능)를 적용함으로써 시스템의 가용성을 향상시킬 수 있는 시스템 가용성 향상을 위한 시스템 운용 방법에 관한 것으로서, 본 명세서에 개시된 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 네트워크를 통해 서로 연결된 M개의 컴퓨터로 구성된 시스템을 운영하는 방법에 있어서, (1) 상기 M개의 컴퓨터 중 N개의 컴퓨터를 보조 컴퓨터로 대체하는 단계와; (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와; (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와; (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와; 상기 (1) 내지 (4) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함할 수 있다.

Description

시스템 가용성 향상을 위한 시스템 운용 방법{SYSTEM MANAGING METHOD FOR IMPROVING SYSTEM AVAILABILITY}
본 명세서는 시스템 가용성 향상을 위한 시스템 운용 방법에 관한 것이다.
일반적으로, 현재의 기업환경은 정보시스템의 단 1분간의 다운으로도 막대한 손실을 초래하는 상황이며, 기업의 모든 자원은 디지털 네트워크로 연결되어 365일 24시간 항상 서비스를 제공하기를 요구받고 있다. 이러한 정보 네트워크 시대에서 시스템의 가용성을 향상시키는 것은 성공적인 경영을 위해 반드시 확립되어야 하는 기본적인 토대가 되고 있다.
네트워크 중심으로 운용개념이 전환되고 있는 무기체계들 또한 100%의 가용성을 묵시적으로 요구받고 있는 것이 사실이다. 그러나 100%의 가용성은 현실적으로는 달성할 수 없는 이상적인 목표이며, 기업의 정보 시스템뿐만 아니라 무기체계도 투자 대비 효용성(비용 대비 효용성)을 고려한, 그리고 기업의 요구사항(군 성능 요구사항)에 부합하는 수준으로 가용성을 설정할 수밖에 없는 실정이다. 가용성은 비용, 복잡성 등 여러 요소들에 대한 절충(Trade-off)의 결과로 그 수준이 결정된다고 할 수 있다. 일반적인 고가용성 네트워크 시스템은 한국 특허 출원 번호 10-2008-7010167에 개시되어 있다.
본 명세서는 시스템에 페일오버(failover, 장애 극복 기능)를 적용함으로써 시스템의 가용성을 향상시킬 수 있는 시스템 가용성 향상을 위한 시스템 운용 방법을 제공하는 데 그 목적이 있다.
본 명세서에 개시된 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 네트워크를 통해 서로 연결된 M개의 컴퓨터로 구성된 시스템을 운영하는 방법에 있어서, (1) 상기 M개의 컴퓨터 중 N개의 컴퓨터를 보조 컴퓨터로 대체하는 단계와; (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와; (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와; (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와; 상기 (1) 내지 (4) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함하며, 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미한다.
본 명세서와 관련된 일 예로서, 상기 M개의 컴퓨터는 상기 네트워크를 통해 페일오버(Failover) 기능을 수행할 수 있다.
본 명세서와 관련된 일 예로서, 상기 N개의 컴퓨터는 미리설정된 주기로 페일오버를 수행할 수 있다.
본 발명의 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 시스템에 페일오버(failover, 장애 극복 기능)를 적용함으로써 시스템의 가용성을 향상시킬 수 있으며, 상기 페일오버를 기동시키는 간단하고 효과적인 방법을 통하여 시스템의 가용성을 더욱 향상시킬 수 있다.
도 1은 시스템 가용성 측정치를 나타낸 도이다.
도 2는 시스템 다운을 일으킬 수 있는 여러 원인을 나타낸 도이다.
도 3은 페일오버가 일어나지 않은 상태의 시스템 구성도이이다.
도 4는 컴퓨터 B와 B' 사이에 페일오버가 일어나고 있는 상태를 나타낸 도이다.
도 5는 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.
도 6은 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
도 1은 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법을 나타낸 흐름도이다.
도 1에 도시한 바와 같이, 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법은, (1) 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용을 위한 M개의 컴퓨터(또는 서버) 중 N개의 컴퓨터(또는 서버)를 보조 컴퓨터로 대체하는 단계와(S10); (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와(S20); (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와(S30); (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와(S40); 상기 (1) 내지 (4) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함한다. 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미한다. 상기 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터)으로서 구성된 M개의 컴퓨터(또는 서버)는 네트워크를 통해 서로 연결되어 있으며, 페일오버(Failover) 기능을 수행한다.
상기 시스템의 가용성(A)은 수학식1과 같이 표현된다.
Figure 112013043505522-pat00001
여기서, MTBF는 평균 고장 간격 시간(Mean Time Between Failures)을 의미하며, MTTR은 평균 복구 시간(Mean Time To Recover)을 의미한다. 상기 수학식1에서 알 수 있듯이, MTTR이 0이 된다면 시스템의 가용성(A)은 100%가 되며, MTBF가 커질수록 MTTR이 시스템의 가용성(A)에 끼치는 영향력은 작아진다.
도 2는 시스템 가용성 측정치를 나타낸 도이다.
도 2에서 볼 수 있듯이, 특정 시스템의 MTBF가 100,000시간이고, MTTR이 1시간이라면 위의 공식에 따라 이 시스템의 가용성(A)은 99.999%가 된다. 만약 이 시스템의 MTTR을 1시간의 10%인 6분으로 낮춘다면 이 시스템의 가용성(A)은 99.9999%가 될 것이다. 하지만 6분 동안만 다운되는 정도의 가용성을 달성하기 위해서 11년도 넘는 100,000시간 동안 지속적으로 동작할 수 있는 부품을 써야 하는 것이다. 그러나 일반적으로 시스템은 한 개의 부품이 아닌 여러 개의 부품으로 이루어져 있으며, 결국 99.9999%의 가용성을 이루기 위해서는 전체 부품이 11.4년 동안 통틀어 6분간만 고장 나야 한다는 말이다. 현 기술을 놓고 볼 때 이는 매우 비현실적이며 달성 불가능한 이야기이다.
도 3은 시스템 다운을 일으킬 수 있는 여러 원인(IEEE Computer 매거진, 1995년 4월)을 나타낸 도이다. 그래프에서 가장 많은 비중을 차지하고 있는 것은 예정된 다운(Planned Downtime)이다. 상기 예정된 다운이란 시스템 관리자가 서버의 중요 부품이나 중요한 소프트웨어를 업그레이드하기 위해 의도적으로 시스템을 중단하거나, 때로는 로그 파일을 지우거나 임시 디렉토리와 메모리를 정리하기 위해 시스템을 재부팅하는 경우이다.
시스템 다운의 또 다른 원인은 사람이다. 사람들은 밀접하게 연관된 두 가지 이유로 인해 시스템을 다운시킨다. 첫 번째 이유는 사람들의 부주의나 직무태만으로 인한 실수이며, 두 번째는 시스템 운영 방법을 완벽하게 숙지하지 않아서 생기는 문제이다. 시스템 다운의 원인 중 하드웨어로 인한 것은 오직 10% 정도이다. 사실 디스크 문제, 네트워크 고장 외에 전원 공급 장치, CPU 및 메모리 문제, 내부 냉각 시스템 고장 등의 하드웨어 불량으로 일어나는 시스템 다운은 10%에 머문다.
시스템 다운의 또 다른 원인은 소프트웨어 문제이다. 상기 소프트웨어로 인한 시스템 다운은 40%나 된다. 소프트웨어의 버그는 시스템 안정성을 다루는 데 있어 가장 해결하기 힘든 부분이다. 하드웨어가 보다 안정적인 부품으로 교체되고 예정된 다운을 감소시키기 위한 방법을 취함으로써 이에 관련된 문제점은 감소하지만, 상대적으로 소프트웨어로 인한 다운의 비중은 더욱 증가하게 된다. 또한, 소프트웨어가 점점 더 복잡해지면서 소프트웨어 자체 문제로 인한 장애가 더 많이 발생할 수 있다.
시스템 다운 원인에 따라 시스템 다운 감소를 위한 방안이 강구되어야 하는데, 시스템 다운의 가장 큰 원인인 소프트웨어의 버그는 완전히 없앨 수 없다는 데 어려움이 있다. 소프트웨어의 버그를 완전히 없애기보다는 컴퓨터 시스템을 클러스트로 구성하고, 소프트웨어가 수행되다가 멈춘 경우 다른 곳에 있던 동일한 소프트웨어가 이어받아 계속 동작하게 하는 페일오버(Failover)를 수행하는 소프트웨어를 적용하는 것이 현실적인 소프트웨어에 의한 시스템 다운의 감소 방안이 될 수 있다. 상기 페일오버를 자동으로 수행하는 소프트웨어는 사용자에게 컴퓨터가 다운될 때 컴퓨터 그 자체를 통째로 들어내고 다른 것으로 교체해서 예전처럼 작업을 계속 수행하게 하는 것 같이 느끼게 할 수 있다.
가용성을 증대시키기 위해서는 클러스터를 구성해서 페일오버 시스템을 적용하면 사람에 의한 시스템 다운과 주변 환경 및 물리적인 고장에 의한 시스템 다운을 제외한 대부분의 시스템 다운에 대처하는 것이 가능하다. 이런 관점에서 페일오버 시스템을 구축하기 위해서는 다음과 같이 복수개의 서버, 복수개의 네트워크, 미러링되는 비공유 디스크 그리고 동일한 응용프로그램의 중복 배치 등이 요구될 수 있으며, 이를 이하에서 설명한다.
가. 서버
서비스를 제공하는 소프트웨어인 서버는 주 서버와 그것을 이어받을 대기 서버, 이렇게 두 대의 서버가 필요하다. 주 서버에서 작동하다가 멈춘 중요한 응용프로그램을 두 번째 서버로 이동하는 과정을 페일오버라고 한다. 이 서버들은 동일한 운영체제상에서 동작하고, 서로 동일한 패치가 설치되어 있으며, 동일하게 실행되어, 가능한 동일한 환경으로 설정된다.
나. 네트워크 연결
페일오버를 구성하는 데에는 두 개의 다른 종류의 네트워크 연결이 요구되는 데, 세 가지 종류의 네트워크로 구성될 수도 있다. 쌍으로 엮어진 핫비트 네트워크는 서버들이 다른 서버와 연결하게 하고 모니터하도록 하여 짝을 이루는 상대에게 조치가 필요한 일이 발생하는 즉시 알아차리게 된다. 필요한 두 번째 네트워크 연결은 일반 또는 서비스 네트워크이다. 이 네트워크로 사용자들과 클라이언트들이 데이터를 전달한다. 네트워크 연결의 세 번째 타입은 관리자 네트워크인데, 이는 페일오버가 발생한 후에라도 시스템 관리자들에게 각각의 서버 간의 네트워크 경로를 보장한다.
다. 디스크
페일오버에는 두 종류의 디스크 유형이 있는데, 첫 번째인 내부 비공유 디스크들은 현재 동작하고 있는 서버가 아닐 경우 각각의 시스템이 시스템 작동을 위해서 페일오버 과정을 초기화하여 유지하게 하는 소프트웨어를 포함하여 운영체제와 필요한 다른 파일들을 가지고 있다. 비공유 디스크는 공유할 수 없으며, 오직 한 개의 서버에서만 제대로 동작한다. 비공유 디스크의 모든 내용은 미러링 되어야 한다. 비공유 디스크의 요구사항은 장에 회복을 위해 첫 번째 시스템과 대체 시스템의 여러 관리자용 파일은 완전히 동일해야 하고, 자동으로 이루어져야 한다는 것이다. 두 번째 디스크 유형은 공유 디스크로 중요한 데이터를 가지고 있는 디스크이다. 이 디스크의 데이터는 중요해서 첫 번째 시스템과 대체 시스템 모두 이 디스크에 접근할 수 있는 동시에 한 번에 하나의 시스템만이 공유 디스크에 접근해야 한다. 만약 두 시스템이 동시에 공유 디스크에 접근하려고 하면 공유 디스크에 기록되어 있는 데이터에 문제가 생길 수 있다.
상기 공유 디스크를 만드는 방법은 두 가지가 있는데, 첫 번째 방법은 물리적으로 연결되어 있는 두 호스트가 같은 디스크를 공유해서 쓰는 듀얼 호스트라는 방법으로 두 시스템의 접근은 외부 소프트웨어가 조절해 한 번에 하나의 호스트만 접근할 수 있도록 제어하는 방법이다. 공유 디스크를 만드는 또 다른 방법으로는 데이터를 각 서버 사이의 네트워크(핫비트 네트워크나 다른 병렬네트워크)에 복제하는 "shared nothing" 이라는 방법이 있다. 이 방법은 서로 다른 쪽에 데이터를 기록할 수 있게 하는 네트워크와 호스트가 요구된다.
라. 응용프로그램 적용
클러스트 디자인의 중요한 요소로 응용프로그램들이 클러스터된 두 서버 상에서 한 번에 한 서버에서 번갈아 가면서 모두 동작해야 한다는 것이다. 응용프로그램을 부트 및 시스템 정보를 담고 있는 비공유 디스크에 설치했다면 반드시 두 개의 복사본을 만들어야 하며 응용프로그램 구성 변경도 두 번 해야 한다. 그렇지 않으면 페일오버 시스템에서 응용프로그램을 보증할 수 없게 된다. 반면에 공유 디스크에 설치했을 때는 해당 응용프로그램 구성 파일을 한 번만 복사하면 되고, 응용프로그램 구성을 변경하려면 한 부분에서만 바꾸면 된다. 응용프로그램을 한 번만 복사하면 되는 경우는 응용프로그램 업그레이드나 제거를 안전하게 수행할 수 없다. 두 번 복사하는 경우는 시스템(컴퓨터 또는 서버) A에 먼저 업그레이드를 해 보고 혹시 모를 사태에 대비해 시스템(컴퓨터 또는 서버) B를 페일오버 시스템으로 사용하면 된다. 그리고 시스템 A에서 아무런 문제가 없으면 그 때 시스템 B도 업그레이드하고 시스템 A에 문제가 생긴다면 시스템 A를 복구하고 시스템 B에서 다시 설치해 보면 된다. 상황에 맞게 선택해서 쓰면 되는데, 업그레이드가 잦은 경우에는 비공유 디스크에 응용프로그램을 설치하는 것이 유리할 수 있다.
본 발명은 이러한 페일오버 시스템 요구수준을 만족하는 시스템이 구성되어 있을 때, 페일오버를 기동시키는 이벤트에 의해 비동기적으로 페일오버가 일어나게 하지 않고 적당한(미리설정된) 주기로 강제적으로 페일오버를 수행하게 하는 방법에 관한 것이다. 적정한 수준의 신뢰성을 가지는 시스템의 경우, 도 3과 같이 최초 동작부터 상당한 시간 동안은 고장이 발생하지 않는다.
도 4는 페일오버가 일어나지 않은 상태의 시스템 구성도이고, 도 5는 컴퓨터 B와 B' 사이에 페일오버가 일어나고 있는 상태를 나타낸 도이고, 도 6은 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.
사용시간이 길어지면서 메모리 누수라든가 고온에 의한 성능 저하 등에 의해 고장이 발생하는 것이 일반적인 현상이다. 그런 경우, 실제로 가장 손쉬운 고장 해결책은 재부팅이 될 수 있다. 그러나, 본 발명은 주 시스템을 구성하고 있는 부 시스템들을 고장에 의한 다운이 도래되기 전에 도 4와 도 5와 같이 페일오버를 수행하고, 페일오버가 완료된 뒤 임무가 완료된 장비는 재부팅해서 다음번 페일오버를 준비하는 방식으로 시스템을 운용하는 것이 본 발명의 주 내용이다. 많은 수의 장비들이 연결되어 운용된다면 페일오버를 수행하는 주기가 길어짐으로 동시에 페일오버 되는 장비를 복수개로 운용하여 주기를 적절한 수준으로 단축해서 운용할 수도 있다.
이상에서 설명한 바와 같이, 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법은, (1) 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용을 위한 M개의 컴퓨터(또는 서버) 중 N개의 컴퓨터(또는 서버)를 보조 컴퓨터로 대체하는 단계와, (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와, (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와, (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와, 상기 (1) 내지 (4) 단계를 반복하여 상기 시스템을 M+N개의 컴퓨터로 순환 운용함으로써, 간단하고 효과적으로 시스템의 가용성을 향상시킬 수 있다. 즉, 본 발명의 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 시스템에 페일오버(failover, 장애 극복 기능) 기능을 적용함으로써 시스템의 가용성을 향상시킬 수 있으며, 상기 페일오버를 기동시키는 간단하고 효과적인 방법을 통하여 시스템의 가용성을 더욱 향상시킬 수 있다.
상기 M개의 컴퓨터 중 어느 하나 또는 제어 시스템(도시되지 않음)은, 각 컴퓨터를 제어하기 위한 응용 프로그램을 통해, 상기 M개의 컴퓨터 중 N개의 컴퓨터를 보조 컴퓨터로 대체하고, 상기 N개의 컴퓨터의 작동을 중단시키고, 상기 작동이 중단된 컴퓨터를 재부팅하고, 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동시킬 수도 있다.
본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (3)

  1. 네트워크를 통해 서로 연결된 M개의 컴퓨터로 구성된 시스템을 운영하는 방법에 있어서,
    (1) 상기 시스템의 평균 고장 간격 시간이 증가됨과 함께 상기 시스템의 평균 복구 시간이 감소되도록, 상기 네트워크를 통해 페일오버(Failover) 기능을 수행하는 M개의 컴퓨터 중 N개의 컴퓨터를 상기 페일오버 기능을 이용하여 보조 컴퓨터로 대체하며, 여기서, 상기 N개의 컴퓨터는 상기 N개의 컴퓨터가 고장에 의한 다운이 도래되기 전인 미리설정된 주기로 상기 페일오버 기능을 수행하는 단계와;
    (2) 상기 고장에 의한 다운이 도래되기 전에, 상기 N개의 컴퓨터의 작동을 중단한 후 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와;
    (3) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와;
    상기 (1) 내지 (3) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함하며, 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미하는 것을 특징으로 하는 시스템 가용성 향상을 위한 시스템 운용 방법.
  2. 삭제
  3. 삭제
KR1020130055853A 2013-05-16 2013-05-16 시스템 가용성 향상을 위한 시스템 운용 방법 Expired - Fee Related KR101444783B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130055853A KR101444783B1 (ko) 2013-05-16 2013-05-16 시스템 가용성 향상을 위한 시스템 운용 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130055853A KR101444783B1 (ko) 2013-05-16 2013-05-16 시스템 가용성 향상을 위한 시스템 운용 방법

Publications (1)

Publication Number Publication Date
KR101444783B1 true KR101444783B1 (ko) 2014-09-26

Family

ID=51761195

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130055853A Expired - Fee Related KR101444783B1 (ko) 2013-05-16 2013-05-16 시스템 가용성 향상을 위한 시스템 운용 방법

Country Status (1)

Country Link
KR (1) KR101444783B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102062097B1 (ko) * 2018-06-27 2020-06-23 송암시스콤 주식회사 자동복구기능을 탑재한 이중화 구조의 버스정보안내단말기

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0134146B1 (ko) * 1993-07-23 1998-05-15 윌리암 티.엘리스 컴퓨터 시스템에서 보호 모드로 코드를 실행중인 cpu의 상태 보존 및 복원 방법과 페이지 디렉토리 베이스 레지스터 값 평가 및 평가 값 검증 방법
JP2010198442A (ja) * 2009-02-26 2010-09-09 Toshiba Corp フェイルオーバ機能を持つ分散システムおよび同システムにおけるフェイルオーバ方法
JP2011081830A (ja) 2010-12-09 2011-04-21 Hitachi Ltd サーバ切替方法、プログラムおよび管理サーバ
JP2011248735A (ja) 2010-05-28 2011-12-08 Hitachi Ltd サーバ計算機の切替方法、管理計算機及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0134146B1 (ko) * 1993-07-23 1998-05-15 윌리암 티.엘리스 컴퓨터 시스템에서 보호 모드로 코드를 실행중인 cpu의 상태 보존 및 복원 방법과 페이지 디렉토리 베이스 레지스터 값 평가 및 평가 값 검증 방법
JP2010198442A (ja) * 2009-02-26 2010-09-09 Toshiba Corp フェイルオーバ機能を持つ分散システムおよび同システムにおけるフェイルオーバ方法
JP2011248735A (ja) 2010-05-28 2011-12-08 Hitachi Ltd サーバ計算機の切替方法、管理計算機及びプログラム
JP2011081830A (ja) 2010-12-09 2011-04-21 Hitachi Ltd サーバ切替方法、プログラムおよび管理サーバ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102062097B1 (ko) * 2018-06-27 2020-06-23 송암시스콤 주식회사 자동복구기능을 탑재한 이중화 구조의 버스정보안내단말기

Similar Documents

Publication Publication Date Title
US20230185681A1 (en) High reliability fault tolerant computer architecture
US8856776B2 (en) Updating firmware without disrupting service
US9075771B1 (en) Techniques for managing disaster recovery sites
US8862927B2 (en) Systems and methods for fault recovery in multi-tier applications
US20170091221A1 (en) System and method for providing a virtualized replication and high availability environment
US10108517B1 (en) Techniques for data storage systems using virtualized environments
US8219851B2 (en) System RAS protection for UMA style memory
US11144405B2 (en) Optimizing database migration in high availability and disaster recovery computing environments
US10509705B2 (en) Application protection through a combined functionality failure manager
US20170212815A1 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US8015432B1 (en) Method and apparatus for providing computer failover to a virtualized environment
US11615006B2 (en) Virtual network life cycle management
US20220215001A1 (en) Replacing dedicated witness node in a stretched cluster with distributed management controllers
KR101444783B1 (ko) 시스템 가용성 향상을 위한 시스템 운용 방법
US11360685B2 (en) Data consistency during reverse replication
EP3602268A1 (en) Input/output(i/o) fencing without dedicated arbitrators
Resman CentOS High Availability
US10348675B1 (en) Distributed management of a storage system
US8756370B1 (en) Non-disruptive drive firmware upgrades
Khomh On improving the dependability of cloud applications with fault-tolerance
EP3326069A1 (en) Preserving volatile memory across a computer system disruption
US10365934B1 (en) Determining and reporting impaired conditions in a multi-tenant web services environment
Meyer et al. RADIC: A faulttolerant middleware with automatic management of spare nodes
Calzolari High availability using virtualization
Mukerjee et al. SQL Azure as a Self-Managing Database Service: Lessons Learned and Challenges Ahead.

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20130516

PA0201 Request for examination
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20140327

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20140915

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20140919

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20140922

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20170901

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20180903

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20190903

Start annual number: 6

End annual number: 6

PC1903 Unpaid annual fee