KR101444783B1

KR101444783B1 - 시스템 가용성 향상을 위한 시스템 운용 방법

Info

Publication number: KR101444783B1
Application number: KR1020130055853A
Authority: KR
Inventors: 추증호; 장혜민; 박원익; 김도종
Original assignee: 국방과학연구소
Priority date: 2013-05-16
Filing date: 2013-05-16
Publication date: 2014-09-26
Anticipated expiration: 2033-05-16

Abstract

본 명세서는 시스템에 페일오버(failover, 장애 극복 기능)를 적용함으로써 시스템의 가용성을 향상시킬 수 있는 시스템 가용성 향상을 위한 시스템 운용 방법에 관한 것으로서, 본 명세서에 개시된 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 네트워크를 통해 서로 연결된 M개의 컴퓨터로 구성된 시스템을 운영하는 방법에 있어서, (1) 상기 M개의 컴퓨터 중 N개의 컴퓨터를 보조 컴퓨터로 대체하는 단계와; (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와; (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와; (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와; 상기 (1) 내지 (4) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함할 수 있다.

Description

시스템 가용성 향상을 위한 시스템 운용 방법{SYSTEM MANAGING METHOD FOR IMPROVING SYSTEM AVAILABILITY}

본 명세서는 시스템 가용성 향상을 위한 시스템 운용 방법에 관한 것이다.

일반적으로, 현재의 기업환경은 정보시스템의 단 1분간의 다운으로도 막대한 손실을 초래하는 상황이며, 기업의 모든 자원은 디지털 네트워크로 연결되어 365일 24시간 항상 서비스를 제공하기를 요구받고 있다. 이러한 정보 네트워크 시대에서 시스템의 가용성을 향상시키는 것은 성공적인 경영을 위해 반드시 확립되어야 하는 기본적인 토대가 되고 있다.

네트워크 중심으로 운용개념이 전환되고 있는 무기체계들 또한 100%의 가용성을 묵시적으로 요구받고 있는 것이 사실이다. 그러나 100%의 가용성은 현실적으로는 달성할 수 없는 이상적인 목표이며, 기업의 정보 시스템뿐만 아니라 무기체계도 투자 대비 효용성(비용 대비 효용성)을 고려한, 그리고 기업의 요구사항(군 성능 요구사항)에 부합하는 수준으로 가용성을 설정할 수밖에 없는 실정이다. 가용성은 비용, 복잡성 등 여러 요소들에 대한 절충(Trade-off)의 결과로 그 수준이 결정된다고 할 수 있다. 일반적인 고가용성 네트워크 시스템은 한국 특허 출원 번호 10-2008-7010167에 개시되어 있다.

본 명세서는 시스템에 페일오버(failover, 장애 극복 기능)를 적용함으로써 시스템의 가용성을 향상시킬 수 있는 시스템 가용성 향상을 위한 시스템 운용 방법을 제공하는 데 그 목적이 있다.

본 명세서에 개시된 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 네트워크를 통해 서로 연결된 M개의 컴퓨터로 구성된 시스템을 운영하는 방법에 있어서, (1) 상기 M개의 컴퓨터 중 N개의 컴퓨터를 보조 컴퓨터로 대체하는 단계와; (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와; (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와; (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와; 상기 (1) 내지 (4) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함하며, 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미한다.

본 명세서와 관련된 일 예로서, 상기 M개의 컴퓨터는 상기 네트워크를 통해 페일오버(Failover) 기능을 수행할 수 있다.

본 명세서와 관련된 일 예로서, 상기 N개의 컴퓨터는 미리설정된 주기로 페일오버를 수행할 수 있다.

본 발명의 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 시스템에 페일오버(failover, 장애 극복 기능)를 적용함으로써 시스템의 가용성을 향상시킬 수 있으며, 상기 페일오버를 기동시키는 간단하고 효과적인 방법을 통하여 시스템의 가용성을 더욱 향상시킬 수 있다.

도 1은 시스템 가용성 측정치를 나타낸 도이다.
도 2는 시스템 다운을 일으킬 수 있는 여러 원인을 나타낸 도이다.
도 3은 페일오버가 일어나지 않은 상태의 시스템 구성도이이다.
도 4는 컴퓨터 B와 B' 사이에 페일오버가 일어나고 있는 상태를 나타낸 도이다.
도 5는 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.
도 6은 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.

도 1은 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법을 나타낸 흐름도이다.

도 1에 도시한 바와 같이, 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법은, (1) 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용을 위한 M개의 컴퓨터(또는 서버) 중 N개의 컴퓨터(또는 서버)를 보조 컴퓨터로 대체하는 단계와(S10); (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와(S20); (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와(S30); (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와(S40); 상기 (1) 내지 (4) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함한다. 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미한다. 상기 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터)으로서 구성된 M개의 컴퓨터(또는 서버)는 네트워크를 통해 서로 연결되어 있으며, 페일오버(Failover) 기능을 수행한다.

상기 시스템의 가용성(A)은 수학식1과 같이 표현된다.

여기서, MTBF는 평균 고장 간격 시간(Mean Time Between Failures)을 의미하며, MTTR은 평균 복구 시간(Mean Time To Recover)을 의미한다. 상기 수학식1에서 알 수 있듯이, MTTR이 0이 된다면 시스템의 가용성(A)은 100%가 되며, MTBF가 커질수록 MTTR이 시스템의 가용성(A)에 끼치는 영향력은 작아진다.

도 2는 시스템 가용성 측정치를 나타낸 도이다.

도 2에서 볼 수 있듯이, 특정 시스템의 MTBF가 100,000시간이고, MTTR이 1시간이라면 위의 공식에 따라 이 시스템의 가용성(A)은 99.999%가 된다. 만약 이 시스템의 MTTR을 1시간의 10%인 6분으로 낮춘다면 이 시스템의 가용성(A)은 99.9999%가 될 것이다. 하지만 6분 동안만 다운되는 정도의 가용성을 달성하기 위해서 11년도 넘는 100,000시간 동안 지속적으로 동작할 수 있는 부품을 써야 하는 것이다. 그러나 일반적으로 시스템은 한 개의 부품이 아닌 여러 개의 부품으로 이루어져 있으며, 결국 99.9999%의 가용성을 이루기 위해서는 전체 부품이 11.4년 동안 통틀어 6분간만 고장 나야 한다는 말이다. 현 기술을 놓고 볼 때 이는 매우 비현실적이며 달성 불가능한 이야기이다.

도 3은 시스템 다운을 일으킬 수 있는 여러 원인(IEEE Computer 매거진, 1995년 4월)을 나타낸 도이다. 그래프에서 가장 많은 비중을 차지하고 있는 것은 예정된 다운(Planned Downtime)이다. 상기 예정된 다운이란 시스템 관리자가 서버의 중요 부품이나 중요한 소프트웨어를 업그레이드하기 위해 의도적으로 시스템을 중단하거나, 때로는 로그 파일을 지우거나 임시 디렉토리와 메모리를 정리하기 위해 시스템을 재부팅하는 경우이다.

시스템 다운의 또 다른 원인은 사람이다. 사람들은 밀접하게 연관된 두 가지 이유로 인해 시스템을 다운시킨다. 첫 번째 이유는 사람들의 부주의나 직무태만으로 인한 실수이며, 두 번째는 시스템 운영 방법을 완벽하게 숙지하지 않아서 생기는 문제이다. 시스템 다운의 원인 중 하드웨어로 인한 것은 오직 10% 정도이다. 사실 디스크 문제, 네트워크 고장 외에 전원 공급 장치, CPU 및 메모리 문제, 내부 냉각 시스템 고장 등의 하드웨어 불량으로 일어나는 시스템 다운은 10%에 머문다.

시스템 다운의 또 다른 원인은 소프트웨어 문제이다. 상기 소프트웨어로 인한 시스템 다운은 40%나 된다. 소프트웨어의 버그는 시스템 안정성을 다루는 데 있어 가장 해결하기 힘든 부분이다. 하드웨어가 보다 안정적인 부품으로 교체되고 예정된 다운을 감소시키기 위한 방법을 취함으로써 이에 관련된 문제점은 감소하지만, 상대적으로 소프트웨어로 인한 다운의 비중은 더욱 증가하게 된다. 또한, 소프트웨어가 점점 더 복잡해지면서 소프트웨어 자체 문제로 인한 장애가 더 많이 발생할 수 있다.

시스템 다운 원인에 따라 시스템 다운 감소를 위한 방안이 강구되어야 하는데, 시스템 다운의 가장 큰 원인인 소프트웨어의 버그는 완전히 없앨 수 없다는 데 어려움이 있다. 소프트웨어의 버그를 완전히 없애기보다는 컴퓨터 시스템을 클러스트로 구성하고, 소프트웨어가 수행되다가 멈춘 경우 다른 곳에 있던 동일한 소프트웨어가 이어받아 계속 동작하게 하는 페일오버(Failover)를 수행하는 소프트웨어를 적용하는 것이 현실적인 소프트웨어에 의한 시스템 다운의 감소 방안이 될 수 있다. 상기 페일오버를 자동으로 수행하는 소프트웨어는 사용자에게 컴퓨터가 다운될 때 컴퓨터 그 자체를 통째로 들어내고 다른 것으로 교체해서 예전처럼 작업을 계속 수행하게 하는 것 같이 느끼게 할 수 있다.

가용성을 증대시키기 위해서는 클러스터를 구성해서 페일오버 시스템을 적용하면 사람에 의한 시스템 다운과 주변 환경 및 물리적인 고장에 의한 시스템 다운을 제외한 대부분의 시스템 다운에 대처하는 것이 가능하다. 이런 관점에서 페일오버 시스템을 구축하기 위해서는 다음과 같이 복수개의 서버, 복수개의 네트워크, 미러링되는 비공유 디스크 그리고 동일한 응용프로그램의 중복 배치 등이 요구될 수 있으며, 이를 이하에서 설명한다.

가. 서버

서비스를 제공하는 소프트웨어인 서버는 주 서버와 그것을 이어받을 대기 서버, 이렇게 두 대의 서버가 필요하다. 주 서버에서 작동하다가 멈춘 중요한 응용프로그램을 두 번째 서버로 이동하는 과정을 페일오버라고 한다. 이 서버들은 동일한 운영체제상에서 동작하고, 서로 동일한 패치가 설치되어 있으며, 동일하게 실행되어, 가능한 동일한 환경으로 설정된다.

나. 네트워크 연결

페일오버를 구성하는 데에는 두 개의 다른 종류의 네트워크 연결이 요구되는 데, 세 가지 종류의 네트워크로 구성될 수도 있다. 쌍으로 엮어진 핫비트 네트워크는 서버들이 다른 서버와 연결하게 하고 모니터하도록 하여 짝을 이루는 상대에게 조치가 필요한 일이 발생하는 즉시 알아차리게 된다. 필요한 두 번째 네트워크 연결은 일반 또는 서비스 네트워크이다. 이 네트워크로 사용자들과 클라이언트들이 데이터를 전달한다. 네트워크 연결의 세 번째 타입은 관리자 네트워크인데, 이는 페일오버가 발생한 후에라도 시스템 관리자들에게 각각의 서버 간의 네트워크 경로를 보장한다.

다. 디스크

페일오버에는 두 종류의 디스크 유형이 있는데, 첫 번째인 내부 비공유 디스크들은 현재 동작하고 있는 서버가 아닐 경우 각각의 시스템이 시스템 작동을 위해서 페일오버 과정을 초기화하여 유지하게 하는 소프트웨어를 포함하여 운영체제와 필요한 다른 파일들을 가지고 있다. 비공유 디스크는 공유할 수 없으며, 오직 한 개의 서버에서만 제대로 동작한다. 비공유 디스크의 모든 내용은 미러링 되어야 한다. 비공유 디스크의 요구사항은 장에 회복을 위해 첫 번째 시스템과 대체 시스템의 여러 관리자용 파일은 완전히 동일해야 하고, 자동으로 이루어져야 한다는 것이다. 두 번째 디스크 유형은 공유 디스크로 중요한 데이터를 가지고 있는 디스크이다. 이 디스크의 데이터는 중요해서 첫 번째 시스템과 대체 시스템 모두 이 디스크에 접근할 수 있는 동시에 한 번에 하나의 시스템만이 공유 디스크에 접근해야 한다. 만약 두 시스템이 동시에 공유 디스크에 접근하려고 하면 공유 디스크에 기록되어 있는 데이터에 문제가 생길 수 있다.

상기 공유 디스크를 만드는 방법은 두 가지가 있는데, 첫 번째 방법은 물리적으로 연결되어 있는 두 호스트가 같은 디스크를 공유해서 쓰는 듀얼 호스트라는 방법으로 두 시스템의 접근은 외부 소프트웨어가 조절해 한 번에 하나의 호스트만 접근할 수 있도록 제어하는 방법이다. 공유 디스크를 만드는 또 다른 방법으로는 데이터를 각 서버 사이의 네트워크(핫비트 네트워크나 다른 병렬네트워크)에 복제하는 "shared nothing" 이라는 방법이 있다. 이 방법은 서로 다른 쪽에 데이터를 기록할 수 있게 하는 네트워크와 호스트가 요구된다.

라. 응용프로그램 적용

클러스트 디자인의 중요한 요소로 응용프로그램들이 클러스터된 두 서버 상에서 한 번에 한 서버에서 번갈아 가면서 모두 동작해야 한다는 것이다. 응용프로그램을 부트 및 시스템 정보를 담고 있는 비공유 디스크에 설치했다면 반드시 두 개의 복사본을 만들어야 하며 응용프로그램 구성 변경도 두 번 해야 한다. 그렇지 않으면 페일오버 시스템에서 응용프로그램을 보증할 수 없게 된다. 반면에 공유 디스크에 설치했을 때는 해당 응용프로그램 구성 파일을 한 번만 복사하면 되고, 응용프로그램 구성을 변경하려면 한 부분에서만 바꾸면 된다. 응용프로그램을 한 번만 복사하면 되는 경우는 응용프로그램 업그레이드나 제거를 안전하게 수행할 수 없다. 두 번 복사하는 경우는 시스템(컴퓨터 또는 서버) A에 먼저 업그레이드를 해 보고 혹시 모를 사태에 대비해 시스템(컴퓨터 또는 서버) B를 페일오버 시스템으로 사용하면 된다. 그리고 시스템 A에서 아무런 문제가 없으면 그 때 시스템 B도 업그레이드하고 시스템 A에 문제가 생긴다면 시스템 A를 복구하고 시스템 B에서 다시 설치해 보면 된다. 상황에 맞게 선택해서 쓰면 되는데, 업그레이드가 잦은 경우에는 비공유 디스크에 응용프로그램을 설치하는 것이 유리할 수 있다.

본 발명은 이러한 페일오버 시스템 요구수준을 만족하는 시스템이 구성되어 있을 때, 페일오버를 기동시키는 이벤트에 의해 비동기적으로 페일오버가 일어나게 하지 않고 적당한(미리설정된) 주기로 강제적으로 페일오버를 수행하게 하는 방법에 관한 것이다. 적정한 수준의 신뢰성을 가지는 시스템의 경우, 도 3과 같이 최초 동작부터 상당한 시간 동안은 고장이 발생하지 않는다.

도 4는 페일오버가 일어나지 않은 상태의 시스템 구성도이고, 도 5는 컴퓨터 B와 B' 사이에 페일오버가 일어나고 있는 상태를 나타낸 도이고, 도 6은 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.

사용시간이 길어지면서 메모리 누수라든가 고온에 의한 성능 저하 등에 의해 고장이 발생하는 것이 일반적인 현상이다. 그런 경우, 실제로 가장 손쉬운 고장 해결책은 재부팅이 될 수 있다. 그러나, 본 발명은 주 시스템을 구성하고 있는 부 시스템들을 고장에 의한 다운이 도래되기 전에 도 4와 도 5와 같이 페일오버를 수행하고, 페일오버가 완료된 뒤 임무가 완료된 장비는 재부팅해서 다음번 페일오버를 준비하는 방식으로 시스템을 운용하는 것이 본 발명의 주 내용이다. 많은 수의 장비들이 연결되어 운용된다면 페일오버를 수행하는 주기가 길어짐으로 동시에 페일오버 되는 장비를 복수개로 운용하여 주기를 적절한 수준으로 단축해서 운용할 수도 있다.

이상에서 설명한 바와 같이, 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법은, (1) 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용을 위한 M개의 컴퓨터(또는 서버) 중 N개의 컴퓨터(또는 서버)를 보조 컴퓨터로 대체하는 단계와, (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와, (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와, (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와, 상기 (1) 내지 (4) 단계를 반복하여 상기 시스템을 M+N개의 컴퓨터로 순환 운용함으로써, 간단하고 효과적으로 시스템의 가용성을 향상시킬 수 있다. 즉, 본 발명의 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 시스템에 페일오버(failover, 장애 극복 기능) 기능을 적용함으로써 시스템의 가용성을 향상시킬 수 있으며, 상기 페일오버를 기동시키는 간단하고 효과적인 방법을 통하여 시스템의 가용성을 더욱 향상시킬 수 있다.

상기 M개의 컴퓨터 중 어느 하나 또는 제어 시스템(도시되지 않음)은, 각 컴퓨터를 제어하기 위한 응용 프로그램을 통해, 상기 M개의 컴퓨터 중 N개의 컴퓨터를 보조 컴퓨터로 대체하고, 상기 N개의 컴퓨터의 작동을 중단시키고, 상기 작동이 중단된 컴퓨터를 재부팅하고, 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동시킬 수도 있다.

본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

네트워크를 통해 서로 연결된 M개의 컴퓨터로 구성된 시스템을 운영하는 방법에 있어서,
(1) 상기 시스템의 평균 고장 간격 시간이 증가됨과 함께 상기 시스템의 평균 복구 시간이 감소되도록, 상기 네트워크를 통해 페일오버(Failover) 기능을 수행하는 M개의 컴퓨터 중 N개의 컴퓨터를 상기 페일오버 기능을 이용하여 보조 컴퓨터로 대체하며, 여기서, 상기 N개의 컴퓨터는 상기 N개의 컴퓨터가 고장에 의한 다운이 도래되기 전인 미리설정된 주기로 상기 페일오버 기능을 수행하는 단계와;
(2) 상기 고장에 의한 다운이 도래되기 전에, 상기 N개의 컴퓨터의 작동을 중단한 후 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와;
(3) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와;
상기 (1) 내지 (3) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함하며, 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미하는 것을 특징으로 하는 시스템 가용성 향상을 위한 시스템 운용 방법.
삭제
삭제