KR20180100475A

KR20180100475A - 하이브리드 데이터 룩-업 방법

Info

Publication number: KR20180100475A
Application number: KR1020180002385A
Authority: KR
Inventors: 구네스와라 마리푸디; 쿠마르 칸테티
Original assignee: 삼성전자주식회사
Priority date: 2017-03-01
Filing date: 2018-01-08
Publication date: 2018-09-11
Anticipated expiration: 2038-01-08
Also published as: CN108536392A; US20180253260A1; CN108536392B; US11042330B2; KR102521051B1

Abstract

개시된 복수의 스토리지 장치들을 포함하는 분산 환경에 데이터를 저장하는 방법은, 데이터에 대한 저장 요청을 수신하는 단계, 데이터와 관련된 값에 해싱 함수를 적용함으로써 해시 값을 계산하는 단계, 해시 값을 복수의 청크(chunk)들 각각과 대응되는 복수의 가중치들로 분할하는 단계, 가중치에 기초하여, 복수의 청크들 중 하나의 청크를 선택하는 단계, 및 선택된 청크에 대응되는 스토리지 장치에 데이터를 저장하는 단계를 포함할 수 있다.

Description

하이브리드 데이터 룩-업 방법{HYBRID DATA LOOKUP METHODS}

분산 데이터 스토리지 시스템에 관한 것으로, 보다 구체적으로는, (예를 들어, 키-벨류 SSD(KV SSD)를 사용하여) 분산 환경 에서의 데이터를 관리하는 방법에 관한 것이다.

분산 데이터 스토리지 시스템은 해시 함수의 출력을 다양한 방식으로 사용하여 데이터 배치 및 캐싱을 처리할 수 있다.

종래의 파일 시스템은 공간 관리를 위해 아이노드(inode) 기반의 메타 데이터를 사용한다. 여기에는 매핑(파일 시스템 ID, 파일의 오프셋)을 장치 논리 블록 어드레스들로 변환하는 작업을 포함할 수 있다. 읽기/쓰기 작업 동안의 메타 데이터 관리는 기본 장치(underlying device)로의 입/출력(IO)을 직접적으로 수반하므로, 사용자 IO 레이턴시(latency)가 증가될 수 있다.

가중치(Weight) 기반 접근법을 사용하여 분산 환경에서 데이터를 관리하는 방법이 제공될 수 있다.

본 발명의 일 실시 예에 따르면, 복수의 스토리지 장치들을 포함하는 분산 환경에 데이터를 저장하는 방법에 있어서, 상기 데이터에 대한 저장 요청을 수신하는 단계, 상기 데이터와 관련된 값에 해싱 함수를 적용함으로써 해시 값을 계산하는 단계, 상기 해시 값을 복수의 청크(chunk)들 각각과 대응되는 복수의 가중치들로 분할하는 단계, 상기 가중치에 기초하여, 상기 복수의 청크들 중 하나의 청크를 선택하는 단계, 및 상기 선택된 청크에 대응되는 스토리지 장치에 데이터를 저장하는 단계를 포함할 수 있다.

상기 분산 환경은 복수의 스토리지 장치 개구들을 더 포함하고, 상기 스토리지 장치 개구들 각각은 미래의 스토리지 장치를 추가하기 위한 예약된 장소(reserved spot)를 가리키고, 상기 복수의 청크들 각각은 상기 복수의 스토리지 장치들 중 하나 또는 상기 복수의 스토리지 장치 개구들 중 하나와 대응되고, 및 상기 청크를 선택하는 단계는, 상기 복수의 청크들 중에서 가장 높은 가중치의 청크를 결정하는 단계, 상기 가장 높은 가중치의 상기 청크가 상기 스토리지 장치들 중 하나 또는 상기 스토리지 장치 개구들 중 하나와 대응되는지 여부를 결정하는 단계, 상기 가장 높은 가중치의 청크가 상기 스토리지 장치들 중 하나와 대응되면, 상기 가장 높은 가중치의 청크를 선택하는 단계, 및 상기 가장 높은 가중치의 청크가 상기 스토리지 장치 개구들 중 하나와 대응되면, 상기 스토리지 장치들과 대응하는 상기 복수의 청크들 중에서 가장 높은 가중치의 청크를 결정하는 단계, 및 상기 스토리지 장치들과 대응되는 상기 복수의 청크들 중에서 가장 높은 가중치의 청크를 선택하는 단계를 포함할 수 있다.

상기 스토리지 장치들 각각과 상기 스토리지 장치 개구들 각각은 장치 ID에 할당되고, 상기 장치 ID 는 상기 스토리지 장치들이 상기 분산 환경에 추가된 순서 또는 미래의 스토리지 장치들이 상기 분산 환경의 상기 스토리지 장치 개구들을 채울 순서를 나타내고, 상기 청크들 각각은, 상기 복수의 스토리지 장치들 중 상기 청크와 대응하는 하나 또는 상기 복수의 스토리지 장치 개구들 중 상기 청크와 대응하는 하나의 상기 장치 ID와 동일한 청크 ID 를 포함하고, 상기 가장 높은 가중치의 청크가 상기 스토리지 장치들 중 하나와 대응될 때, 상기 데이터는 상기 대응되는 스토리지 장치 안에서 대응하는 홉 카운트 값이 0인 홉 컨테이너에 저장되고, 및 상기 가장 높은 가중치의 청크가 상기 스토리지 장치 개구들 중 하나와 대응될 때, 상기 데이터는 홉 컨테이너에 저장되고, 상기 홉 컨테이너는, 상기 가장 높은 가중치의 청크의 상기 청크 ID 에서 상기 대응되는 스토리지 장치 안의 상기 스토리지 장치들에 할당된 장치ID 들 중에서 가장 높은 장치 ID 를 뺀 값과 동일한 홉 카운트 값을 가질 수 있다.

특정 홉 컨테이너에 대응되는 홉 카운트 값은 상기 특정 홉 컨테이너의 상기 데이터가 새로운 스토리지 장치로 이동되기 전에 얼마나 더 많은 스토리지 장치들이 상기 분산 환경에 추가되어야 할지를 가리킬 수 있다.

상기 스토리지 장치들과 대응하는 상기 복수의 청크들 중에서 두 번째로 높은 가중치의 청크를 결정하는 단계, 및 상기 데이터의 복사본을 상기 두 번째로 높은 가중치의 청크와 대응하는 제2대응 스토리지 장치에 저장하는 단계를 더 포함하고, 상기 분산 환경에서, 데이터 읽기 요청이 수신되면, 상기 대응되는 스토리지 장치에 저장된 상기 데이터의 일부 및 상기 제2대응 스토리지 장치 내에 저장된 상기 데이터의 상기 복사본의 다른 부분이 동시에 읽혀질 수 있다.

상기 복수의 스토리지 장치들은 키 벨류 SSD(KV SSD)들이고, 상기 홉 컨테이너들은 KV SSD컨테이너들이고, 및 상기 KV SSD 들 각각에서, 동일한 청크 ID 와 관련된 데이터는 동일한 KV SSD 컨테이너에 저장될 수 있다.

상기 해시 값을 복수의 가중치들로 분할하는 단계는, 상기 해시 값을 X개의 동일한 길이 값들로 분할하는 단계를 포함하고, 상기 X 는 청크들의 전체 개수와 동일하고, 상기 동일한 길이 값들 각각은 Y 비트 길이이고, 상기 Y 는 상기 X개로 분할한 상기 해시 값의 상기 길이 값과 비트 단위로 동일하고, 상기 X 와 상기 Y는 정수들이고, 및 상기 청크들의 전체 개수는 상기 스토리지 장치들의 전체 개수와 상기 스토리지 장치 개구들의 전체 개수를 합한 개수와 동일할 수 있다.

상기 복수의 스토리지 장치들은 키 벨류 SSD(KV SSD)들일 수 있다.

상기 데이터와 관련된 상기 값은, 상기 데이터의 논리 블록 어드레스(logical block address) 및 상기 데이터의 논리 유닛 개수(logical unit number) 중 하나일 수 있다.

복수의 스토리지 장치들을 포함하는 분산 환경에 새로운 스토리지 장치를 추가하는 방법에 있어서, 상기 스토리지 장치들 각각은 하나 이상의 홉 컨테이너들을 포함하고, 각 홉 컨테이너는 대응하는 홉 카운트 값을 포함하고, 상기 방법은, 상기 복수의 스토리지 장치들 각각에 대해, 대응하는 홉 카운트 값이 1인 홉 컨테이너들에 위치한 모든 데이터를 상기 새로운 스토리지 장치로 전송하는 단계를 포함할 수 있다.

상기 복수의 스토리지 장치들 각각에 대해, 대응하는 홉 카운트 값이 1인 상기 홉 컨테이너들을 제거하는 단계, 및 0보다 큰 상기 대응하는 홉 카운트 값들 모두를 1씩 감소시키는 단계를 더 포함할 수 있다.

상기 방법은 해시 함수를 사용하여, 상기 전송된 데이터에 대응하는 값들을 해싱하는 단계, 및 상기 해싱에 기초하여 상기 새로운 스토리지 장치의 하나 이상의 홉 컨테이너들의 상기 전송된 데이터를 저장하는 단계를 더 포함할 수 있다.

상기 분산 환경은 복수의 저장 장치 개구들을 포함하고, 상기 전송된 데이터를 저장하는 단계는, 상기 데이터에 해싱 함수를 적용하여 해쉬 값을 계산하는 단계, 상기 해시 값을 복수의 청크(chunk)들 각각과 대응되는 복수의 가중치들로 분할하는 단계, 상기 복수의 청크들 각각은 상기 복수의 스토리지 장치들 중 하나 또는 상기 복수의 스토리지 장치 개구들 중 하나와 대응되고, 가장 높은 가중치의 청크를 결정하는 단계, 상기 가장 높은 가중치의 상기 청크가 상기 새로운 스토리지 장치 또는 상기 스토리지 장치 개구들 중 하나와 대응되는지 여부를 결정하는 단계, 상기 가장 높은 가중치의 청크가 상기 새로운 스토리지 장치에 대응되면, 상기 하나 이상의 홉 컨테이너들 중 홉 카운트 값이 0인 홉 컨테이너에 상기 전송된 데이터를 저장하는 단계, 및 상기 가장 높은 가중치의 청크가 상기 스토리지 장치 개구들 중 하나와 대응되면, 상기 하나 이상의 홉 컨테이너들 중 상기 가장 높은 가중치의 청크의 청크ID 에서 상기 새로운 장치의 장치ID를 뺀 값과 동일한 홉 카운트 값을 갖는 홉 컨테이너에 상기 전송된 데이터를 저장하는 단계를 포함할 수 있다.

상기 새로운 장치는, 상기 방법이 수행되는 동안에, 읽기 요청들과 쓰기 요청들을 수신할 수 있다.

분산 데이터 스토리지 시스템은, 복수의 스토리지 장치들을 포함하고, 데이터가 상기 분산 데이터 스토리지 시스템에 저장될 때, 상기 데이터와 관련된 값에 해싱 함수를 적용함으로써 해시 값이 계산되고, 상기 해시 값은 복수의 가중치들로 분할되고, 상기 가중치 각각은 복수의 청크들 중 하나와 대응하고, 상기 복수의 청크들 중 하나의 청크가 선택되고, 상기 데이터는 상기 선택된 청크에 대응되는 스토리지 장치에 저장될 수 있다.

미래의 스토리지 장치를 추가하기 위한 예약된 장소(reserved spot)를 가리키는 복수의 스토리지 장치 개구들을 더 포함하고, 상기 복수의 스토리지 장치들 각각은, 복수의 홉 컨테이너들을 포함하고, 복수의 홉 컨테이너들 각각은 상기 데이터가 이동되기 전에 추가될 필요가 있는 상기 미래 스토리지 장치들의 개수를 가리키는 대응되는 홉 카운트 값을 가지고, 각 청크는 상기 복수의 스토리지 장치들 중 하나 또는 상기 복수의 스토리지 장치 개구들 중 하나와 대응될 수 있다.

상기 청크를 선택할 때, 상기 복수의 청크들 중에서 가장 높은 가중치의 청크가 결정되고, 상기 가장 높은 가중치의 상기 청크가 상기 스토리지 장치들 중 하나 또는 상기 스토리지 장치 개구들 중 하나와 대응되는지 여부를 결정되고, 상기 가장 높은 가중치의 청크가 상기 스토리지 장치들 중 하나와 대응되면, 상기 가장 높은 가중치의 청크가 상기 선택되는 청크로서 선택되고, 상기 가장 높은 가중치의 청크가 상기 스토리지 장치 개구들 중 하나와 대응되면 상기 스토리지 장치들과 대응하는 상기 복수의 청크들 중에서 가장 높은 가중치의 청크가 결정되고, 상기 스토리지 장치들과 대응되는 상기 복수의 청크들 중에서 가장 높은 가중치의 청크가 상기 선택된 청크로서 선택되고, 및 새로운 스토리지 장치가 상기 복수의 스토리지 장치들에 추가되면, 상기 복수의 스토리지 장치들 각각에 대해, 대응하는 홉 카운트 값이 1인 홉 컨테이너들에 위치한 모든 데이터가 상기 새로운 스토리지 장치로 전송될 수 있다.

상기 복수의 스토리지 장치들은 키 벨류 SSD(KV SSD)들을 포함할 수 있다.

본 발명의 이러한 및 다른 특징들 및 태양들은 명세서, 청구 범위 및 첨부 도면을 참조하여 이해될 것이다.
도1은 일 실시 예에 따른 분산 데이터 스토리지 시스템의 블록도이다.
도2는 일 실시 예에 따른 방법의 논리적 관점(logical view)의 블록도이다.
도3은 일 실시 예에 따른 분산 데이터 스토리지 시스템의 세그먼트 테이블(segment table)의 논리적 관점의 블록도이다.
도4는 일 실시 예에 따라, 도3의 분산 데이터 스토리지 시스템에 스토리지 장치를 추가할 때의 세그먼트 테이블의 논리적 관점의 블록도이다.
도5는 일 실시 예에 따른 IO 워크플로우(IO workflow) 방법을 설명한다.
도6은 다른 실시 예에 따른 방법의 논리적 관점의 블록도이다.
도7은 일 실시 예에 따라, 복수의 홉 컨테이너들을 각각 갖는 두 개의 스토리지 장치를 포함하는 분산 환경을 나타낸다.
도8은 일 실시 예에 따라, 분산 환경에 스토리지 장치를 추가하는 방법을 나타낸다.

일 실시 예에 따라, 가중치(weight) 기반 접근법을 사용하여 분산 환경에서 데이터를 관리하는 방법이 개시된다.

첨부된 도면과 관련하여 아래에서 설명되는 상세한 설명은 본 발명의 예시적인 실시 예에 대한 설명으로서 의도되며, 본 발명이 구성되거나 이용될 수 있는 유일한 형태를 의미하는 것은 아니다. 상세한 설명은 예시된 실시 예와 관련하여 본 발명의 특징을 설명한다. 그러나, 본 발명의 사상 및 범위 내에 포함되도록 의도된 다른 실시 예들에 의해 동일하거나 균등한 기능 및 구조가 달성될 수 있음을 이해하여야 한다. 명세서의 다른 부분에서 언급되는 바와 같이, 동일한 요소 번호는 동일한 요소 또는 특징을 나타내기 위한 것이다.

본 발명의 실시 예는 디스크들의 그룹 상의 데이터를 관리하는 새로운 메커니즘을 제공할 수 있다. 해싱 및 가중치를 사용하는 접근법을 사용하여 시스템의 모든 드라이브(또는, 스토리지 장치)에 데이터를 분산시킬 수 있다. 새로운 드라이브는 메타데이터 구조가 업데이트 된 직후 풀(pool)의 일부가 될 수 있다. 새로운 디스크가 시스템에 추가되거나 시스템에서 제거될 때, 데이터를 관리하고 데이터 이동을 돕기 위한 힌트(hint)가 디스크들에 제공될 수 있다.

Ceph CRUSH와 같은 스케일 아웃 아키텍처는 CDHT(Consistency Distributed Hash Table)를 사용하여 복수의 노드들의 스토리지를 관리한다. 본 발명의 실시 예는 RAID의 대안으로서 스토리지를 관리하기 위한 접근법을 제공할 수 있다.

또한, 랑데부(rendezvous) 해싱은, 클라이언트 고유의 해시 함수를 사용하여 분산 해싱 문제를 해결할 수 있다. 입력/출력(I/O)은, 최대(예를 들어, 가장 높은) 가중치를 갖는 클라이언트로 다시 전송될 수 있다.

본 발명의 실시 예는, 데이터를 분배하고 씬 프로비저닝(thin provisioning)을 지원하기 위해 SSD 디바이스에서의 하이-스피드 로우-레이턴시(high-speed low-latency) 인터페이스와 결합하여 연산 해싱 기술을 사용하는 방법 및 SSD 상의 물리적 위치(또는 논리 블록 주소(LBA))에 응용프로그램 입력/출력(IO)요청을 매핑하는 메타데이터 관리를 위한 레버리지 키-벨류 SSD를 제공할 수 있다. 본 발명의 실시 예는 디스크를 통해 데이터를 관리하기 위한 해시 및 가중치 기반 메커니즘을 제공할 수 있다.

본 발명의 실시 예에 따르면, 방법은 효율적으로 데이터를 저장하기 위해 디스크에 힌트를 제공할 수 있다. 새로운 디스크가 시스템에 추가되면 힌트를 사용하여 드라이브 간에 데이터를 이동할 수 있다. 구조를 유지하는 데 필요한 메타데이터 사용공간(footprint)은 작으며 메모리에 쉽게 적용될 수 있다.

본 발명의 실시 예는 씬 프로비저닝(thin provisioning)을 수행하는 메커니즘을 제공한다. 데이터는 드라이브 그룹 상에서 관리된다. 백-엔드 스토리지가 블록 스토리지 일 수 있지만, 이 방법은 스토리지를 위한 키-벨류SSD(KV(Key Value) SSD)를 활용할 수도 있다. 데이터는 SSD 그룹에 분산된다. 이 방법은 암호 해시 함수를 사용하여 디스크에 데이터를 분배할 수 있다. 들어오는 IO 요청(예 : 네임 스페이스(namespace)/논리 장치 번호(logical unit number, lun ID) 및 읽기/쓰기 요청의 논리 파일 오프셋)의 매개 변수는 해시 함수에 대한 입력으로 사용될 수 있다. 본 발명의 실시 예에 따른 룩-업은 디스크 상에 유지될 메타 데이터 풋 프린트를 감소시키거나 최소화시킬 수 있고, 따라서 더 나은 성능을 제공할 수 있다.

본 발명의 실시 예에 따르면, 시스템 설정 동안에, 복수의 SSD들이 그룹화되어 하나의 풀(pool)을 생성할 수 있다. 네임 스페이스들/lun들은 풀 내부의 가상 요소들로서 생성된다. 들어오는 IO로부터의 매개 변수는 데이터를 소유한 디스크를 탐색하기 위해 해시될 수 있다. IO는 데이터를 드라이브로부터 페치(fetch)하거나 드라이브로 페치할 수 있다.

본 발명의 실시 예들에 따르면, LUN/네임스페이스 크기 확장, 드라이브 추가 등과 같은 드라이브 특징들은 풀 메타 데이터 연산들로서 취급되고, 드라이브 물리적 네임스페이스 수정을 요구하지 않는다. 즉, 네임 스페이스는 더 이상 드라이브 물리적 네임스페이스에 속박되지 않는다. 들어오는 입출력은 해쉬 될 수 있고 데이터는 일부 또는 모든 드라이브에 분산될 수 있다. 단일 네임 스페이스의 IO들은 일부 또는 모든 드라이브에서 제거될 수 있다. 따라서 단일 네임스페이스로부터의 IOP(초 당 성능/입출력 연산)는, 풀에 있는 모든 드라이브의 IOP들의 합계가 될 수 있다. 풀에 추가되는 새로운 드라이브는 즉시 호스트 IO를 가질 수 있으므로 시스템의 IOP에 기여할 수 있다.

본 발명의 실시 예에 따르면, 데이터 관리를 위해, 풀은 다수의 세그먼트들로 분할된다. 세그먼트는 풀의 최대 파티션 개수로 시각화될 수 있다. 어느 시점에서든 드라이브는 풀의 하나 이상의 세그먼트들의 소유자이며 해당 세그먼트와 관련된 모든 데이터를 보유할 수 있다.

도 1은 일 실시 예에 따른 분산 데이터 스토리지 시스템의 블록도이다.

분산 데이터 스토리지 시스템(100)은 복수의 스토리지 장치들(190)(예를 들어, 스토리지 장치 i(190), i는 정수)와 복수의 스토리지 장치 개구(opening)들(195)(예를 들어, 스토리지 장치 개구 X-i, X는 정수)를 포함할 수 있다. 복수의 스토리지 장치 개구들(195) 각각은 미래의 스토리지 장치(190)를 추가하기 위한 예약된 공간(reserved spot)을 가리킬 수 있다. 복수의 스토리지 장치들(190)은 KV SSD 들일 수 있지만, 본 발명은 이에 한정되지 않고 임의의 적절한 스토리지 장치가 사용될 수 있다. 스토리지 장치들(190)의 총 개수와 스토리지 장치 개구들 (195)의 총 개수의 합은 X 일 수 있다. 도 2에서, X는 1024로 도시되지만, 본 발명은 이에 제한되지 않는다.

도 2는 일 실시 예에 따른 방법의 논리적 관점(logical view)의 블록도이다. 도 2를 참조하면, IO 요청(120)은 분산 데이터 스토리지 시스템(100)(또는, 분산 환경(100))에 의해 수신될 수 있다.

분산 데이터 스토리지 시스템(100)은 해시 값(160)을 계산하기 위해 해시 함수(140)(또는, 해싱 함수(140)) 또는 다중 해시 함수(140)(또는, 다중 해싱 함수(140))를 데이터와 관련된 값에 적용할 수 있다. 해싱될 수 있는 데이터와 관련된 값은 다음 중 하나일 수 있다 : 논리 블록 주소; 네임 스페이스/lun ID; 읽기/쓰기 요청의 논리 파일 오프셋; 이들의 조합; 및/또는 기타. 해시 함수(140)는 스토리지 장치들(190)간에 데이터를 균일하게 분배하기 위해 사용된다. 일 실시 예에서, 암호화 해시 함수는 모든 드라이브에 데이터를 랜덤으로 분배하기 위해 사용될 수 있다.

해시 값(160)은 가중치들(170)(예를 들어, 가중치 0 내지 가중치 1023, X = 1,024)이라고 불리는 X 개의 동일한 길이 값으로 분해될 수 있다. 각각의 가중치(170)는 Y 비트 길이이며, 여기서 Y는 정수이다. Y는 해시 값(160)의 길이(비트 단위)를 X로 나눈 값과 동일하다.

X개의 가중치들(170) 각각은 하나의 청크(chunk, 180)(또는 세그먼트(180))와 관련된다. 각각의 청크(180)는 복수의 스토리지 장치들(190) 또는 복수의 스토리지 장치 개구들(195) 중 적어도 하나와 대응할 수 있다. 분할된 해시 값(160)(즉, X개의 가중치들(170) 각각)의 각 부분은 자신의 수치 값을 가질 수 있다. 따라서, 데이터가 해시될 때마다, 청크(180) 각각은 각 청크와 관련된 수치 값을 획득할 수 있다. 이러한 수치 값은 특정 해시 연산 및 IO에 대한 청크의 "가중치(weight)"라고 할 수 있다. 본 발명의 일부 실시 예에 따르면, 존재하는 청크들(180) 과 동일한 개수의 가중치들(170)이 존재할 수 있다(예를 들어, 1,024 개의 청크(180)들이 존재할 때 1,024 개의 가중치 170)들이 존재할 수 있다).

분산 데이터 스토리지 시스템(100)은 세그먼트 식별자(ID)와 디스크 소유자 사이의 매핑 테이블인 세그먼트 테이블(segment table)을 더 포함할 수 있다. 세그먼트 테이블은 IO를 전송하기 위해 참조될 수 있다. 매핑 테이블은 일반적으로 해시로 구현될 수 있다. 엘리먼트(element)들의 개수와 해시 크기가 작아서 메모리에 적합하다. 각 해시 버킷(bucket)은 일반적으로 데이터가 모든 드라이브들에 균등하게 분배되도록 확실히 하기 위해 하나의 엘리먼트를 가질 수 있다.

본 발명의 일 실시 예에 따르면, 데이터가 저장되는 위치(또는 데이터가 저장되어야 하는 곳)을 판별하기 위해, 복수의 청크들(180) 중에서 가장 높은 가중치의 청크(180)가 선택될 수 있다. 다른 실시 예에 따르면, 가장 낮은 가중치의 청크(180)가 선택될 수 있으며, 또는 청크(180)를 선택하기 위해 가중치 기반의 다른 기준이 사용될 수 있다. 데이터는 선택된 청크(180)에 대응하는(또는 매핑되는) 스토리지 장치(190)에 저장될 수 있다. 일부 실시 예에 따르면, 청크(180)들의 전체 개수는 스토리지 장치(190)의 총 개수와 스토리지 장치 개구(195)의 총 개수의 합과 동일할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 분산 데이터 스토리지 시스템에서 세그먼트 테이블의 논리적 관점의 블록도이다.

도 3의 실시 예에서, 청크들(180) 각각은 스토리지 장치들(190) 중 하나와 관련된다. 도 3에서는 두 개의 스토리지 장치(190)(즉, 스토리지 장치0 및 스토리지 장치1)와 1,024 개의 청크(180)들이 예시되어 있으나, 이에 제한되지 않는다. 두 개의 스토리지 장치들(190) 및 1,024 개의 청크(180)들이 존재하는 경우, 분산 데이터 스토리지 시스템(100)에는 1,022(1,024-2 = 1,022)개의 스토리지 장치 개구들(195)이 존재할 것이다.

도 3은 청크들(180)을 스토리지 장치들(190)에 매핑하는 실시 예를 도시한다. 도 3의 실시 예에 따르면, 청크들(180)은 복수의 스토리지 장치들(190)에 균일하게 분배된다. 예를 들어, 분산 데이터 스토리지 시스템(100)이 두 개의 스토리지 장치들(190)을 포함하는 경우, 짝수 청크(180)가 제 1 스토리지 장치(190)(즉, 스토리지 장치 0)에 저장되고, 홀수 청크(180)가 제2스토리지 장치(190)(즉, 스토리지 장치1)에 저장되도록 청크들이 분배될 수 있다.

한편, 도3은 각각의 청크(180)가 스토리지 장치들(190) 중 하나(단 하나)에 할당된 것을 도시하지만, 본 발명은 이에 제한되지 않고 단일 청크(180)가 스토리지 장치들(190)간에 분할될 수 있다.

세그먼트 테이블은 청크와 장치 사이의 연결을 나타낸다. 세그먼트 테이블의 항목과 장치 사이에 일대일 매핑 관계를 나타낼 수 있다. 도 3은 분산 시스템에서의 두 개의 스토리지 장치들을 갖는 세그먼트 테이블을 도시한다. 도 3의 실시 예에서, 청크 0은 스토리지 장치 0에 의해 소유되고, 청크 1은 스토리지 장치 1에 의해 소유된다고 말할 수 있다.

도 3의 세그먼트 테이블은, 1024 개의 항목들을 가지므로, 시스템은 잠재적으로 시스템내에 1024 개의 스토리지 장치(190)들을 가질 수 있지만, 본 발명은 이에 제한되지 않는다.

도4는 도 3의 분산 데이터 스토리지 장치에 스토리지 장치를 추가할 때의 세그먼트 테이블의 논리적 관점의 블록도이다.

도4를 참조하면, 새로운 스토리지 장치들(190)(예를 들어, 스토리지 장치2 및 스토리지 장치3)이 분산 데이터 스토리지 시스템(100)에 추가될 때, 데이터는 기존 스토리지 장치들로부터 새로운 스토리지 장치들로 이동될 수 있다.

도 4에 도시된 바와 같이, 스토리지 장치2 및 스토리지 장치3가 분산 데이터 스토리지 시스템(100)에 추가될 때, 이들은 각각 청크 2 및 청크 3에 할당될 수 있다. 또한, (이전에 스토리지 장치 0에 저장되었던) 청크 2의 데이터는 스토리지 장치2로 이동되고 (이전에 스토리지 장치 1에 저장되었던) 청크 3의 데이터는 스토리지 장치 3으로 이동될 수 있다. 시스템에 새로운 스토리지 장치가 추가되는 경우, 새로운 스토리지 장치가 다음 청크의 소유권을 갖는다고 말할 수 있다.

데이터는 스토리지 장치(190) 내의 컨테이너(container)들에 저장될 수 있다. 스토리지 장치가 추가될 때 이동하는 모든 데이터는 동일한 컨테이너 내에있다. 또한 해당 컨테이너 내의 모든 데이터가 이동될 수 있다. 스토리지 장치(190)가 KV SSD 인 경우, 상술한 컨테이너들은 KV SSD 컨테이너들일 수 있다.

예를 들어, 청크 2의 데이터가 스토리지 장치 0에 먼저 저장되면, 청크 2 의 데이터는 청크 2와 관련된 컨테이너에 저장된다(예 : 컨테이너에 청크2와 관련되어 있음을 나타내는 레이블 또는 이름이 주어짐). 이러한 방식으로, 스토리지 장치2가 추가될 때, 스토리지 장치 0의 데이터는 재평가될 필요가 없다. 왜냐하면 청크 2 컨테이너 내의 모든 데이터가 스토리지 장치 2에 속하고 스토리지 장치 2로 이동되기 때문이다.

또한, 새로운 스토리지 장치들(190)이 추가될 때, 다른 청크들(180)이 새로운 스토리지 장치들(190)에 할당될 수 있다. 예를 들어, 분산 데이터 스토리지 시스템(100)이 두 개의 스토리지 장치들(190)만을 포함하고 1,024 개의 청크(180)들이 존재하는 경우, 각각의 스토리지 장치(190)는 512 개의 청크(180)와 관련된 데이터를 저장할 수 있다. 또한, 두 개의 새로운 스토리지 장치들(190)이 추가되면, 복수의 청크들(180)과 관련된 데이터는 새로운 스토리지 장치들(190) 각각으로 이동 되어, 네 개의 스토리지 장치들(190) 각각은 256개의 청크들(180)과 관련된 데이터를 저장할 수 있다.

이러한 방식으로, 데이터는 이미 각각의 청크(180)와 관련되어 있기 때문에 데이터를 다시 해시할 필요 없이 데이터가 여전히 고르게 분배될 수 있고 청크가 새로운 드라이브로 재할당될 때 청크와 관련된 모든 데이터가 이동될 수 있다.

본 발명의 일 실시 예에 따르면, 새로운 스토리지 장치가 시스템에 추가될 때, 시스템은 모든 스토리지 장치들에 걸쳐 데이터를 동적으로 로드 밸런싱(load balancing)할 수 있다. 세그먼트 테이블은 스토리지 장치들 사이에 데이터를 분배하기 위해 사용될 수 있다. 새로운 드라이브가 세그먼트 테이블에서 해시 버킷의 소유권을 가지면, 새로운 디스크 정보가 있는 엘리먼트가 리스트의 헤드에 추가될 수 있다. 업데이트 된 세그먼트 테이블은 시스템의 디스크들에 배포될 수 있다. 도8 및 관련된 설명도 참조하라. 들어오는 입출력은 데이터의 위치를 찾을 때까지 순서대로 세그먼트 테이블의 버킷 리스트 사이를 이동할 수 있다. 세그먼트 테이블이 업데이트되면, 새로운 IO가 즉시 새로운 스토리지 장치들에 기록될 수 있으므로, 새로운 스토리지 장치는 시스템의 IOP에 기여할 수 있다.

데이터를 이동하기 위해 로드-밸런싱 스레드가 백그라운드에서 실행될 수 있다. 데이터가 완전히 이동되면 새로운 디스크는 세그먼트 테이블에서 버킷의 소유권을 가질 수 있다.

예를 들어 두 개의 스토리지 장치에 분산되어 있는 1,024개의 세그먼트들로 구성된 시스템을 고려해보자. 시스템에 두 개의 스토리지 장치들(예 : 드라이브 또는 디스크)이 추가되는 것을 고려해보라. 시스템의 로드-팩터는 512(1,024 세그먼트들/2 스토리지 장치들)이다. 두 개의 스토리지 장치들이 추가되면, 로드-팩터는 256(1,024 세그먼트들/4 스토리지 장치들)이 된다. 새로운 스토리지 장치들, 스토리지 장치2, 및 스토리지 장치3는 복수의 세그먼트들 각각에 256 개의 세그먼트들의 소유권을 가질 수 있다.

도5는 본 발명의 일 실시 예에 따른 IO 워크플로우를 도시한다.

도5는 IO를 수신할 때 시스템의 워크 플로우를 도시한다. 도 5의 방법에 따르면, 읽기/쓰기의 IO들은 클라이언트로부터 수신되고(200), 해싱되고 (각각이 가중치를 갖는)세그먼트들로 분할된다(210). 파라미터 네임 스페이스 ID, LUN ID, 및 정렬된 오프셋은 해시에 대한 입력 인수(Argument)로 사용될 수 있다.

각 세그먼트와 관련된 가중치를 비교함으로써, 최대(또는 가장 높은) 가중치가 있는 세그먼트가 결정될 수 있다(220). 세그먼트 테이블은 최대 가중치를 갖는 세그먼트와 관련된 스토리지 장치를 찾기 위해 참조될 수 있다(230). 일부 실시 예에 따르면, 데이터의 단일한 복사본만 저장되는 경우, 가장 높은 가중치의 세그먼트만이 사용되지만, 복제 복사본이 저장되는 경우, 가장 높은 가중치의 다수의 세그먼트들이 사용될 수 있으며, 그 개수는 저장되는 복제 복사본들의 개수와 동일할 수 있다. 예를 들어, 데이터의 세 개의 복제 복사본들이 저장되는 경우, 가장 높은 가중치를 갖는 세 개의 세그먼트들이 사용될 수 있다.

IO는 가장 높은 세그먼트 가중치와 관련된 디스크로 전달(240)되고, 디스크는 IO를 수행할 수 있다(250). N개의 가장 높은 가중치의 세그먼트와 관련된 N 개의 스토리지 장치들로 IO를 전달함으로써, 이러한 방식으로, 여러(N)개의 데이터 복사본이 저장될 수 있다.

본 발명의 실시 예는, 키 값(KV) 저장 또는 블록 저장 중 하나를 사용하여 유지되어야 하는 스토리지 장치에 데이터를 제공할 수 있다. 데이터의 저장을 위해 KV저장이 사용되는 경우, 키는 IO 요청 및 매개 변수 네임 스페이스/lun ID에서 생성되어 lun으로 오프셋될 수 있다. 네임 스페이스/ lun ID는 풀에서 고유한 쌍(pair)을 형성하므로 풀의 키로 사용할 수 있다. 데이터의 입력 블록은 키와 관련된 값이다.

키 및 KV SSD로 전달되는 키와 관련된 값 외에도, 추가적인 매개 변수 "세그먼트 ID"(또는, 청크 ID)가 드라이브에 힌트로서 전달될 수 있다. KV SSD는 힌트를 사용하여 동일한 컨테이너에 키들을 서로 그룹화할 수 있다. 키의 그룹화는, 드라이브들 사이에서 데이터의 로드 밸런싱을 수행할 때에 사용될 수 있다.

또한, "세그먼트 ID" 파라미터는 각각의 IO와 관련될 수 있고 데이터를 그룹화하고 데이터 이동을 제어하기 위해 사용될 수 있다. 본 개시의 일부 KV SSD 실시 예에서, 동일한 세그먼트 ID를 갖는 데이터는 하나의KV 저장 컨테이너에 저장될 수 있다. KV SSD는 그러한 여러 개의 컨테이너를 수용할 수 있다. 각 컨테이너는 관련된 홉 카운트 값(hop count value)을 가질 수도 있다. 각 컨테이너의 홉 카운트 값은 해당 컨테이너가 이동되기 전에 시스템에 추가되어야 하는 스토리지 장치들(또는, 청크들)의 개수를 나타낼 수 있다.

예를 들어, KV SSD 0, 1 및 2가 이미 포함된 풀에 KV SSD 3가 추가될 수 있다. 이러한 경우, KV SSD 0, 1 및 2가 홉 카운트 값이 1인 것과 관련된 컨테이너들을 위해 검사될 수 있다(이는 하나의 디스크가 추가되면, 해당 데이터 컨테이너가 이동됨을 가리킨다). 따라서, 홉 카운트 값이 1 인 컨테이너는 새로운 KV SSD로 이동된다. 이전 KV SSD (0, 1, 2) 상의 다른 모든 컨테이너들의 홉 카운트 값은 하나의 값만큼 감소할 수 있다.

도6은 본 발명의 다른 실시 예에 따른 방법의 논리적 관점의 블록도이다. 도 6은 예시적인 가중치들이 추가되었다는 점을 제외하고 도 2와 유사하다. 동일하거나 유사한 특징들의 설명은 생략될 수 있다.

도 6을 참조하면, IO 요청(320)는 분산 데이터 스토리지 시스템(또는 분산 환경)에 의해 수신된다. 분산 데이터 스토리지 시스템은 해시 값(360)을 계산하기 위해, 데이터와 관련된 값에 해시 함수(340)(또는, 해싱 함수(340)) 또는 다중 해시 함수(340)(또는, 다중 해싱 함수(340))를 적용할 수 있다. 데이터와 관련된 값은 다음 중 하나일 수 있다 : 논리 블록 주소; 네임 스페이스/lun ID; 읽기/쓰기 요청의 논리 파일 오프셋; 이들의 조합; 및/또는 기타 등. 해시 함수(340)는 데이터를 균등하게 분배하는 데 사용될 수 있다. 또한, 모든 드라이브에 데이터를 랜덤하게 분배하기 위해 암호화 해시 함수가 사용될 수 있다.

해시 값(360)은 가중치들(370)로 불리는 X 개의 동일한 길이 값들로 분해될 수 있다. 각각의 가중치(370)는 Y 비트 길이이고, 여기서 Y는 정수이다. Y는 해시 값의 길이(비트 단위)를 X로 나눈 값과 동일하다.

가중치들(370) 각각은 청크(380)(또는 세그먼트(380))와 관련된다. 각각의 청크(380)는 복수의 스토리지 장치들 또는 복수의 스토리지 장치 개구들 중 적어도 하나에 대응될 수 있다. 분할된 해시 값(360)(즉, 각 가중치 (370))의 각 부분은 자신의 수치 값을 가질 수 있다. 따라서, 데이터가 해시될 때마다 청크 각각은 각 청크와 관련된 수치 값을 획득할 수 있다. 이러한 수치 값은 특정 해시 연산 및 IO에 대한 청크의 "가중치(weight)"라고 할 수 있다. 본 발명의 일부 실시 예에 따르면, 청크(380)가 존재하는 것과 동일한 개수의 가중치(370)들이 존재할 수 있다(예를 들어 1,024 개의 청크(380)들이 존재할 때 1,024 개의 가중치(370)들이 존재할 수 있다).

본 발명의 일 실시 예에 따르면, 데이터가 저장되는 위치(또는 데이터가 저장되어야 하는 곳)를 결정하기 위해, 복수의 청크들(380) 중에서 가장 높은 가중치의 청크(380)가 선택될 수 있다.(예를 들어, 청크 3은 110의 가중치를 갖는다) 다른 실시 예에 따르면, 가장 낮은 가중치의 청크가 선택될 수 있다. 또는, 다른 기준에 기초하여 청크(380)가 선택될 수 있다. 데이터는 선택된 청크(380)에 대응되는(또는, 맵핑되는) 스토리지 장치에 저장될 수 있다.

본 발명의 일 실시 예에 따르면, 데이터를 저장하는 단계는, 복수의 청크들 중에서 가장 높은 가중치의 청크를 결정하는 단계; 가장 높은 가중치의 청크가 스토리지 장치들 중 하나에 대응하는지 스토리지 장치 개구들 중 하나에 대응하는지를 판별하는 단계; 가장 높은 가중치의 청크가 스토리지 장치들 중 하나에 대응하는 경우, 가장 높은 가중치 청크와 관련된 스토리지 장치에 데이터를 저장하는 단계; 가장 높은 가중치의 청크가 스토리지 장치 개구들 중 하나에 대응하는 경우, 스토리지 장치들에 대응하는 복수의 청크들 중에서 가장 높은 가중치를 갖는 청크를 결정하는 단계; 및 스토리지 장치들에 대응하는 복수의 청크들 중 가장 높은 가중치의 청크와 관련된 상기 스토리지 장치에 데이터를 저장하는 단계를 포함할 수 있다.

예로서, 도 6의 세 개의 스토리지 장치들을 포함하는 분산 환경을 가정한다. 데이터가 해시될 때, 가중치들은 도6에 도시된 바와 같이 결정된다. 가장 높은 가중치를 갖는 청크는 가중치가 110 인 청크 3으로 결정된다.

일부 실시 예에 따르면, 단지 세 개의 스토리지 장치들만이 존재하기 때문에, 처음 세 개의 청크(청크 0 내지 청크 2)만이 스토리지 장치와 관련되고, 청크3은 스토리지 장치 개구와 관련될 것이다. 이와 같이, 청크 2는 스토리지 장치와 관련된 가장 높은 가중치의 청크로 결정될 수 있다. 따라서, 청크 3은 스토리지 장치와 관련되지 않기 때문에, 데이터는 청크 2와 관련된 스토리지 장치에 저장될 수 있다. 추가될 다음 스토리지 장치는 스토리지 장치 3이 될 것이기 때문에, 데이터는 관련된 홉 카운트(hop count)가 1 인 컨테이너에 저장될 수 있다.

본 발명의 일 실시 예에 따르면, 스토리지 장치들 각각 및 스토리지 장치 개구들 각각에는 스토리지 장치들이 분산 환경에 추가된 순서 또는 미래의 스토리지 장치들이 분산 환경의 스토리지 장치 개구에 추가될 순서를 나타내는 장치 ID가 할당될 수 있다. 청크들 각각은, 복수의 스토리지 장치들 중 청크와 대응하는 하나 또는 복수의 스토리지 장치 개구들 중 청크와 대응하는 하나의 장치 ID 와 동일한 청크 ID를 가질 수 있다. 각각의 스토리지 장치는 하나 이상의 홉 컨테이너(hop container)들을 포함할 수 있으며, 홉 컨테이너들 각각은 데이터가 다른 스토리지 장치로 이동되어야 하는지 또는 언제 이동되어야 하는지를 나타내는 홉 카운트 값을 가질 수 있다.

가장 높은 가중치의 청크가 스토리지 장치들 중 하나에 대응하는 경우, 데이터는 해당 스토리지 장치에서 대응하는 홉 카운트 값이 0 인 홉 컨테이너에 저장된다. 홉 카운트 값이 0이면, 시스템에 더 많은 스토리지 장치들이 추가될 때 데이터가 이동될 필요가 없음을 나타낸다.

가장 높은 가중치의 청크가, 스토리지 장치들 중 하나보다는, 스토리지 장치 개구들 중 하나에 대응하는 경우, 데이터는 상술한 바와 같이 스토리지 장치들 중 하나의 스토리지 장치의 홉 컨테이너에 저장될 수 있다. 홉 컨테이너의 대응하는 홉 카운트 값은, 가장 높은 가중치의 청크의 청크 ID에서 임의의 스토리지 장치들에 할당된 가장 높은 장치 ID를 뺀 값과 동일하다. 이러한 방식으로 홉 카운트 값은 데이터가 이동하기 전에 시스템에 추가되어야 할 스토리지 장치들의 개수를 나타낸다.

예를 들어, 시스템이 세 개의 스토리지 장치(0, 1 및 2)들을 포함하고 두 개의 스토리지 장치(3 및 4)가 추가되면, 스토리지 장치들 (0, 1, 및 2) 각각으로부터의 관련된 홉 카운트 1을 갖는 홉 컨테이너의 데이터는 스토리지 장치3으로 이동하고, 스토리지 장치들 (0, 1, 및 2) 각각으로부터의 관련된 홉 카운트 2를 갖는 홉 컨테이너의 데이터는 스토리지 장치4로 이동될 수 있다.

홉 카운트 값은 데이터가 새로운 스토리지 장치로 이동하기 전에 시스템에 추가되어야 하는 스토리지 장치의 개수를 나타내는 숫자이다. 다시 말해서, 홉 카운트 값은, 가장 높은 가중치의 청크와 관련된 스토리지 장치 개구의 장치 ID로부터 가장 최근에 추가된 스토리지 장치 의 장치 ID (또는, 가장 높은 장치 ID 를 갖는 스토리지 장치의 장치 ID) 를 뺌으로써 결정될 수 있다. (즉, 홉 카운트 = 가장 높은 가중치의 청크와 관련된 스토리지 장치 개구의 장치 ID - 가장 높은 장치 ID를 갖는 스토리지 장치의 장치 ID).

예를 들어, 분산 환경이 청크 0 내지 청크 2와 관련된 세 개의 스토리지 장치들을 포함하고, 가중치가 도 6에 도시된 바와 같을 때, 데이터는, 청크3이 스토리지 장치와 관련 없는 경우가 아니라면, 청크 3 에 저장된다 (청크 3은 데이터에 대해 가장 높은 가중치(즉 110)를 가지기 때문에). 청크들은 스토리지 장치들에 순서대로 할당되며, 시스템에 추가된 다음 스토리지 장치는 청크 3과 관련될 수 있다. 시스템에 추가될 다음 스토리지 장치는 청크 3과 관련될 것이고 청크 3이 가장 높은 가중치를 갖는 청크이므로, 데이터는 스토리지 장치 하나 추가될 때 이동할 것이고, 따라서 데이터는 홉 카운트 값이 1 인 홉 컨테이너에 저장된다. 즉, 홉 카운트의 값은, 데이터가 이동되기 전에 얼마나 더 많은 스토리지 장치들이 시스템에 추가될 것인지를 나타낼 수 있다.

또한, 본 발명의 실시 예들은 데이터의 여분의 백-업을 제공 할 수 있다. 데이터의 복사본이 분산 환경에 저장될 때, 스토리지 장치들에 대응하는 복수의 청크들 중에서 두 번째로 가중치가 큰 청크가 결정될 수 있다. 그 다음, 데이터의 복사본은 제 2의 대응하는 스토리지 장치에 저장되고, 제 2의 대응하는 스토리지 장치는 두 번째로 높은 가중치의 청크에 대응할 수 있다.

두 번째로 높은 가중치의 청크가 스토리지 장치 개구와 관련될 때, 데이터의 복사본은 제 2의 대응하는 스토리지 장치 내의 홉 컨테이너에 또한 저장될 수 있다. 이러한 경우, 홉 카운트 값은 두 번째로 높은 가중치의 청크와 관련된 스토리지 장치 개구의 장치 ID에서 가장 최근에 추가된 스토리지 장치의 장치 ID (또는, 가장 높은 장치 ID 를 갖는 스토리지 장치의 장치 ID)를 뺀 값과 동일하다.

추가적인 복사본은 동일한 방식으로 저장될 수 있다. 예를 들어, 제 2 복사본 및 제 3 복사본은 세 번째로 높은 및 네 번째로 높은 가중치의 스토리지 장치에 각각 저장 될 수 있으며, 이들은 적절한 홉 컨테이너들에 저장될 수 있다.

또한, 데이터 읽기 요청이 수신될 때, 대응하는 스토리지 장치에 저장된 데이터의 일부 및 제 2 대응 스토리지 장치에 저장된 데이터의 복사본의 다른 부분이 동시에 읽혀질 수 있다. 이러한 방식으로 읽기 대기 시간(latency)이 감소될 수 있다.

도 7은 본 발명의 일 실시 예에 따른 복수의 홉 컨테이너들을 각각 갖는 두 개의 스토리지 장치를 포함하는 분산 환경을 도시한다.

도 7를 참조하면, 제 1 스토리지 장치(400a)(또는, 제1노드(Node0)) 및 제 2스토리지 장치(400b)(또는, 제2노드(Node1))는 각각 복수의 홉 컨테이너들을 포함할 수 있다. 제1스토리지 장치(400a)는 네 개의 홉 컨테이너들(420a, 440a, 460a 및 480a)을 포함할 수 있고, 각각의 홉 컨테이너는 관련된 홉 카운트 값(각각 0, 1, 2 및 10)을 가질 수 있다. 제 2 스토리지 장치(400b)는 4 개의 홉 컨테이너들(420b, 440b, 460b 및 480b)을 포함할 수 있고 각각의 홉 컨테이너는 관련된 홉 카운트 값(각각 0, 2, 20 및 512)을 가질 수 있다. 각 홉 카운트 값은 관련된 홉 컨테이너의 데이터가 이동되기 전에, 분산 환경에 추가될 스토리지 장치의 개수와 대응될 수 있다. 예를 들어, 홉 컨테이너(440a)의 데이터는 분산 환경에 추가될 다음 스토리지 장치로 이동될 것이고, 홉 컨테이너(480b)의 데이터는 분산 환경에 추가될 512번째 스토리지 장치에 이동될 것이다.

스토리지 장치가 분산 환경에 추가되면, 모든 스토리지 장치들 내에서 홉 카운트 값이 1인 홉 컨테이너에 저장된 모든 데이터가 새로운 스토리지 장치로 이동되고 이러한 홉 컨테이너들이 제거될 수 있다. 모든 스토리지 장치들의 홉 컨테이너들 각각에 대한 모든 홉 카운트 값(1보다 큼)이 1씩 감소할 수 있다.

예를 들어, 도7의 분산 환경에 새로운 장치가 추가될 때, 홉 컨테이너 (440a) 내의 모든 데이터는 새로운 디바이스로 이동되고, 홉 컨테이너(440a)는 제거되며, 홉 컨테이너들(460a, 480a, 440b, 460b, 480b)의 홉 카운트 값은 1씩 감소된다. 데이터는 홉 카운트 값을 사용하여 홉 컨테이너에 저장되기 때문에, 새로운 스토리지 장치에 속하게 될 데이터를 판별하기 위해 모든 데이터를 다시 해시 할 필요가 없다.

도 8은 본 발명의 일 실시 예에 따른 분산 환경에 스토리지 장치를 추가하는 방법을 나타낸 도면이다. 도 8에 도시된 바와 같이, 분산 환경(500)은, 이미 분산 환경에 있는 세 개의 스토리지 장치들(예를 들어, KV SSD0(520), KV SSD1(540) 및 KV SSD2(580))및 분산 환경에 추가되는 하나의 새로운 스토리지 장치(KV SSD3(560))를 포함할 수 있다.

이미 분산 환경에 있는 세 개의 스토리지 장치 각각에는 관련된 홉 카운트 값을 가진 홉 컨테이너들이 있다. 새로운 스토리지 장치 KV SSD3가 추가되면, 홉 카운트 값이 1 인 홉 컨테이너의 모든 데이터가 새로운 스토리지 장치 KV SSD3로 이동될 수 있다. 또한 데이터가 이동되면, 새로운 드라이브 KV SSD3의 어느 홉 컨테이너에 데이터를 추가할지 결정하기 위해 다시 해싱될 수 있다. 또한 데이터가 재배치되면, 홉 카운트 값이 1 인 홉 컨테이너가 KV SSD0, KV SSD1 및 KV SSD2에서 제거되고, KV SSD0, KV SSD1 및 KV SSD2내의 홉 카운트 값이 1보다 큰 홉 컨테이너들의 홉 카운트 값은 1씩 감소한다.

데이터의 이동이 완료된 후에, 분산 환경(500')은 4 개의 스토리지 장치(즉, KV SSD0 520', KV SSD1 540', KV SSD2 580' 및 KV SSD 3 560')들을 포함할 수 있으며, 각각은 홉 컨테이너들에 저장된 데이터를 포함할 수 있다.

새로운 드라이브가 추가된 후, 세그먼트 테이블은 상술한 바와 같이 방금 처리한 세그먼트들/청크들을 나타도록 업데이트될 수 있다.

본 발명의 실시 예는 복수의 스토리지 장치를 포함하는 분산 환경에 새로운 스토리지 장치를 추가하는 방법을 제공하며, 스토리지 장치 각각은 하나 이상의 홉 컨테이너를 포함하며, 각 홉 컨테이너는 대응하는 홉 카운트 값을 가진다. 방법은 복수의 스토리지 장치들 각각의 대응하는 홉 카운트 값이 1을 갖는 홉 컨테이너에 위치하는 모든 데이터를 새로운 스토리지 장치로 전송하는 단계를 포함할 수 있다. 방법은 또한 복수의 스토리지 장치들 각각의, 대응하는 홉 카운트 값이 1을 갖는 홉 컨테이너를 제거하고, 0보다 큰 모든 대응하는 홉 카운트 값을 1씩 감소시키는 단계를 포함한다.

방법은 해시 함수를 사용하여 전송된 데이터 모두를 해싱하고, 해싱에 기초하여 새로운 스토리지 장치의 하나 이상의 홉 컨테이너에 전송된 데이터를 저장하는 단계를 더 포함할 수 있다.

전송된 데이터를 저장하는 단계는, 데이터에 해싱 함수를 적용하여 해시 값을 계산하는 단계; 해시 값을 복수의 가중치들로 분할하는 단계, 각각의 가중치는 복수의 하나에 대응하고 각각의 청크는 스토리지 장치들 중 하나 또는 복수의 스토리지 장치 개구들 중 하나에 대응함; 가장 높은 가중치의 청크를 결정하는 단계; 가장 높은 가중치의 청크가 새로운 스토리지 장치에 대응 하는지 또는 스토리지 장치 개구들 중 하나에 대응 하는지를 판별하는 단계; 가장 높은 가중치의 청크가 새로운 스토리지 장치에 대응할 때, 홉 카운트 값이 0 인, 하나 이상의 홉 컨테이너들 중 하나의 홉 컨테이너에 전송된 데이터를 저장하는 단계; 및 가장 높은 가중치의 청크가 스토리지 장치 개구들 중 하나에 대응하는 경우, 하나 이상의 홉 컨테이너들 중 가장 높은 가중치의 청크의 청크 ID로부터 새로운 스토리지 장치의 장치ID를 뺀 것과 동일한 홉 카운트 값을 갖는 하나의 홉 컨테이너에 데이터를 저장하는 단계를 포함할 수 있다.

특정 홉 컨테이너에 대응하는 홉 카운트 값은, 특정 홉 컨테이너 내의 데이터가 새로운 스토리지 장치로 이동하기 전에 얼마나 많은 스토리지 장치들이 분산 환경에 추가되어야 하는지를 나타낼 수 있다. 또한, 새로운 스토리지 장치는 상술한 방법이 수행되는 동안 읽기 요청 및 쓰기 요청을 받아들일 수 있다.

일 실시 예에 따라, 가중치 기반 접근법을 사용하여 분산 환경에서 데이터를 관리하는 방법이 개시될 수 있다.

"제 1", "제 2", "제 3" 등의 용어는 본 명세서에서 다양한 엘리먼트(element), 구성 요소, 영역, 레이어 및/또는 섹션을 설명하기 위해 사용될 수 있지만, 이러한 엘리먼트들, 구성 요소들, 영역들, 레이어들 및/또는 섹션들은 이러한 용어들에 의해 제한되어서는 안된다. 이러한 용어는 하나의 엘리먼트, 구성 요소, 영역, 레이어 또는 섹션을 다른 엘리먼트, 구성 요소, 영역, 레이어 또는 섹션과 구별하기 위해 사용될 수 있다. 따라서, 이하에서 논의되는 제 1 엘리먼트, 구성 요소, 영역, 레이어 또는 섹션은 본 발명의 사상 및 범위를 벗어나지 않고 제 2 엘리먼트, 구성 요소, 영역, 레이어 또는 섹션으로 지칭될 수 있다.

본 명세서에 기술된 본 발명의 실시 예에 따른 관련 장치 또는 구성 요소 (또는 관련 장치들 또는 구성 요소들)는 임의의 적합한 하드웨어(예를 들어, 어플리케이션-특정 집적 회로), 펌웨어(예를 들어, DSP 또는 FPGA), 소프트웨어, 또는 소프트웨어, 펌웨어 및 하드웨어의 적절한 조합을 포함할 수 있다. 예를 들어, 관련 디바이스(들)의 다양한 컴포넌트들은 하나의 집적 회로(IC) 칩 상에 또는 개별 IC 칩 상에 형성될 수 있다. 또한, 관련 장치(들)의 다양한 구성 요소는, 플렉서블 인쇄 회로 필름, 테이프 캐리어 패키지(TCP), 인쇄 회로 기판 (PCB) 상에 구현되거나, 하나 이상의 회로 및/또는 다른 장치들로서 동일한 기판 상에 형성될 수 있다. 또한, 관련 장치(들)의 다양한 구성 요소는 하나 이상의 컴퓨팅 장치에서 하나 이상의 프로세서에서 실행되는 프로세스 또는 스레드일 수 있으며, 컴퓨터 프로그램 명령을 실행하고 본 명세서에 설명된 다양한 기능을 수행하기 위해 다른 시스템 구성 요소와 상호 작용할 수 있다. 컴퓨터 프로그램 명령어는 예를 들어, 랜덤 액세스 메모리(RAM)와 같은 표준 메모리 장치를 사용하는 컴퓨팅 장치에서 구현될 수 있는 메모리에 저장된다. 컴퓨터 프로그램 명령은 또한 예를 들어 CD-ROM, 플래시 드라이브 등과 같은 다른 일시적이지 않은 컴퓨터 판독 가능 매체에 저장될 수 있다. 또한, 당업자는 본 발명의 실시 예들의 사상 및 범위를 벗어나지 않고, 다양한 컴퓨팅 장치의 기능이 단일 컴퓨팅 장치에 결합되거나 통합될 수 있거나, 또는 특정 컴퓨팅 장치의 기능이 하나 이상의 다른 컴퓨팅 장치에 걸쳐 분산될 수 있음을 이해할 것이다.

본 명세서에서 사용되는 용어는 특정한 실시 예를 설명하기 위한 것이며, 본 발명을 한정하기 위한 것은 아니다. 본 명세서에서 사용된 단수 형태는 문맥 상 다르게 지시하지 않는 한 복수 형태를 포함할 수 있다. 본 명세서에서 사용되는 "포함한다", 및 "포함하는"의 용어는 명시된 특징, 정수, 단계, 동작, 엘리먼트, 및/또는 구성 요소를 포함하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 엘리먼트 및/또는 구성 요소의 존재 또는 추가를 배제하지 않는다.

본 명세서에 사용된 바와 같이, "및/또는"이라는 용어는 하나 이상의 관련된 열거 항목의 임의 및 모든 조합을 포함할 수 있다. 엘리먼트의 리스트 앞에서 "적어도 하나", "하나" 및 "다음에서 선택되는"과 같은 표현은 엘리먼트의 전체 리스트를 수정하거나 리스트의 개별적인 엘리먼트를 수정하지 않는다. 또한, 본 발명의 실시 예를 기술할 때 "할 수 있다"의 사용은 "본 발명의 하나 이상의 실시 예들"을 의미할 수 있다.

본 명세서에 사용된 바와 같이, "실질적으로", "약" 및 유사한 용어는 근사의 용어로서 사용되며 정도의 용어로 사용되지 않으며, 당업자들에 의해 자명하게 인식되는 측정 또는 계산된 값의 고유한 편차를 설명하기 위한 것이다.

본 명세서에 사용된 바와 같이, 용어 "사용", "사용하는", 및 "사용된"은 각각 용어 "이용", "이용하는", 및 "이용된"과 동의어로 간주될 수 있다.

본 발명의 하나 이상의 실시 예들과 관련하여 설명된 특징들은 본 발명의 다른 실시 예들의 특징들과 관련하여 이용 가능하다. 예를 들어, 제1실시 예에서 설명된 특징들은, 제3실시 예가 본 명세서에서 구체적으로 설명되지 않을지라도, 제2실시 예에서 설명된 특징들과 결합되어 제3실시 예를 형성할 있다.

당업자는 또한 프로세스가 하드웨어, 펌웨어(예를 들어, ASIC을 통해), 또는 소프트웨어, 펌웨어 및/또는 하드웨어의 임의의 조합을 통해 실행될 수 있음을 인식해야 한다. 또한, 프로세스의 단계들의 순서는 고정되어 있지 않지만, 당업자에 의해 인식되는 임의의 원하는 순서로 변경될 수 있다. 변경된 순서는 모든 단계들 또는 단계들의 일부를 포함 할 수 있다.

본 발명은 특정의 실시 예와 관련하여 설명되었지만, 당업자는 본 발명의 범위 및 사상으로부터 벗어나지 않으면서 어려움 없이 설명된 실시 예의 변형을 고안할 수 있을 것이다. 또한, 다양한 기술 분야의 당업자에게, 본 명세서에 기재된 본 발명 자체는 다른 애플리케이션에 대한 적용 및 다른 작업에 대한 해결책을 제시할 것이다. 본 발명의 모든 이러한 용도 및 본 발명의 사상 및 범위를 벗어나지 않고 본원에서 개시된 본 발명의 실시 예에 대해 행해질 수 있는 변경 및 수정을 청구 범위로 포함하는 것은 출원인의 의도이다. 따라서, 본 발명의 모든 실시 예들은 예시적인 것일 뿐 제한적이지는 않으며, 본 발명의 범위는 첨부된 청구 범위 및 균등물에 의해 나타날 것이다.

Claims

복수의 스토리지 장치들을 포함하는 분산 환경에 데이터를 저장하는 방법에 있어서,
상기 데이터에 대한 저장 요청을 수신하는 단계;
상기 데이터와 관련된 값에 해싱 함수를 적용함으로써 해시 값을 계산하는 단계;
상기 해시 값을 각각의 가중치가 복수의 청크(chunk)들 각각과 대응되는 복수의 가중치들로 분할하는 단계;
상기 복수의 가중치들에 기초하여, 상기 복수의 청크들 중 하나의 청크를 선택하는 단계; 및
상기 선택된 청크에 대응되는 스토리지 장치에 데이터를 저장하는 단계를 포함하는 방법.
제1항에 있어서,
상기 분산 환경은 복수의 스토리지 장치 개구들을 더 포함하고, 상기 스토리지 장치 개구들 각각은 미래의 스토리지 장치를 추가하기 위한 예약된 공간(reserved spot)을 나타내고,
상기 복수의 청크들 각각은 상기 복수의 스토리지 장치들 중 하나 또는 상기 복수의 스토리지 장치 개구들 중 하나와 대응되고,
상기 청크를 선택하는 단계는,
상기 복수의 청크들 중에서 가장 높은 가중치의 청크를 결정하는 단계;
상기 가장 높은 가중치의 청크가 상기 스토리지 장치들 중 하나 와 대응되는지 상기 스토리지 장치 개구들 중 하나와 대응되는지 를 판별하는 단계;
상기 가장 높은 가중치의 청크가 상기 스토리지 장치들 중 하나와 대응되면, 상기 가장 높은 가중치의 상기 청크를 선택하는 단계; 및
상기 가장 높은 가중치의 청크가 상기 스토리지 장치 개구들 중 하나와 대응되면,
상기 스토리지 장치들과 대응하는 상기 복수의 청크들 중에서 가장 높은 가중치의 청크를 결정하는 단계; 및
상기 스토리지 장치들과 대응되는 상기 복수의 청크들 중에서 가장 높은 가중치의 청크를 선택하는 단계를 포함하는 방법.
제2항에 있어서,
상기 스토리지 장치들 각각과 상기 스토리지 장치 개구들 각각에게 장치 ID가 할당되고, 상기 장치 ID 는 상기 스토리지 장치들이 상기 분산 환경에 추가된 순서 또는 미래의 스토리지 장치들이 상기 분산 환경의 상기 스토리지 장치 개구들을 채울 순서를 나타내고,
상기 청크들 각각은, 상기 복수의 스토리지 장치들 중 상기 청크와 대응하는 하나 또는 상기 복수의 스토리지 장치 개구들 중 상기 청크와 대응하는 하나의 상기 장치 ID와 동일한 청크 ID 를 포함하고,
상기 가장 높은 가중치의 청크가 상기 스토리지 장치들 중 하나와 대응될 때, 상기 데이터는 상기 대응되는 스토리지 장치 안에서 대응하는 홉 카운트 값이 0인 홉 컨테이너에 저장되고, 및
상기 가장 높은 가중치의 청크가 상기 스토리지 장치 개구들 중 하나와 대응될 때, 상기 데이터는 상기 대응되는 스토리지 장치 안의 홉 컨테이너에 저장되고, 상기 홉 컨테이너는, 상기 가장 높은 가중치의 청크의 상기 청크 ID 에서 상기 스토리지 장치들에 할당된 장치ID 들 중에서 가장 높은 장치 ID 를 뺀 값과 동일한 홉 카운트 값을 가지는 방법.
제3항에 있어서,
특정 홉 컨테이너에 대응되는 홉 카운트 값은 상기 특정 홉 컨테이너의 상기 데이터가 새로운 스토리지 장치로 이동되기 전에 얼마나 더 많은 스토리지 장치들이 상기 분산 환경에 추가되어야 할지를 나타내는 방법.
제3항에 있어서,
상기 스토리지 장치들과 대응하는 상기 복수의 청크들 중에서 두 번째로 높은 가중치의 청크를 결정하는 단계; 및
상기 데이터의 복사본을 상기 두 번째로 높은 가중치의 청크와 대응하는 제2대응 스토리지 장치에 저장하는 단계를 더 포함하고,
상기 분산 환경에서, 데이터 읽기 요청이 수신되면, 상기 대응되는 스토리지 장치에 저장된 상기 데이터의 일부 및 상기 제2대응 스토리지 장치 내에 저장된 상기 데이터의 상기 복사본의 다른 부분이 동시에 읽혀지는 방법.
제3항에 있어서,
상기 복수의 스토리지 장치들은 키 벨류 SSD(KV SSD)들이고,
상기 홉 컨테이너들은 KV SSD컨테이너들이고, 및
상기 KV SSD 들 각각에서, 동일한 청크 ID 와 관련된 데이터는 동일한 KV SSD 컨테이너에 저장되는 방법.
제1항에 있어서,
상기 해시 값을 복수의 가중치들로 분할하는 단계는,
상기 해시 값을 X개의 동일한 길이 값들로 분할하는 단계를 포함하고,
상기 X 는 청크들의 전체 개수와 동일하고, 상기 동일한 길이 값들 각각은 Y 비트 길이이고, 상기 Y 는 상기 X개로 분할한 상기 해시 값의 상기 길이 값과 비트 단위로 동일하고, 상기 X 와 상기 Y는 정수들이고, 및 상기 청크들의 전체 개수는 상기 스토리지 장치들의 전체 개수와 상기 스토리지 장치 개구들의 전체 개수를 합한 개수와 동일한 방법.
제1항에 있어서,
상기 복수의 스토리지 장치들은 키 벨류 SSD(KV SSD)들인 방법.
제1항에 있어서,
상기 데이터와 관련된 상기 값은, 상기 데이터의 논리 블록 어드레스(logical block address) 및 상기 데이터의 논리 유닛 개수(logical unit number) 중 하나인 방법.
복수의 스토리지 장치들을 포함하는 분산 환경에 새로운 스토리지 장치를 추가하는 방법에 있어서, 상기 복수의 스토리지 장치들 각각은 하나 이상의 홉 컨테이너들을 포함하고, 각 홉 컨테이너는 대응하는 홉 카운트 값을 포함하고,
상기 방법은,
상기 복수의 스토리지 장치들 각각의, 대응하는 홉 카운트 값이 1인 홉 컨테이너들에 위치한 모든 데이터를 상기 새로운 스토리지 장치로 전송하는 단계를 포함하는 방법.