KR102449125B1 - GPU server cooling management system - Google Patents
GPU server cooling management system Download PDFInfo
- Publication number
- KR102449125B1 KR102449125B1 KR1020220043364A KR20220043364A KR102449125B1 KR 102449125 B1 KR102449125 B1 KR 102449125B1 KR 1020220043364 A KR1020220043364 A KR 1020220043364A KR 20220043364 A KR20220043364 A KR 20220043364A KR 102449125 B1 KR102449125 B1 KR 102449125B1
- Authority
- KR
- South Korea
- Prior art keywords
- server
- cooling
- gpu
- backup
- pump
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001816 cooling Methods 0.000 title claims abstract description 67
- 239000000498 cooling water Substances 0.000 claims abstract description 21
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 13
- 230000020169 heat generation Effects 0.000 claims abstract description 12
- 239000002826 coolant Substances 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000000926 separation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007596 consolidation process Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05K—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
- H05K7/00—Constructional details common to different types of electric apparatus
- H05K7/20—Modifications to facilitate cooling, ventilating, or heating
- H05K7/20709—Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
- H05K7/20763—Liquid cooling without phase change
- H05K7/20781—Liquid cooling without phase change within cabinets for removing heat from server blades
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05K—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
- H05K7/00—Constructional details common to different types of electric apparatus
- H05K7/20—Modifications to facilitate cooling, ventilating, or heating
- H05K7/20009—Modifications to facilitate cooling, ventilating, or heating using a gaseous coolant in electronic enclosures
- H05K7/20136—Forced ventilation, e.g. by fans
- H05K7/20172—Fan mounting or fan specifications
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05K—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
- H05K7/00—Constructional details common to different types of electric apparatus
- H05K7/20—Modifications to facilitate cooling, ventilating, or heating
- H05K7/20218—Modifications to facilitate cooling, ventilating, or heating using a liquid coolant without phase change in electronic enclosures
- H05K7/20272—Accessories for moving fluid, for expanding fluid, for connecting fluid conduits, for distributing fluid, for removing gas or for preventing leakage, e.g. pumps, tanks or manifolds
Landscapes
- Engineering & Computer Science (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Physics & Mathematics (AREA)
- Thermal Sciences (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Hardware Redundancy (AREA)
- Safety Devices In Control Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
본발명은 GPU 서버 냉각관리 시스템에 관한 것으로, GPU 서버의 발열을 방지하기 위한 수냉식 냉각 시스템으로서, 냉각 라지에이터, 냉각수 탱크, 펌프로 구성되는 것을 특징으로 한다.
또한, 상기 GPU 서버 냉각 시스템은 워터 블럭이 GPU 및 VRAM 칩에서 발생한 열을 냉각수에 전달하고 데워진 냉각수는 냉각수 펌프에 의해 라디에이터로 이동하여 식혀지게 되는 것으로,
그러므로 본발명의 GPU 서버 냉각 시스템은 구조가 간단하며, 냉각효율이 높아져 GPU서버의 발열을 줄여주는 기능을 하며, 기존 서버인 CPU 냉각 시스템으로도 활용이 가능한 현저한 효과가 있다.The present invention relates to a GPU server cooling management system, which is a water-cooled cooling system for preventing heat generation of a GPU server, and is characterized by comprising a cooling radiator, a cooling water tank, and a pump.
In addition, in the GPU server cooling system, the water block transfers heat generated from the GPU and VRAM chip to the cooling water, and the warmed cooling water is cooled by moving to the radiator by the cooling water pump,
Therefore, the GPU server cooling system of the present invention has a simple structure, a function of reducing heat generation of the GPU server by increasing the cooling efficiency, and has a remarkable effect that can be utilized as a CPU cooling system, which is an existing server.
Description
본발명은 GPU 서버 냉각관리 시스템에 관한 것으로, 보다 상세하게는 구조가 간단하며, 냉각효율이 높아져 GPU서버의 발열을 줄여주는 기능을 하며, 기존 서버인 CPU 냉각 시스템으로도 활용이 가능한 GPU 서버 냉각관리 시스템에 관한 것이다.The present invention relates to a GPU server cooling management system, and more specifically, has a simple structure, has a function of reducing heat generation of the GPU server by increasing cooling efficiency, and GPU server cooling that can be utilized as a CPU cooling system, which is an existing server It is about the management system.
일반적으로 상온에서 공기보다 물의 밀도와 비열이 크고 열전도율이 높아 더 많은 양의 열을 더 빠르게 흡수하기 때문에 수냉이 공랭보다 냉각에 더 효율적이다.In general, water cooling is more efficient than air cooling because water has a higher density and specific heat than air at room temperature and high thermal conductivity to absorb a greater amount of heat faster.
그리고 그래픽카드의 수냉식 냉각 장치는 모듈형식으로 그래픽카드마다 각각 장착되어 있어 냉각효율이 떨어지고 구조가 복잡하다.In addition, the water cooling cooling device of the graphic card is installed in each graphic card in a modular format, so the cooling efficiency is low and the structure is complicated.
그러므로 서버 랙의 통합이 필요하다. 종래 특허기술의 일례로서 등록번호 10-1438723호에는 제1 방향으로 플레이트 형상으로 연장되며, 제1 끝단에 상기 제1 방향으로 연결된 복수의 제1 연결슬롯들을 포함하는 메인 보드;Therefore, consolidation of server racks is necessary. As an example of the prior patent technology, Registration No. 10-1438723 discloses a main board extending in a plate shape in a first direction and including a plurality of first connection slots connected to a first end at a first end;
상기 메인 보드와 평행하게 연장되고, 상기 제1 연결슬롯들 각각에 결합되며, 각각에는 상기 제1 방향에 수직인 제2 방향으로 연장된 복수의 제2 연결슬롯들이 실장된 복수의 확장 보드들;a plurality of expansion boards extending parallel to the main board and coupled to each of the first connection slots, each having a plurality of second connection slots extending in a second direction perpendicular to the first direction mounted thereon;
상기 메인 보드의 제1 끝단에 반대인 제2 끝단에 배치되어, 외부의 공기가 상기 메인 보드 및 상기 확장 보드들의 상부를 통해 흐르도록 공기를 순환시키는 제1 보드용 팬;a fan for a first board disposed at a second end opposite to the first end of the main board to circulate air so that external air flows through the upper portions of the main board and the expansion boards;
상기 확장 보드들의 연장방향과 수직인 방향으로, 상기 제2 연결슬롯들 각각에 결합되는 복수의 서브 보드들;a plurality of sub-boards coupled to each of the second connection slots in a direction perpendicular to the extending direction of the expansion boards;
상기 메인 보드 및 상기 확장 보드들을 다른 공간과 분리하여, 상기 메인 보드를 제1 공간에 배치시키고 상기 확장 보드들을 제2 공간에 배치시키는 제1 분리 프레임; 및a first separation frame separating the main board and the expansion boards from other spaces to dispose the main board in a first space and the expansion boards in a second space; and
상기 제1 분리 프레임의 상부 또는 하부에 배치되는 제2 분리 프레임을 포함하며,and a second separation frame disposed above or below the first separation frame,
상기 제2 분리 프레임은 상기 메인 보드가 배치된 영역에서는 상기 제1 분리 프레임과 제3 공간을 형성하고, 상기 확장 보드들이 배치된 영역에서는 상기 제1 분리 프레임과 제4 공간을 형성하는 것을 특징으로 하는 컴퓨터 보드 냉각 시스템이 공개되어 있다.The second separation frame forms a third space with the first separation frame in an area in which the main board is disposed, and forms a fourth space and the first separation frame in an area in which the expansion boards are disposed. A computer board cooling system is disclosed.
또한, 등록번호 10-2030487호에는 서버형 영상저장장치의 발열을 저감하는 수냉쿨러 시스템이 공개되어 있다.In addition, registration No. 10-2030487 discloses a water cooling cooler system that reduces heat generation of a server-type image storage device.
그러나 상기 종래기술들은 구조가 복잡하며, 냉각효율이 낮아 GPU서버의 발열을 충분히 줄여주기에 부족하다는 단점이 있었다.However, the conventional techniques have disadvantages in that they have a complex structure and are insufficient to sufficiently reduce heat generation of the GPU server due to low cooling efficiency.
따라서 본발명은 상기와 같은 문제점을 해결하고자 안출된 것으로, GPU 서버 냉각 시스템은 구조가 간단하며, 냉각효율이 높아져 GPU서버의 발열을 줄여주는 기능을 하며, 기존 서버인 CPU 냉각 시스템으로도 활용이 가능한 GPU 서버 냉각관리 시스템을 제공하고자 하는 것이다.Therefore, the present invention has been devised to solve the above problems, and the GPU server cooling system has a simple structure, and functions to reduce heat generation of the GPU server by increasing the cooling efficiency, and can be utilized as a CPU cooling system, which is an existing server. This is to provide a possible GPU server cooling management system.
본발명은 GPU 서버 냉각관리 시스템에 관한 것으로, GPU 서버의 발열을 방지하기 위한 수냉식 냉각 시스템으로서, 냉각 라지에이터, 냉각수 탱크, 펌프로 구성되는 것을 특징으로 한다.The present invention relates to a GPU server cooling management system, which is a water-cooled cooling system for preventing heat generation of a GPU server, and is characterized by comprising a cooling radiator, a cooling water tank, and a pump.
또한, 상기 GPU 서버 냉각 시스템은 워터 블럭이 GPU 및 VRAM 칩에서 발생한 열을 냉각수에 전달하고 데워진 냉각수는 냉각수 펌프에 의해 라디에이터로 이동하여 식혀지게 되는 것을 특징으로 한다.In addition, the GPU server cooling system is characterized in that the water block transfers heat generated from the GPU and the VRAM chip to the cooling water, and the warmed cooling water is cooled by moving to the radiator by the cooling water pump.
그러므로 본발명의 GPU 서버 냉각 시스템은 구조가 간단하며, 냉각효율이 높아져 GPU서버의 발열을 줄여주는 기능을 하며, 기존 서버인 CPU 냉각관리 시스템으로도 활용이 가능한 현저한 효과가 있다.Therefore, the GPU server cooling system of the present invention has a simple structure, a function of reducing heat generation of the GPU server by increasing cooling efficiency, and has a remarkable effect that can be utilized as a CPU cooling management system, which is an existing server.
도 1은 본발명의 GPU 서버 냉각 관리시스템 구성도
도 2는 본 발명의 서버 비상백업 시스템 계통도
도 3은 본 발명의 서버 비상백업 시스템 구성도
도 4는 본 발명의 서버 비상백업 시스템 순서도
도 5는 본 발명의 PCIe 확장 시스템을 이용한 CPU 서버의 GPU 서버 구현 시스템 구성도
도 6은 본 발명의 PCIe 확장 시스템 개요도
도 7은 본 발명의 PCIe 확장 시스템 부품도1 is a configuration diagram of a GPU server cooling management system of the present invention;
2 is a schematic diagram of a server emergency backup system of the present invention;
3 is a configuration diagram of a server emergency backup system of the present invention;
4 is a flow chart of the server emergency backup system of the present invention
5 is a configuration diagram of a GPU server implementation system of a CPU server using the PCIe expansion system of the present invention.
6 is a schematic diagram of a PCIe expansion system of the present invention
7 is a PCIe expansion system component diagram of the present invention
본발명은 GPU 서버 냉각관리 시스템에 관한 것으로, GPU 서버의 발열을 방지하기 위한 수냉식 냉각 시스템으로서, 냉각 라지에이터, 냉각수 탱크, 펌프로 구성되는 것을 특징으로 한다.The present invention relates to a GPU server cooling management system, which is a water-cooled cooling system for preventing heat generation of a GPU server, and is characterized by comprising a cooling radiator, a cooling water tank, and a pump.
또한, 상기 GPU 서버 냉각 시스템은 워터 블럭이 GPU 및 VRAM 칩에서 발생한 열을 냉각수에 전달하고 데워진 냉각수는 냉각수 펌프에 의해 라디에이터로 이동하여 식혀지게 되는 것을 특징으로 한다.In addition, the GPU server cooling system is characterized in that the water block transfers heat generated from the GPU and the VRAM chip to the cooling water, and the warmed cooling water is cooled by moving to the radiator by the cooling water pump.
또한, 냉각 라지에이터는 냉각팬을 이용하여 온도가 높아진 냉각수를 식혀주는 장치인 것을 특징으로 한다.In addition, the cooling radiator is characterized in that it is a device that cools the coolant whose temperature has risen by using a cooling fan.
또한, 냉각수 탱크 및 펌프는 냉각수를 서버 랙에서 순환시키기 위한 장치인 것을 특징으로 한다.In addition, the cooling water tank and the pump are characterized in that the device for circulating the cooling water in the server rack.
본발명을 첨부도면에 의해 상세히 설명하면 다음과 같다. 도 1은 본발명의 GPU 서버 냉각 시스템 구성도이다.The present invention will be described in detail with reference to the accompanying drawings as follows. 1 is a configuration diagram of a GPU server cooling system of the present invention.
본발명의 GPU 서버 냉각 시스템은 GPU 서버의 발열을 방지하기 위한 수냉식 냉각 시스템이다. 곧 그래픽카드의 GPU(Graphics Processing Unit)와 VRAM(Video Random Access Memory)의 수냉식 냉각 장치로서 워터 블럭이 GPU 및 VRAM 칩에서 발생한 열을 냉각수에 전달하고 데워진 냉각수는 냉각수 펌프에 의해 라디에이터로 이동하여 식혀지게 되는 것이다.The GPU server cooling system of the present invention is a water cooling cooling system for preventing heat generation of the GPU server. As a water-cooled cooling device for GPU (Graphics Processing Unit) and VRAM (Video Random Access Memory) of graphics card, the water block transfers heat generated from GPU and VRAM chip to coolant, and the heated coolant moves to the radiator by the coolant pump to cool it. it will be lost
본발명의 GPU 서버 냉각 시스템 구성은 냉각 라지에이터, 냉각수 탱크, 펌프로 구성된다. 프레임 상부에 냉각라지에이터가 설치되며 하부에는 냉각수 탱크가 설치되며, 상기 냉각라지에이터와 냉각수 탱크사이에는 펌프가 설치되어 물을 순환시키게 된다. 프레임 중간에는 다수개의 GPU서버가 상부에서 하부로 설치된다. 상기 냉각 라지에이터는 냉각팬을 이용하여 온도가 높아진 냉각수를 식혀주는 장치이며, 냉각수 탱크 및 펌프는 냉각수를 서버 랙에서 순환시키기 위한 장치이다.The GPU server cooling system configuration of the present invention consists of a cooling radiator, a cooling water tank, and a pump. A cooling radiator is installed on the upper part of the frame, a cooling water tank is installed on the lower part, and a pump is installed between the cooling radiator and the coolant tank to circulate water. A plurality of GPU servers are installed from the top to the bottom in the middle of the frame. The cooling radiator is a device for cooling the coolant having a higher temperature by using a cooling fan, and the coolant tank and the pump are devices for circulating the coolant in the server rack.
그리고 본발명은 프레임 외부에는 제어기가 별도로 설치되며 프레임 내부에는 온도센서가 설치되어 GPU 서버의 발열에 따른 온도를 측정하여 제어기의 제어부에 전송하고 제어부는 저장부에 저장된 설정치와 비교부를 통해 비교하여 설정치 이상이면 펌프를 가동한다. 또는 펌프의 순환속도와 라지에이터 냉각팬 속도를 높이게 한다. 제어부는 일정시간이 경과되어도 온도가 설정치 이하로 떨어지지 않으면 GPU 서버를 보호하기 위해 알람수단인 스피커를 동작시켜 알람을 발생시킨다. 또는 제어기에는 통신모듈이 설치되어 관리자의 스마트폰에 문자메시지를 보내어 점검하게 한다.And in the present invention, a controller is separately installed outside the frame, and a temperature sensor is installed inside the frame to measure the temperature according to the heat of the GPU server and transmit it to the controller of the controller. If it is more than that, start the pump. Or increase the circulation speed of the pump and the speed of the radiator cooling fan. The control unit generates an alarm by operating a speaker, which is an alarm means, to protect the GPU server if the temperature does not fall below the set value even after a certain period of time has elapsed. Alternatively, a communication module is installed in the controller to send a text message to the manager's smartphone to check.
한편, 본발명은 발열시 GPU 서버를 보호하기 위해 서버 비상백업 시스템을 구비할 수 있다. 본 발명의 서버 비상백업 시스템은 서버 운영 중 발생할 수 있는 시스템 오류 발생 시 운영 중인 OS 및 어플리케이션을 백업을 수행한 후 서버가 안전하게 Shutdown 수행하게 하는 것이다. 발열시 제어부는 일정시간이 경과되어도 온도가 설정치 이하로 떨어지지 않으면 서버 비상백업 시스템을 구동한다.On the other hand, the present invention may be provided with a server emergency backup system to protect the GPU server in case of heat. The server emergency backup system of the present invention is to perform a safe shutdown of the server after performing a backup of the operating OS and applications when a system error that may occur during server operation occurs. When the heat is generated, the control unit operates the server emergency backup system if the temperature does not fall below the set value even after a certain period of time has elapsed.
서버 비상백업 시스템의 구성은 일반 서버 내 탑재 가능한 모듈형태로 베터리팩 컨트롤러 인터페이스가 구비되며, 컨트롤러는 전원불량 등 이벤트 발생 시 베터리팩을 통한 전원 제공 및 백업을 수행한다.The configuration of the server emergency backup system is a module type that can be mounted in a general server, and a battery pack controller interface is provided, and the controller provides power through the battery pack and performs backup when an event such as a power failure occurs.
본 발명의 비상백업시스템은 서버 내 위치하며, 서버의 파워서플라이(전원공급장치)와 직접 연결되는 것으로, 물리적인 전원 연결은 '전원코드-서버파워서플라이-비상백업장치-메인보드'이다.The emergency backup system of the present invention is located in the server and is directly connected to the power supply (power supply) of the server, and the physical power connection is 'power cord-server power supply-emergency backup device-mainboard'.
비상백업장치의 배터리는 서버 전원 인가 시 부터 배터리 충전을 하며 비상장치내 컨트롤러(BMS-배터리관리시스템-기능포함)가 관리하고 있다.The battery of the emergency backup device is charged from the time the server is powered on, and the controller in the emergency device (including BMS-battery management system-function) is managing it.
외부에서 인가된 전원을 비상백업시스템의 감지기가 전압/전류를 실시간 체크하고 있다.The detector of the emergency backup system checks the voltage/current of the externally applied power in real time.
전원 공급이 중단되거나 이상 발생 시 비상백업 시스템의 배터리에서 전원을 공급하되,Power is supplied from the battery of the emergency backup system when the power supply is interrupted or an abnormality occurs.
In-Line 방식으로 전원 공급의 단절이 발생하지 않는다.There is no interruption of power supply by in-line method.
그러므로 본 발명의 전원 공급 시 발생된 내부 이벤트를 컨트롤러가 감지하여 현재 운영 중인 서버의 이미지백업을 정확하고 신속하게 수행하게 된다. 상기 컨트롤러는 송수신부, 데이터를 저장하는 저장부, 전압/전류설정치와 감지기로부터의 전송받은 측정값을 비교하는 비교부, 제어부로 구성된다.Therefore, the controller detects an internal event that occurs when power is supplied according to the present invention to accurately and quickly perform image backup of the currently operating server. The controller is composed of a transceiver, a storage unit for storing data, a comparison unit for comparing the voltage/current set value with the measured value transmitted from the sensor, and a control unit.
특히 본 발명의 비상백업시스템은 서버 사용률이 낮은 시간대 정기적(스케쥴 기능)으로 해당 서버의 OS영역 외 사용자 영역에 대한 풀백업을 수행하며, 비상동작 발생 시 백업시간을 단축하기 위해 스냅샷 개념의 백업을 수행한다. 상기 스냅샷 백업은 주요자료를 우선적으로 백업시키며, 주요도가 동격 내지 유사한 범주일때는 폴더나 파일종류에 따라 우선순위를 정할 수 있다.In particular, the emergency backup system of the present invention performs a full backup of the user area other than the OS area of the server on a regular basis (schedule function) during a time when the server usage rate is low, and a snapshot concept backup in order to shorten the backup time in case of an emergency operation. carry out The snapshot backup preferentially backs up the main data, and when the degree of importance is the same or a similar category, the priority can be set according to the type of folder or file.
본 발명의 비상백업시스템은 시스템 최초 1회 백업 후 전원부에 이상 발생 시 스냅샷을 활용한 백업을 진행한다. 곧 전원부 이상시 내장배터리 타임으로 인하여, 스냅샷으로 백업 진행 하여 최초 백업한 파일과 스냅샷을 통한 시스템 복원을 진행한다.The emergency backup system of the present invention performs a backup using a snapshot when an abnormality occurs in the power supply after the first one-time backup of the system. In the event of a power failure, due to the built-in battery time, a snapshot backup is performed, and system restoration is performed through the first backup file and snapshot.
스냅샷 백업에 대해 설명하기 위해 먼저 스냅샷에 대해 설명하면, 스냅샷은 특정 시간에 데이터 저장 장치의 상태를 별도의 파일이나 이미지로 저장하는 기술을 의미하며, 스냅샷 기능을 이용하여 데이터를 저장하면 유시 데이터 복원과 일정 시점의 상태로 데이터를 복원할 수 있다.To explain snapshot backup, first, snapshot is described. Snapshot refers to a technology that saves the state of a data storage device as a separate file or image at a specific time, and saves data using the snapshot function. By doing so, it is possible to restore current data and restore data to a state of a certain point in time.
스냅샷이 필요한 이유는Why do you need snapshots?
1) 데이터 분석, 데이터 보호 및 데이터 복제와 같은 작업을 수행하며1) perform tasks such as data analysis, data protection and data replication;
2) 재해복구와 같은 장애 상황에서도 데이터 복원이 되며 (완전 백업 대비 백업 속도가 빠름)2) Data can be restored even in failure situations such as disaster recovery (faster backup compared to full backup)
3) 긴급한 상황에서 최상의 데이터 보호 수단이 될 수 있으며3) It can be the best data protection measure in emergency situations,
4) 대용량 데이터의 백업관리를 단순화하여 운영 관리 비용을 최소화 할 수 있기 때문이다.4) This is because backup management of large-capacity data can be simplified to minimize operation and management costs.
한편, 본발명은 서버 비상백업 시스템을 PCIe 확장 시스템을 이용한 CPU 서버의 GPU 서버 구현 시스템에 적용할 수 있는 것으로,On the other hand, the present invention is that the server emergency backup system can be applied to the GPU server implementation system of the CPU server using the PCIe expansion system,
본 발명은 PCIe 확장 시스템을 사용하여 CPU 서버를 GPU 서버로 구현 가능하게 한 것으로, 일반적으로 PCIe 확장 시스템은 호스트 서버의 마더 보드에 그래픽카드를 직접 액세스 할 수 있도록 PCIe 슬롯 확장을 지원한다. PCIe(Peripheral Component Interconnect Express)는 캡처 카드나 무선 카드와 같은 주변 장치 뿐 아니라 그래픽 카드와 SSD를 연결하는데 일반적으로 사용되는 고대역폭 확장 버스이다. The present invention enables a CPU server to be implemented as a GPU server by using a PCIe expansion system. In general, the PCIe expansion system supports PCIe slot expansion to directly access the graphics card to the motherboard of the host server. PCIe (Peripheral Component Interconnect Express) is a high-bandwidth expansion bus commonly used to connect graphics cards and SSDs, as well as peripherals such as capture cards and wireless cards.
본 발명은 확장 시스템의 PCIe 스위치와 CPU 서버의 PCIe 어댑터에서 버스 리피터를 사용하여 호스트 서버에서 PCIe 확장 케이블로 브리지 연결 가능하다. The present invention can be bridged from a host server to a PCIe extension cable by using a bus repeater in a PCIe switch of an expansion system and a PCIe adapter of a CPU server.
본 발명의 PCIe 확장시스템은 CPU 서버 메인보드의 PCIe 슬롯에서 백플레인의 PCIe와 연결하는 것으로 하나의 서버에 다량의 그래픽카드를 사용하기 위한 방안이다. 특히 브리지 연결은 낮은 대기 시간 버스 처리량을 위해 PCIe x16 버스 리피터를 활용하며, CPU 서버에서 1미터 또는 3미터의 확장 케이블로 연결되고, CPU 서버에서 로우 프로파일 PCIe 플러그인 카드 형식을 통한 표준 PCIe 슬롯과 PICMG 1.3을 사용하는 백플레인 보드의 PCIe 슬롯에 연결된다. The PCIe expansion system of the present invention is a method for using a large number of graphic cards in one server by connecting to the PCIe slot of the CPU server mainboard with the PCIe of the backplane. Specifically, the bridging utilizes a PCIe x16 bus repeater for low latency bus throughput, connected by a 1-meter or 3-meter extension cable from the CPU server, to a standard PCIe slot via a low-profile PCIe plug-in card format from the CPU server to the PICMG It connects to the PCIe slot on the backplane board using 1.3.
PCIe 확장 시스템은 부팅 시 호스트 서버 시스템에 의해 인식되고 특정 소프트웨어, 하드웨어 드라이버가 필요하지 않다. The PCIe expansion system is recognized by the host server system at boot time and does not require specific software or hardware drivers.
PCIe 확장 시스템은 PCIe 어댑터, 데이터 케이블 및 확장 Backplane 세 가지 요소로 구성된다. The PCIe expansion system consists of three components: a PCIe adapter, a data cable, and an expansion backplane.
PCIe 어댑터는 CPU 서버와 Backplane의 PCIe x16 slot에 삽입되며, PCIe 데이터 케이블은 CPU 서버와 Backplane을 연결한다. The PCIe adapter is inserted into the PCIe x16 slot of the CPU server and the backplane, and the PCIe data cable connects the CPU server and the backplane.
부팅 시, 각 링크의 레인너비를 협상한 후 각 PCIe 링크가 설정되는 하드웨어 초기화를 진행한다. PCIe 링크는 PCIe 스위치를 통해 생성되며 호스트 BIOS에 대한 PCIe-to-PCIe 브리지처럼 보인다. 연결된 링크는 전송 쌍과 수신 쌍으로 구현되는 이중 단방향 차동 연결로 구성된다. At boot time, after negotiating the lane width of each link, hardware initialization in which each PCIe link is established is performed. The PCIe link is created through a PCIe switch and looks like a PCIe-to-PCIe bridge to the host BIOS. A connected link consists of a dual unidirectional differential connection implemented as a transmit pair and a receive pair.
도면에서 도시된 바와 같이, 사용한 규격은 PCIe 3.0 x16 이며, 데이터 전송률은 8GT/s이며 x16(16레인)의 대역폭은 15.754 GB/s이다.As shown in the figure, the standard used is PCIe 3.0 x16, the data transfer rate is 8 GT/s, and the bandwidth of x16 (16 lanes) is 15.754 GB/s.
한편, 본 발명에서 사용되는 구성인 링크(link)/레인(lane)의 의미에 대해 설명하면, 링크는 CPU 서버의 PCIe slot과 Backplane의 PCIe slot의 연결을 의미하며, 레인 너비의 협상은 PCIe에 그래픽카드가 인식되어 사용되는 레인이 x8인지 x16인지 확인하는 과정을 의미한다. 레인은 데이터 전송 대역폭을 의미하며, 연결된 PCIe 장치에서 CPU로 데이터 비트가 전송되는 데이터 통로 역할을 한다.On the other hand, if the meaning of the link/lane, which is a configuration used in the present invention, will be described, the link means the connection between the PCIe slot of the CPU server and the PCIe slot of the Backplane, and the negotiation of the lane width is performed in the PCIe. This refers to the process of checking whether the lane used by the graphic card is x8 or x16. A lane refers to the data transfer bandwidth, and serves as a data path through which data bits are transferred from the connected PCIe device to the CPU.
레인은 x1(1레인), x4(4레인), x8(8레인), x16(16레인) 등이 있으며 일반적으로 그래픽카드는 x16(16레인)을 사용한다.The lanes are x1 (1 lane), x4 (4 lanes), x8 (8 lanes), x16 (16 lanes), etc. Generally, the graphics card uses x16 (16 lanes).
제어기는 송수신부, 저장부, 비교부, 라지에이터 휀작동부, 펌프작동부, 제어부로 구성된다.The controller is composed of a transceiver, a storage, a comparison unit, a radiator fan operation, a pump operation, and a control unit.
한편, 본발명은 공랭식으로 운전할 수 있는 것으로 밀폐식 프레임에 형성된 공기구멍을 댐퍼에 의해 개페하되 실내온도를 외기온도센서에 의해 전달받고 겨울 등 실내온도가 낮을때는 펌프가동을 중지하고 제어기는 댐퍼를 오픈하고, 실내, 실외공기가 흡입되게 하여, 전기에너지를 절약하게 된다.On the other hand, the present invention can be operated in an air-cooled manner. The air hole formed in the sealed frame is opened and closed by the damper, but the indoor temperature is transmitted by the outdoor temperature sensor. It opens and allows indoor and outdoor air to be sucked in, thereby saving electric energy.
그러므로 본발명의 GPU 서버 냉각 관리시스템은 구조가 간단하며, 냉각효율이 높아져 GPU서버의 발열을 줄여주는 기능을 하며, 기존 서버인 CPU 냉각 시스템으로도 활용이 가능한 현저한 효과가 있다.Therefore, the GPU server cooling management system of the present invention has a simple structure, and the cooling efficiency is increased to reduce heat generation of the GPU server, and there is a remarkable effect that can be utilized as a CPU cooling system, which is an existing server.
100 : 서버
110 : 비상백업시스템 120 : 메인보드
130 : 서버용 파워서플라이 유닛 140 : 배터리(팩)
150 : 백업전용 저장소 160 : 컨트롤러
170 : 메인보드
10 : PCIe 확장시스템 20 : 일반서버(CPU서버)
30 : PCI EXPRESS SWITCH
40 : PCI EXPRESS SLOT
50 : 그래픽 카드
310 : 냉각라지에이터 320 :GPU 서버
330 : 펌프 340 : 냉각수 탱크100 : server
110: emergency backup system 120: main board
130: server power supply unit 140: battery (pack)
150: backup-only storage 160: controller
170: main board
10: PCIe expansion system 20: general server (CPU server)
30: PCI EXPRESS SWITCH
40: PCI EXPRESS SLOT
50 : graphic card
310: cooling radiator 320: GPU server
330: pump 340: coolant tank
Claims (3)
상기 냉각 라지에이터(310)는 프레임 상부에 설치되며 하부에는 냉각수 탱크(340)가 설치되며, 상기 냉각 라지에이터(310)와 냉각수 탱크(340)사이에는 펌프(330)가 설치되어 물을 순환시키게 되고, 프레임 중간에는 다수개의 GPU서버(320)가 상부에서 하부로 설치되며, 상기 냉각 라지에이터(310)는 냉각팬을 이용하여 온도가 높아진 냉각수를 식혀주는 장치로서 냉각수 탱크(340) 및 펌프(330)는 냉각수를 서버 랙에서 순환시키기 위한 장치이며,
상기 프레임 외부에는 제어기가 별도로 설치되며 프레임 내부에는 온도센서가 설치되어, GPU 서버(320)의 발열에 따른 온도를 측정하여 제어기의 제어부에 전송하고 제어부는 저장부에 저장된 설정치와 비교부를 통해 비교하여 설정치 이상이면 펌프(330)를 가동하며, 제어부는 일정시간이 경과되어도 온도가 설정치 이하로 떨어지지 않으면 GPU 서버(320)를 보호하기 위해 알람수단인 스피커를 동작시켜 알람을 발생시키거나 통신모듈이 설치되어 관리자의 스마트폰에 문자메시지를 보내어 점검하게 하며,
또한, 발열시 GPU 서버를 보호하기 위해 서버 비상백업 시스템을 구비하는 것으로 서버 비상백업 시스템은 서버 운영 중 발생할 수 있는 시스템 오류 발생 시 운영 중인 OS 및 어플리케이션을 백업을 수행한 후 서버가 안전하게 셧다운(Shutdown) 수행하게 하는 것이며, 발열시 제어부는 일정시간이 경과되어도 온도가 설정치 이하로 떨어지지 않으면 서버 비상백업 시스템을 구동하는 것으로, 서버 비상백업 시스템의 구성은 서버 내 탑재되는 모듈형태로 베터리팩 컨트롤러 인터페이스가 구비되며, 컨트롤러는 전원불량 이벤트 발생 시 베터리팩을 통한 전원 제공 및 백업을 수행하는 것으로,상기 비상백업시스템은 서버 내 위치하며, 서버의 파워서플라이와 직접 연결되는 것으로, 물리적인 전원 연결은 '전원코드-서버파워서플라이-비상백업장치-메인보드'이며, 비상백업장치의 배터리는 서버 전원 인가 시 부터 배터리 충전을 하며 외부에서 인가된 전원을 비상백업시스템의 감지기가 전압/전류를 실시간 체크하고 있으므로, 전원 공급이 중단되거나 이상 발생 시 비상백업 시스템의 배터리에서 전원을 공급하되,In-Line 방식으로 전원 공급의 단절이 발생하지 않게 하며,
비상백업시스템은 서버 사용률이 낮은 시간대는 정기적으로 해당 서버의 OS영역 외 사용자 영역에 대한 풀백업을 수행하며, 비상동작 발생 시 백업시간을 단축하기 위해 스냅샷 백업을 수행하며, 상기 스냅샷 백업은 주요자료를 우선적으로 백업시키며, 주요도가 동격 내지 유사한 범주일때는 폴더나 파일종류에 따라 우선순위를 정하는 것이며, 비상백업시스템은 시스템 최초 1회 백업 후 전원부에 이상 발생 시 스냅샷을 활용한 백업을 진행하는 것으로, 전원부 이상시 내장배터리 타임으로 인하여, 스냅샷으로 백업 진행 하여 최초 백업한 파일과 스냅샷을 통한 시스템 복원을 진행하는 것을 특징으로 하는 GPU 서버 냉각관리 시스템As a water cooling cooling system to prevent heat generation of the GPU server, it is composed of a cooling radiator 310, a coolant tank 340, and a pump 330, but the water block is a GPU (Graphics Processing Unit) and VRAM (Video Random Access Memory) The heat generated from the chip is transferred to the cooling water, and the warmed cooling water is moved to the cooling radiator 310 by the pump 330 to be cooled, and the cooling radiator 310 uses a cooling fan to cool the cooling water whose temperature has risen. In the device GPU server cooling management system,
The cooling radiator 310 is installed on the upper part of the frame and a cooling water tank 340 is installed on the lower part, and a pump 330 is installed between the cooling radiator 310 and the cooling water tank 340 to circulate water, In the middle of the frame, a plurality of GPU servers 320 are installed from the top to the bottom, and the cooling radiator 310 is a device that cools the coolant having a higher temperature using a cooling fan. The coolant tank 340 and the pump 330 are A device for circulating coolant in a server rack,
A controller is separately installed outside the frame, and a temperature sensor is installed inside the frame, and the temperature according to the heat of the GPU server 320 is measured and transmitted to the controller of the controller. If it is higher than the set value, the pump 330 is operated, and if the temperature does not fall below the set value even after a certain period of time has elapsed, an alarm is generated by operating a speaker, which is an alarm means, to protect the GPU server 320, or a communication module is installed It sends a text message to the manager's smartphone to check,
In addition, a server emergency backup system is provided to protect the GPU server in case of heat. The server emergency backup system performs a backup of the operating OS and applications in the event of a system error that may occur during server operation, and then shuts down the server safely. ), and the control unit operates the server emergency backup system if the temperature does not fall below the set value even after a certain period of time has elapsed. The controller is provided to provide power and backup through the battery pack when a power failure event occurs, and the emergency backup system is located in the server and is directly connected to the server's power supply, and the physical power connection is 'power supply'. Code-Server Power Supply-Emergency Backup Device-Mainboard', the battery of the emergency backup device is charged from the time the server power is applied , When the power supply is interrupted or an abnormality occurs, the power is supplied from the battery of the emergency backup system, but the in-line method prevents the power supply from being cut off.
The emergency backup system performs a full backup of the user area other than the OS area of the server on a regular basis during times when the server usage rate is low, and performs a snapshot backup to shorten the backup time in case of an emergency operation, and the snapshot backup is Primary data is backed up preferentially, and when the severity is the same or in a similar category, the priority is set according to the folder or file type. GPU server cooling management system, characterized in that, due to the built-in battery time in case of a power failure, the system is restored through the first backed up file and snapshot by backing up with a snapshot
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220043364A KR102449125B1 (en) | 2022-04-07 | 2022-04-07 | GPU server cooling management system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220043364A KR102449125B1 (en) | 2022-04-07 | 2022-04-07 | GPU server cooling management system |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102449125B1 true KR102449125B1 (en) | 2022-09-29 |
Family
ID=83462003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220043364A Active KR102449125B1 (en) | 2022-04-07 | 2022-04-07 | GPU server cooling management system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102449125B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240113228A (en) | 2023-01-13 | 2024-07-22 | 주식회사 글로벌탑넷 | High-performance AI server platform with GPU-exclusive expansion enclosure |
CN119947066A (en) * | 2025-04-10 | 2025-05-06 | 苏州安川泰科技有限公司 | A motion controller for servo motors with autonomous heat dissipation function |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR200385546Y1 (en) * | 2005-03-08 | 2005-05-30 | 이삼주 | Cooling device using water for computer |
KR100610292B1 (en) * | 2003-08-11 | 2006-08-09 | 가부시키가이샤 히타치세이사쿠쇼 | Electronic equipment provided with co0ling system |
JP6138093B2 (en) * | 2014-09-10 | 2017-05-31 | シムックス株式会社 | Server cooling system and cooling method thereof |
-
2022
- 2022-04-07 KR KR1020220043364A patent/KR102449125B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100610292B1 (en) * | 2003-08-11 | 2006-08-09 | 가부시키가이샤 히타치세이사쿠쇼 | Electronic equipment provided with co0ling system |
KR200385546Y1 (en) * | 2005-03-08 | 2005-05-30 | 이삼주 | Cooling device using water for computer |
JP6138093B2 (en) * | 2014-09-10 | 2017-05-31 | シムックス株式会社 | Server cooling system and cooling method thereof |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240113228A (en) | 2023-01-13 | 2024-07-22 | 주식회사 글로벌탑넷 | High-performance AI server platform with GPU-exclusive expansion enclosure |
CN119947066A (en) * | 2025-04-10 | 2025-05-06 | 苏州安川泰科技有限公司 | A motion controller for servo motors with autonomous heat dissipation function |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI683610B (en) | Modular carrier form factors for computing platforms | |
KR102449125B1 (en) | GPU server cooling management system | |
US7421623B2 (en) | Systems, methods, and media for controlling temperature in a computer system | |
CN102520768B (en) | Blade server motherboard and system | |
US20080189466A1 (en) | Storage system and control method thereof | |
CN107885686A (en) | A kind of system and method for controlling single hard disk to restart using BMC | |
CN103853678B (en) | Board managing device and use its plate card management system and control card | |
CN102375699A (en) | a memory system | |
CN113204466B (en) | A kind of over-temperature protection method and electronic equipment | |
US7437585B2 (en) | Storage system and power control method therefor, adapter and power control method therefor, and storage controller and control method therefor | |
TW202026938A (en) | System and method to recover fpga firmware over a sideband interface | |
CN105045351A (en) | 4U storage server | |
CN101593082A (en) | A kind of device of managing power supply circuit of memory equipment, method and computing machine | |
CN107943253A (en) | A kind of high density multi-node server system heat radiating structure | |
CN109445561B (en) | Power failure protection system and method applied to server and server | |
CN111459863B (en) | NVME-MI-based chassis management system and method | |
CN102478938A (en) | Server system | |
CN207704358U (en) | A kind of production domesticization server | |
CN111190468B (en) | A kind of OCP network card cooling device and method | |
CN201594391U (en) | Array storing device of miniatured storer | |
KR102433220B1 (en) | GPU server implementation system of CPU server using PCIe expansion system | |
CN218995962U (en) | PCIe compatible GPU server | |
KR102433222B1 (en) | Server emergency backup system | |
CN214846518U (en) | Storage blade and blade server | |
CN111273742A (en) | High-density service modularization system based on orthogonal framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20220407 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20220428 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20220407 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220627 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220913 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220926 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220926 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |