JP6352627B2 - Computer system and operation method thereof - Google Patents
Computer system and operation method thereof Download PDFInfo
- Publication number
- JP6352627B2 JP6352627B2 JP2013256160A JP2013256160A JP6352627B2 JP 6352627 B2 JP6352627 B2 JP 6352627B2 JP 2013256160 A JP2013256160 A JP 2013256160A JP 2013256160 A JP2013256160 A JP 2013256160A JP 6352627 B2 JP6352627 B2 JP 6352627B2
- Authority
- JP
- Japan
- Prior art keywords
- management controller
- board management
- firmware
- computer system
- bmc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 10
- 230000015654 memory Effects 0.000 claims description 46
- 238000012360 testing method Methods 0.000 claims description 9
- 239000000758 substrate Substances 0.000 claims 5
- 230000006870 function Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明は、コンピュータシステムの動作監視を行うファームウェアを内蔵した基板管理コントローラまたはサービスプロセッサをもつコンピュータシステム及びその動作方法に関する。 The present invention relates to a computer system having a board management controller or a service processor incorporating firmware for monitoring the operation of the computer system, and an operation method thereof.
基板管理コントローラ(BMC:Base Management Controller)は、コンピュータシステムの電源制御、温度や電圧の監視機能や、システムの動作監視の機能などを持つ。近年のコンピュータシステムは、それだけではなく、リモートコンピュータからのシステムの電源制御や、リモートメディア制御やマルチタスク化などBMCの機能も多様化、複雑化したためにBMC自身がストールする場合も増えてきた。そのため、コンピュータシステムの信頼性を高めるために外部ハードウェア制御回路によりBMC自身が対象のWDT(Watch Dog Timer)を持つ仕様のコンピュータシステムもある。 A board management controller (BMC) has a power control for a computer system, a temperature and voltage monitoring function, a system operation monitoring function, and the like. In recent computer systems, not only that, but also the functions of the BMC such as system power control from a remote computer, remote media control and multitasking have become diversified and complicated, and the number of cases where the BMC itself stalls has increased. For this reason, in order to increase the reliability of the computer system, there is a computer system having a specification in which the BMC itself has a target WDT (Watch Dog Timer) by an external hardware control circuit.
このように、システムを再起動して安定した状態で運用する技術が必要となっている。 Thus, there is a need for a technique for restarting the system and operating it in a stable state.
特許文献1には、POST(Power On Self Test)中にコマンドのやりとりが不能になった時に、BIOS(Basic Input/Output System)からBMCを再起動することにより、コンピュータシステムの動作に対する不具合を解消できる技術が開示されている。 Japanese Patent Laid-Open No. 2004-228688 solves a problem with the operation of the computer system by restarting the BMC from the BIOS (Basic Input / Output System) when the command exchange becomes impossible during the POST (Power On Self Test). A possible technique is disclosed.
また、特許文献2には、メモリの記憶領域を監視して装置の再起動を要求し、装置の動作に影響を及ぼさないタイミングでメモリの未開放領域を解放して、メモリリークを回避する技術が開示されている。メモリリークとは、コンピュータの動作中に、使用可能なメモリ容量がだんだん減っていく現象である。これは、OS(Operating System)やアプリケーションソフトが処理のために占有したメモリ領域を、何らかの理由で解放しないまま放置してしまうために起きる。 Japanese Patent Application Laid-Open No. 2004-228867 discloses a technique for avoiding a memory leak by monitoring a storage area of a memory, requesting a restart of the apparatus, and releasing an unreleased area of the memory at a timing that does not affect the operation of the apparatus. Is disclosed. A memory leak is a phenomenon in which the amount of usable memory gradually decreases while a computer is operating. This occurs because a memory area occupied for processing by an OS (Operating System) or application software is left unreleased for some reason.
特許文献1に記載の技術では、POST中にコマンドのやりとりが不能になったときに、BIOSからBMCを再起動することでシステムの復旧を行うが、BMCにおいてメモリリークが起こった場合、意図しない契機でBMCが再起動してしまい、OSの動作に影響を及ぼしてしまうという課題があった。 In the technique described in Patent Document 1, when the exchange of commands becomes impossible during POST, the system is restored by restarting the BMC from the BIOS. However, when a memory leak occurs in the BMC, it is not intended. There was a problem that the BMC was restarted by the opportunity, which affected the operation of the OS.
特許文献2に記載の技術では、分析機器自体のメモリのメモリリーク時にタイミングの良い状態で分析機器自体を再起動する。具体的には、再起動の要求があったときは最も早い分析の合間を見つけて再起動を実行し、メモリを初期化して未解放領域を強制的に解放する。そのためタイミングがあわず、時間がかかる分析であったり、分析が始まったばかりのタイミングだったりすると、直近の合間が来るまでの時間が長く正常動作するまでに時間がかかる、という課題があった。 In the technique described in Patent Literature 2, the analysis instrument itself is restarted in a timely state when a memory leak occurs in the memory of the analysis instrument itself. Specifically, when a restart request is made, the earliest analysis interval is found and the restart is executed, the memory is initialized, and the unreleased area is forcibly released. For this reason, there is a problem that if the analysis is timeless and takes time, or if the analysis has just begun, it takes a long time until the latest interval comes and normal operation takes time.
本発明の目的は、BMC内のメモリのメモリリークにより意図しない契機でBMCが再起動して、オペレーティングシステムの動作に影響を及ぼしてしまうのを解消し、システムを安定した状態で運用することができるコンピュータシステムを提供することにある。 An object of the present invention is to eliminate a situation in which the BMC restarts due to an unintended trigger due to a memory leak in the memory in the BMC, affecting the operation of the operating system, and to operate the system in a stable state. It is to provide a computer system that can.
本発明は、上記課題を解決するために、ファームウェアと、基板管理コントローラと、を有するコンピュータシステムであって、基板管理コントローラを再起動させるハードウェア制御回路を備え、基板管理コントローラは、内部のメモリの空き容量を監視して、空き容量が所定の設定値以下になった場合にファームウェアに空き容量の情報を通知し、ファームウェアは、パワーオンセルフテストの期間に、基板管理コントローラからの情報を受けた場合に、基板管理コントローラを再起動させるかどうか判断し、再起動させると判断した場合には、前記パワーオンセルフテストの期間に前記基板管理コントローラを再起動させることを特徴としている。
In order to solve the above problems, the present invention is a computer system having firmware and a board management controller, and includes a hardware control circuit that restarts the board management controller, and the board management controller includes an internal memory. The free space is monitored, and when the free space falls below the preset value, the firmware is notified of the free space information. The firmware receives information from the board management controller during the power-on self-test. In this case, it is determined whether or not to restart the board management controller, and when it is determined to restart, the board management controller is restarted during the power-on self-test period .
また、本発明は、ハードウェア制御回路を用いて基板管理コントローラを再起動させるステップと、基板管理コントローラは、内部のメモリの空き容量を監視して、空き容量が所定の設定値以下になった場合にファームウェアに空き容量の情報を通知するステップと、ファームウェアは、基板管理コントローラからの情報を受けた場合に、パワーオンセルフテストの期間に、基板管理コントローラを再起動させるかどうか判断するステップと、再起動させると判断した場合には、前記ファームウェアは、前記パワーオンセルフテストの期間に前記基板管理コントローラを再起動させるステップ、を有することを特徴としている。
Further, the present invention includes a step of restarting the board management controller using the hardware control circuit, and the board management controller monitors the free space in the internal memory, and the free space is less than a predetermined set value. A step of notifying the firmware of information on free space, and a step of determining whether to restart the board management controller during the power-on self-test when the firmware receives information from the board management controller. When it is determined to restart, the firmware includes a step of restarting the board management controller during the power-on self-test period .
本発明によれば、BMC内のメモリのメモリリークにより意図しない契機でBMCが再起動して、オペレーティングシステムの動作に影響を及ぼしてしまうのを解消し、システムを安定した状態で運用することができるコンピュータシステムを提供できる。 According to the present invention, it is possible to eliminate a situation in which the BMC restarts due to an unintended trigger due to a memory leak in the memory in the BMC and affects the operation of the operating system, and to operate the system in a stable state. A computer system that can be provided is provided.
以下、本発明の実施形態について図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(実施形態)
図1は、本発明の実施形態であるコンピュータシステムの構成を示すブロック図である。図1において、マザーボード100は、そのアーキテクチャを示している。このアーキテクチャは、例示的な目的のみのためのものであり、マザーボードに可能な多くのアーキテクチャのうちの1つのみが示されている。
(Embodiment)
FIG. 1 is a block diagram showing a configuration of a computer system according to an embodiment of the present invention. In FIG. 1, a
図1に示すように、マザーボード100は、中央処理ユニット(CPU)110を含む。CPU110は、図1において130で示される通常”ノースブリッジ”と呼ばれるチップにプロセッサバス120を介して接続される。ノースブリッジ130は一般的にメモリユニット、グラフィックカードなど高速に動作させたいパーツを制御する。図1ではメモリ140とCPU110との間の通信を管理する。メモリ140は複数接続してもよい。
As shown in FIG. 1, the
また図1において、150で示される”サウスブリッジ”として知られているチップもまたノースブリッジ130に接続されている。サウスブリッジ150は、一般的にノースブリッジ130によって実行されるよりも遅いパーツを制御する。
Also in FIG. 1, a chip known as “South Bridge”, indicated at 150, is also connected to the North Bridge 130. The
遅いパーツとは、例えば、周辺コンポーネントインターフェイス(PCI:Peripheral Component Interconnect)バスである。サウスブリッジ150は、ロウピンカウント(LPC:Low Pin Count)バス160を介してBIOS170を含むメモリユニットに接続されることが可能である。BIOSはファームウェアとしても参照される。ノースブリッジ130及びサウスブリッジ150はまとめてマザーボード100の”チップセット”としてしばしば参照される。
The slow part is, for example, a peripheral component interface (PCI) bus. The
なお、本説明では省くがマザーボード100は他にさまざまな入出力(I/O)装置と外部と通信を行うためのコンポーネントを含むものとする。
Although omitted in this description, the
図1において、BMC180はLPCバス160に接続されている。なおBMCもしばしばファームウェアとして参照される。BMC180は一般的に電源の制御、システム管理ソフトウェアとプラットフォームハードウェアとの間のインターフェイスとして温度や電圧など管理を行う。BMC180は内部メモリ181を備えている。
In FIG. 1, the BMC 180 is connected to the
さらにサウスブリッジ150からGPIO(General Purpose Input/Output)200を通じて、BIOS170からBMC180を再起動するためのハードウェア制御回路190が繋がり、ハードウェア制御回路190からBMC180が対象となるリセット信号210がBMC180に繋がる。なお、BIOS170からハードウェア制御回路190がコントロールできればサウスブリッジ150からの接続でなくても本発明に影響は無い。メモリリーク情報は、BMC180からサウスブリッジ150に接続されたGPIO220を通して、BIOS170に通知される。
Further, a
図2は、本発明の実施形態の動作を示すフローチャートである。図2を用いて、本発明の実施形態の動作を説明する。 FIG. 2 is a flowchart showing the operation of the embodiment of the present invention. The operation of the embodiment of the present invention will be described with reference to FIG.
BMC180は、電源オンの指示を受けると、電源制御機能によりシステムを起動し(S400)、BIOS170はPOSTを開始する(S300)。BMC180は、BMC内の内部メモリ181においてメモリリークが発生した場合、サウスブリッジ150に接続されたGPIO220を通してBIOS170に通知する(S410)。BMC180は、メモリの空き容量が所定の閾値を下回っていたら、メモリリーク情報としてメモリの空き容量の値をBIOS170に通知する。BMC自身は組み込みファームウェアであり、組み込みファームウェアが持つOSのコマンドでメモリリーク情報(空き容量)を取得できる。
When the BMC 180 receives a power-on instruction, the BMC 180 starts up the system by the power control function (S400), and the
BIOS170は、POSTタスクの中でBMCからの送信されたメモリリーク情報を、GPIO220を通じて受信し(S310)、得られたメモリの空き容量の値が所定の閾値を下回るような状態のメモリリークかどうか判断する(S311)。空き容量が閾値を下回るメモリリークが発生していなければ、POSTタスクを継続実行する(S320)。全てのタスクが終了したら、POSTは終了する(S330)。空き容量が閾値を下回るとは、予め定めたBMCの機能に支障をきたす程のメモリリークであることを意味する。
The
BMCの動作に支障を来すメモリリークが発生したとBIOS170が判断した場合(S311)、サウスブリッジ150を経由してハードウェア制御回路190に対してBMC180のリセットをBIOS170が指示する(S500)。ハードウェア制御回路190が、リセット信号210によりBMC180の再起動を行う(S510)。これによりBMC180は復旧する。
When the
以上のことにより、BMC内のメモリのメモリリークにより意図しない契機でBMCが再起動して、オペレーティングシステムの動作に影響を及ぼしてしまうのを解消し、システムを安定した状態で運用することが可能である。 As a result of the above, it is possible to operate the system in a stable state, eliminating the possibility that the BMC will restart due to a memory leak in the memory in the BMC and that will affect the operation of the operating system. It is.
なお本実施形態ではPOST時にBMCを再起動するので、システム運用中は再起動が起きにくい。そのため、より安定したシステム運用ができる。 In this embodiment, since the BMC is restarted at the time of POST, the restart is difficult to occur during system operation. Therefore, more stable system operation can be performed.
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において様々な変形が可能である。たとえば、実施形態のBMCがメモリリーク情報をBIOSに通知する機能、BIOSがBMCのメモリリーク情報を感知する機能、の動作は他のハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。 As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment, In the range which does not deviate from the summary, various deformation | transformation are possible. For example, the operation of the function for the BMC according to the embodiment to notify the BIOS of the memory leak information and the function for the BIOS to detect the memory leak information of the BMC is executed by other hardware, software, or a combination of both. It is also possible.
本発明は、コンピュータシステムの動作監視を行うファームウェアを内蔵した基板管理コントローラまたはサービスプロセッサをもつコンピュータシステムに利用可能である。 The present invention can be used for a computer system having a board management controller or a service processor incorporating firmware for monitoring the operation of the computer system.
100 マザーボード
110 中央処理ユニット(CPU)
120 プロセッサバス
130 ノースブリッジ
140 メモリユニット及びメモリコントローラ
150 サウスブリッジ
160 ロウピンカウント(LPC)バス
170 BIOS
180 BMC
181 内部メモリ
190 ハードウェア制御回路
200 GPIO
210 リセット信号
220 GPIO(メモリリーク情報通知用)
100
120
180 BMC
181
210
Claims (7)
前記基板管理コントローラを再起動させるハードウェア制御回路を備え、
前記基板管理コントローラは、内部のメモリの空き容量を監視して、前記空き容量が所定の設定値以下になった場合に前記ファームウェアに前記空き容量の情報を通知し、
前記ファームウェアは、パワーオンセルフテストの期間に、前記基板管理コントローラからの前記情報を受けた場合に、前記基板管理コントローラを再起動させるかどうか判断し、再起動させると判断した場合には、前記パワーオンセルフテストの期間に前記基板管理コントローラを再起動させることを特徴とするコンピュータシステム。 A computer system having firmware and a board management controller,
A hardware control circuit for restarting the board management controller;
The board management controller monitors the free space in the internal memory, and notifies the firmware of the free space information when the free space is below a predetermined set value.
The firmware during the power-on self-test, when receiving the information from the substrate management controller, wherein when the determining whether to restart the substrate management controller, and determines to restart the A computer system that restarts the board management controller during a power-on self-test .
前記基板管理コントローラは、内部のメモリの空き容量を監視して、前記空き容量が所定の設定値以下になった場合にファームウェアに前記空き容量の情報を通知するステップと、
前記ファームウェアは、パワーオンセルフテストの期間に、前記基板管理コントローラからの前記情報を受けた場合に、前記基板管理コントローラを再起動させるかどうか判断するステップと、
再起動させると判断した場合には、前記ファームウェアは、前記パワーオンセルフテストの期間に前記基板管理コントローラを再起動させるステップ、
を有することを特徴とするコンピュータシステムの動作方法。 Restarting the board management controller using the hardware control circuit;
The board management controller monitors the free space of an internal memory, and notifies the firmware of the free space information when the free space is below a predetermined set value;
Determining whether to restart the board management controller when the firmware receives the information from the board management controller during a power-on self-test;
If it is determined to restart, the firmware restarts the board management controller during the power-on self-test,
A method for operating a computer system, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013256160A JP6352627B2 (en) | 2013-12-11 | 2013-12-11 | Computer system and operation method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013256160A JP6352627B2 (en) | 2013-12-11 | 2013-12-11 | Computer system and operation method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015114825A JP2015114825A (en) | 2015-06-22 |
JP6352627B2 true JP6352627B2 (en) | 2018-07-04 |
Family
ID=53528578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013256160A Expired - Fee Related JP6352627B2 (en) | 2013-12-11 | 2013-12-11 | Computer system and operation method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6352627B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766227A (en) * | 2017-11-09 | 2019-05-17 | 环达电脑(上海)有限公司 | The test method of server test system and its switch |
CN109557993B (en) * | 2018-12-11 | 2020-06-16 | 英业达科技有限公司 | Power supply restarting device and server |
CN113296593B (en) * | 2020-07-30 | 2025-03-04 | 阿里巴巴集团控股有限公司 | Resetting method, service device, control device and system of board-level management unit |
CN113010881A (en) * | 2021-03-18 | 2021-06-22 | 山东英信计算机技术有限公司 | Method, device, equipment and storage medium for disabling unofficial parts |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213122A (en) * | 2002-12-27 | 2004-07-29 | Idemitsu Kosan Co Ltd | Method and program for stable operation of control system by client / server |
US7257692B2 (en) * | 2003-10-01 | 2007-08-14 | Lakeside Software, Inc. | Apparatus and method for detecting memory leaks |
JP4955585B2 (en) * | 2008-02-18 | 2012-06-20 | エヌイーシーコンピュータテクノ株式会社 | Computer system, information processing method and program |
JP5327886B2 (en) * | 2010-04-30 | 2013-10-30 | Necシステムテクノロジー株式会社 | Memory leak determination device, memory leak determination method and program |
JP5689783B2 (en) * | 2011-11-24 | 2015-03-25 | 株式会社東芝 | Computer, computer system, and failure information management method |
-
2013
- 2013-12-11 JP JP2013256160A patent/JP6352627B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015114825A (en) | 2015-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10585755B2 (en) | Electronic apparatus and method for restarting a central processing unit (CPU) in response to detecting an abnormality | |
KR101997316B1 (en) | Control apparatus, control method of control apparatus, and storage medium | |
JP4198644B2 (en) | Semiconductor integrated circuit | |
US7500035B2 (en) | Livelock resolution method | |
JP4855451B2 (en) | Storage device access method and apparatus | |
JP4955585B2 (en) | Computer system, information processing method and program | |
JP5541368B2 (en) | Access method and multi-core processor system | |
JP6352627B2 (en) | Computer system and operation method thereof | |
JP2007206885A (en) | Computer system and system starting method | |
TWI739127B (en) | Method, system, and server for providing the system data | |
JP4558519B2 (en) | Information processing apparatus and system bus control method | |
US20150134728A1 (en) | Computer system and remote control method thereof | |
KR20160128751A (en) | APPLICATION PROCESSOR, SYSTEM ON CHIP (SoC), AND COMPUTING DEVICE INCLUDING THE SoC | |
KR20180066073A (en) | System and method for providing operating system independent error control in a computing device | |
JP2002245022A (en) | Multiprocessor system, its shared memory control method and shared memory control program, | |
JP5561791B2 (en) | Information processing apparatus, information processing method, and information processing program | |
JP5710424B2 (en) | Information equipment | |
JP5517301B2 (en) | Data processing system | |
US10423477B2 (en) | Control apparatus and control method for processor initialization | |
US9965290B2 (en) | Parallel computer, initialization method of parallel computer, and non-transitory medium for storing a program | |
US7103692B2 (en) | Method and apparatus for an I/O controller to alert an external system management controller | |
TW201430702A (en) | Method and system for updating firmware | |
JP6256087B2 (en) | Dump system and dump processing method | |
US8543755B2 (en) | Mitigation of embedded controller starvation in real-time shared SPI flash architecture | |
JP2002189615A (en) | Watchdog timer, information processor, expansion board for watchdog timer, system initializing method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6352627 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |