[go: up one dir, main page]

JP6352627B2 - コンピュータシステム及びその動作方法 - Google Patents

コンピュータシステム及びその動作方法 Download PDF

Info

Publication number
JP6352627B2
JP6352627B2 JP2013256160A JP2013256160A JP6352627B2 JP 6352627 B2 JP6352627 B2 JP 6352627B2 JP 2013256160 A JP2013256160 A JP 2013256160A JP 2013256160 A JP2013256160 A JP 2013256160A JP 6352627 B2 JP6352627 B2 JP 6352627B2
Authority
JP
Japan
Prior art keywords
management controller
board management
firmware
computer system
bmc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013256160A
Other languages
English (en)
Other versions
JP2015114825A (ja
Inventor
耕一 末木
耕一 末木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2013256160A priority Critical patent/JP6352627B2/ja
Publication of JP2015114825A publication Critical patent/JP2015114825A/ja
Application granted granted Critical
Publication of JP6352627B2 publication Critical patent/JP6352627B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、コンピュータシステムの動作監視を行うファームウェアを内蔵した基板管理コントローラまたはサービスプロセッサをもつコンピュータシステム及びその動作方法に関する。
基板管理コントローラ(BMC:Base Management Controller)は、コンピュータシステムの電源制御、温度や電圧の監視機能や、システムの動作監視の機能などを持つ。近年のコンピュータシステムは、それだけではなく、リモートコンピュータからのシステムの電源制御や、リモートメディア制御やマルチタスク化などBMCの機能も多様化、複雑化したためにBMC自身がストールする場合も増えてきた。そのため、コンピュータシステムの信頼性を高めるために外部ハードウェア制御回路によりBMC自身が対象のWDT(Watch Dog Timer)を持つ仕様のコンピュータシステムもある。
このように、システムを再起動して安定した状態で運用する技術が必要となっている。
特許文献1には、POST(Power On Self Test)中にコマンドのやりとりが不能になった時に、BIOS(Basic Input/Output System)からBMCを再起動することにより、コンピュータシステムの動作に対する不具合を解消できる技術が開示されている。
また、特許文献2には、メモリの記憶領域を監視して装置の再起動を要求し、装置の動作に影響を及ぼさないタイミングでメモリの未開放領域を解放して、メモリリークを回避する技術が開示されている。メモリリークとは、コンピュータの動作中に、使用可能なメモリ容量がだんだん減っていく現象である。これは、OS(Operating System)やアプリケーションソフトが処理のために占有したメモリ領域を、何らかの理由で解放しないまま放置してしまうために起きる。
特開2009−193492号公報 特開2007−010357号公報
特許文献1に記載の技術では、POST中にコマンドのやりとりが不能になったときに、BIOSからBMCを再起動することでシステムの復旧を行うが、BMCにおいてメモリリークが起こった場合、意図しない契機でBMCが再起動してしまい、OSの動作に影響を及ぼしてしまうという課題があった。
特許文献2に記載の技術では、分析機器自体のメモリのメモリリーク時にタイミングの良い状態で分析機器自体を再起動する。具体的には、再起動の要求があったときは最も早い分析の合間を見つけて再起動を実行し、メモリを初期化して未解放領域を強制的に解放する。そのためタイミングがあわず、時間がかかる分析であったり、分析が始まったばかりのタイミングだったりすると、直近の合間が来るまでの時間が長く正常動作するまでに時間がかかる、という課題があった。
本発明の目的は、BMC内のメモリのメモリリークにより意図しない契機でBMCが再起動して、オペレーティングシステムの動作に影響を及ぼしてしまうのを解消し、システムを安定した状態で運用することができるコンピュータシステムを提供することにある。
本発明は、上記課題を解決するために、ファームウェアと、基板管理コントローラと、を有するコンピュータシステムであって、基板管理コントローラを再起動させるハードウェア制御回路を備え、基板管理コントローラは、内部のメモリの空き容量を監視して、空き容量が所定の設定値以下になった場合にファームウェアに空き容量の情報を通知し、ファームウェアは、パワーオンセルフテストの期間に、基板管理コントローラからの情報を受けた場合に、基板管理コントローラを再起動させるかどうか判断し、再起動させると判断した場合には、前記パワーオンセルフテストの期間に前記基板管理コントローラを再起動させることを特徴としている。
また、本発明は、ハードウェア制御回路を用いて基板管理コントローラを再起動させるステップと、基板管理コントローラは、内部のメモリの空き容量を監視して、空き容量が所定の設定値以下になった場合にファームウェアに空き容量の情報を通知するステップと、ファームウェアは、基板管理コントローラからの情報を受けた場合に、パワーオンセルフテストの期間に、基板管理コントローラを再起動させるかどうか判断するステップと、再起動させると判断した場合には、前記ファームウェアは、前記パワーオンセルフテストの期間に前記基板管理コントローラを再起動させるステップ、を有することを特徴としている。

本発明によれば、BMC内のメモリのメモリリークにより意図しない契機でBMCが再起動して、オペレーティングシステムの動作に影響を及ぼしてしまうのを解消し、システムを安定した状態で運用することができるコンピュータシステムを提供できる。
本発明の実施形態におけるコンピュータシステムの構成を示すブロック図である。 本発明の実施形態におけるコンピュータシステムの動作を示すフローチャートである。
以下、本発明の実施形態について図面を参照して詳細に説明する。
(実施形態)
図1は、本発明の実施形態であるコンピュータシステムの構成を示すブロック図である。図1において、マザーボード100は、そのアーキテクチャを示している。このアーキテクチャは、例示的な目的のみのためのものであり、マザーボードに可能な多くのアーキテクチャのうちの1つのみが示されている。
図1に示すように、マザーボード100は、中央処理ユニット(CPU)110を含む。CPU110は、図1において130で示される通常”ノースブリッジ”と呼ばれるチップにプロセッサバス120を介して接続される。ノースブリッジ130は一般的にメモリユニット、グラフィックカードなど高速に動作させたいパーツを制御する。図1ではメモリ140とCPU110との間の通信を管理する。メモリ140は複数接続してもよい。
また図1において、150で示される”サウスブリッジ”として知られているチップもまたノースブリッジ130に接続されている。サウスブリッジ150は、一般的にノースブリッジ130によって実行されるよりも遅いパーツを制御する。
遅いパーツとは、例えば、周辺コンポーネントインターフェイス(PCI:Peripheral Component Interconnect)バスである。サウスブリッジ150は、ロウピンカウント(LPC:Low Pin Count)バス160を介してBIOS170を含むメモリユニットに接続されることが可能である。BIOSはファームウェアとしても参照される。ノースブリッジ130及びサウスブリッジ150はまとめてマザーボード100の”チップセット”としてしばしば参照される。
なお、本説明では省くがマザーボード100は他にさまざまな入出力(I/O)装置と外部と通信を行うためのコンポーネントを含むものとする。
図1において、BMC180はLPCバス160に接続されている。なおBMCもしばしばファームウェアとして参照される。BMC180は一般的に電源の制御、システム管理ソフトウェアとプラットフォームハードウェアとの間のインターフェイスとして温度や電圧など管理を行う。BMC180は内部メモリ181を備えている。
さらにサウスブリッジ150からGPIO(General Purpose Input/Output)200を通じて、BIOS170からBMC180を再起動するためのハードウェア制御回路190が繋がり、ハードウェア制御回路190からBMC180が対象となるリセット信号210がBMC180に繋がる。なお、BIOS170からハードウェア制御回路190がコントロールできればサウスブリッジ150からの接続でなくても本発明に影響は無い。メモリリーク情報は、BMC180からサウスブリッジ150に接続されたGPIO220を通して、BIOS170に通知される。
図2は、本発明の実施形態の動作を示すフローチャートである。図2を用いて、本発明の実施形態の動作を説明する。
BMC180は、電源オンの指示を受けると、電源制御機能によりシステムを起動し(S400)、BIOS170はPOSTを開始する(S300)。BMC180は、BMC内の内部メモリ181においてメモリリークが発生した場合、サウスブリッジ150に接続されたGPIO220を通してBIOS170に通知する(S410)。BMC180は、メモリの空き容量が所定の閾値を下回っていたら、メモリリーク情報としてメモリの空き容量の値をBIOS170に通知する。BMC自身は組み込みファームウェアであり、組み込みファームウェアが持つOSのコマンドでメモリリーク情報(空き容量)を取得できる。
BIOS170は、POSTタスクの中でBMCからの送信されたメモリリーク情報を、GPIO220を通じて受信し(S310)、得られたメモリの空き容量の値が所定の閾値を下回るような状態のメモリリークかどうか判断する(S311)。空き容量が閾値を下回るメモリリークが発生していなければ、POSTタスクを継続実行する(S320)。全てのタスクが終了したら、POSTは終了する(S330)。空き容量が閾値を下回るとは、予め定めたBMCの機能に支障をきたす程のメモリリークであることを意味する。
BMCの動作に支障を来すメモリリークが発生したとBIOS170が判断した場合(S311)、サウスブリッジ150を経由してハードウェア制御回路190に対してBMC180のリセットをBIOS170が指示する(S500)。ハードウェア制御回路190が、リセット信号210によりBMC180の再起動を行う(S510)。これによりBMC180は復旧する。
以上のことにより、BMC内のメモリのメモリリークにより意図しない契機でBMCが再起動して、オペレーティングシステムの動作に影響を及ぼしてしまうのを解消し、システムを安定した状態で運用することが可能である。
なお本実施形態ではPOST時にBMCを再起動するので、システム運用中は再起動が起きにくい。そのため、より安定したシステム運用ができる。
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において様々な変形が可能である。たとえば、実施形態のBMCがメモリリーク情報をBIOSに通知する機能、BIOSがBMCのメモリリーク情報を感知する機能、の動作は他のハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。
本発明は、コンピュータシステムの動作監視を行うファームウェアを内蔵した基板管理コントローラまたはサービスプロセッサをもつコンピュータシステムに利用可能である。
100 マザーボード
110 中央処理ユニット(CPU)
120 プロセッサバス
130 ノースブリッジ
140 メモリユニット及びメモリコントローラ
150 サウスブリッジ
160 ロウピンカウント(LPC)バス
170 BIOS
180 BMC
181 内部メモリ
190 ハードウェア制御回路
200 GPIO
210 リセット信号
220 GPIO(メモリリーク情報通知用)

Claims (7)

  1. ファームウェアと、基板管理コントローラと、を有するコンピュータシステムであって、
    前記基板管理コントローラを再起動させるハードウェア制御回路を備え、
    前記基板管理コントローラは、内部のメモリの空き容量を監視して、前記空き容量が所定の設定値以下になった場合に前記ファームウェアに前記空き容量の情報を通知し、
    前記ファームウェアは、パワーオンセルフテストの期間に、前記基板管理コントローラからの前記情報を受けた場合に、前記基板管理コントローラを再起動させるかどうか判断し、再起動させると判断した場合には、前記パワーオンセルフテストの期間に前記基板管理コントローラを再起動させることを特徴とするコンピュータシステム。
  2. 前記ファームウェアは、前記基板管理コントローラからの前記情報を受け、前記基板管理コントローラを再起動させる場合は、前記ハードウェア制御回路に対して、前記基板管理コントローラを再起動させる信号を出力することを特徴とする請求項1に記載のコンピュータシステム。
  3. 前記ファームウェアは、前記基板管理コントローラのメモリの空き容量が、前記基板管理コントローラの動作に支障をきたす容量であると判断した場合に、前記基板管理コントローラを再起動させることを特徴とする請求項1または2に記載のコンピュータシステム。
  4. 前記ファームウェアはBIOS(Basic Input/Output System)である請求項1から3のいずれか1項に記載のコンピュータシステム。
  5. ハードウェア制御回路を用いて基板管理コントローラを再起動させるステップと、
    前記基板管理コントローラは、内部のメモリの空き容量を監視して、前記空き容量が所定の設定値以下になった場合にファームウェアに前記空き容量の情報を通知するステップと、
    前記ファームウェアは、パワーオンセルフテストの期間に、前記基板管理コントローラからの前記情報を受けた場合に、前記基板管理コントローラを再起動させるかどうか判断するステップと、
    再起動させると判断した場合には、前記ファームウェアは、前記パワーオンセルフテストの期間に前記基板管理コントローラを再起動させるステップ、
    を有することを特徴とするコンピュータシステムの動作方法。
  6. 前記ファームウェアは、前記基板管理コントローラからの前記情報を受け、前記基板管理コントローラを再起動させる場合は、前記ハードウェア制御回路に対して、前記基板管理コントローラを再起動させる信号を出力するステップを有することを特徴とする請求項5に記載のコンピュータシステムの動作方法。
  7. 前記ファームウェアは、前記基板管理コントローラのメモリの空き容量が、前記基板管理コントローラの動作に支障をきたすと判断した場合に、前記基板管理コントローラを再起動させるステップを有することを特徴とする請求項5または6に記載のコンピュータシステムの動作方法。
JP2013256160A 2013-12-11 2013-12-11 コンピュータシステム及びその動作方法 Active JP6352627B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013256160A JP6352627B2 (ja) 2013-12-11 2013-12-11 コンピュータシステム及びその動作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013256160A JP6352627B2 (ja) 2013-12-11 2013-12-11 コンピュータシステム及びその動作方法

Publications (2)

Publication Number Publication Date
JP2015114825A JP2015114825A (ja) 2015-06-22
JP6352627B2 true JP6352627B2 (ja) 2018-07-04

Family

ID=53528578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013256160A Active JP6352627B2 (ja) 2013-12-11 2013-12-11 コンピュータシステム及びその動作方法

Country Status (1)

Country Link
JP (1) JP6352627B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766227A (zh) * 2017-11-09 2019-05-17 环达电脑(上海)有限公司 服务器测试系统及其开关的测试方法
CN109557993B (zh) * 2018-12-11 2020-06-16 英业达科技有限公司 电源重启装置及服务器
CN113010881A (zh) * 2021-03-18 2021-06-22 山东英信计算机技术有限公司 一种非官方部件禁用方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213122A (ja) * 2002-12-27 2004-07-29 Idemitsu Kosan Co Ltd クライアント/サーバによる制御システムの安定稼働方法及びそのプログラム
US7257692B2 (en) * 2003-10-01 2007-08-14 Lakeside Software, Inc. Apparatus and method for detecting memory leaks
JP4955585B2 (ja) * 2008-02-18 2012-06-20 エヌイーシーコンピュータテクノ株式会社 コンピュータシステム、情報処理方法及びプログラム
JP5327886B2 (ja) * 2010-04-30 2013-10-30 Necシステムテクノロジー株式会社 メモリリーク判定装置、メモリリーク判定方法およびプログラム
JP5689783B2 (ja) * 2011-11-24 2015-03-25 株式会社東芝 コンピュータ、コンピュータシステム、および障害情報管理方法

Also Published As

Publication number Publication date
JP2015114825A (ja) 2015-06-22

Similar Documents

Publication Publication Date Title
US10585755B2 (en) Electronic apparatus and method for restarting a central processing unit (CPU) in response to detecting an abnormality
KR101997316B1 (ko) 제어 장치, 제어 장치의 제어 방법 및 기억 매체
JP4198644B2 (ja) 半導体集積回路
US7500035B2 (en) Livelock resolution method
JP4855451B2 (ja) 記憶装置のアクセス方法及び装置
JP4955585B2 (ja) コンピュータシステム、情報処理方法及びプログラム
JP5541368B2 (ja) アクセス方法、およびマルチコアプロセッサシステム
JP2007206885A (ja) コンピュータシステム及びシステム起動方法
TWI739127B (zh) 提供系統資料之方法、系統及伺服器
JP4558519B2 (ja) 情報処理装置およびシステムバス制御方法
EP3360044B1 (en) System and method for providing operating system independent error control in a computing device
JP6352627B2 (ja) コンピュータシステム及びその動作方法
JP2002245022A (ja) マルチプロセッサシステムとその共有メモリ制御方法、及び共有メモリ制御プログラム
US20150134728A1 (en) Computer system and remote control method thereof
CN112241389B (zh) 片上系统
JP5561791B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP5517301B2 (ja) データ処理システム
US10423477B2 (en) Control apparatus and control method for processor initialization
JP2013045382A (ja) 情報機器
US9965290B2 (en) Parallel computer, initialization method of parallel computer, and non-transitory medium for storing a program
US7103692B2 (en) Method and apparatus for an I/O controller to alert an external system management controller
TW201430702A (zh) 韌體更新方法及系統
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
US8543755B2 (en) Mitigation of embedded controller starvation in real-time shared SPI flash architecture
JP2002189615A (ja) ウォッチドック・タイマ、情報処理装置、ウォッチドック・タイマ用拡張ボード、システム初期化方法及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171010

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180607

R150 Certificate of patent or registration of utility model

Ref document number: 6352627

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150