[go: up one dir, main page]

TWI529525B - 處理系統錯誤之方法及系統 - Google Patents

處理系統錯誤之方法及系統 Download PDF

Info

Publication number
TWI529525B
TWI529525B TW099113846A TW99113846A TWI529525B TW I529525 B TWI529525 B TW I529525B TW 099113846 A TW099113846 A TW 099113846A TW 99113846 A TW99113846 A TW 99113846A TW I529525 B TWI529525 B TW I529525B
Authority
TW
Taiwan
Prior art keywords
microcontroller
error
memory
server
basic input
Prior art date
Application number
TW099113846A
Other languages
English (en)
Other versions
TW201137608A (en
Inventor
鐘俊弘
尤宏傑
愛美賀 艾克理路
Original Assignee
聯想企業解決方案(新加坡)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯想企業解決方案(新加坡)有限公司 filed Critical 聯想企業解決方案(新加坡)有限公司
Priority to TW099113846A priority Critical patent/TWI529525B/zh
Priority to US13/095,127 priority patent/US8689059B2/en
Publication of TW201137608A publication Critical patent/TW201137608A/zh
Priority to US13/412,037 priority patent/US8726102B2/en
Application granted granted Critical
Publication of TWI529525B publication Critical patent/TWI529525B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

處理系統錯誤之方法及系統
本發明係有關於一種處理系統錯誤之方法及系統,更具體來說係關於一種利用微控制器來處理系統錯誤之方法及系統。
由於資訊及網路技術的快速發展,企業目前廣泛運用各種伺服器來提供、處理、儲存及管理內部或外部的各種服務或資料,例如金融交易、電子商務、企業形象網站、內部人事資料、研發記錄、安全控管等。此類伺服器系統一般又稱為資訊處理系統(在此簡稱系統)。大量的系統在運作過程難免會出現一些(可回復或不可回復的)系統錯誤,可能是導由於軟體程式錯誤或硬體失效。在某些單晶片或多晶片處理器系統中,存在使用晶片組內部系統管理中斷(System Management Interrupt,SMI)以觸發用於錯誤之軟體處理程序的作法。在錯誤引起系統的當機情況(hung situation)中,系統並無法處理錯誤,而需等待管理人員手動重新開機,使系統回到正常運作之狀態。同時在上述的系統中,亦存在無法正確識別錯誤的裝置為何種類型的情形。
因此,需要一種方便管理、效能強大且低成本的處理系統錯誤的方法及系統。
本說明書中所提及的特色、優點、或類似表達方式並不暗示本發明可實現的所有特色及優點應在本發明之任何單一的具體實施例內。而是應明白,有關特色及優點的表達方式是指結合具體實施例所述的特定特色、優點、或特性係包含在本發明的至少一具體實施例內。因此,本說明書中對於特色及優點、及類似表達方式的論述可與相同具體實施例有關,但亦非必要。
此外,可以任何合適的方式,在一或多個具體實施例中結合本發明所述特色、優點、及特性。相關技術者應明白,在沒有特定具體實施例之一或多個特定特色或優點的情況下,亦可實施本發明。在其他例子中應明白,特定具體實施例中的其他特色及優點可能未在本發明的所有具體實施例中出現。
本發明一方面揭示一種處理系統錯誤之方法。此方法係應用於一伺服器中,且此伺服器包括基本輸入輸出系統及微控制器。此方法包含下列步驟:藉由微控制器發送訊號;藉由微控制器確認是否收到基本輸入輸出系統回應訊號之確認訊息;以及在沒有收到確認訊息時,藉由微控制器掃瞄系統錯誤之類型。
在本發明之另一方面揭示一種方法,其中伺服器更包含晶片組耦合於基本輸入輸出系統及微控制器之間,而該方法更包含以下步驟:訊號觸發該晶片組之系統管理中斷;藉由基本輸入輸出系統之系統管理中斷處理程序,服務系統管理中斷;以及藉由系統管理中斷處理程序產生確認訊息。
本發明另一方面揭示一種處理系統錯誤之系統,包含基本輸入輸出系統以及微控制器。藉由微控制器發送訊號,並於未接收到基本輸入輸出系統回應訊號之確認訊息時,藉由微控制器掃瞄系統錯誤之類型。
本發明又一方面揭示一種系統,更包含晶片組耦合於基本輸入輸出系統及微控制器之間,其中訊號觸發該晶片組之系統管理中斷,且藉由基本輸入輸出系統之系統管理中斷處理程序,服務系統管理中斷,並產生確認訊息。
本說明書中「一具體實施例」或類似表達方式的引用是指結合該具體實施例所述的特定特色、結構、或特性係包括在本發明的至少一具體實施例中。因此,在本說明書中,「在一具體實施例中」及類似表達方式之用語的出現未必指相同的具體實施例。
熟此技藝者當知,本發明本實施為裝置、方法或作為電腦程式產品之電腦可讀媒體。因此,本發明可以實施為各種形式,例如完全的硬體實施例、完全的軟體實施例(包含韌體、常駐軟體、微程式碼等),或者亦可實施為軟體與硬體的實施形式,在以下會被稱為「電路」、「模組」或「系統」。此外,本發明亦可以任何有形的媒體形式實施為電腦程式產品,其具有電腦可使用程式碼儲存於其上,以供手持式裝置或其他電腦設備讀取以達成本發明所述之部分或全部之功能。
一個或更多個電腦可使用或可讀取媒體的組合都可以利用。舉例來說,電腦可使用或可讀取媒體可以是(但並不限於)電子的、磁的、光學的、電磁的、紅外線的或半導體的系統、裝置、設備或傳播媒體。更具體的電腦可讀取媒體實施例可以包括下列所示(非限定的例示):由一個或多個連接線所組成的電氣連接、可攜式的電腦磁片、硬碟機、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式光碟片(CD-ROM)、光學儲存裝置、傳輸媒體(例如網際網路(Internet)或內部網路(intranet)之基礎連接)、或磁儲存裝置。需注意的是,電腦可使用或可讀取媒體更可以為紙張或任何可用於將程式列印於其上而使得該程式可以再度被電子化之適當媒體,例如藉由光學掃描該紙張或其他媒體,然後再編譯、解譯或其他合適的必要處理方式,然後可再度被儲存於電腦記憶體中。在本文中,電腦可使用或可讀取媒體可以是任何用於保持、儲存、傳送、傳播或傳輸程式碼的媒體,以供與其相連接的指令執行系統、裝置或設備來處理。電腦可使用媒體可包括其中儲存有電腦可使用程式碼的傳播資料訊號,不論是以基頻(baseband)或是部分載波的型態。電腦可使用程式碼之傳輸可以使用任何適體的媒體,包括(但並不限於)無線、有線、光纖纜線、射頻(RF)等。
用於執行本發明操作的電腦程式碼可以使用一種或多種程式語言的組合來撰寫,包括物件導向程式語言(例如Java、Smalltalk、C++或其他類似者)以及傳統程序程式語言(例如C程式語言或其他類似的程式語言)。程式碼可以獨立軟體套件的形式完整的於使用者的手持式裝置上執行或部分於使用者的手持式裝置上執行,或部分於使用者之手持式裝置而部分於其他設備,或者全部於遠端電腦或伺服器上執行。在後面的情況,遠端電腦可以任何形式的網路連接至使用者的電腦,包括區域網路(LAN)或廣域網路(WAN),或者也可利用外部電腦來做連結(例如利用網際網路服務提供者來連接至網際網路)。
於以下本發明的相關敘述會參照依據本發明具體實施例之系統、裝置、方法及電腦程式產品之流程圖及/或方塊圖來進行說明。當可理解每一個流程圖及/或方塊圖中的每一個方塊,以及流圖及/或方塊圖中方塊的任何組合,可以使用電腦程式指令來實施。這些電腦程式指令可供手持式裝置、通用型電腦或特殊電腦的處理器或其他可程式化資料處理裝置所組成的機器來執行,而指令經由電腦或其他可程式化資料處理裝置處理以便實施流程圖及/或方塊圖中所說明之功能或操作。
電腦程式指令亦可被載入到電腦上或其他可程式化資料處理裝置,以便於電腦或其他可程式化裝置上進行一系統操作步驟,而於該電腦或其他可程式化裝置上執行該指令時產生電腦實施程序以達成流程圖及/或方塊圖中所說明之功能或操作。
在圖式中顯示依據本發明各種實施例的系統、裝置、方法及電腦程式產品可實施的架構、功能及操作之流程圖及方塊圖。因此,流程圖或方塊圖中的每個方塊可表示一模組、區段、或部分的程式碼,其包含一個或多個可執行指令,以實施指定的邏輯功能。另當注意者,某些其他的實施例中,方塊所述的功能可以不依圖中所示之順序進行。舉例來說,兩個圖示相連接的方塊事實上亦可以同時執行,或依所牽涉到的功能在某些情況下亦可以依圖示相反的順序執行。此外亦需注意者,每個方塊圖及/或流程圖的方塊,以及方塊圖及/或流程圖中方塊之組合,可藉由基於特殊目的硬體的系統來實施,或者藉由特殊目的硬體與電腦指令的組合,來執行特定的功能或操作。
圖1所示為一種依照本發明具體實施例之伺服器系統,即伺服器100,以便熟此技藝者能更清楚地了解本發明,而非用於限制本發明之範圍。在圖1中例示了四個伺服器100透過網路80相互連接,然而本發明並不以此為限。舉例來說,其他不同之伺服器或客戶端裝置亦可以連接至網路80,而不影響本發明之實施。此外,伺服器100之數量亦沒有限制,而在其他實施例中,可以有更多或更少之伺服器100。在本實施例中,伺服器100具有主機20、顯示裝置30(例如液晶顯示器)、輸入裝置40(例如鍵盤)、指向裝置50(例如滑鼠)、儲存裝置60(例如光碟機、磁碟裝、磁帶機等)、及音訊裝置70(例如喇叭)。熟此技藝者當知,除圖1所例示之元件之外,在其他實施例中伺服器100可以具備其他元件或省略部份元件。
圖2為一種伺服器100之示範性架構示意圖,具有處理器102、晶片組104、記憶體106、微控制器108、韌體110、圖形配接卡112及周邊裝置114。在本發明中,伺服器100可執行應用程式以提供各種資訊或服務,例如即時訊息、電子郵件、網路電話等網際網路服務、多媒體服務、文書編輯服務,例如通用型電腦、特殊應用型電腦、高階工作站、大型主機等。在本實施例中,伺服器100為一台高階工作站,可具有處理器以執行各種應用程式。
伺服器100可具有諸如一或更多個處理器102,以執行各種應用程式並提供各種服務。處理器102經由處理器匯流排103連接至晶片組104,通常包括一個「北橋」晶片及一個「南橋」晶片,或者亦有整合成單一晶片之產品,本發明並不設限。例如,在有些實施例中,晶片組104更可包括其他附加之晶片,例如無線通訊晶片等。北橋晶片通常控制處理器102與資訊處理系統的其他組件之間的通訊。例如,同樣耦合至晶片組之記憶體106,可為例如透過記憶體擴充槽安裝之隨機存取記憶體(RAM),而處理器102則透過晶片組104及記憶體匯流排107存取記憶體106之資料。而一般所稱的南橋晶片亦連接至北橋晶片,提供相較於北橋晶片較慢的服務,例如與電源管理元件或週邊元件界面(PCI)匯流排的操作。例如,南橋晶片可透過PCI匯流排連接至PCI擴充槽上所安裝之裝置,或是在其他實施例中亦可連接至PCI Express擴充槽或工業標準架構(ISA)擴充槽上所安裝之其他裝置,在本實施例中統稱如圖2所示之周邊裝置114可透過擴充槽115及連接匯流排117連接至晶片組104。在本實施例中,示範性之晶片組104為公司所提供使用於Foxhollow平台之Ibexpeak晶片組。而在其他實施例中,亦可使用其他晶片組,例如使用於Thurley平台之ICH10晶片組,或其他各公司所提供之其他晶片組。Intel是Intel公司在美國、其他國家或兩者皆是的註冊商標。此外,示範性之周邊裝置114為IBM公司之System X伺服器之QLogic iSCSI Single-Port PCIe HBA、NetXtreme II 1000 Express Ethernet Adapter、及Emulex 10GbE Server Adapter。IBM是IBM公司在美國、其他國家或兩者皆是的註冊商標。
除前述元件外,晶片組104更連接至微控制器108用於提供伺服器管理、韌體110(例如儲存於一非揮發性隨機存取記憶體(NVRAM)之基本輸入輸出系統(BIOS)程式)用以提供伺服器100最基本之輸入輸出操作、以及透過圖形匯流排113所連接之圖形配接卡112,其係安裝於圖形配接卡擴充槽,例如使用加速圖形埠(AGP)配接卡。在此必需注意的是,在不同的實施例中,伺服器100亦可包括更多或更少的元件。例如,伺服器亦可具有電源供應器、區域網路(LAN)配接器、小型電腦系統介面(SCSI)主機匯流排配接器、音效配接器、鍵盤與滑鼠配接器、數據機、無線傳輸器、硬碟機、磁帶機、以及光碟機。
所謂之「微控制器」,係指把處理器、記憶體、定時/計數器、輸入輸出介面都整合在一塊積體電路晶片上的微型電腦。與應用在個人電腦中的通用型處理器相比,它更強調自供應(不用外接硬體)和節約成本。因為體積小而適用於內嵌式應用,但儲存量小而供提供較簡單之功能。但近年來,微控制器亦被廣泛地運用在伺服器中。一般來說,微控制器108可用於做為系統軟體與硬體之間的界面。舉例來說,伺服器100內建的偵測器可向微控制器108報告各種偵測到的參數,例如溫度、冷卻風扇的速度、以及各種電壓,並提供監控之功能。在本實施例中,微控制器108係藉由溝通介面109與晶片組104溝通,且不限定微控制器108所提供之主要功能,而只要任何伺服器100內與晶片組104連接之微控制器,透過與晶片組104之間之作用,便可執行本發明自動處理系統錯誤之功能,以便減輕管理人員之負擔,將在以下詳述。此外,在本實施例中,示範性之微控制器為Maxim公司所提供型號為VSC 452之微控制器。而在其他實施例中,亦可使用其他微控制器,例如H8S/2461 A Renesas,或其他各公司所提供之其他微控制器。
在此必需注意的是,本說明書或圖式中所述許多功能單元標示為功能方塊或模組,以更具體地強調其實施獨立性。例如,可將功能方塊或模組實施為硬體電路,其包含自訂VLSI電路或閘極陣列、如邏輯晶片的現成半導體、電晶體、或其他離散組件。亦可在可程式硬體設備中實施模組,如現場可程式閘極陣列、可程式陣列邏輯、可程式邏輯設備、或其類似物。亦可在利用各種類型之處理器執行的軟體中實施模組。例如,可執行碼的識別模組包含電腦指令的一或多個實體或邏輯區塊,例如,可將這些區塊組織為物件、程序、或功能。然而,識別模組的可執行檔實體上不一定位在一起,而是可包含儲存於不同位置的不同指令,這些指令當邏輯結合一起時將包含模組並達成模組的指定目的。
可執行碼模組可為單一指令或許多指令,並可分布於數個不同程式碼片段上、不同程式中、及數個記憶體裝置上。同樣地,操作資料在此可識別及說明於模組內,並可以任何合適形式體現及組織於任何合適類型的資料結構內。可收集操作資料為單一資料集,或操作資料可分布於不同位置(包括分布於不同的儲存設備),且操作資料可僅作為電子信號至少局部地存在。
圖3為一依照本發明具體實施例之方法流程圖。在本實施例中,方法開始於步驟200,微控制器108會週期地發送訊號至晶片組104。一般而言,微控制器108會包含一部分專用接腳用於處理微控制器108之控制功能,而另有一部分接腳保留彈性運用之空間,讓程式設計人員可以提供額外的功能。相對應地,晶片組104則亦包含一部分接腳以保留彈性運用之空間。在本實施例中,連接微控制器108之彈性運用腳位(如GPIO(General Purpose Input Output)腳位)及晶片組104之彈性運用腳位(如GPIO腳位),微控制器108透過溝通介面109發送信息至晶片組104,如此便可在習知硬體架構下實施本文所述之功能。但熟此技藝者當知,在其他實施例中,微控制器108及晶片組104的其他接腳彈性運用亦可用以實施本發明。在本實施例中,GPIO腳位上的訊號觸發系統管理中斷,然後基本輸入輸出系統程式110中的相對應SMI處理程序(SMI Handler)150服務該觸發管理中斷,SMI處理程序150送回一確認(acknowledgement)至微處理器108。微控制器108中之監控程式118(請參見圖2)可週期地產生上述的系統管理中斷,在此監控程式118又可稱為Watchdog Timer。當微控制器108接收到該確認訊息時,便會確認伺服器100狀況良好,而不會採取額外之動作,因而回到步驟200,於下一週期時再重新發送訊號。
然後,當伺服器100之運作出現錯誤時,例如系統硬體錯誤,包括但不限於周邊裝置發生錯誤(例如PCI/PCIe Errors)、記憶體錯誤、及處理器錯誤(以下統稱為系統錯誤),伺服器100產生當機之情況而無法繼續正常工作。在習知技術發生此類系統錯誤的情況時,需仰賴管理人員手動重新開機並確認錯誤種類,十分麻煩。此外,有些PCI/PCIe之錯誤發生時,由於系統會將錯誤訊息對映(mapping)至特定暫存器,例如圖2中所示,晶片組104之狀態暫存器(status register)120,導致系統將同時產生PERR/SERR及記憶體錯誤之訊息,這類的問題將導致管理人員難以迅速並確實地判斷故障來源。而藉由本發明所揭示之方法,伺服器100可以快速地處理系統錯誤,準確地識別出系統錯誤之類別,並且訊速地進行臨時應變措施,以大大地減輕管理人員之負擔。在本實施例中,狀態暫存器120係內嵌於晶片組104中,並包含有關於周邊裝置錯誤的狀態暫存器、有關於記憶體錯誤的狀態暫存器及有關於處理器錯誤之狀態暫存器。在其他實施例中,狀態暫存器120亦可以設置於晶片組104外部,再透過習知之架構連結至晶片組104及/或微控制器108,以便供晶片組104及/或微控制器108存取資料。或者在又一實施例中,亦可實施為數個內嵌或外置之狀態暫存器120,本發明並不設限。
請再次回到圖3,當系統錯誤發生時,方法會進行至步驟204,由微控制器108掃瞄對應至周邊狀置114之狀態暫存器120,以確認是否發生任何周邊裝置114的錯誤,例如但不限於周邊裝置錯誤、擴充槽錯誤、橋接器錯誤等。舉例來說,可藉由例如JTAG(Joint Test Action Group http://en.wikipedia.org/wiki/JTAG)及/或PECI(Platform Environment Control Interface,請參照http://en.wikipedia.org/wiki/Platform_Environment_Control _Interface)做為介面,來掃瞄PCI/PCIe之相對應之狀態暫存器,以確定是否有任何周邊裝置114之錯誤產生。倘若微控制器108確認有周邊裝置114之錯誤發生,便在步驟206中將周邊裝置114之錯誤予以標記並儲存,例如在微控制器108的記錄檔(log)119中儲存以下記錄:「Bus Uncorrectable Error」以及「Entity ID=PCI」
倘若沒有發現周邊裝置114之錯誤,方法便進行至步驟208,繼續掃瞄對應至記憶體裝置106之狀態暫存器120,以確認是否有記憶體裝置106之錯誤。倘若微控制器108確認有記憶體裝置106之錯誤發生,便在步驟210中將記憶體裝置106之錯誤予以標記並儲存,例如在微控制器108的記錄檔119中儲存以下記錄:「Bus Uncorrectable Error」以及「Entity ID=Memory」
倘若沒有發現記憶體裝置106之錯誤,方法便進行至步驟212,繼續掃瞄對應至處理器102之狀態暫存器120,以確認是否有處理器102之錯誤。倘若微控制器108確認有處理器102之錯誤發生,便在步驟214中將記憶體102之錯誤予以標記並儲存,例如在微控制器108的記錄檔119中儲存以下記錄:「Bus Uncorrectable Error」以及「Entity ID=CPU」
在確認系統錯誤之類型後,方法便進行至步驟216,將伺服器100重設,例如進行重新開機,以避免讓伺服器100繼續停留在當機之情況。
根據本案之一實施例,藉由將GPIO腳位設為SMI腳位,微控制器108週期性地產生系統管理中斷至基本輸入輸出系統110。系統管理中斷處理程序150接著送出一確認訊息ACK至微控制器108,以讓微控制器108知道系統仍然正常動作。確認訊息ACK可為一自訂的智慧平台管理介面(IPMI)指令。如果微控制器108並未收到從系統管理中斷處理程序150之確認訊息ACK,意謂系統管理中斷處理程序150無法服務且系統處於當機的狀態,微控制器108可如圖3所示進行錯誤處理。
此外必需注意者,前述之各種細節乃本發明之示範性實施例,不應被視為本發明之限制,實則本發明仍應有許多變化而不脫離本發明之範疇。舉例來說,監控程式118與記錄檔119可為儲存在微控制器108內部之記憶元件116中以供微控制器108存取及/或執行,例如快閃記憶體、靜態隨機存取記憶體(SRAM)或其他可用於儲存之元件。然而在其他實施例中,監控程式118及記錄檔119亦可分別存在不同的元件上,或甚至儲存至微控制器108外部之儲存裝置中,本發明並不設限。此外,在步驟216將伺服器100重新開機之前,微控制器108可重新對伺服器100進行設定,將被標記為錯誤之硬體自系統登錄中移除,讓伺服器100在重新開機時不會再次載入該故障之硬體而又產生當機之狀況,例如,伺服器的基本輸入輸出系統110讀取記錄檔119,若偵測到錯誤的硬體,則修改系統組態檔111之記錄而將錯誤的硬體禁能(disable),進而達成系統組態的調整。據此,在管理人員可以進行維修之前,伺服器100至少可以自動回復部分之功能,例如以較少之記憶體運行,或由多重處理器改為單一處理器運行,或關閉部分PCI/PCIe所連接之設備關閉。
在不脫離本發明精神或必要特性的情況下,可以其他特定形式來體現本發明。應將所述具體實施例各方面僅視為解說性而非限制性。舉例來說,以上說明列舉之範例雖以伺服器100當機為例,但並非限制本發明。例如,在系統發生較輕微之可回復錯誤(Correctable Error)時,亦可進行本發明之方法步驟,並於標記內容中做相對應之說明。在其他實施例中,微控制器108亦可掃瞄前述以外之硬體錯誤,例如掃瞄圖形配接卡112之錯誤,或其他伺服器100內之其他硬體,並依照前述類似之方法將錯誤標記於記錄檔119。而在其他實施例中,伺服器100內之各項元件亦可以有其他不同的實施方式而不影響本發明之實施,例如可以將圖形配接卡112直接整合至晶片組104中,或將其他元件的功能予以整合或分離,並不影響本發明之實施。
因此,本發明的範疇如隨附申請專利範圍所示而非如前述說明所示。所有落在申請專利範圍之等效意義及範圍內的變更應視為落在申請專利範圍的範疇內。
20...主機
30...顯示裝置
40...輸入裝置
50...指向裝置
60...儲存裝置
70...音訊裝置
80...網路
100...伺服器
102...處理器
103...處理器匯流排
104...晶片組
106...記憶體
107...記憶體匯流排
108...微控制器
109...溝通介面
110...韌體
111...系統組態檔
112...圖形配接卡
113...圖形匯流排
114...周邊裝置
115...連接匯流排
116...記憶元件
118...監控程式
119...記錄檔
150...系統管理中斷程序
為了立即瞭解本發明的優點,請參考如附圖所示的特定具體實施例,詳細說明上文簡短敘述的本發明。在瞭解這些圖式僅描繪本發明的典型具體實施例並因此不將其視為限制本發明範疇的情況下,參考附圖以額外的明確性及細節來說明本發明,圖式中:
圖1為一依照本發明具體實施例之系統示意圖;
圖2為一種伺服器100之示範性架構示意圖;以及
圖3為一依照本發明具體實施例之方法流程圖。
20...主機
30...顯示裝置
40...輸入裝置
50...指向裝置
60...儲存裝置
70...音訊裝置
80...網路
100...伺服器

Claims (14)

  1. 一種處理系統錯誤之方法,應用於一伺服器中,該伺服器包括一基本輸入輸出系統及一微控制器,該方法包含下列步驟:藉由該微控制器發送一訊號;藉由該微控制器確認是否收到該基本輸入輸出系統回應該訊號之一確認訊息;以及在沒有收到該確認訊息時,藉由該微控制器掃瞄一系統錯誤之一類型。
  2. 如申請專利範圍第1項所述之方法,其中該伺服器更包含一周邊裝置,且該掃瞄之步驟包含:藉由該微控制器掃瞄該周邊裝置所對應之一狀態暫存器;以及在確認該周邊裝置發生一錯誤時,藉由該微控制器儲存該周邊裝置所發生之該錯誤。
  3. 如申請專利範圍第1項所述之方法,其中該伺服器更包含一記憶體,且該掃瞄之步驟包含:藉由微控制器掃瞄該記憶體所對應之一狀態暫存器;以及在確認該記憶體發生一錯誤時,藉由該微控制器儲存該記憶體所發生之該錯誤。
  4. 如申請專利範圍第1項所述之方法,其中該伺服器更包含一處理器,且該掃瞄之步驟包含:藉由該微控制器掃瞄該處理器所對應之一狀態暫存器;以 及在確認該處理器發生一錯誤時,藉由該微控制器儲存該處理器所發生之該錯誤。
  5. 如申請專利範圍第1項所述之方法,更包含:在該掃瞄之結果顯示出該系統錯誤之該類型時,藉由該微控制器標記該類型;以及藉由該微控制器重新開啟該伺服器。
  6. 如申請專利範圍第1項所述之方法,更包含:在該掃瞄之結果顯示出該系統錯誤之該類型時,藉由該微控制器標記該類型;以及依據該標記之類型,藉由該基本輸入輸出系統重新設定一系統組態檔。
  7. 如申請專利範圍第1項所述之方法,其中該伺服器更包含一晶片組耦合於該基本輸入輸出系統及該微控制器之間,該方法更包含:該訊號觸發該晶片組之一系統管理中斷;藉由該基本輸入輸出系統之一系統管理中斷處理程序,服務該系統管理中斷;以及藉由該系統管理中斷處理程序產生該確認訊息。
  8. 一種處理系統錯誤之系統,包含:一基本輸入輸出系統;以及 一微控制器;其中,該微控制器發送一訊號,並於未接收到該基本輸入輸出系統回應該訊號之一確認訊息時,該微控制器掃瞄一系統錯誤之一類型。
  9. 如申請專利範圍第8項所述之系統,更包含:一周邊裝置;以及一狀態暫存器,對應至該周邊裝置;其中,藉由該微控制器掃瞄該狀態暫存器以確認該周邊裝置所發生之一錯誤,並藉由該微控制器儲存該周邊裝置所發生之該錯誤。
  10. 如申請專利範圍第8項所述之系統,更包含:一記憶體;以及一狀態暫存器,對應至該記憶體;其中,藉由該微控制器掃瞄該狀態暫存器以確認該記憶體所發生之一錯誤,並藉由該微控制器儲存該記憶體所發生之該錯誤。
  11. 如申請專利範圍第8項所述之系統,更包含:一處理器;以及一狀態暫存器,對應至該周邊裝置;其中,藉由該微控制器掃瞄該狀態暫存器以確認該處理器所發生之一錯誤,並藉由該微控制器儲存該處理器所發生之該錯誤。
  12. 如申請專利範圍第8項所述之系統,其中在該掃瞄之結果顯示出該系統錯誤之該類型時,藉由該微控制器標記該類型並重新開啟該系統。
  13. 如申請專利範圍第8項所述之系統,其中在該掃瞄之結果顯示出該系統錯誤之該類型時,藉由該微控制器標記該類型,且藉由該基本輸入輸出系統重新設定一系統組態檔。
  14. 如申請專利範圍第8項所述之系統,更包含一晶片組耦合於該基本輸入輸出系統及該微控制器之間,其中該訊號觸發該晶片組之一系統管理中斷,且藉由該基本輸入輸出系統之一系統管理中斷處理程序,服務該系統管理中斷,並產生該確認訊息。
TW099113846A 2010-04-30 2010-04-30 處理系統錯誤之方法及系統 TWI529525B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW099113846A TWI529525B (zh) 2010-04-30 2010-04-30 處理系統錯誤之方法及系統
US13/095,127 US8689059B2 (en) 2010-04-30 2011-04-27 System and method for handling system failure
US13/412,037 US8726102B2 (en) 2010-04-30 2012-03-05 System and method for handling system failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099113846A TWI529525B (zh) 2010-04-30 2010-04-30 處理系統錯誤之方法及系統

Publications (2)

Publication Number Publication Date
TW201137608A TW201137608A (en) 2011-11-01
TWI529525B true TWI529525B (zh) 2016-04-11

Family

ID=44859265

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099113846A TWI529525B (zh) 2010-04-30 2010-04-30 處理系統錯誤之方法及系統

Country Status (2)

Country Link
US (2) US8689059B2 (zh)
TW (1) TWI529525B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512007B (zh) * 2015-12-17 2018-12-04 英业达科技有限公司 一种pcie硬盘状态灯的控制方法及系统
CN106936616B (zh) * 2015-12-31 2020-01-03 伊姆西公司 备份通信方法和装置
TWI691852B (zh) 2018-07-09 2020-04-21 國立中央大學 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
US20240143535A1 (en) * 2022-10-28 2024-05-02 Dell Products L.P. Information handling system high bandwidth gpu hub

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5390324A (en) 1992-10-02 1995-02-14 Compaq Computer Corporation Computer failure recovery and alert system
US6505298B1 (en) 1999-10-25 2003-01-07 International Business Machines Corporation System using an OS inaccessible interrupt handler to reset the OS when a device driver failed to set a register bit indicating OS hang condition
US6662316B1 (en) * 1999-11-05 2003-12-09 Hewlett-Packard Development Company, L.P. Electronic apparatus having improved diagnostic interface
US6587966B1 (en) 2000-04-25 2003-07-01 Hewlett-Packard Development Company, L.P. Operating system hang detection and correction
US7251723B2 (en) * 2001-06-19 2007-07-31 Intel Corporation Fault resilient booting for multiprocessor system using appliance server management
TWI220705B (en) 2002-03-07 2004-09-01 Inventec Corp Method and system for error detecting
EP1351145A1 (en) 2002-04-04 2003-10-08 Hewlett-Packard Company Computer failure recovery and notification system
US7010724B1 (en) 2002-06-05 2006-03-07 Nvidia Corporation Operating system hang detection and methods for handling hang conditions
US20050283661A1 (en) * 2004-06-08 2005-12-22 Intel Corporation Diagnostic extended mobile access
US7426657B2 (en) 2004-07-09 2008-09-16 International Business Machines Corporation System and method for predictive processor failure recovery
US7447934B2 (en) 2005-06-27 2008-11-04 International Business Machines Corporation System and method for using hot plug configuration for PCI error recovery
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
US7484084B1 (en) * 2005-12-20 2009-01-27 Netapp, Inc. Use of a baseboard management controller to facilitate installation of firmware in a processing system
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
US7783877B2 (en) * 2007-05-15 2010-08-24 Inventec Corporation Boot-switching apparatus and method for multiprocessor and multi-memory system
CN102385533A (zh) * 2010-08-30 2012-03-21 鸿富锦精密工业(深圳)有限公司 计算机及其内存运行错误时的重启方法
TWI446161B (zh) * 2010-12-30 2014-07-21 Ibm 處理一多處理器資訊處理系統之一故障處理器的裝置及方法

Also Published As

Publication number Publication date
US8689059B2 (en) 2014-04-01
TW201137608A (en) 2011-11-01
US8726102B2 (en) 2014-05-13
US20120166873A1 (en) 2012-06-28
US20110271138A1 (en) 2011-11-03

Similar Documents

Publication Publication Date Title
TWI588649B (zh) 硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置
TWI337707B (en) System and method for logging recoverable errors
TWI446161B (zh) 處理一多處理器資訊處理系統之一故障處理器的裝置及方法
TWI229796B (en) Method and system to implement a system event log for system manageability
US11132314B2 (en) System and method to reduce host interrupts for non-critical errors
US7685476B2 (en) Early notification of error via software interrupt and shared memory write
TWI632462B (zh) 開關裝置及偵測積體電路匯流排之方法
US20150143054A1 (en) Managing Faulty Memory Pages In A Computing System
CN110704228B (zh) 一种固态硬盘异常处理方法及系统
US11687395B2 (en) Detecting and recovering from fatal storage errors
US20100192029A1 (en) Systems and Methods for Logging Correctable Memory Errors
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
CN115934389A (zh) 用于错误报告和处理的系统和方法
TWI529525B (zh) 處理系統錯誤之方法及系統
US10157005B2 (en) Utilization of non-volatile random access memory for information storage in response to error conditions
US10514972B2 (en) Embedding forensic and triage data in memory dumps
CN102375775B (zh) 一种具有检测系统不可恢复错误指示信号的计算机系统
WO2020001150A1 (zh) 一种即时提示SATA和NVMe设备在位变化的方法、系统及介质
US10635554B2 (en) System and method for BIOS to ensure UCNA errors are available for correlation
JP5689783B2 (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
US20170060672A1 (en) Electronic component having redundant product data stored externally
TW202145239A (zh) 固態硬碟之錯誤分析方法及應用其之電腦
US12204914B2 (en) Enhanced service operating system capabilities through embedded controller system health state tracking
US20250021341A1 (en) Information handling system with display panel crack and distortion detection
US20230236917A1 (en) Attributing errors to input/output peripheral drivers