[go: up one dir, main page]

DE60008872T2 - Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem - Google Patents

Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem Download PDF

Info

Publication number
DE60008872T2
DE60008872T2 DE60008872T DE60008872T DE60008872T2 DE 60008872 T2 DE60008872 T2 DE 60008872T2 DE 60008872 T DE60008872 T DE 60008872T DE 60008872 T DE60008872 T DE 60008872T DE 60008872 T2 DE60008872 T2 DE 60008872T2
Authority
DE
Germany
Prior art keywords
module
computer system
failed
information
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60008872T
Other languages
English (en)
Other versions
DE60008872D1 (de
Inventor
J. Emrys WILLIAMS
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Microsystems Inc
Original Assignee
Sun Microsystems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Microsystems Inc filed Critical Sun Microsystems Inc
Publication of DE60008872D1 publication Critical patent/DE60008872D1/de
Application granted granted Critical
Publication of DE60008872T2 publication Critical patent/DE60008872T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

  • Hintergrund
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft Fehlertoleranzmechanismen in Computersystemen. Insbesondere betrifft die vorliegende Erfindung ein Verfahren und eine Vorrichtung zum automatischen Integrieren eines Moduls in ein im Betrieb befindliches Computersystem, um ein Modul zu ersetzen, welches ausgefallen bzw. fehlerhaft ist.
  • Verwandter Stand der Technik
  • Computersysteme, welche stromführend bzw. im eingeschalteten Zustand gewartet werden, sind so konstruiert, daß sie das Entfernen und Ersetzen von defekten Modulen ermöglichen, während das Computersystem im Betrieb ist. Wenn innerhalb eines redundanten Computersystems, welches stromführend bzw. im Betrieb gewartet wird, ein Modul ausfällt, ersetzt ein sekundäres Modul das ausgefallene bzw. fehlerhafte Modul. Dies ermöglicht es dem Computersystem ohne Unterbrechung weiter zu arbeiten. Das fehlerhafte Modul wird nachfolgend aus dem Computersystem entfernt und ein Ersatzmodul wird an seiner Stelle eingesetzt. Nachdem das Ersatzmodul eingesetzt wurde, gibt ein Techniker manuell Befehle ein, um das Modul in das Computersystem zu integrieren. Dieser Integrationsprozeß schließt typischerweise ein: ein Durchführen vorläufiger Prüfungen auf dem Ersatzmodul; ein Anschalten des Ersatzmoduls; ein Ablaufen funktioneller Tests auf dem Ersatzmodul; und ein Laden von Zustandsinformationen in das Ersatzmodul.
  • Die Tatsache, daß der Integrationsprozeß die manuelle Eingabe von Befehlen erfordert, kann eine Anzahl von Problemen hervorrufen. Zunächst muß der Techniker die Systemkonsole auffinden, um Integrationsbefehle eingeben zu können. Zweitens muß sich der Techniker an die Integrationsbefehle erinnern. Wenn der Techniker einen Befehl vergißt oder versehentlich einen falschen Befehl eingibt, kann er möglicherweise einen Absturz des Computersystems verursachen. Darüber hinaus kann ein Zulassen der Steuerung des Integrationsprozesses durch den Techniker eine nachlässige Ausführung des Service ermöglichen. In einigen Situationen könnte ein Servicetechniker versuchen, ein Modul, welches nicht zweifellos fehlerhaft ist, in das Computersystem zu integrieren, mit der Möglichkeit, daß es richtig arbeitet, anstatt das fehlerhafte Modul zum Testen an ein Servicedepot zurückzugeben.
  • Es wird ein Verfahren und eine Vorrichtung zum automatischen Integrieren eines Ersatzmoduls in ein im Betrieb befindliches Computersystem benötigt, ohne daß ein Techniker notwendig ist, um explizit Befehle zum Integrieren einzugeben.
  • EP-A-0 768 599 offenbart ein System zum Ausführen einer Neukonfiguration eines Festplattenarrays in eingeschaltetem Zustand, indem ein logischer Quell-Datenträger in einen logisches Ziel-Datenträger neu konfiguriert wird. Die Konfiguration des Festplattenarrays wird aufgerufen, wenn ein neues physikalisches Laufwerk eingebaut wird oder ein Laufwerk entfernt wird, und sie wird von einer Firmware auf einer Plattensteuerplatine im Hintergrund ausgeführt. Der Neukonfigurationsprozeß läuft weiter ab, bis alle Daten aus dem logischen Quell-Datenträger in den logischen Ziel-Datenträger bewegt wurden.
  • Zusammenfassung
  • Die vorliegende Erfindung befaßt sich, wie in den anhängenden unabhängigen Ansprüchen definiert, mit dem zuvor genannten Bedürfnis.
  • Eine Ausführungsform der vorliegenden Erfindung stellt ein System bereit, das automatisch ein Modul in ein Computersystem integriert, um ein fehlerhaftes Modul zu ersetzen. Das System arbeitet durch Erfassen eines Einfügens bzw. Einsetzen des Moduls in das Computersystem. Als Reaktion auf dieses Einsetzen liest das System Informationen aus dem Modul aus, um zu identifizieren, welcher Typ von Modul in das Computersystem eingefügt wurde. Wenn das neu eingefügte Modul nicht die Funktionen des vorhergehenden Moduls ausführen kann, signalisiert das System einen Fehlerzustand. Das System liest zusätzlich Informationen aus dem Modul aus, um zu bestimmen, ob bei dem Modul Fehler aufgetreten sind, seitdem es zum ersten Mal geliefert wurde oder zuletzt repariert wurde. Diese Information wurde ursprünglich von diesem oder einem anderen System nach dem Erfassen eines Fehlers geschrieben. Wenn das Modul, seit es zum ersten Mal geliefert wurde oder seit der letzten Reparatur, fehlerhaft war, signalisiert das System einen Fehlerzustand. Schließlich integriert das System das Modul in das Computersystem, wenn kein Fehlerzustand signalisiert wird. In einer Abwandlung der oben genannten Ausführungsform umfaßt dieser Integrationsprozeß ein Ablaufen funktioneller Tests auf dem Modul und ein Laden von Konfigurationsinformation in das Modul. Daher beschleunigt die vorliegende Erfindung den Neu-Integrationsprozeß dadurch, daß es auf die Notwendigkeit der manuellen Eingabe von Integrationsbefehlen in das Computersystem verzichtet. Dies ruft weniger Möglichkeiten für Fehler hervor, da sich ein Techniker keine Integrationsbefehle merken muß und er nicht versehentlich falsche Befehle eingibt. Die vorliegende Erfindung unterstützt einen ordnungsgemäßen Service auch dadurch, daß sie einen Techniker darin bestärkt, ein fehlerhaftes Modul an ein Servicedepot zurückzugeben, anstatt einfach den Einfügeschalter eines Moduls zu drücken, um die Einheit zu "reparieren". Man beachte, daß die vorliegende Erfindung nicht auf strömführend gewartete oder redundante Computersysteme beschränkt ist. Sie kann allgemein in jedem Computersystem mit einem Prozessor verwendet werden, der ein Einfügen und ein Entfernen eines Moduls während einer Wartung feststellen kann.
  • In einer weiteren Variante umfaßt das Erfassen des Einfügens des Moduls in das Computersystem ein Empfangen von Informationen aus einem elektrischen Schaltkreis, welcher die Anwesenheit des Moduls in dem Computersystem erfaßt. In einer weiteren Variante umfaßt das Erfassen des Einfügens des Moduls in das Computersystem eine periodische Abfrage des Moduls, um zu bestimmen, ob das Modul in dem Computersystem vorliegt.
  • In einer weiteren Variante der oben genannten Ausführungsform erlaubt es das System einem menschlichen Benutzer, den automatischen Integrationsprozeß durch die Annahme von manuell durch den menschlichen Benutzer eingegebenen Integrationsbefehlen zu umgehen.
  • Kurze Beschreibung der Figuren
  • 1 stellt ein Computersystem dar, das ein automatisches Integrieren von Ersatzmodulen gemäß einer Ausführungsform der vorliegenden Erfindung unterstützt.
  • 2 zeigt Schaltkreise zum Erfassen eines Einfügens eines Moduls in das Computersystem gemäß einer Ausführungsform der vorliegenden Erfindung.
  • 3 ist ein Flußdiagramm, das den Prozeß des Integrierens eines Moduls in das Computersystem in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung darstellt.
  • Detaillierte Beschreibung
  • Die folgende Beschreibung wird präsentiert, um jeden Fachmann in die Lage zu versetzen, die Erfindung herzustellen und zu verwenden und sie wird im Zusammenhang mit einer bestimmten Anwendung und ihren Erfordernissen gegeben. Verschiedene Modifikationen der offenbarten Ausführungsformen sind für den Fachmann offensichtlich und die allgemeinen Prinzipien, die hierin definiert werden, können auf andere Ausführungsformen und Anwendungen angewandt werden.
  • Es ist daher nicht beabsichtigt, die vorliegende Erfindung auf die gezeigten Ausführungsformen zu beschränken, sondern sie soll den breitesten Schutzbereich gewähren, der mit den Prinzipien und hierin offenbarten Merkmalen übereinstimmt.
  • Die Datenstrukturen und Codes, die in dieser detaillierten Beschreibung beschrieben werden, sind typischerweise auf einem computerlesbaren Speichermedium gespeichert, welches jede Vorrichtung oder jedes Medium sein kann, welches Codes und/oder Daten speichern kann, die von einem Computersystem verwendet werden. Dies umfaßt magnetische und optische Speichervorrichtungen, wie zum Beispiel Diskettenlaufwerke, magnetische Bänder, CDs (Compact Disks) und DVDs (Digital Video Disks) und Computerbefehlssignale, die in einer Trägerwelle verwirklicht sind, ist aber nicht darauf beschränkt. Zum Beispiel kann die Trägerwelle Information über ein Kommunikationsnetzwerk, wie zum Beispiel das Internet, übertragen.
  • Computersystem
  • 1 stellt ein Computersystem dar, das ein automatisches Integrieren von Ersatzmodulen gemäß einer Ausführungsform der vorliegenden Erfindung unterstützt. Dieses Computersystem weist einen Serviceprozessor 102, eine Wartungskonsole 106, ein Eingabe/Ausgabe (I/O) Modul 108, eine zentrale Verarbeitungseinheit (CPU) 115 und eine Strom- bzw. Leistungsversorgungseinheit 118 auf.
  • Der Serviceprozessor 102 koordiniert das Ersetzen der anderen Module in dem Computersystem, einschließlich des I/O-Moduls 108, der CPU 115 und der Stromversorgungseinheit 118. Der Serviceprozessor 102 kann allgemein jeden Typ von Computervorrichtung aufweisen, einschließlich einen Mainframe-Prozessor, einen Mikroprozessor und eine Einrichtungssteuerung, ist aber nicht darauf beschränkt. Der Serviceprozessor 102 kann einer der Prozessoren des Systems sein, welches stromführend gewartet wird. Der Serviceprozessor 102 weist einen automatischen Integrationscode 104 auf, der automatisch ein Modul in ein laufendes Computersystem integriert, um ein fehlerhaftes Modul zu ersetzen. Man beachte, daß die durch den Integrationscode 104 bereitgestellte Funktionalität alternativ durch speziell geeignete Hardware implementiert werden kann, um den Integrationsprozeß auszuführen.
  • Der Serviceprozessor 102 ist mit der Wartungskonsole 106 verbunden, die es einem menschlichen Benutzer erlaubt, die Abläufe des Serviceprozessors 102 zu steuern. Wenn nötig, kann ein menschlicher Benutzer sich mit der Wartungskonsole 106 über den automatischen Integrationsprozeß hinwegsetzen.
  • Der Serviceprozessor 102 kann mit dem I/O-Modul 108, der CPU 115 und der Stromversorgungseinheit 118 über verschiedene Kommunikationskanäle verbunden sein. In der in 1 dargestellten Ausführungsform verbindet ein serieller Bus 112 den Prozessor 102 mit dem I/O-Modul 108 und ein serieller Bus 114 verbindet den Serviceprozessor 102 mit der CPU 115 und mit der Stromversorgungseinheit 118. Die seriellen Busse 112 und 114 können jeden Kommunikationskanal zum Kommunizieren zwischen dem Serviceprozessor 102 und anderen Modulen in dem Computersystem aufweisen. Dies kann Busse aus mehreren Kabeln, optische Faserverbindungen und infrarote Kommunikationskanäle umfassen, ist aber nicht auf diese beschränkt. In einer Ausführungsform der vorliegenden Erfindung halten die seriellen Busse 112 und 114 das serielle i2C-Busprotokoll ein.
  • Das I/O-Modul 108 kann jeden Typ von Steuerung oder Schnittstelle für eine I/O-Einrichtung aufweisen. Dies kann eine Festplattensteuerung oder eine Netzwerk-Kommunikationssteuerung umfassen. Die CPU 115 kann jeden Typ von Computereinrichtung aufweisen. Dies schließt eine CPU für einen Mainframe-Computer, einen Mikroprozessor, eine Einrichtungssteuerung und sogar eine Computermaschine innerhalb eines Geräts ein, ist aber nicht auf diese beschränkt. Die Stromversorgungseinheit 118 kann jeder Typ einer modularen Stromversorgung für das Computersystem sein, einschließlich einer auf einer Batterie basierenden Stromversorgung oder einer auf einem Transformator basierenden Stromversorgung.
  • Um das Computersystem betriebsbereit zu erhalten, wenn ein Modul versagt, weist das Computersystem redundante "sekundäre" Module auf, die nicht gezeigt sind. Zum Beispiel kann das Computersystem ein primäres I/O-Modul und ein sekundäres I/O-Modul aufweisen. Wenn das primäre I/O-Modul versagt, übernimmt das sekundäre und wird das neue primäre. Wenn das fehlerhafte primäre schließlich ersetzt wird, wird das Ersatzmodul das neue sekundäre. Wenn das sekundäre I/O-Modul versagt, arbeitet das primäre weiter, als ob nichts passiert sei. Wenn das ausgefallene sekundäre schließlich repariert wird, wird das Ersatzmodul das neue sekundäre.
  • Man beachte, daß das I/O-Modul 108, die CPU 115 und die Stromversorgungseinheit 118 elektrisch löschbare Nur-Auslesespeicher (EEPROMs) 110, 116 bzw. 120 aufweisen. Diese EEPROMs können von dem Serviceprozessor 102 beschrieben und gelesen werden. Dies erlaubt es dem Serviceprozessor 102 während des automatischen Integrationsprozesses, Informationen über das Modul, wie zum Beispiel eine Seriennummer des Moduls oder eine Information über die Geschichte des Moduls, auszulesen. Allgemein kann jeder Typ von nicht-flüchtigen Speichern, wie zum Beispiel ein Flash-Speicher oder ein batteriegepufferter Speicher, anstelle der EEPROMs 110, 116 und 120 verwendet werden.
  • Man beachte auch, daß das Computersystem ersetzbare Module aufweisen kann. Zum Beispiel kann das Computersystem ersetzbare Module für Speichereinrichtungen, Kommunikationskanäle, Eingabeeinrichtungen, Ausgabeeinrichtungen und andere periphere Einrichtungen aufweisen. Allgemein kann jede Komponente in einem Computersystem in einem ersetzbaren Modul enthalten sein.
  • Schaltkreise zur Erfassung des Einfügens
  • 2 stellt Schaltkreise innerhalb des Computersystems für die Erfassung eines Moduls gemäß einer Ausführungsform der vorliegenden Erfindung dar. Die linke Seite der 2 stellt Schaltkreise innerhalb der Hauptplatine des Computersystems, um das Einfügen eines Moduls zu erfassen, dar. Die rechte Seite der 2 stellt entsprechende Schaltkreise innerhalb des I/O-Moduls 108, um das Erfassen zu ermöglichen, dar.
  • Die Schaltkreise, zum Erfassen des Einfügens, auf der linken Seite in 2 weisen einen I/O-Anschluß 204 (PCF 8574, hergestellt von Philips Corporation) auf, welcher eine I/O-Anschlußeinrichtung zum Unterstützen einer seriellen Kommunikation über den i2C-Bus ist. Der I/O-Anschluß 204 weist eine Mehrzahl von Eingängen an seiner rechten Seite auf. Wenn sich einer dieser Eingänge ändert, erzeugt der I/O-Anschluß 204 ein Interrupt-Signal auf einer Interrupt-Signalleitung 202. Dieser Interrupt veranlaßt das Computersystem, einen Code auszuführen, der bestimmt, welche mit dem I/O-Anschluß 204 verbundene Einrichtung in das Computersystem eingefügt oder aus ihm entfernt wurde. Einer der Eingänge des I/O-Anschlusses 204 ist mit einem Kontakt 212 verbunden. Wenn das I/O-Modul 108 von der Hauptplatine des Computersystems entfernt wird, wird der Kontakt 212 über den Widerstand 211 an VCC208 auf einen hohen Spannungswert gezogen. Wenn das I/O-Modul 108 in die Hauptplatine des Computersystems eingefügt wird, wird der Kontakt 212 über den Durchgangspfad zwischen den Kontakten 220 und 222 auf dem I/O-Modul 108 und über den Durchgangspfad zwischen dem Kontakt 214 und der Erdung innerhalb der Hauptplatine des Computersystems auf ein Erdungsspannungsniveau gezogen. Der serielle Bus 112 ist mit dem I/O-Anschluß 204 verbunden. Der serielle Bus 112 ist zusätzlich mit einer seriellen Busschnittstelle 206 innerhalb des I/O-Moduls 108 verbunden. Dies erlaubt es dem seriellen Bus 112, mit dem EEPROM 110 innerhalb des I/O-Moduls 108 zu kommunizieren.
  • Man beachte, daß das I/O-Modul 108 zusätzlich eine I/O-Steuerung 230 aufweist, die eine I/O-Einrichtung, wie zum Beispiel ein Festplatten- oder Diskettenlaufwerk steuert.
  • Obwohl 2 einen Hardwaremechanismus darstellt, um das Einfügen eines Moduls zu erfassen, kann alternativ ein Einfügen eines Moduls durch periodisches Abfragen von Modulen innerhalb des Computersystems von einer Software erfaßt werden.
  • Inteprationsprozeß
  • 3 ist ein Flußdiagramm, das den Prozeß des Integrierens eines Moduls in ein Computersystem gemäß einer Ausführungsform der vorliegenden Erfindung darstellt. Der in 2 dargestellte Prozeß arbeitet auf dem in 1 dargestellten Computersystem und verwendet die in 2 dargestellten Schaltkreise zur Erfassung des Einfügens.
  • Das System beginnt mit dem Erfassen eines Fehlers eines Moduls (Schritt 302). Zum Beispiel kann der Serviceprozessor 102 aus 1 das Versagen des I/O-Moduls 108 erfassen. Als nächstes ergreift das System Schritte, um dieses Versagen zu behandeln. Dies kann das Umschalten auf ein sekundäres Backup-Modul umfassen, wenn ein primäres Modul ausfällt. Dies kann auch ein Schreiben einer Fehlerindikation in einen nicht-flüchtigen Speicher in dem Modul 108 umfassen.
  • Als nächstes bestellt das System ein Ersatzmodul (Schritt 303). Dies kann das Senden einer Nachricht durch eine Konsole an einen Systemadministrator umfassen oder es kann ein automatisches Kontaktieren eines Servicetechnikers, der bei einem Servicedepot stationiert ist, über ein Modem oder ein Computernetzwerk umfassen.
  • Wenn das Modul schließlich ersetzt wird, erfaßt das System ein Entfernen des Moduls (Schritt 304). In der in 2 dargestellten Ausführungsform wird eine Erfassung des Entfernens von dem I/O-Anschluß 204 ausgelöst, der einen Interrupt auf der Interrupt-Signalleitung 202 erzeugt, wenn das I/O-Modul 108 von der Hauptplatine des Computersystems entfernt wird. Wie oben erwähnt, kann das Erfassen des Entfernens und Einfügens alternativ als Software implementiert werden durch Schreiben eines Programms, welches periodisch jedes Modul in dem System abfragt. Zum Beispiel kann der Serviceprozessor 102 aus 2 periodisch versuchen, den EEPROM 110 innerhalb des I/O-Moduls 108 auszulesen. Wenn das I/O-Modul 108 von der Hauptplatine des Computersystems entfernt wird, ist es dem Serviceprozessor 102 nicht möglich, den EEPROM 110 auszulesen.
  • Als nächstes erfaßt das System ein Einfügen eines Ersatzmoduls (Schritt 305). Man beachte, daß die Erfassung eines Einfügens durch die in 2 dargestellten Schaltkreise erreicht werden kann oder durch Abfragen in ähnlicher Weise, wie das Entfernen eines Moduls erfaßt wurde.
  • Als Reaktion auf das Erfassen des Einfügens des Ersatzmoduls liest das System automatisch eine Information aus dem Modul (Schritt 306). In der in 1 dargestellten Ausführungsform schließt dies ein Auslesen des EEPROM 110 innerhalb des I/O-Moduls 108 ein.
  • Die von dem Modul ausgelesene Information wird verwendet, um den Typ des Moduls zu validieren (Schritt 307). Zum Beispiel bestimmt der Serviceprozessor 102 aus der Information, die aus dem Ersatzmodul ausgelesen wurde, ob das Ersatzmodul die gleichen Funktionen des Moduls ausführen kann, welches es ersetzen soll, oder nicht (Schritte 307 und 308). Wenn das Ersatzmodul die benötigten Funktionen nicht ausführen kann, sendet das System eine Fehlermeldung (Schritt 311) und kehrt zu Schritt 304 zurück, um auf ein neues Ersatzmodul zu warten. Dieses Abfragen des Modultyps verhindert, daß das System automatisch den falschen Modultyp in das System integriert, wenn ein Techniker versehentlich das Modul durch das Modul des falschen Typs ersetzt.
  • Wenn das Modul ein Modul des richtigen Typs ist, untersucht das System die Vergangenheitsinformation innerhalb des Moduls, um den Fehlerstatus des Moduls zu bestimmen (Schritt 312). Das Modul wird als "fehlerbehaftet" betrachtet, wenn ein Fehler in dem Modul erfaßt wurde, nachdem das Modul zum ersten Mal geliefert wurde oder zuletzt repariert wurde. Wenn das System einen Fehler in einem im Betrieb befindlichen Modul erfaßt, schreibt es ein Fehlerstatusbit, welches in einem nicht-flüchtigen Speicher in dem Modul angeordnet ist. Dieses Bit wird gelöscht, wenn das Modul zum ersten Mal geliefert wird oder nachdem das Modul durch einen Reparaturprozeß repariert wurde. Dieses Abfragen des Fehlerstatusbits löst das Problem, daß ein Techniker lediglich den Knopf zum Einfügen eines Moduls drückt, um die Einheit zu "reparieren". Es kommt auch damit zurecht, daß der Techniker während des Ersatzprozesses versehentlich das fehlerhafte Modul mit dem Ersatzmodul vertauscht.
  • Wenn die Vergangenheitsinformation anzeigt, daß das Modul fehlerhaft ist, sendet das System eine Fehlermeldung an die Konsole (Schritt 311) und kehrt zu Schritt 304 zurück, um auf ein neues Ersatzmodul zu warten. Sonst, wenn was Letzte, das dem Modul passiert ist, kein Fehler war, zum Beispiel das Bestehen eines Zertifikationstests oder ein anderes harmloses Ereignis, beginnt das System den Neuintegrationsprozeß.
  • Wenn die Vergangenheitsinformation anzeigt, daß das Modul nicht fehlerhaft ist, fährt das System mit dem Integrationsprozeß fort. In der in 3 dargestellten Ausführungsform der vorliegenden Erfindung weist der Integrationsprozeß ein Einschalten des Moduls (Schritt 316), ein Herausbringen des Moduls aus seinem anfänglichen Reset-Zustand (Schritt 318) und dann ein Ablaufen von funktionalen Tests auf dem Modul auf, um sicherzustellen, daß das Modul richtig funktioniert (Schritt 320). Wenn diese funktionalen Tests erfolgreich abgeschlossen werden, lädt das System eine Zustandsinformation in das Modul (Schritt 322). Diese Zustandsinformation paßt zu einer Zustandsinformation, die in einem entsprechenden primären Modul enthalten ist. Dies erlaubt es dem neu eingefügten Modul, die Stelle des primären zu übernehmen für den Fall, daß das primäre zu einem späteren Zeitpunkt versagt. Danach versetzt das System das Modul in einen Stand-by-Zustand, um normale Verarbeitungsabläufe (Schritt 324) abzuwarten.
  • Die vorangegangenen Beschreibungen von Ausführungsformen der Erfindung wurden nur zum Zweck der Erläuterung und Beschreibung präsentiert. Sie sollen nicht erschöpfend sein oder die Erfindung auf die offenbarten Formen beschränken. Entsprechend sind viele Modifikationen und Variationen für Fachleute offensichtlich. Darüber hinaus ist es nicht beabsichtigt, daß die obige Offenbarung die Erfindung einschränkt. Der Schutzbereich der Erfindung wird durch die beigefügten Ansprüche definiert.

Claims (24)

  1. Verfahren zum Integrieren eines Moduls (108) in ein Computersystem, um ein vorheriges Modul zu ersetzen, welches ausgefallen bzw. fehlerhaft ist, wobei der Integrationsvorgang automatisch unter der Steuerung des Computersystems ohne menschlichen Eingriff stattfindet, und wobei das Verfahren aufweist: Erfassen (305) eines Einsetzens des Moduls in das Computersystem, Lesen (306) von Information aus dem Modul in Reaktion auf das Erfassen des Einsetzens des Moduls, Bestimmen (307) aus der von dem Modul gelesenen Information, welche Art von Modul in das Computersystem eingesetzt worden ist, Anzeigen (311) eines Fehlerzustands, wenn die Art des Moduls, welches eingesetzt worden ist, nicht die Funktionen des vorherigen Moduls ausführen kann, Bestimmen (312) aus der aus dem Modul gelesenen Information, ob das Modul versagt hat bzw. ausgefallen ist, seit das Modul zum ersten Mal geliefert oder zuletzt repariert worden war, Anzeigen eines Fehlerzustands (311), wenn das Modul ausgefallen ist, seit das Modul zum ersten Mal geliefert oder zuletzt repariert worden ist, und Integrieren des Moduls in das Computersystem, falls kein Fehlerzustand angezeigt worden ist.
  2. Verfahren nach Anspruch 1, wobei das Integrieren des Moduls in das Computersystem aufweist: Laufenlassen (320) von Funktionstests auf dem Modul, und Laden (322) von Konfigurationsinformation in das Modul.
  3. Verfahren nach Anspruch 1 oder 2, welches weiterhin das Aktualisieren (302) eines Fehlerzustandsanzeigers aufweist, welcher in einem nicht-flüchtigen Speicher (110) in dem Modul angeordnet ist, falls ein Fehler in dem Modul lokalisiert wird.
  4. Verfahren nach einem der vorstehenden Ansprüche, wobei das Bestimmen, ob das Modul einen Fehler hatte, seit das Modul zum ersten Mal geliefert oder zuletzt repariert worden war, das Untersuchen von Information über die Vergangenheit aus dem Modul umfaßt, um den Fehlerzustand des Moduls zu bestimmen.
  5. Verfahren nach einem der vorstehenden Ansprüche, wobei das Erfassen des Einsetzens des Moduls in das Computersystem das Erfassen (304) eines Entfernens des vorherigen Moduls aus dem Computersystem umfaßt.
  6. Verfahren nach einem der Ansprüche 1 bis 4, wobei das Erfassen des Einsetzens des Moduls in das Computersystem das Empfangen von Information aus einem elektrischen Schaltkreis (204) umfaßt, der eine Anwesenheit des Moduls in dem Computersystem erfaßt.
  7. Verfahren nach einem der Ansprüche 1 bis 4, wobei das Erfassen des Einsetzens des Moduls in das Computersystem das periodische Abfragen des Moduls umfaßt, um zu bestimmen, ob das Modul in dem Computersystem vorhanden ist.
  8. Verfahren nach einem der vorstehenden Ansprüche, wobei das Lesen von Information aus dem Modul das Lesen der Information aus einem nicht-flüchtigen Speicher (110) innerhalb des Moduls aufweist.
  9. Verfahren nach einem der vorstehenden Ansprüche, welches weiterhin das Empfangen von Integrationsbefehlen aufweist, die durch einen menschlichen Benutzer manuell eingegeben werden, um eine Integration zu erreichen, obwohl der Fehlerstatus des Moduls anzeigt, daß das Modul versagt hat, seit es erstmals geliefert oder zuletzt repariert worden ist.
  10. Verfahren nach einem der vorstehenden Ansprüche, welches weiterhin das Erfassen (302) aufweist, daß das vorherige Modul versagt hat, und anzeigt, daß das vorherige Modul ausgetauscht werden muß.
  11. Verfahren nach einem der vorstehenden Ansprüche, welches weiterhin, falls ein Fehlerzustand signalisiert wird, aufweist: Entfernen des Moduls von dem Computersystem, Reparieren des Moduls und Löschen eines Fehleranzeigers in dem Modul, um anzuzeigen, daß das Modul ausgetauscht worden ist.
  12. Computerausführbare Befehle, die, wenn sie durch einen Computer ausgeführt werden, bewirken, daß der Computer ein Verfahren zum Integrieren eines Moduls in ein Computersystem ausführt, um ein früheres Modul (108) zu ersetzen, welches ausgefallen ist, wobei der Integrationsprozeß automatisch unter der Steuerung des Computersystems ohne menschlichen Eingriff stattfindet, wobei das Verfahren aufweist: Erfassen des Einsetzens des Moduls in das Computersystem, Lesen von Information von dem Modul in Reaktion auf das Erfassen des Einsetzens des Moduls, Bestimmen aus der aus dem Modul gelesenen Information, welcher Modultyp in das Computersystem eingesetzt worden ist, Anzeigen eines Fehlerzustands, wenn der Modultyp, der eingesetzt worden ist, Funktionen des vorherigen Moduls nicht ausführen kann, Bestimmen aus der aus dem Modul gelesenen Information, ob das Modul versagt hat, seit das Modul zum ersten Mal geliefert oder zuletzt repariert worden ist, Anzeigen eines Fehlerzustands, falls das Modul versagt hat bzw. ausgefallen ist, seit das Modul zum ersten Mal geliefert oder zuletzt repariert worden ist, und Integrieren des Moduls in das Computersystem, falls kein Fehlerzustand gemeldet worden ist.
  13. Trägermedium, welches die computerausführbaren Anweisungen nach Anspruch 12 trägt.
  14. Trägermedium nach Anspruch 13 in Form eines Speichermediums.
  15. Trägermedium nach Anspruch 13 in Form einer Trägerwelle.
  16. Vorrichtung, die ein Modul (108) in ein Computersystem integriert, um ein vorheriges Modul zu ersetzen, welches ausgefallen ist, wobei der Integrationsvorgang automatisch unter der Steuerung des Computersystems ohne menschlichen Eingriff stattfindet, wobei die Vorrichtung aufweist: einen Erfassungsmechanismus (204) in dem Computersystem für das Einsetzen, welcher automatisch ein Einsetzen des Moduls in das Computersystem erfaßt, einen Informationslesemechanismus, welcher in Reaktion auf das Erfassen des Einsetzens des Moduls Information aus dem Modul liest, einen Fehleranzeigemechanismus, der dafür ausgelegt ist, aus der aus dem Modul gelesenen Information zu bestimmen, was für ein Typ von Modul in das Computersystem eingesetzt worden ist, und einen Fehlerzustand anzuzeigen, wenn der Modultyp, der eingesetzt worden ist, Funktionen des vorherigen Moduls nicht ausführen kann, wobei der Fehleranzeigemechanismus zusätzlich so ausgestaltet ist, daß er aus der von dem Modul gelesenen Information bestimmt, ob das Modul versagt hat, seit das Modul zum ersten Mal geliefert oder zuletzt repariert worden ist, und einen Fehlerzustand anzuzeigen, falls das Modul versagt hat, seit es zum ersten Mal geliefert oder zuletzt repariert worden ist, und einen Integrationsmechanismus, der dafür ausgelegt ist, das Modul in das Computersystem zu integrieren, falls kein Fehlerzustand angezeigt worden ist.
  17. Vorrichtung nach Anspruch 16, wobei der Integrationsmechanismus so ausgestaltet ist, daß er das Modul in das Computersystem integriert, indem er Funktionstests auf dem Modul ablaufen läßt, und Konfigurationsinformation in das Modul lädt.
  18. Vorrichtung nach einem der Ansprüche 16 oder 17, welche weiterhin einen Aktualisierungsmechanismus für den Fehlerzustand aufweist, welcher den Fehlerzustandsanzeiger aktualisiert, der in einem nicht-flüchtigen Speicher (110) in dem Modul angeordnet ist, falls ein Fehler in dem Modul lokalisiert wird.
  19. Vorrichtung nach einem der Ansprüche 16 bis 18, wobei der Fehleranzeigemechanismus dafür ausgelegt ist, zu bestimmen, ob das Modul versagt hat, seit das Modul erstmalig geliefert oder zuletzt repariert wurde, indem Information über die Historie aus dem Modul untersucht wird, um den Fehlerzustand des Moduls zu bestimmen.
  20. Vorrichtung nach einem der Ansprüche 16 bis 19, wobei der Einsetzerfassungsmechanismus einen elektrischen Schaltkreis umfaßt, der eine Anwesenheit des Moduls in dem Computersystem erfaßt.
  21. Vorrichtung nach einem der Ansprüche 16 bis 19, wobei der Einsatzerfassungsmechanismus dafür ausgelegt ist, periodisch das Modul abzufragen, um zu bestimmen, ob das Modul in dem Computersystem vorhanden ist.
  22. Vorrichtung nach einem der Ansprüche 16 bis 19, welche weiterhin einen manuellen Integrationsmechanismus aufweist, der dafür ausgelegt ist, Integrationsbefehle zu empfangen, die durch einen menschlichen Bediener manuell eingegeben werden, um eine Integration zu erreichen trotz des Fehlerzustands des Moduls, der anzeigt, daß das Modul versagt hat, seit es zum ersten Mal geliefert oder zuletzt repariert worden ist.
  23. Vorrichtung nach einem der Ansprüche 16 bis 22, welche weiterhin einen Erfassungsmechanismus für den Modulausfall bzw. einen Modulfehler aufweist, der dafür ausgelegt ist, zu erfassen, daß das frühere Modul ausgefallen ist bzw. fehlerhaft war, und anzuzeigen, daß das frühere Fehlermodul ersetzt werden muß.
  24. Computerprogramm, welches computerausführbare Befehle aufweist, um ein Computersystem zu veranlassen, das Verfahren nach irgendeinem der Ansprüche 1 bis 11 auszuführen.
DE60008872T 1999-04-30 2000-04-21 Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem Expired - Fee Related DE60008872T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US303058 1994-09-08
US09/303,058 US6363493B1 (en) 1999-04-30 1999-04-30 Method and apparatus for automatically reintegrating a module into a computer system
PCT/US2000/010683 WO2000067126A1 (en) 1999-04-30 2000-04-21 Method and apparatus for automatically reintegrating a module into a computer system

Publications (2)

Publication Number Publication Date
DE60008872D1 DE60008872D1 (de) 2004-04-15
DE60008872T2 true DE60008872T2 (de) 2005-02-03

Family

ID=23170360

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60008872T Expired - Fee Related DE60008872T2 (de) 1999-04-30 2000-04-21 Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem

Country Status (6)

Country Link
US (1) US6363493B1 (de)
EP (1) EP1185932B1 (de)
JP (1) JP2002543521A (de)
AU (1) AU4476500A (de)
DE (1) DE60008872T2 (de)
WO (1) WO2000067126A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718472B1 (en) * 1999-10-08 2004-04-06 Sun Microsystems, Inc. System for suspending power to a field replaceable unit upon receiving fault signal and automatically reapplying power thereto after the replacement unit is secured in position
JP4808904B2 (ja) * 2000-06-02 2011-11-02 トムソン ライセンシング 無電力供給状態での集積回路のバス動作
EP1413945A3 (de) 2002-10-24 2006-10-04 Sun Microsystems, Inc. System und Methode zur Bereitstellung einer dauerhaften Energiemaske
US7484125B2 (en) * 2003-07-07 2009-01-27 Hewlett-Packard Development Company, L.P. Method and apparatus for providing updated processor polling information
US7590885B2 (en) * 2005-04-26 2009-09-15 Hewlett-Packard Development Company, L.P. Method and system of copying memory from a source processor to a target processor by duplicating memory writes
EP1899832B1 (de) * 2005-06-30 2009-12-09 Nxp B.V. Softwareschicht zur kommunikation zwischen rs-232- zu i2c-übersetzungs-ic und host
EP2345015B1 (de) * 2008-09-30 2015-03-25 Saudi Arabian Oil Company System und verfahren zur verbesserten koordination zwischen kontroll- und sicherheitssystemen
US8990467B2 (en) * 2010-10-12 2015-03-24 Canon Kabushiki Kaisha Printing apparatus and operation setting method thereof
TWI566099B (zh) * 2014-12-30 2017-01-11 鴻海精密工業股份有限公司 具有整合功能的電子裝置及多裝置整合控制方法
US10320897B2 (en) 2015-12-15 2019-06-11 Microsoft Technology Licensing, Llc Automatic system response to external field-replaceable unit (FRU) process

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4503535A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for recovery from failures in a multiprocessing system
US5423050A (en) * 1991-11-27 1995-06-06 Ncr Corporation Intermodule test across system bus utilizing serial test bus
JPH0821015B2 (ja) 1992-01-20 1996-03-04 インターナショナル・ビジネス・マシーンズ・コーポレイション コンピュータならびにそのシステム再構成化装置および方法
US5809224A (en) * 1995-10-13 1998-09-15 Compaq Computer Corporation On-line disk array reconfiguration
TW293832B (en) 1995-10-13 1996-12-21 Du Pont Polyimide alignment film from 2,2-bis(3,4-dicarboxyphenyl)-hexafluoropropane dianhydride and ortho-substituted aromatic diamines for active matrix liquid crystal displays
US6141769A (en) * 1996-05-16 2000-10-31 Resilience Corporation Triple modular redundant computer system and associated method
US6038680A (en) * 1996-12-11 2000-03-14 Compaq Computer Corporation Failover memory for a computer system
US6178520B1 (en) * 1997-07-31 2001-01-23 Lsi Logic Corporation Software recognition of drive removal or insertion in a storage system
US6108732A (en) * 1998-03-30 2000-08-22 Micron Electronics, Inc. Method for swapping, adding or removing a processor in an operating computer system

Also Published As

Publication number Publication date
US6363493B1 (en) 2002-03-26
EP1185932A1 (de) 2002-03-13
DE60008872D1 (de) 2004-04-15
AU4476500A (en) 2000-11-17
WO2000067126A1 (en) 2000-11-09
EP1185932B1 (de) 2004-03-10
JP2002543521A (ja) 2002-12-17

Similar Documents

Publication Publication Date Title
DE69318600T2 (de) On-line-Ersetzen eines Moduls in einer Datenverarbeitungsanlage mit mehreren Modulen
DE2539977C3 (de) Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage
DE69608641T2 (de) Ausfallbeseitigung für Steuergerät für eine Ein-/Ausgabevorrichtung
DE68927941T2 (de) Datenschutzsystem in einem Datenverarbeitungssystem
DE3587520T2 (de) Anwenderschnittstellenprozessor für Rechnernetz.
DE69430981T2 (de) Speicherungssystem
DE10296986B4 (de) Verfahren und Vorrichtung zum Programmieren eines BIOS
DE69223799T2 (de) Einstellung der systemkonfiguration in einem datenverarbeitungssystem
DE69930846T2 (de) Mehrkonfiguration-rückwand
DE60212125T2 (de) Kopierprozeduren mit verifikation in datennetzwerken
DE69710618T2 (de) Verfahren und vorrichtung zur fehlerdiagnose und -korrektur in rechnern
DE3851247T2 (de) An Ort und Stelle diagnostizierbare elektronische Leiterplatte.
DE69627842T2 (de) Fehleranzeige für ein Speichersystem mit auswechselbaren Speichereinheiten
EP1346881A2 (de) Verfahren und Vorrichtung zum Übernehmen von Daten
DE4317729A1 (de) Programmierbare Steuereinheit
DE19747396A1 (de) Verfahren und Anordnung zur Schaffung einer Ferndiagnose für ein elektronisches System über ein Netz
DE10231938A1 (de) Computersystem mit mehreren Sicherungs-Verwaltungsprozessoren zur Handhabung eines Ausfalls eines eingebetteten Prozessors
EP0026377A2 (de) Rechnerarchitektur auf der Basis einer Multi-Mikrocomputerstruktur als fehlertolerantes System
DE60008872T2 (de) Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem
EP0236803A1 (de) Verfahren zum Betrieb einer fehlergesicherten hochverfügbaren Multiprozessor-Zentralsteuereinheit eines Vermittlungssystemes
DE102007033346A1 (de) Verfahren und Vorrichtung zur Administration von Computern
DE2842548A1 (de) Programmierbare speicherschutzlogik fuer mikroprozessorsysteme
DE69934665T2 (de) Vorrichtung und verfahren zum gesicherten schreiben in einem plattencachespeicher für festplatten eines massenspeichersubsystems
DE3322509A1 (de) Selbsttestuntersystem und -verfahren fuer ein kernreaktorschutzsystem
DE69801399T2 (de) Urladen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee