[go: up one dir, main page]

DE69802535T2 - Aktive fehlererkennung - Google Patents

Aktive fehlererkennung

Info

Publication number
DE69802535T2
DE69802535T2 DE69802535T DE69802535T DE69802535T2 DE 69802535 T2 DE69802535 T2 DE 69802535T2 DE 69802535 T DE69802535 T DE 69802535T DE 69802535 T DE69802535 T DE 69802535T DE 69802535 T2 DE69802535 T2 DE 69802535T2
Authority
DE
Germany
Prior art keywords
input
output processor
data transmission
category
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69802535T
Other languages
English (en)
Other versions
DE69802535D1 (de
Inventor
C. Lord
B. Schwartz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Marathon Technologies Corp
Original Assignee
Marathon Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Marathon Technologies Corp filed Critical Marathon Technologies Corp
Publication of DE69802535D1 publication Critical patent/DE69802535D1/de
Application granted granted Critical
Publication of DE69802535T2 publication Critical patent/DE69802535T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1633Error detection by comparing the output of redundant processing systems using mutual exchange of the output between the redundant processing components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Small-Scale Networks (AREA)
  • Computer And Data Communications (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf das Erkennen von Fehlern, wie z. B. Kommunikationsfehlern, in einem fehlertoleranten Computersystem.
  • In fehlertoleranten Computersystemen werden für gewöhnlich redundante Hardware- Elemente verwendet. Für gewöhnlich haben einzelne Elemente im System die Aufgabe, Fehler zu erkennen, indem sie Signale überwachen, die von anderen Elementen des Systems oder außerhalb des Systems generiert werden.
  • Zusätzlich kann ein Systemelement periodisch einen sogenanntes "Herzschlag"-Signal übertragen, das anzeigt, daß das Element richtig funktioniert. Wird von einem anderen Systemelement dieses Herzschlag-Signal nicht empfangen, dann legt dies dem Empfänger- Element nahe, daß das Überträgerelement nicht richtig funktioniert. Daß kein Herzschlag- Signal empfangen wird kann jedoch auch durch einen Fehler im Übertragungsweg zwischen den beiden Elementen bedingt sein. Im Allgemeinen sollte bei der Fehlerbehandlung zwischen Fehlern in einem Systemelement und Fehlern im Übertragungsweg zwischen Elementen unterschieden werden.
  • Redundante Netzwerk-Interface-Controller (NICs) werden in fehlertoleranten Computersystemen verwendet, um eine zuverlässige, ununterbrochene Kommunikation mit einem externen Netzwerk zu gewährleisten. Im Allgemeinen befindet sich ein NIC in einem Pimärmodus bzw. aktiven Modus, in dem der NIC für die Kommunikation mit anderen Vorrichtungen im Netzwerk zuständig ist, während sich der andere NIC in einem Standby- Modus befindet.
  • Im Betrieb können die NICs Herzschlag-Nachrichten austauschen, um Fehler in einem von einem NIC ausgehenden Verbindungsweg durch das externe Netzwerk und zurück zu einem anderen NIC aufzuspüren. Ein Fehler im Verbindungsweg zwischen NICs kann an verschiedenen Punkten auftreten, einschließlich der Ein- und Ausgängen der NICs, der Übertragungs- und Empfangsverbindungen zwischen den NICs und dem externen Netzwerk, - oder im externen Netzwerk selbst. Der Verbindungspunkt zum externen Netzwerk liegt im Allgemeinen in einem Port eines Netzwerk-Verteilers, wobei der Verteiler mit verschiedenen Netzwerkkomponenten verbunden ist. Jeder NIC kann mit einem anderen Verteiler im externen Netzwerk verbunden sein, um zu vermeiden, daß ein einzelner Verteiler zu einer kritischen Fehlerstelle wird.
  • In der EP-A-0 649 092 ist ein Computersystem dargestellt, in dem die Verbindungen zu einem lokalen Netzwerk (LAN) überwacht werden, indem Herzschlag-Nachrichten zwischen den LAN-Controllern sowie anderweitiger Datenverkehr mit dem LAN überwacht werden.
  • Zusammenfassung
  • Die in den unabhängigen Ansprüchen 1 und 14 definierte Erfindung bezieht sich auf das Erkennen von Fehlern in einem fehlertoleranten Computersystem, das zwei Ein- /Ausgabeprozessoren beinhaltet, die mit einem Datenübermittlungssystem verbunden sind. Weitere Verbesserungen gehen aus den Unteransprüchen hervor.
  • Das Computersystem kann Fehler erkennen, die in Zusammenhang mit einem primären Ein-/Ausgabeprozessor oder einem Standby - Ein-/Ausgabeprozessor auftreten. Das System kann ferner zwischen Fehlern der Ein-/Ausgabeprozessoren und Übertragungsfehlern im Datenübermittlungsnetzwerk selbst unterscheiden. Zur Fehlererkennung analysiert das System Kategorien der Datenübermittlung, die nicht "herzschlagähnliche" Übertragungen sind. Das System kann Fehler erkennen, wenn die Ein-/Ausgabeprozessoren sich auf einem gemeinsamen Netzwerksegment befinden und den gleichen Datenverkehr überwachen können. Das System kann auch dann Fehler erkennen, wenn sich die Prozessoren auf verschiedenen Segmenten befinden und, aufgrund der Filterfunktion von Netzwerkelementen wie z. B. Schaltern oder aktiven Verteilern, nicht den gleichen Datenverkehr überwachen können.
  • Auf Kategorien der Datenübermittlung, die von jedem Ein-/Ausgabeprozessor verarbeitet werden, kann ein zeitliches Kriterium angewendet werden, zur Erkennung eines Fehlers kann zwischen den für die verschiedenen Prozessoren erhaltenen Ergebnissen eine Beziehung hergestellt werden. Ein Fehler kann z. B. dann angezeigt werden, wenn eine Differenz in der zeitlichen Koordination der Datenübermittlung einen Schwellenwert überschreitet. Das zeitliche Kriterium kann die Zeit einer letzten Übertragung oder eines letzten Empfangs einer Kategorie der Datenübermittlung sein.
  • Eine Kategorie der Datenübermittlung können z. B. Nachrichten sein, die von außerhalb des fehlertoleranten Systems stammen, wie z. B. von einem anderen, mit dem Datenübermittlungssystem verbundenen Computersystem. Solche Nachrichten können an eine Systemgruppe gerichtet sein, zu der das fehlertolerante System gehört. Die Kategorie kann auch Nachrichten mit einschließen, die von einem der Ein-/Ausgabeprozessoren stammen, einschließlich solcher Nachrichten, die an den anderen Prozessor gerichtete sind, oder Nachrichten, die von einem anderen Element des Systems stammen.
  • Ein Aspekt der vorliegenden Erfindung ist allgemein das Erkennen eines Fehlers in einem fehlertoleranten Computersystem mit einem ersten Ein-/Ausgabeprozessor und einem zweiten Ein-/Ausgabeprozessor, die an ein Datenübermittlungssystem gekoppelt sind. Auf Kategorien der Datenübermittlung, die vom ersten und vom zweiten Ein-/Ausgabeprozessor verarbeitet werden, wird ein zeitliches Kriterium angewendet, um ein erstes und ein zweites Zeitmessungs-Ergebnis zu erhalten. Zwischen den Zeitmessungs-Ergebnissen wird eine Beziehung hergestellt, und auf Grundlage der so hergestellten Beziehung wird festgestellt, ob ein Fehler aufgetreten ist.
  • Ausführungen der Erfindung können eines oder mehrere der folgenden Merkmale beinhalten. Das Erkennen eines Fehlers kann beispielsweise beinhalten, einen Fehler daran zu erkennen, daß die Differenz zwischen den Zeitmessungs-Ergebnissen einen bestimmten Schwellenwert überschreitet.
  • Das zeitliche Kriterium kann die Zeit einer letzten Übertragung oder eines letzten Empfangs sein. Die Kategorie der Datenübermittlung kann Nachrichten beinhalten, die vom ersten Ein-/Ausgabeprozessor stammen, wie z. B. Nachrichten, die an eine Adresse gerichtet sind, auf die normalerweise der zweite Ein-/Ausgabeprozessor anspricht, oder Nachrichten, die vom ersten Ein-/Ausgabeprozessor abgeschickt und über das Datenübermittlungssystem dem zweiten Ein-/Ausgabeprozessor zugeleitet werden. Die Kategorie der Datenübermittlung kann auch Nachrichten beinhalten, die von außerhalb des Computersystems stammen, wie z. B. Nachrichten, die von einem zweiten Computer stammen, der mit dem Datenübertragungssystem verbunden ist, oder Nachrichten, die an eine Systemgruppe gerichtet sind, zu der das Computersystem gehört. Die Kategorie der Datenübermittlung kann auch Nachrichten beinhalten, die von einem dritten Element des Computersystems stammen, das mit den Ein-/Ausgabeprozessoren Daten austauscht.
  • Das zeitliche Kriterium kann am ersten Ein-/Ausgabeprozessor auf die Kategorie der Datenübermittlung angewendet werden, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, und das erste Zeitmessungs-Ergebnis kann vom ersten Ein-/Ausgabeprozessor an den zweiten Ein-/Ausgabeprozessor übermittelt werden. Das zeitliche Kriterium kann am zweiten Ein-/Ausgabeprozessor auf die Kategorie der Datenübermittlung angewendet werden, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, und die Beziehung zwischen den Zeitmessungs-Ergebnissen kann am zweiten Ein-/Ausgabeprozessor hergestellt werden. Das erste Zeitmessungs-Ergebnis kann über einen bestimmten Kommunikationskanal zwischen den Ein-/Ausgabeprozessoren übermittelt werden.
  • Eine Vielzahl von zeitlichen Kriterien kann auf eine entsprechende Vielzahl von Kategorien der Datenübermittlung angewendet werden, die von den Ein-/Ausgabeprozessoren verarbeitet werden, um eine erste und eine zweite Vielzahl von Zeitmessungs-Ergebnissen zu erhalten. Zwischen den Ergebnissen aus der ersten Vielzahl von Zeitmessungs-Ergebnissen und den entsprechenden Ergebnissen aus der zweiten Vielzahl von Zeitmessungs-Ergebnissen können Beziehungen hergestellt werden
  • Ein Vorteil der vorliegenden Erfindung besteht darin, daß Fehler, die auf dem Datenübermittlungsweg zwischen dem fehlertoleranten System und dem Datennetzwerk entstehen, erkannt werden können, und insbesondere, daß Fehler, die auf den Datenwegen entstehen, die die Ein-/Ausgabeprozessoren miteinander verbinden, von Fehlern in den Prozessoren unterschieden werden können.
  • Weitere Merkmale und Vorteile der vorliegenden Erfindung gehen aus der nachfolgenden Beschreibung unter Bezugnahme auf die Figuren sowie aus den Ansprüchen hervor.
  • Kurzbeschreibung der Figuren
  • Es zeigen
  • Fig. 1 ein Blockschaltbild eines fehlertoleranten Computersystems mit redundanten Rechenelementen und Ein-/Ausgabeprozessoren;
  • Fig. 2 ein Zustandsdiagramm eines Ein-/Ausgabeprozessors; und
  • Fig. 3 bis 5 Ablaufpläne von Funktionen, die von einem Ein-/Ausgabeprozessor ausgeführt werden.
  • Beschreibung
  • In Fig. 1 ist ein fehlertolerantes System 10 dargestellt, das zweifach redundante Rechenelemente (CEs) 12 und 14 enthält, sowie zweifach redundante Ein- /Ausgabeprozessoren (IOPs) 24 und 26 und Verbindungsvorrichtungen 36 und 38 für die Übermittlung. Die CEs 12 und 14 führen parallele Betriebsabläufe aus. Jedes CE kommuniziert mit sowohl IOP 24 als auch IOP 26. CE 12 ist über die Verbindungsleitungen 50 und 54 angeschlossen, und CE 14 über die Verbindungsleitungen 52 und 56. Die Verbindungsleitungen führen durch die Verbindungsvorrichtungen 36 und 38 für die Datenübermittlung.
  • Jedes CE schließt eine Zentraleinheit (CPU) 16 oder 18 und einen Interface-Controller (IC) 20 oder 22 mit ein. Die ICs stellen eine Schnittstelle zwischen den CPUs und den Verbindungsleitungen her. Eine Ein-/Ausgabeanforderung der CPU 16 wird z. B. vom IC 20 über die Verbindungsleitungen 50 und 54 an die IOPs 24 und 26 übertragen. Aufgrund der sie verbindenden Kommunikationsstruktur sollten die IOPs im Normalbetrieb identische Befehlssequenzen von jedem CE erhalten
  • Jeder IOP schließt eine CPU 28 oder 30 und einen Netzwerk-Interface-Controller (NIC) 32 oder 34 mit ein. Die Netzwerk-Provider 29 und 31 sind Softwaretreiber, die in den CPUs 28 und 30 aktiv sind. Die NICs 32 und 34 machen es möglich, daß die Netzwerk- Provider durch die Netzwerkverbindungen 62 und 64 über ein lokales Netz (LAN) 40 miteinander kommunizieren. Über einen dafür vorgesehenen Übertragungsweg 60, der die CPUs 28 und 30 miteinander verbindet, können die Netzwerk-Provider 29 und 31 Nachrichten austauschen, ohne das LAN 40 zu nutzen.
  • Ein Netzwerk-Provider befindet sich in einem Primärzustand, während sich der andere Netzwerk-Provider im Standby-Zustand befindet. Aus CE 12 oder 14 stammende Daten werden nur von dem sich im Primärzustand befindenden Netzwerk-Provider über das LAN an andere Vorrichtung übertragen.
  • Die Netzwerkverbindungen 62 und 64 stellen Verbindungen zu den NICs 32 und 34 her und enden an Eingängen der Datenübermittlungsverteiler 42 und 44 des LAN 40. Die Verteiler 42 und 44 sind über eine Brücke 66 des LAN 40 miteinander verbunden. Die Verteiler 42 und 44 haben bei der Datenübermittlung keine Filterfunktion, wohingegen die Brücke 66 Datenübermittlungen filtert, die nicht an eine Vorrichtung gerichtet sind, auf die über einen bestimmten Eingang der Brücke zugegriffen wird. Die Verteiler 42 und 44 befinden sich deshalb auf verschiedenen Segmenten des LAN 40. Andere Vorrichtungen, wie z. B. die Vorrichtung 46, die an das LAN 40 angeschlossen sind, können mit dem fehlertoleranten System 10 kommunizieren.
  • Jeder NIC 32 und 34 hat eine festgelegte, eindeutige "physikalische" Adresse und eine programmierbare "logische" Adresse, die so konfiguriert ist, daß sie für beide NICs gleich ist. Die logische Adresse wird für die Kommunikation zwischen dem fehlertoleranten System 10 und Vorrichtungen im LAN 40, wie z. B. der Vorrichtung 46 oder Vorrichtungen, auf die über das LAN 40 zugegriffen werden kann, genutzt. Jeder NIC ist auch dafür programmiert, Nachrichten mit Gruppenadressierung zu empfangen, wie z. B. Nachrichten mit allgemeiner Adressierung, mit mehreren Adressen, oder mit funktionellen Adressen. Eine von einem NIC verschickte Nachricht mit Gruppenadressierung weist die eindeutige physikalische Adresse des NIC als Nachrichtenquelle aus. Der Empfänger einer Nachricht mit Gruppenadressierung kann also feststellen, von welchem NIC die Nachricht abgeschickt wurde.
  • Die Netzwerkverbindungen 62 und 64 können auf dem gleichen Segment des LAN 40 enden, oder auf verschiedenen Segmenten. Allgemein ist es so, daß, wenn die Verbindungen 62 und 64 auf dem gleichen Segment enden, beide NICs den gesamten Datenverkehr auf diesem Segment überwachen können. Dementsprechend können Daten, die von einem NIC übertragen werden, vom andern NIC selbst dann empfangen werden, wenn sie nicht an diesen NIC adressiert sind. Im Gegensatz dazu können, wie in Fig. 1 gezeigt, die Netzwerkverbindungen 62 und 64 auf verschiedenen Segmenten bei den Verteilern 42 und 44 enden. Diese Verteiler sind durch die Brücke 66 so miteinander verbunden, daß sie sich auf verschiedenen Segmenten des LAN 40 befinden. Die Brücke 66 ist so konfiguriert, daß sie an ein Segment adressierte Daten filtert, um unnötigen Gebrauch von Übertragungskapazitäten dieses Segments zu vermeiden. Die Brücke vergleicht von einem Segment ankommende Daten mit einer Tabelle von Adressen von Vorrichtungen, die auf diesem bestimmten Segment mit der Brücke 66 verbunden sind, oder die über dieses Segment kommunizieren. Eine Nachricht, die an eine bestimmte Vorrichtung adressiert ist (d. h. eine Direktnachricht anstelle einer Nachricht mit Gruppenadressierung), die nicht in der Tabelle für ein Segment aufgelistet ist, wird von der Brücke 66 nicht an dieses Segment weitergeleitet. Andererseits werden Nachrichten mit Gruppenadressierung auf allen Segmenten eines LAN ungefiltert weitergeleitet.
  • Im Betrieb stellt das fehlertolerante System 10 fest, ob die Netzwerkverbindungen 62 und 64 mit einem gemeinsamen Segment des LAN 40 verbunden sind, und daraus resultierend, ob beide NICs den gleichen Netzwerkverkehr überwachen können sollten. Stellt das System fest, daß sich die NICs auf verschiedenen Segmenten befinden, dann folgt daraus, daß nur der Verkehr mit identischer Gruppenadressierung von beiden NICs gemeinsam überwacht werden kann.
  • Im Betrieb wird die Datenübermittlung sowohl vom primären Netzwerk-Provider als auch vom Standby-Netzwerk-Provider überwacht um festzustellen, ob ein Fehler aufgetreten ist. Würde die Netzwerkverbindung eines IOP durch einen aufgetretenen Fehler außer Funktion gesetzt, so werden entsprechende Maßnahmen ergriffen. Verliert der aktive Netzwerk-Provider die Verbindung zum Netzwerk und ist der Standby-Netzwerk-Provider online, so wird der Standby-Netzwerk-Provider zum neuen primären Netzwerk-Provider umgeschaltet. Verliert der Standby-Netzwerk-Provider die Verbindung zum Netzwerk, so geht er in den offline Zustand über, bis die Verbindung wiederhergestellt ist.
  • Die Netzwerk-Provider erkennen Fehler, indem sie Kategorien der Datenübermittlung überwachen und die seit der letzten Datenübermittlung in jeder Kategorie vergangene Zeit festhalten. Erhält ein Netzwerk-Provider einen Hinweis darauf, daß ein Übertragungsfehler aufgetreten sein könnte, so tauscht er mit dem anderen Netzwerk-Provider über den Übertragungsweg 60 eine Zustandsmeldung aus. Die Zustandsmeldung enthält die Zeiten der letzten Übertragung. Jeder Netzwerk-Provider vergleicht die in einer empfangenen Nachricht enthaltenen Zeiten mit den Zeiten, die im empfangenden Netzwerk-Provider festgehalten sind, um eventuelle Systemfehler zu erkennen. Bei diesen Vergleichen wird vom Netzwerk- Provider ein Toleranzzeitraum als Maßstab angelegt, innerhalb dessen die verglichenen Zeiten übereinstimmen sollten. Dieser Toleranzzeitraum berücksichtigt natürliche Schwankungen in den Übertragungszeiten sowie die für das Erstellen und Übertragen der Zustandsmeldungen benötigte Zeit.
  • Um die Zustände der Netzwerkverbindungen 62 und 64 sowie des Zustand des LAN 40 zu erfassen, übertragen die Netzwerk-Provider 29 und 31 über die NICs 32 und 34 periodisch Nachrichten mit Gruppenadressierung, bekannt als "Störpakete" (Noise Packets), die an eine Gruppenadresse gerichtet sind, die von beiden NICs überwacht wird. Als Ursprungsadresse der Nachricht mit Gruppenadressierung wird die eindeutige physikalische Adresse des übertragenden NIC angegeben, so daß die Empfänger-NICs die Quelle identifizieren können. Befinden sich die Netzwerkverbindungen auf einem gemeinsamen Segment, so wird die Nachricht direkt von den NICs empfangen. Befinden sich Quell- und Empfänger-NIC auf verschiedenen Segmenten, so werden die Pakete mit Gruppenadressierung im Normalbetrieb des LAN 40 von einem Segment an das andere weitergeleitet.
  • Beim Initialisieren des fehlertoleranten Systems 10 durchlaufen die Netzwerk- Provider 29 und 31 eine Sequenz von drei Anlaufzuständen. In einem ersten Zustand, dem verbundenen Zustand (joined State), haben beide IOPs eine Verbindung zum LAN 40 sowie eine über den Übertragungsweg 60 führende Verbindung zwischen den Prozessoren 28 und 30 hergestellt. Im nächsten, einem synchronisierten Zustand, wird die auf den CPUs 16 und 18 ausgeführte Übertragungs-Umleitungssoftware mit den Netzwerk-Providern 29 und 31 synchronisiert. In einem vollständig initialisierten Zustand können schließlich Ein- /Ausgabeanforderungen, die in den CPUs 16 und 18 verarbeitet werden, zur Kommunikation mit dem LAN 40 an die Netzwerk-Provider 29 und 31 verschickt werden.
  • Wie in Fig. 2 dargestellt nehmen beide Netzwerk-Provider, wenn sie vollständig initialisiert sind, in einen Online/Standby-Zustand 70 ein. In einem nächsten Schritt wird ein Netzwerk-Provider vom Online/Standby-Zustand in den Online/Primär-Zustand 72 überführt. Hat ein sich in einem der beiden Online-Zustände 70, 72 befindender Netzwerk-Provider einen Hinweis darauf, daß er die Verbindung zum Netzwerk verloren haben könnte, dann versendet dieser Netzwerk-Provider periodisch Netzwerk-Zustands-Anfragen an den anderen Netzwerk-Provider. Wird bestätigt, daß die Verbindung zum Netzwerk nicht mehr besteht, dann geht der Netzwerk-Provider in den Offline-Zustand 74 über. Erkennt der sich im Online/Primär-Zustand 72 befindende Nertzwerk-Provider, daß er nicht mehr mit dem Netzwerk verbunden ist und geht in den Offline-Zustand 74 über, dann geht der sich im Online/Standby-Zustand 70 befindende Netzwerk-Provider in den Online/Primär-Zustand über. Es ist zu beachten, daß der automatische Übergang vom Online/Primärzustand 72 in den Offline-Zustand 74 nur dann zulässig ist, wenn der andere Netzwerk-Provider sich im Online/Standby-Zustand 70 befindet. Ein Netzwerk-Provider, der sich im Offline-Zustand 74 befindet, versendet periodisch Netzwerk-Status-Anfragen an den anderen Netzwerk-Provider über die Verbindung 60. Ist die Netzwerkverbindung wiederhergestellt, dann nimmt der Netzwerk-Provider wieder den Zustand Online/Standby 70 ein.
  • Zusätzlich zu den automatischen Übergängen können vom Operator gesteuerte Zustandswechsel von den Zuständen online und offline 70, 72, 74 in einen deaktivierten Zustand 76 auftreten. Wird ein sich im Zustand 76 befindender Netzwerk-Provider manuell reaktiviert, dann nimmt dieser Netzwerk-Provider den Online/Standby-Zustand 70 ein und geht dann unmittelbar in den Offline-Zustand 74 über, wenn die Verbindung zum Netzwerk nicht bestätigt wird. Schließlich kann durch weitere Erkennungsmechanismen festgestellt werden, daß ein Netzwerk-Provider ausgefallen ist, wodurch dieser in einen Fehlerzustand 78 überführt wird.
  • Wie in Fig. 3 dargestellt überprüft ein sich in einem der Online- oder Offline-Zustände 70, 72 oder 74 befindender Netzwerk-Provider mehrere Male, ob über den Übertragungsweg 60 eine Netzwerk-Zustands-Anfrage an den anderen Netzwerk-Provider gesendet werden sollte. Konkret stellt der Netzwerk-Provider fest, ob er eine Netzwerk-Zustands-Anfrage abschicken soll, nachdem ein bestimmter Netzwerk-Zustands-Intervall, genannt NetworkStatusInterval, abgelaufen ist. Der Standardwert für den NetworkStatusInterval beträgt 1.000 Millisekunden. Nach Ablauf dieses Intervalls stellt der Netzwerk-Provider fest, ob eine von drei Bedingungen erfüllt wird. Die erste Bedingung ist erfüllt, wenn in einem Paket-Empfangs-Intervall, genannt ReceivePacketInterval, keine "Nicht-Stör-Pakete" (Non Noise Packets) empfangen wurden (Schritt 80). Der Standardwert für den ReceivePacket- Interval beträgt 4.000 Millisekunden, was dem typischen Maximalwert für den Intervall zwischen vom System 10 empfangenen Paketen entspricht. Die zweite Bedingung ist dann erfüllt, wenn vom anderen Netzwerk-Provider im vorangegangenen Paket-Empfangs-Intervall keine Störpakete empfangen wurden (Schritt 82). Die dritte Bedingung ist immer dann erfüllt, wenn der Netzwerk-Provider sich im Offline-Zustand 74 befindet (Schritt 84). Ist eine dieser Bedingungen erfüllt, dann wird an den anderen Netzwerk-Provider eine Netzwerk-Zustands- Anfrage abgeschickt (Schritt 86). Beim Übertragen einer Anfrage wird nicht berücksichtigt, ob auf eine vorangegangene Anfrage eine Antwort empfangen wurde.
  • Nach Erhalt einer Netzwerk-Zustands-Anfrage erstellt ein Netzwerk-Provider üblicherweise eine Antwortnachricht, die folgende Kommunikationsdaten enthält:
  • TimeLastNoiseReceived Seit Empfang des letzten Störpakets vom anderen Prozessor vergangene Zeit
  • TimeLastPacketReceived Seit Empfang des letzten an die logische (System-) Adresse gerichteten Nicht-Stör-
  • Pakets vergangene Zeit
  • TimeLastMulticastReceived Seit Empfang des letzten Nicht-Stör-Pakets mit Gruppenadressierung vergangene Zeit
  • TimeLastNoiseTransmitted Seit Absenden der letzten Störnachricht vergangene Zeit
  • TimeNetworkMonitored Zeitraum, in dem der Netzwerk-Provider Daten gesammelt hat (d. h. verfügbare Betriebszeit des Systems)
  • CountTransmitFailures Aktueller Zählerstand für Übertragungsfehler
  • Um zu vermeiden, daß beide Netzwerk-Provider gleichzeitig einen Fehler erkennen und keiner von beiden im Online/Primärzustand 72 verbleibt, antwortet ein sich im Online/Primärzustand 72 befindender Netzwerk-Provider anders auf eine Netzwerk-Zustands- Anfrage, als ein Netzwerk-Provider, der sich nicht im Online/Primärzustand befindet. Verschickt ein sich im Online/Primärzustand 72 befindender lokaler Netzwerk-Provider eine Netzwerk-Zustands-Anfrage und erhält seinerseits eine Netzwerk-Zustands-Anfrage vom entfernten Netzwerk-Provider, bevor er auf seine eigene Anfrage eine Antwort erhalten hat, dann zieht der lokale Netzwerk-Provider die in der empfangenen Anfrage erhaltene Information heran, um seine eigene Anfrage zu beantworten, anstatt den Empfang einer Antwort abzuwarten. Der lokale Netzwerk-Provider antwortet nicht auf die von ihm empfangene Anfrage. Verschickt ein lokaler Netzwerk-Provider, der sich nicht im Online/Primärzustand 72 befindet, eine Netzwerk-Zustands-Anfrage und erhält seinerseits eine Netzwerk-Zustands-Anfrage vom entfernten Netzwerk-Provider, bevor er auf seine eigene Anfrage eine Antwort erhalten hat, dann antwortet der lokale Netzwerk-Provider auf die Anfrage und zieht nicht die in der empfangenen Anfrage erhaltene Information heran, um seine noch offene Anfrage zu beantworten.
  • Wie in Fig. 4 dargestellt stellt ein lokaler Netzwerk-Provider nach Erhalt eines Netzwerk-Status-Berichts (Schritt 87) fest, ob der lokale oder der entfernte Netzwerk- Provider sich noch nicht im vollständig initialisierten Zustand befindet (Schritt 88), ob sich der entfernte Netzwerk-Provider im Fehlerzustand 78 oder im deaktivierten Zustand 76 befindet (Schritt 90), oder ob sich der lokale Netzwerk-Provider im Fehlerzustand 78 oder im deaktivierten Zustand 76 (d. h. nicht in einem der Zustände online oder offline 70, 72 oder 74) befindet (Schritt 92). Wird keine dieser Bedingungen erfüllt, dann führt der lokale Netzwerk- Provider eine Prozedur 94 durch um festzustellen, ob der IOP die Verbindung zum Netzwerk verloren hat. Wird mindestens eine der Bedingungen erfüllt, dann wird die Antwortnachricht verworfen (Schritt 96), und die Antwort wird nicht verarbeitet.
  • Wie in Fig. 5 dargestellt wird im ersten Schritt der Prozedur 94 festgestellt, ob beide IOPs am gemeinsamen Datenverkehr beteiligt sind (Schritt 100). Die Definition des gemeinsamen Datenverkehrs hängt von der Feststellung des lokalen Netzwerk-Providers ab, ob sich beide IOPs auf einem gemeinsamen Segment oder auf verschiedenen Segmenten des LAN 40 befinden. Zunächst gehen beide Netzwerk-Provider davon aus, daß sich die IOPs auf verschiedenen Segmenten befinden. In diesem Falle bezieht sich der gemeinsame Datenverkehr auf von den IOPs empfangene Pakete mit Gruppenadressierung, die keine Störpakete sind. Beide IOPs nehmen am gemeinsamen Datenverkehr teil, wenn der Wert für TimeLastMulticastReceived im Netzwerk-Statusbericht und der vom lokalen Netzwerk- Provider berechnete Wert innerhalb eines Toleranzbereichs liegen, der als Receivelolerance bezeichnet wird. Der Standardwert für ReceiveTolerance beträgt 1.000 Millisekunden. Stellen die Netzwerk-Provider fest, daß sie sich auf dem selben Segment befinden, dann schließt der gemeinsame Datenverkehr auch Pakete mit ein, die an die logische Adresse des Systems 10 gerichtet sind. Deshalb werden zusätzlich zum Vergleich der Werte für TimeLastMulticastReceived auch die Werte für TimeLastPacketReceived verglichen; beide IOPs sind dann am gemeinsamen Datenverkehr beteiligt, wenn sich diese Zeitwerte innerhalb des in ReceiveTolerance festgelegten Toleranzbereichs befinden.
  • Sind die beiden IOPs nicht am gemeinsamen Datenverkehr beteiligt, dann wird durch diese Prozedur festgestellt, ob der lokale IOP am gemeinsamen Datenverkehr beteiligt ist (Schritt 106). Der lokale Netzwerk-Provider stellt dann fest, daß der lokale IOP nicht am gemeinsamen Datenverkehr beteiligt ist, wenn die Wert für TimeLastMulticastReceived oder TimeLastPacketReceived für den lokalen IOP um mindestens den Wert ReceiveTolerance größer sind, als der empfangene Wert (d. h. wenn der lokale Empfang der letzten Nachricht mit Gruppenadressierung um mindestens den Wert ReceiveTolerance weiter zurückliegt, als der entsprechende Wert für den entfernten IOP). Ist der lokale IOP nicht am gemeinsamen Datenverkehr beteiligt, dann schließt der Netzwerk-Provider daraus, daß in der Empfangsleitung vom LAN 40 zum IOP ein Fehler vorliegt. Der Netzwerk-Provider geht deshalb in den Offline-Zustand 74 über (oder verbleibt in diesem Zustand) (Schritt 108).
  • Sind beide IOPs am gemeinsamen Datenverkehr beteiligt (Schritt 100), dann stellt der Netzwerk-Provider fest, ob keiner der IOPs die Störpakete des anderen empfängt (Schritt 102). Dies ist dann der Fall, wenn der Wert jedes Netzwerk-Providers für TimeLastNoiseReceived um mindestens den Wert Receivelolerance größer ist, als der lokale Wert für TimeLastNoiseTransmitted, und wenn der lokale Wert für TimeLastNoiseReceived um mindestens den Wert Receivelolerance größer ist, als der empfangene Wert für TimeLastNoiseTransmitted. Empfängt keiner der IOPs die Störpakete des anderen (Schritt 102), dann überprüft der lokale Provider, ob ein Übertragungsfehler gemeldet wird (Schritt 109). Ist dies nicht der Fall, dann legt der Netzwerk-Provider zugrunde, daß sich der Fehler innerhalb des LAN 40 befinden muß, da gleichzeitig an beiden Verbindungen 62 und 64 ein Fehler vorliegen müßte, damit diese Zustandswerte zustande kommen. Das gleichzeitige Eintreten dieser beiden Fehlerzustände gilt als unwahrscheinlich. Meldet der Netzwerk- Provider einen Übertragungsfehler (Schritt 109), dann geht er in den Offline-Zustand über (Schritt 108).
  • Empfängt zumindest einer der IOPs die Störpakete des anderen, dann stellt der Netzwerk-Provider fest, ob lokal übertragene Störpakete vom anderen IOP empfangen werden (Schritt 104). Dies ist dann der Fall, wenn der für TimeLastNoiseReceived empfangene Wert den lokalen Wert für TimeLastNoiseTransmitted nicht um mindestens den Wert für ReceiveTolerance überschreitet. Werden lokal übertragene Störpakete vom anderen IOP empfangen, dann liegt im lokalen IOP kein Fehler vor. Andererseits legt, wenn die lokal übertragenen Störpakete nicht vom anderen IOP empfangen werden, der Netzwerk-Provider zugrunde, daß im Übertragungsweg vom lokalen IOP zum LAN 40 ein Fehler vorliegen muß, und der lokale Netzwerk-Provider geht in den Offline-Zustand 74 über (Schritt 108).
  • Bei allen Tests gilt, daß, wenn ein empfangener Zeitwert größer ist als der Wert für TimeNetworkMonitored, dieser Zeitwert als ungültig betrachtet wird. Dieser Mechanismus soll verhindern, daß falsche Daten verwendet werden. Eine weitere Beschränkung hinsichtlich des Wechsels von Zuständen besteht darin, daß ein sich im Offline-Zustand 74 befindender Netzwerk-Provider zumindest ein Paket empfangen haben muß, solange er sich in diesem Zustand befindet, bevor er in den Online-Zustand 70 übergeht. Durch diese Einschränkung wird der Zustandswechsel verhindert, solange für keinen der IOPs ein Netzwerkverkehr sichtbar ist.
  • Weitere Ausführungen ergeben sich aus den nachfolgenden Ansprüchen. Zum Beispiel können beide IOPs im oben beschriebenen System redundant sein. Bei Verwendung einer ähnlichen Methode des Vergleichens von relativen Zeitwerten für verschiedene Kategorien der Kommunikation können drei oder mehr IOPs verwendet werden. Werden drei oder mehr IOPs verwendet, dann können die Antwort von verschiedenen IOPs gemeinsam herangezogen werden, um Übermittlungsfehler zu erkennen. Zusätzlich könnten die relativen Zeitwerte für andere als die oben beschriebenen Kategorien von Systemereignissen für die Fehlererkennung genutzt werden. Der Ansatz, die relative Zeitmessung von Ereignissen der Datenübermittlung zu nutzen, kann auch für das Erkennen von internen Kommunikationsfehlern innerhalb des fehlertoleranten Systems selbst angewendet werden. Schließlich könnten die IOPs mit verschiedenen LANs verbunden werden, wenn die Übermittlung ihrer Störpakete entsprechend gewährleistet wäre.

Claims (24)

1. Verfahren zum Erkennen von Fehlern in einem fehlertoleranten Computersystem, mit einem ersten Ein-/Ausgabeprozessor und einem zweiten Ein-/Ausgabeprozessor, die an ein Datenübermittlungssystem gekoppelt sind, gekennzeichnet durch folgende Schritte:
Anwenden eines zeitlichen Kriteriums auf eine Kategorie der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, um ein erstes Zeitmessungs-Ergebnis zu erhalten;
Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, um ein zweites Zeitmessungs-Ergebnis zu erhalten;
Herstellen einer Beziehung zwischen dem ersten Zeitmessungs-Ergebnis und dem zweiten Zeitmessungs-Ergebnis; und
auf Grundlage der hergestellten Beziehung feststellen, ob ein Fehler aufgetreten ist.
2. Verfahren nach Anspruch 1, wobei der Schritt "Feststellen, ob ein Fehler aufgetreten ist" mit beinhaltet, daß ein Fehler dann erkannt wird, wenn die Differenz zwischen den Zeitmessungs-Ergebnissen einen Schwellenwert überschreitet.
3. Verfahren nach Anspruch 1, wobei das zeitliche Kriterium die Zeit einer letzten Übertragung oder eines letzten Empfangs ist.
4. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen.
5. Verfahren nach Anspruch 4, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen und an eine Adresse gerichtet sind, auf die normalerweise der zweite Ein-/Ausgabeprozessor anspricht.
6. Verfahren nach Anspruch 4, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor ausgesendet und über das Datenübermittlungssystem zum zweiten Ein-/Ausgabeprozessor geleitet werden.
7. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von außerhalb des Computersystems stammen.
8. Verfahren nach Anspruch 7, wobei die Nachrichten von einem zweiten Computer stammen, der an das Datenübermittlungssystem gekoppelt ist.
9. Verfahren nach Anspruch 7, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von außerhalb des Computersystems stammen und an eine Systemgruppe adressiert sind, zu der das Computersystem gehört.
10. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von einem dritten Element des Computersystems stammen, das mit dem Ein-/Ausgabeprozessor Daten austauscht.
11. Verfahren nach Anspruch 1, ferner mit dem Schritt "Senden des ersten Zeitmessungs- Ergebnisses vom ersten Ein-/Ausgabeprozessor an den zweiten Ein-/Ausgabeprozessor", wobei:
der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird" mit einschließt, daß das Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, am ersten Ein-/Ausgabeprozessor stattfindet;
der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird" beinhaltet, daß das Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, am zweiten Ein-/Ausgabeprozessor stattfindet; und
der Schritt "Herstellen einer Beziehung zwischen den Zeitmessungs-Ergebnissen" mit beinhaltet, daß am zweiten Ein-/Ausgabeprozessor die Differenz zwischen den Zeitmessungs- Ergebnissen festgestellt wird.
12. Verfahren nach Anspruch 11, wobei das erste Zeitmessungs-Ergebnis über einen bestimmten Kommunikationskanal zwischen dem ersten und dem zweiten Ein- /Ausgabeprozessor übermittelt wird.
13. Verfahren nach Anspruch 1, wobei
der Schritt "Anwenden eines zeitlichen Kriteriums auf eine Kategorie der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird" ferner beinhaltet,
daß eine Vielzahl von zeitlichen Kriterien auf eine entsprechende Vielzahl von Kategorien der
Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, angewendet wird, um eine erste Vielzahl von Zeitmessungs-Ergebnissen zu erhalten;
der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird" ferner beinhaltet, daß die Vielzahl von zeitlichen Kriterien auf die entsprechende Vielzahl von Kategorien der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, angewendet wird, um eine zweite Vielzahl von Zeitmessungs-Ergebnissen zu erhalten; und
der Schritt "Herstellen einer Beziehung zwischen den Zeitmessungs-Ergebnissen" ferner beinhaltet, daß zwischen einander entsprechenden Zeitmessungs-Ergebnissen aus der ersten und der zweiten Vielzahl von Zeitmessungs-Ergebnissen Beziehungen hergestellt werden.
14. Fehlertolerantes Computersystem, mit einem ersten und einem zweiten Ein- /Ausgabeprozessor, die an ein Datenübermittlungssystem gekoppelt sind, dadurch gekennzeichnet, daß:
der erste Ein-/Ausgabeprozessor so konfiguriert ist, daß er eine Kategorie der Datenübermittlung verarbeitet und ein zeitliches Kriterium auf die Kategorie der Datenübermittlung anwendet, um ein erstes Zeitmessungs-Ergebnis zu erhalten;
der zweite Ein-/Ausgabeprozessor so konfiguriert ist, daß er die Kategorie der Datenübermittlung verarbeitet und ein zeitliches Kriterium auf die Kategorie der Datenübermittlung anwendet, um ein zweites Zeitmessungs-Ergebnis zu erhalten; und
das Computersystem so konfiguriert ist, daß es zwischen den Zeitmessungs- Ergebnissen eine Beziehung herstellt und aufgrund dieser Beziehung feststellt, ob ein Fehler aufgetreten ist.
15. System nach Anspruch 14, wobei das zeitliche Kriterium die Zeit einer letzten Übertragung oder eines letzten Empfangs ist.
16. System nach Anspruch 14, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen.
17. System nach Anspruch 16, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor ausgesendet und durch das Datenübermittlungssystem an den zweiten Ein-/Ausgabeprozessor geleitet werden.
18. System nach Anspruch 16, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen und an eine Adresse gerichtet sind, auf die normalerweise der zweiten Ein-/Ausgabeprozessor anspricht.
19. System nach Anspruch 14, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von außerhalb des fehlertoleranten Systems stammen.
20. System nach Anspruch 19, wobei die Nachrichten von einem zweiten Computer stammen, der an das Datenübermittlungssystem gekoppelt ist.
21. System nach Anspruch 19, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von außerhalb des fehlertoleranten Systems stammen und an eine Systemgruppe gerichtet sind, zu denen das fehlertolerante System gehört.
22. System nach Anspruch 14, ferner mit einem dritten Element des Computersystem, das mit den Ein-/Ausgabeprozessoren Daten austauscht, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von diesem dritten Element stammen.
23. System nach Anspruch 14, ferner mit:
einem bestimmten Kommunikationskanal, durch den der erste und der zweite Ein- /Ausgabeprozessor aneinander gekoppelt sind, wobei der Kommunikationskanal so konfiguriert ist, daß das erste Zeitmessungs-Ergebnis vom ersten Ein-/Ausgabeprozessor an den zweiten Ein-/Ausgabeprozessor gesendet wird;
wobei der zweite Ein-/Ausgabeprozessor so konfiguriert ist, daß er eine Differenz zwischen den Zeitmessungs-Ergebnissen feststellt und, wenn die Differenz einen Schwellenwert überschreitet, erkennt, ob ein Fehler aufgetreten ist.
24. System nach Anspruch 14, wobei:
der erste Ein-/Ausgabeprozessor ferner so konfiguriert ist, daß er eine Vielzahl von zeitlichen Kriterien auf eine entsprechende Vielzahl von Kategorien der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet werden, anwendet und dadurch eine erste Vielzahl von Zeitmessungs-Ergebnissen herstellt;
der zweite Ein-/Ausgabeprozessor ferner so konfiguriert ist, daß der die Vielzahl von zeitlichen Kriterien auf die entsprechende Vielzahl von Kategorien der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet werden, anwendet und dadurch eine zweite Vielzahl von Zeitmessungs-Ergebnissen herstellt; und
das Computersystem ferner so konfiguriert ist, daß es zwischen einander entsprechenden Ergebnissen aus der ersten und der zweiten Vielzahl von Zeitmessungs- Ergebnissen Beziehungen herstellt, und daß es aufgrund der hergestellten Beziehungen feststellt, ob ein Fehler aufgetreten ist.
DE69802535T 1997-07-11 1998-07-13 Aktive fehlererkennung Expired - Lifetime DE69802535T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/891,539 US5983371A (en) 1997-07-11 1997-07-11 Active failure detection
PCT/US1998/014451 WO1999003038A1 (en) 1997-07-11 1998-07-13 Active failure detection

Publications (2)

Publication Number Publication Date
DE69802535D1 DE69802535D1 (de) 2001-12-20
DE69802535T2 true DE69802535T2 (de) 2002-07-25

Family

ID=25398370

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69802535T Expired - Lifetime DE69802535T2 (de) 1997-07-11 1998-07-13 Aktive fehlererkennung

Country Status (8)

Country Link
US (1) US5983371A (de)
EP (1) EP0993633B1 (de)
JP (1) JP4166939B2 (de)
AT (1) ATE208921T1 (de)
AU (1) AU737333B2 (de)
CA (1) CA2295853A1 (de)
DE (1) DE69802535T2 (de)
WO (1) WO1999003038A1 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6105151A (en) * 1997-05-13 2000-08-15 3Com Corporation System for detecting network errors
US6134678A (en) * 1997-05-13 2000-10-17 3Com Corporation Method of detecting network errors
US6289022B1 (en) * 1997-10-21 2001-09-11 The Foxboro Company Methods and systems for fault-tolerant data transmission
JPH11203157A (ja) * 1998-01-13 1999-07-30 Fujitsu Ltd 冗長装置
US6381656B1 (en) * 1999-03-10 2002-04-30 Applied Microsystems Corporation Method and apparatus for monitoring input/output (“I/O”) performance in I/O processors
US6820213B1 (en) 2000-04-13 2004-11-16 Stratus Technologies Bermuda, Ltd. Fault-tolerant computer system with voter delay buffer
US6687851B1 (en) 2000-04-13 2004-02-03 Stratus Technologies Bermuda Ltd. Method and system for upgrading fault-tolerant systems
US6691225B1 (en) 2000-04-14 2004-02-10 Stratus Technologies Bermuda Ltd. Method and apparatus for deterministically booting a computer system having redundant components
US7065672B2 (en) 2001-03-28 2006-06-20 Stratus Technologies Bermuda Ltd. Apparatus and methods for fault-tolerant computing using a switching fabric
US6928583B2 (en) * 2001-04-11 2005-08-09 Stratus Technologies Bermuda Ltd. Apparatus and method for two computing elements in a fault-tolerant server to execute instructions in lockstep
US7260741B2 (en) * 2001-09-18 2007-08-21 Cedar Point Communications, Inc. Method and system to detect software faults
JP2003288279A (ja) 2002-03-28 2003-10-10 Hitachi Ltd 記憶装置間の障害検出方法、及びこれに用いられる記憶装置
US7096383B2 (en) * 2002-08-29 2006-08-22 Cosine Communications, Inc. System and method for virtual router failover in a network routing system
US7562229B2 (en) * 2003-01-23 2009-07-14 Hewlett-Packard Development Company, L.P. Codeword-based auditing of computer systems and methods therefor
US7228545B2 (en) * 2003-01-23 2007-06-05 Hewlett-Packard Development Company, L.P. Methods and apparatus for managing the execution of a task among a plurality of autonomous processes
WO2004086225A1 (ja) * 2003-03-24 2004-10-07 Fujitsu Limited 仮想計算機システム
US20050066218A1 (en) * 2003-09-24 2005-03-24 Stachura Thomas L. Method and apparatus for alert failover
US7320127B2 (en) * 2003-11-25 2008-01-15 Cisco Technology, Inc. Configuration synchronization for redundant processors executing different versions of software
GB0402572D0 (en) * 2004-02-05 2004-03-10 Nokia Corp A method of organising servers
JP4128974B2 (ja) 2004-03-31 2008-07-30 富士通株式会社 レイヤ2ループ検知システム
CN100440799C (zh) * 2005-09-06 2008-12-03 华为技术有限公司 一种接入设备中主备板备份及倒换的方法
JP4619940B2 (ja) * 2005-12-21 2011-01-26 富士通株式会社 ネットワーク障害箇所検出装置及びネットワーク障害箇所検出方法
US7975166B2 (en) * 2008-03-05 2011-07-05 Alcatel Lucent System, method and computer readable medium for providing redundancy in a media delivery system
US8903893B2 (en) * 2011-11-15 2014-12-02 International Business Machines Corporation Diagnostic heartbeating in a distributed data processing environment
WO2016077570A1 (en) 2014-11-13 2016-05-19 Virtual Software Systems, Inc. System for cross-host, multi-thread session alignment
JP2021503913A (ja) * 2017-11-29 2021-02-15 コーニング インコーポレイテッド フィルターを備えた細胞培養用のキャップ及び細胞培養方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US31407A (en) * 1861-02-12 Improvement in plows
US3818458A (en) * 1972-11-08 1974-06-18 Comress Method and apparatus for monitoring a general purpose digital computer
USRE31407E (en) 1978-05-10 1983-10-04 Tesdata Systems Corporation Computer monitoring system
US4360912A (en) * 1979-11-23 1982-11-23 Sperry Corporation Distributed status reporting system
US4451916A (en) * 1980-05-12 1984-05-29 Harris Corporation Repeatered, multi-channel fiber optic communication network having fault isolation system
US4477873A (en) * 1982-04-29 1984-10-16 International Telephone & Telegraph Corporation Channel monitor for connection to channel lines
US4491968A (en) * 1983-04-07 1985-01-01 Comsonics, Inc. Status monitor
JPS59212930A (ja) * 1983-05-18 1984-12-01 Hitachi Ltd 端末主導型電源投入制御方法および制御装置
US4611289A (en) * 1983-09-29 1986-09-09 Coppola Anthony F Computer power management system
US4610013A (en) * 1983-11-08 1986-09-02 Avco Corporation Remote multiplexer terminal with redundant central processor units
US4589066A (en) * 1984-05-31 1986-05-13 General Electric Company Fault tolerant, frame synchronization for multiple processor systems
US4967344A (en) * 1985-03-26 1990-10-30 Codex Corporation Interconnection network for multiple processors
US4710926A (en) * 1985-12-27 1987-12-01 American Telephone And Telegraph Company, At&T Bell Laboratories Fault recovery in a distributed processing system
US4780844A (en) * 1986-07-18 1988-10-25 Commodore-Amiga, Inc. Data input circuit with digital phase locked loop
US4847837A (en) * 1986-11-07 1989-07-11 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Local area network with fault-checking, priorities and redundant backup
EP0306211A3 (de) * 1987-09-04 1990-09-26 Digital Equipment Corporation Synchronisiertes Doppelrechnersystem
AU616213B2 (en) * 1987-11-09 1991-10-24 Tandem Computers Incorporated Method and apparatus for synchronizing a plurality of processors
US5193179A (en) * 1988-08-09 1993-03-09 Harris Corporation Activity monitor system non-obtrusive statistical monitoring of operations on a shared bus of a multiprocessor system
US5109486A (en) * 1989-01-06 1992-04-28 Motorola, Inc. Distributed computer system with network and resource status monitoring
JPH02294753A (ja) * 1989-05-09 1990-12-05 Fujitsu Ltd 入出力処理装置の初期化方式
US4951171A (en) * 1989-05-11 1990-08-21 Compaq Computer Inc. Power supply monitoring circuitry for computer system
US5086499A (en) * 1989-05-23 1992-02-04 Aeg Westinghouse Transportation Systems, Inc. Computer network for real time control with automatic fault identification and by-pass
US5068780A (en) * 1989-08-01 1991-11-26 Digital Equipment Corporation Method and apparatus for controlling initiation of bootstrap loading of an operating system in a computer system having first and second discrete computing zones
US5226120A (en) * 1990-05-21 1993-07-06 Synoptics Communications, Inc. Apparatus and method of monitoring the status of a local area network
US5157663A (en) * 1990-09-24 1992-10-20 Novell, Inc. Fault tolerant computer system
US5404542A (en) * 1990-10-19 1995-04-04 Everex Systems, Inc. Power line switching circuit with monitor
US5214782A (en) * 1990-12-10 1993-05-25 Generic Computer Services Power supply monitor for personal computer
US5542047A (en) * 1991-04-23 1996-07-30 Texas Instruments Incorporated Distributed network monitoring system for monitoring node and link status
CA2071804A1 (en) * 1991-06-24 1992-12-25 Ronald G. Ward Computer system manager
JPH07500705A (ja) * 1991-09-03 1995-01-19 サイエンティフィック−アトランタ・インコーポレーテッド 光ファイバ状態監視及び制御システム
JP3243264B2 (ja) * 1991-10-16 2002-01-07 富士通株式会社 マルチプロセッサシステムにおける通信バスの障害制御方式
US5363503A (en) * 1992-01-22 1994-11-08 Unisys Corporation Fault tolerant computer system with provision for handling external events
US5423037A (en) * 1992-03-17 1995-06-06 Teleserve Transaction Technology As Continuously available database server having multiple groups of nodes, each group maintaining a database copy with fragments stored on multiple nodes
JPH0612288A (ja) * 1992-06-29 1994-01-21 Hitachi Ltd 情報処理システム及びその監視方法
US5390326A (en) * 1993-04-30 1995-02-14 The Foxboro Company Local area network with fault detection and recovery
US5488304A (en) * 1993-06-02 1996-01-30 Nippon Telegraph And Telephone Corporation Method and apparatus for judging active/dead status of communication cable
US5448723A (en) * 1993-10-15 1995-09-05 Tandem Computers Incorporated Method and apparatus for fault tolerant connection of a computing system to local area networks
DE69424565T2 (de) * 1993-12-01 2001-01-18 Marathon Technologies Corp., Stow Fehler-betriebssichere/fehler tolerante computerbetriebsmethode
US5493650A (en) * 1994-03-02 1996-02-20 Synoptics Communications, Inc. Apparatus and method for monitoring the presence of cables connected to ports of a computer network controller and automatically reconfiguring the network when cables are connected to or removed from the controller
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers

Also Published As

Publication number Publication date
AU8398098A (en) 1999-02-08
ATE208921T1 (de) 2001-11-15
DE69802535D1 (de) 2001-12-20
AU737333B2 (en) 2001-08-16
EP0993633A1 (de) 2000-04-19
WO1999003038A1 (en) 1999-01-21
EP0993633B1 (de) 2001-11-14
CA2295853A1 (en) 1999-01-21
JP2001509657A (ja) 2001-07-24
JP4166939B2 (ja) 2008-10-15
US5983371A (en) 1999-11-09

Similar Documents

Publication Publication Date Title
DE69802535T2 (de) Aktive fehlererkennung
DE69414219T2 (de) Verfahren und Vorrichtung zur fehlertoleranten Verbindung eines Rechnersystems mit einem lokalen Netz
EP0732654B1 (de) Verfahren zur fehlertoleranten Kommunikation unter hohen Echtzeitbedingungen
DE69033050T2 (de) Verfahren zur Feststellung eines fehlerhaften Kabels und zur Umschaltung zu einem redundanten Kabel in einem universellen Netz
DE3853022T2 (de) Verfahren zur Ausbreitung von Netzwerkzustandsnachrichten.
DE3752116T2 (de) Verfahren zur Netzkonfigurationssteuerung
DE69021469T2 (de) Verfahren zur Sicherheitsübertragssteuerung zwischen redundanten Netzwerkschnittstellbausteinen.
DE10360190A1 (de) Vorrichtung für die Erfassung von Verbindungsfehlern auf der Backplane des hochverfügbaren Ethernet
EP2169882B1 (de) Schiffsruder-Steuerung mit einem CAN-Bus
DE102014102582A1 (de) Fehlertolerantes Steuerungssystem
WO2001013230A1 (de) Verfahren zum erzwingen der fail-silent eigenschaft in einem verteilten computersystem und verteilereinheit eines solchen systems
EP1062787A1 (de) Lokales netzwerk, insbesondere ethernet-netzwerk, mit redundanzeigenschaften sowie redundanzmanager
DE10130027A1 (de) Bereitschaftsredundanz bei invers multiplexenden Diensten (IMA)
DE69125778T2 (de) Verfahren zur Sicherung von in einer Primär- und Sekundärdatenbank gespeicherten Daten in einem Prozessregelsystem
EP2637362A1 (de) Busteilnehmer-Einrichtung zum Anschluss an einen linienredundanten, seriellen Datenbus und Verfahren zur Steuerung der Kommunikation eines Busteilnehmers mit einem linienredundanten, seriellen Datenbus
DE69219369T2 (de) Ringübertragungssystem mit einem Bussicherungssystem und Verfahren
DE10312699A1 (de) Nichtinvasives Testen von Netzwerkschnittstellen-Fehlercodes für ein Sicherheitsnetzwerk
DE69738041T2 (de) Wiederherstellung eines ISDN D-Kanals ohne Verlust von Signalisierungs- oder Paketdaten
DE19921589C2 (de) Verfahren zum Betrieb eines Datenübertragungssystems
DE60309012T2 (de) Verfahren und system zur sicherstellung eines busses und eines steuerservers
WO2004071010A2 (de) Verfahren und vorrichtung zum mediumredundanten betreiben eines endgerätes in einem netzwerk
EP1399818B1 (de) Verfahren und vorrichtung zur kommunikation in einem fehlertoleranten verteilten computersystem
DE69928977T2 (de) Verfahren und Anordnung zur Verbindung von Fibre-Channel-Netzen und ATM-Netzen
DE102018203001A1 (de) Elektronisches Datenverteilsteuergerät und Verfahren zum Betreiben eines solchen
EP1851934B1 (de) Verfahren zur fehlererkennung eines nachrichteninterfaces in einer kommunikationseinrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition