DE69802535T2 - Aktive fehlererkennung - Google Patents
Aktive fehlererkennungInfo
- Publication number
- DE69802535T2 DE69802535T2 DE69802535T DE69802535T DE69802535T2 DE 69802535 T2 DE69802535 T2 DE 69802535T2 DE 69802535 T DE69802535 T DE 69802535T DE 69802535 T DE69802535 T DE 69802535T DE 69802535 T2 DE69802535 T2 DE 69802535T2
- Authority
- DE
- Germany
- Prior art keywords
- input
- output processor
- data transmission
- category
- timing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001514 detection method Methods 0.000 title description 4
- 230000005540 biological transmission Effects 0.000 claims abstract description 80
- 238000004891 communication Methods 0.000 claims abstract description 19
- 230000002123 temporal effect Effects 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 19
- 238000012546 transfer Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims 2
- 238000012544 monitoring process Methods 0.000 abstract description 4
- 238000001914 filtration Methods 0.000 abstract description 3
- 230000004044 response Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1629—Error detection by comparing the output of redundant processing systems
- G06F11/1633—Error detection by comparing the output of redundant processing systems using mutual exchange of the output between the redundant processing components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Small-Scale Networks (AREA)
- Computer And Data Communications (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf das Erkennen von Fehlern, wie z. B. Kommunikationsfehlern, in einem fehlertoleranten Computersystem.
- In fehlertoleranten Computersystemen werden für gewöhnlich redundante Hardware- Elemente verwendet. Für gewöhnlich haben einzelne Elemente im System die Aufgabe, Fehler zu erkennen, indem sie Signale überwachen, die von anderen Elementen des Systems oder außerhalb des Systems generiert werden.
- Zusätzlich kann ein Systemelement periodisch einen sogenanntes "Herzschlag"-Signal übertragen, das anzeigt, daß das Element richtig funktioniert. Wird von einem anderen Systemelement dieses Herzschlag-Signal nicht empfangen, dann legt dies dem Empfänger- Element nahe, daß das Überträgerelement nicht richtig funktioniert. Daß kein Herzschlag- Signal empfangen wird kann jedoch auch durch einen Fehler im Übertragungsweg zwischen den beiden Elementen bedingt sein. Im Allgemeinen sollte bei der Fehlerbehandlung zwischen Fehlern in einem Systemelement und Fehlern im Übertragungsweg zwischen Elementen unterschieden werden.
- Redundante Netzwerk-Interface-Controller (NICs) werden in fehlertoleranten Computersystemen verwendet, um eine zuverlässige, ununterbrochene Kommunikation mit einem externen Netzwerk zu gewährleisten. Im Allgemeinen befindet sich ein NIC in einem Pimärmodus bzw. aktiven Modus, in dem der NIC für die Kommunikation mit anderen Vorrichtungen im Netzwerk zuständig ist, während sich der andere NIC in einem Standby- Modus befindet.
- Im Betrieb können die NICs Herzschlag-Nachrichten austauschen, um Fehler in einem von einem NIC ausgehenden Verbindungsweg durch das externe Netzwerk und zurück zu einem anderen NIC aufzuspüren. Ein Fehler im Verbindungsweg zwischen NICs kann an verschiedenen Punkten auftreten, einschließlich der Ein- und Ausgängen der NICs, der Übertragungs- und Empfangsverbindungen zwischen den NICs und dem externen Netzwerk, - oder im externen Netzwerk selbst. Der Verbindungspunkt zum externen Netzwerk liegt im Allgemeinen in einem Port eines Netzwerk-Verteilers, wobei der Verteiler mit verschiedenen Netzwerkkomponenten verbunden ist. Jeder NIC kann mit einem anderen Verteiler im externen Netzwerk verbunden sein, um zu vermeiden, daß ein einzelner Verteiler zu einer kritischen Fehlerstelle wird.
- In der EP-A-0 649 092 ist ein Computersystem dargestellt, in dem die Verbindungen zu einem lokalen Netzwerk (LAN) überwacht werden, indem Herzschlag-Nachrichten zwischen den LAN-Controllern sowie anderweitiger Datenverkehr mit dem LAN überwacht werden.
- Die in den unabhängigen Ansprüchen 1 und 14 definierte Erfindung bezieht sich auf das Erkennen von Fehlern in einem fehlertoleranten Computersystem, das zwei Ein- /Ausgabeprozessoren beinhaltet, die mit einem Datenübermittlungssystem verbunden sind. Weitere Verbesserungen gehen aus den Unteransprüchen hervor.
- Das Computersystem kann Fehler erkennen, die in Zusammenhang mit einem primären Ein-/Ausgabeprozessor oder einem Standby - Ein-/Ausgabeprozessor auftreten. Das System kann ferner zwischen Fehlern der Ein-/Ausgabeprozessoren und Übertragungsfehlern im Datenübermittlungsnetzwerk selbst unterscheiden. Zur Fehlererkennung analysiert das System Kategorien der Datenübermittlung, die nicht "herzschlagähnliche" Übertragungen sind. Das System kann Fehler erkennen, wenn die Ein-/Ausgabeprozessoren sich auf einem gemeinsamen Netzwerksegment befinden und den gleichen Datenverkehr überwachen können. Das System kann auch dann Fehler erkennen, wenn sich die Prozessoren auf verschiedenen Segmenten befinden und, aufgrund der Filterfunktion von Netzwerkelementen wie z. B. Schaltern oder aktiven Verteilern, nicht den gleichen Datenverkehr überwachen können.
- Auf Kategorien der Datenübermittlung, die von jedem Ein-/Ausgabeprozessor verarbeitet werden, kann ein zeitliches Kriterium angewendet werden, zur Erkennung eines Fehlers kann zwischen den für die verschiedenen Prozessoren erhaltenen Ergebnissen eine Beziehung hergestellt werden. Ein Fehler kann z. B. dann angezeigt werden, wenn eine Differenz in der zeitlichen Koordination der Datenübermittlung einen Schwellenwert überschreitet. Das zeitliche Kriterium kann die Zeit einer letzten Übertragung oder eines letzten Empfangs einer Kategorie der Datenübermittlung sein.
- Eine Kategorie der Datenübermittlung können z. B. Nachrichten sein, die von außerhalb des fehlertoleranten Systems stammen, wie z. B. von einem anderen, mit dem Datenübermittlungssystem verbundenen Computersystem. Solche Nachrichten können an eine Systemgruppe gerichtet sein, zu der das fehlertolerante System gehört. Die Kategorie kann auch Nachrichten mit einschließen, die von einem der Ein-/Ausgabeprozessoren stammen, einschließlich solcher Nachrichten, die an den anderen Prozessor gerichtete sind, oder Nachrichten, die von einem anderen Element des Systems stammen.
- Ein Aspekt der vorliegenden Erfindung ist allgemein das Erkennen eines Fehlers in einem fehlertoleranten Computersystem mit einem ersten Ein-/Ausgabeprozessor und einem zweiten Ein-/Ausgabeprozessor, die an ein Datenübermittlungssystem gekoppelt sind. Auf Kategorien der Datenübermittlung, die vom ersten und vom zweiten Ein-/Ausgabeprozessor verarbeitet werden, wird ein zeitliches Kriterium angewendet, um ein erstes und ein zweites Zeitmessungs-Ergebnis zu erhalten. Zwischen den Zeitmessungs-Ergebnissen wird eine Beziehung hergestellt, und auf Grundlage der so hergestellten Beziehung wird festgestellt, ob ein Fehler aufgetreten ist.
- Ausführungen der Erfindung können eines oder mehrere der folgenden Merkmale beinhalten. Das Erkennen eines Fehlers kann beispielsweise beinhalten, einen Fehler daran zu erkennen, daß die Differenz zwischen den Zeitmessungs-Ergebnissen einen bestimmten Schwellenwert überschreitet.
- Das zeitliche Kriterium kann die Zeit einer letzten Übertragung oder eines letzten Empfangs sein. Die Kategorie der Datenübermittlung kann Nachrichten beinhalten, die vom ersten Ein-/Ausgabeprozessor stammen, wie z. B. Nachrichten, die an eine Adresse gerichtet sind, auf die normalerweise der zweite Ein-/Ausgabeprozessor anspricht, oder Nachrichten, die vom ersten Ein-/Ausgabeprozessor abgeschickt und über das Datenübermittlungssystem dem zweiten Ein-/Ausgabeprozessor zugeleitet werden. Die Kategorie der Datenübermittlung kann auch Nachrichten beinhalten, die von außerhalb des Computersystems stammen, wie z. B. Nachrichten, die von einem zweiten Computer stammen, der mit dem Datenübertragungssystem verbunden ist, oder Nachrichten, die an eine Systemgruppe gerichtet sind, zu der das Computersystem gehört. Die Kategorie der Datenübermittlung kann auch Nachrichten beinhalten, die von einem dritten Element des Computersystems stammen, das mit den Ein-/Ausgabeprozessoren Daten austauscht.
- Das zeitliche Kriterium kann am ersten Ein-/Ausgabeprozessor auf die Kategorie der Datenübermittlung angewendet werden, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, und das erste Zeitmessungs-Ergebnis kann vom ersten Ein-/Ausgabeprozessor an den zweiten Ein-/Ausgabeprozessor übermittelt werden. Das zeitliche Kriterium kann am zweiten Ein-/Ausgabeprozessor auf die Kategorie der Datenübermittlung angewendet werden, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, und die Beziehung zwischen den Zeitmessungs-Ergebnissen kann am zweiten Ein-/Ausgabeprozessor hergestellt werden. Das erste Zeitmessungs-Ergebnis kann über einen bestimmten Kommunikationskanal zwischen den Ein-/Ausgabeprozessoren übermittelt werden.
- Eine Vielzahl von zeitlichen Kriterien kann auf eine entsprechende Vielzahl von Kategorien der Datenübermittlung angewendet werden, die von den Ein-/Ausgabeprozessoren verarbeitet werden, um eine erste und eine zweite Vielzahl von Zeitmessungs-Ergebnissen zu erhalten. Zwischen den Ergebnissen aus der ersten Vielzahl von Zeitmessungs-Ergebnissen und den entsprechenden Ergebnissen aus der zweiten Vielzahl von Zeitmessungs-Ergebnissen können Beziehungen hergestellt werden
- Ein Vorteil der vorliegenden Erfindung besteht darin, daß Fehler, die auf dem Datenübermittlungsweg zwischen dem fehlertoleranten System und dem Datennetzwerk entstehen, erkannt werden können, und insbesondere, daß Fehler, die auf den Datenwegen entstehen, die die Ein-/Ausgabeprozessoren miteinander verbinden, von Fehlern in den Prozessoren unterschieden werden können.
- Weitere Merkmale und Vorteile der vorliegenden Erfindung gehen aus der nachfolgenden Beschreibung unter Bezugnahme auf die Figuren sowie aus den Ansprüchen hervor.
- Es zeigen
- Fig. 1 ein Blockschaltbild eines fehlertoleranten Computersystems mit redundanten Rechenelementen und Ein-/Ausgabeprozessoren;
- Fig. 2 ein Zustandsdiagramm eines Ein-/Ausgabeprozessors; und
- Fig. 3 bis 5 Ablaufpläne von Funktionen, die von einem Ein-/Ausgabeprozessor ausgeführt werden.
- In Fig. 1 ist ein fehlertolerantes System 10 dargestellt, das zweifach redundante Rechenelemente (CEs) 12 und 14 enthält, sowie zweifach redundante Ein- /Ausgabeprozessoren (IOPs) 24 und 26 und Verbindungsvorrichtungen 36 und 38 für die Übermittlung. Die CEs 12 und 14 führen parallele Betriebsabläufe aus. Jedes CE kommuniziert mit sowohl IOP 24 als auch IOP 26. CE 12 ist über die Verbindungsleitungen 50 und 54 angeschlossen, und CE 14 über die Verbindungsleitungen 52 und 56. Die Verbindungsleitungen führen durch die Verbindungsvorrichtungen 36 und 38 für die Datenübermittlung.
- Jedes CE schließt eine Zentraleinheit (CPU) 16 oder 18 und einen Interface-Controller (IC) 20 oder 22 mit ein. Die ICs stellen eine Schnittstelle zwischen den CPUs und den Verbindungsleitungen her. Eine Ein-/Ausgabeanforderung der CPU 16 wird z. B. vom IC 20 über die Verbindungsleitungen 50 und 54 an die IOPs 24 und 26 übertragen. Aufgrund der sie verbindenden Kommunikationsstruktur sollten die IOPs im Normalbetrieb identische Befehlssequenzen von jedem CE erhalten
- Jeder IOP schließt eine CPU 28 oder 30 und einen Netzwerk-Interface-Controller (NIC) 32 oder 34 mit ein. Die Netzwerk-Provider 29 und 31 sind Softwaretreiber, die in den CPUs 28 und 30 aktiv sind. Die NICs 32 und 34 machen es möglich, daß die Netzwerk- Provider durch die Netzwerkverbindungen 62 und 64 über ein lokales Netz (LAN) 40 miteinander kommunizieren. Über einen dafür vorgesehenen Übertragungsweg 60, der die CPUs 28 und 30 miteinander verbindet, können die Netzwerk-Provider 29 und 31 Nachrichten austauschen, ohne das LAN 40 zu nutzen.
- Ein Netzwerk-Provider befindet sich in einem Primärzustand, während sich der andere Netzwerk-Provider im Standby-Zustand befindet. Aus CE 12 oder 14 stammende Daten werden nur von dem sich im Primärzustand befindenden Netzwerk-Provider über das LAN an andere Vorrichtung übertragen.
- Die Netzwerkverbindungen 62 und 64 stellen Verbindungen zu den NICs 32 und 34 her und enden an Eingängen der Datenübermittlungsverteiler 42 und 44 des LAN 40. Die Verteiler 42 und 44 sind über eine Brücke 66 des LAN 40 miteinander verbunden. Die Verteiler 42 und 44 haben bei der Datenübermittlung keine Filterfunktion, wohingegen die Brücke 66 Datenübermittlungen filtert, die nicht an eine Vorrichtung gerichtet sind, auf die über einen bestimmten Eingang der Brücke zugegriffen wird. Die Verteiler 42 und 44 befinden sich deshalb auf verschiedenen Segmenten des LAN 40. Andere Vorrichtungen, wie z. B. die Vorrichtung 46, die an das LAN 40 angeschlossen sind, können mit dem fehlertoleranten System 10 kommunizieren.
- Jeder NIC 32 und 34 hat eine festgelegte, eindeutige "physikalische" Adresse und eine programmierbare "logische" Adresse, die so konfiguriert ist, daß sie für beide NICs gleich ist. Die logische Adresse wird für die Kommunikation zwischen dem fehlertoleranten System 10 und Vorrichtungen im LAN 40, wie z. B. der Vorrichtung 46 oder Vorrichtungen, auf die über das LAN 40 zugegriffen werden kann, genutzt. Jeder NIC ist auch dafür programmiert, Nachrichten mit Gruppenadressierung zu empfangen, wie z. B. Nachrichten mit allgemeiner Adressierung, mit mehreren Adressen, oder mit funktionellen Adressen. Eine von einem NIC verschickte Nachricht mit Gruppenadressierung weist die eindeutige physikalische Adresse des NIC als Nachrichtenquelle aus. Der Empfänger einer Nachricht mit Gruppenadressierung kann also feststellen, von welchem NIC die Nachricht abgeschickt wurde.
- Die Netzwerkverbindungen 62 und 64 können auf dem gleichen Segment des LAN 40 enden, oder auf verschiedenen Segmenten. Allgemein ist es so, daß, wenn die Verbindungen 62 und 64 auf dem gleichen Segment enden, beide NICs den gesamten Datenverkehr auf diesem Segment überwachen können. Dementsprechend können Daten, die von einem NIC übertragen werden, vom andern NIC selbst dann empfangen werden, wenn sie nicht an diesen NIC adressiert sind. Im Gegensatz dazu können, wie in Fig. 1 gezeigt, die Netzwerkverbindungen 62 und 64 auf verschiedenen Segmenten bei den Verteilern 42 und 44 enden. Diese Verteiler sind durch die Brücke 66 so miteinander verbunden, daß sie sich auf verschiedenen Segmenten des LAN 40 befinden. Die Brücke 66 ist so konfiguriert, daß sie an ein Segment adressierte Daten filtert, um unnötigen Gebrauch von Übertragungskapazitäten dieses Segments zu vermeiden. Die Brücke vergleicht von einem Segment ankommende Daten mit einer Tabelle von Adressen von Vorrichtungen, die auf diesem bestimmten Segment mit der Brücke 66 verbunden sind, oder die über dieses Segment kommunizieren. Eine Nachricht, die an eine bestimmte Vorrichtung adressiert ist (d. h. eine Direktnachricht anstelle einer Nachricht mit Gruppenadressierung), die nicht in der Tabelle für ein Segment aufgelistet ist, wird von der Brücke 66 nicht an dieses Segment weitergeleitet. Andererseits werden Nachrichten mit Gruppenadressierung auf allen Segmenten eines LAN ungefiltert weitergeleitet.
- Im Betrieb stellt das fehlertolerante System 10 fest, ob die Netzwerkverbindungen 62 und 64 mit einem gemeinsamen Segment des LAN 40 verbunden sind, und daraus resultierend, ob beide NICs den gleichen Netzwerkverkehr überwachen können sollten. Stellt das System fest, daß sich die NICs auf verschiedenen Segmenten befinden, dann folgt daraus, daß nur der Verkehr mit identischer Gruppenadressierung von beiden NICs gemeinsam überwacht werden kann.
- Im Betrieb wird die Datenübermittlung sowohl vom primären Netzwerk-Provider als auch vom Standby-Netzwerk-Provider überwacht um festzustellen, ob ein Fehler aufgetreten ist. Würde die Netzwerkverbindung eines IOP durch einen aufgetretenen Fehler außer Funktion gesetzt, so werden entsprechende Maßnahmen ergriffen. Verliert der aktive Netzwerk-Provider die Verbindung zum Netzwerk und ist der Standby-Netzwerk-Provider online, so wird der Standby-Netzwerk-Provider zum neuen primären Netzwerk-Provider umgeschaltet. Verliert der Standby-Netzwerk-Provider die Verbindung zum Netzwerk, so geht er in den offline Zustand über, bis die Verbindung wiederhergestellt ist.
- Die Netzwerk-Provider erkennen Fehler, indem sie Kategorien der Datenübermittlung überwachen und die seit der letzten Datenübermittlung in jeder Kategorie vergangene Zeit festhalten. Erhält ein Netzwerk-Provider einen Hinweis darauf, daß ein Übertragungsfehler aufgetreten sein könnte, so tauscht er mit dem anderen Netzwerk-Provider über den Übertragungsweg 60 eine Zustandsmeldung aus. Die Zustandsmeldung enthält die Zeiten der letzten Übertragung. Jeder Netzwerk-Provider vergleicht die in einer empfangenen Nachricht enthaltenen Zeiten mit den Zeiten, die im empfangenden Netzwerk-Provider festgehalten sind, um eventuelle Systemfehler zu erkennen. Bei diesen Vergleichen wird vom Netzwerk- Provider ein Toleranzzeitraum als Maßstab angelegt, innerhalb dessen die verglichenen Zeiten übereinstimmen sollten. Dieser Toleranzzeitraum berücksichtigt natürliche Schwankungen in den Übertragungszeiten sowie die für das Erstellen und Übertragen der Zustandsmeldungen benötigte Zeit.
- Um die Zustände der Netzwerkverbindungen 62 und 64 sowie des Zustand des LAN 40 zu erfassen, übertragen die Netzwerk-Provider 29 und 31 über die NICs 32 und 34 periodisch Nachrichten mit Gruppenadressierung, bekannt als "Störpakete" (Noise Packets), die an eine Gruppenadresse gerichtet sind, die von beiden NICs überwacht wird. Als Ursprungsadresse der Nachricht mit Gruppenadressierung wird die eindeutige physikalische Adresse des übertragenden NIC angegeben, so daß die Empfänger-NICs die Quelle identifizieren können. Befinden sich die Netzwerkverbindungen auf einem gemeinsamen Segment, so wird die Nachricht direkt von den NICs empfangen. Befinden sich Quell- und Empfänger-NIC auf verschiedenen Segmenten, so werden die Pakete mit Gruppenadressierung im Normalbetrieb des LAN 40 von einem Segment an das andere weitergeleitet.
- Beim Initialisieren des fehlertoleranten Systems 10 durchlaufen die Netzwerk- Provider 29 und 31 eine Sequenz von drei Anlaufzuständen. In einem ersten Zustand, dem verbundenen Zustand (joined State), haben beide IOPs eine Verbindung zum LAN 40 sowie eine über den Übertragungsweg 60 führende Verbindung zwischen den Prozessoren 28 und 30 hergestellt. Im nächsten, einem synchronisierten Zustand, wird die auf den CPUs 16 und 18 ausgeführte Übertragungs-Umleitungssoftware mit den Netzwerk-Providern 29 und 31 synchronisiert. In einem vollständig initialisierten Zustand können schließlich Ein- /Ausgabeanforderungen, die in den CPUs 16 und 18 verarbeitet werden, zur Kommunikation mit dem LAN 40 an die Netzwerk-Provider 29 und 31 verschickt werden.
- Wie in Fig. 2 dargestellt nehmen beide Netzwerk-Provider, wenn sie vollständig initialisiert sind, in einen Online/Standby-Zustand 70 ein. In einem nächsten Schritt wird ein Netzwerk-Provider vom Online/Standby-Zustand in den Online/Primär-Zustand 72 überführt. Hat ein sich in einem der beiden Online-Zustände 70, 72 befindender Netzwerk-Provider einen Hinweis darauf, daß er die Verbindung zum Netzwerk verloren haben könnte, dann versendet dieser Netzwerk-Provider periodisch Netzwerk-Zustands-Anfragen an den anderen Netzwerk-Provider. Wird bestätigt, daß die Verbindung zum Netzwerk nicht mehr besteht, dann geht der Netzwerk-Provider in den Offline-Zustand 74 über. Erkennt der sich im Online/Primär-Zustand 72 befindende Nertzwerk-Provider, daß er nicht mehr mit dem Netzwerk verbunden ist und geht in den Offline-Zustand 74 über, dann geht der sich im Online/Standby-Zustand 70 befindende Netzwerk-Provider in den Online/Primär-Zustand über. Es ist zu beachten, daß der automatische Übergang vom Online/Primärzustand 72 in den Offline-Zustand 74 nur dann zulässig ist, wenn der andere Netzwerk-Provider sich im Online/Standby-Zustand 70 befindet. Ein Netzwerk-Provider, der sich im Offline-Zustand 74 befindet, versendet periodisch Netzwerk-Status-Anfragen an den anderen Netzwerk-Provider über die Verbindung 60. Ist die Netzwerkverbindung wiederhergestellt, dann nimmt der Netzwerk-Provider wieder den Zustand Online/Standby 70 ein.
- Zusätzlich zu den automatischen Übergängen können vom Operator gesteuerte Zustandswechsel von den Zuständen online und offline 70, 72, 74 in einen deaktivierten Zustand 76 auftreten. Wird ein sich im Zustand 76 befindender Netzwerk-Provider manuell reaktiviert, dann nimmt dieser Netzwerk-Provider den Online/Standby-Zustand 70 ein und geht dann unmittelbar in den Offline-Zustand 74 über, wenn die Verbindung zum Netzwerk nicht bestätigt wird. Schließlich kann durch weitere Erkennungsmechanismen festgestellt werden, daß ein Netzwerk-Provider ausgefallen ist, wodurch dieser in einen Fehlerzustand 78 überführt wird.
- Wie in Fig. 3 dargestellt überprüft ein sich in einem der Online- oder Offline-Zustände 70, 72 oder 74 befindender Netzwerk-Provider mehrere Male, ob über den Übertragungsweg 60 eine Netzwerk-Zustands-Anfrage an den anderen Netzwerk-Provider gesendet werden sollte. Konkret stellt der Netzwerk-Provider fest, ob er eine Netzwerk-Zustands-Anfrage abschicken soll, nachdem ein bestimmter Netzwerk-Zustands-Intervall, genannt NetworkStatusInterval, abgelaufen ist. Der Standardwert für den NetworkStatusInterval beträgt 1.000 Millisekunden. Nach Ablauf dieses Intervalls stellt der Netzwerk-Provider fest, ob eine von drei Bedingungen erfüllt wird. Die erste Bedingung ist erfüllt, wenn in einem Paket-Empfangs-Intervall, genannt ReceivePacketInterval, keine "Nicht-Stör-Pakete" (Non Noise Packets) empfangen wurden (Schritt 80). Der Standardwert für den ReceivePacket- Interval beträgt 4.000 Millisekunden, was dem typischen Maximalwert für den Intervall zwischen vom System 10 empfangenen Paketen entspricht. Die zweite Bedingung ist dann erfüllt, wenn vom anderen Netzwerk-Provider im vorangegangenen Paket-Empfangs-Intervall keine Störpakete empfangen wurden (Schritt 82). Die dritte Bedingung ist immer dann erfüllt, wenn der Netzwerk-Provider sich im Offline-Zustand 74 befindet (Schritt 84). Ist eine dieser Bedingungen erfüllt, dann wird an den anderen Netzwerk-Provider eine Netzwerk-Zustands- Anfrage abgeschickt (Schritt 86). Beim Übertragen einer Anfrage wird nicht berücksichtigt, ob auf eine vorangegangene Anfrage eine Antwort empfangen wurde.
- Nach Erhalt einer Netzwerk-Zustands-Anfrage erstellt ein Netzwerk-Provider üblicherweise eine Antwortnachricht, die folgende Kommunikationsdaten enthält:
- TimeLastNoiseReceived Seit Empfang des letzten Störpakets vom anderen Prozessor vergangene Zeit
- TimeLastPacketReceived Seit Empfang des letzten an die logische (System-) Adresse gerichteten Nicht-Stör-
- Pakets vergangene Zeit
- TimeLastMulticastReceived Seit Empfang des letzten Nicht-Stör-Pakets mit Gruppenadressierung vergangene Zeit
- TimeLastNoiseTransmitted Seit Absenden der letzten Störnachricht vergangene Zeit
- TimeNetworkMonitored Zeitraum, in dem der Netzwerk-Provider Daten gesammelt hat (d. h. verfügbare Betriebszeit des Systems)
- CountTransmitFailures Aktueller Zählerstand für Übertragungsfehler
- Um zu vermeiden, daß beide Netzwerk-Provider gleichzeitig einen Fehler erkennen und keiner von beiden im Online/Primärzustand 72 verbleibt, antwortet ein sich im Online/Primärzustand 72 befindender Netzwerk-Provider anders auf eine Netzwerk-Zustands- Anfrage, als ein Netzwerk-Provider, der sich nicht im Online/Primärzustand befindet. Verschickt ein sich im Online/Primärzustand 72 befindender lokaler Netzwerk-Provider eine Netzwerk-Zustands-Anfrage und erhält seinerseits eine Netzwerk-Zustands-Anfrage vom entfernten Netzwerk-Provider, bevor er auf seine eigene Anfrage eine Antwort erhalten hat, dann zieht der lokale Netzwerk-Provider die in der empfangenen Anfrage erhaltene Information heran, um seine eigene Anfrage zu beantworten, anstatt den Empfang einer Antwort abzuwarten. Der lokale Netzwerk-Provider antwortet nicht auf die von ihm empfangene Anfrage. Verschickt ein lokaler Netzwerk-Provider, der sich nicht im Online/Primärzustand 72 befindet, eine Netzwerk-Zustands-Anfrage und erhält seinerseits eine Netzwerk-Zustands-Anfrage vom entfernten Netzwerk-Provider, bevor er auf seine eigene Anfrage eine Antwort erhalten hat, dann antwortet der lokale Netzwerk-Provider auf die Anfrage und zieht nicht die in der empfangenen Anfrage erhaltene Information heran, um seine noch offene Anfrage zu beantworten.
- Wie in Fig. 4 dargestellt stellt ein lokaler Netzwerk-Provider nach Erhalt eines Netzwerk-Status-Berichts (Schritt 87) fest, ob der lokale oder der entfernte Netzwerk- Provider sich noch nicht im vollständig initialisierten Zustand befindet (Schritt 88), ob sich der entfernte Netzwerk-Provider im Fehlerzustand 78 oder im deaktivierten Zustand 76 befindet (Schritt 90), oder ob sich der lokale Netzwerk-Provider im Fehlerzustand 78 oder im deaktivierten Zustand 76 (d. h. nicht in einem der Zustände online oder offline 70, 72 oder 74) befindet (Schritt 92). Wird keine dieser Bedingungen erfüllt, dann führt der lokale Netzwerk- Provider eine Prozedur 94 durch um festzustellen, ob der IOP die Verbindung zum Netzwerk verloren hat. Wird mindestens eine der Bedingungen erfüllt, dann wird die Antwortnachricht verworfen (Schritt 96), und die Antwort wird nicht verarbeitet.
- Wie in Fig. 5 dargestellt wird im ersten Schritt der Prozedur 94 festgestellt, ob beide IOPs am gemeinsamen Datenverkehr beteiligt sind (Schritt 100). Die Definition des gemeinsamen Datenverkehrs hängt von der Feststellung des lokalen Netzwerk-Providers ab, ob sich beide IOPs auf einem gemeinsamen Segment oder auf verschiedenen Segmenten des LAN 40 befinden. Zunächst gehen beide Netzwerk-Provider davon aus, daß sich die IOPs auf verschiedenen Segmenten befinden. In diesem Falle bezieht sich der gemeinsame Datenverkehr auf von den IOPs empfangene Pakete mit Gruppenadressierung, die keine Störpakete sind. Beide IOPs nehmen am gemeinsamen Datenverkehr teil, wenn der Wert für TimeLastMulticastReceived im Netzwerk-Statusbericht und der vom lokalen Netzwerk- Provider berechnete Wert innerhalb eines Toleranzbereichs liegen, der als Receivelolerance bezeichnet wird. Der Standardwert für ReceiveTolerance beträgt 1.000 Millisekunden. Stellen die Netzwerk-Provider fest, daß sie sich auf dem selben Segment befinden, dann schließt der gemeinsame Datenverkehr auch Pakete mit ein, die an die logische Adresse des Systems 10 gerichtet sind. Deshalb werden zusätzlich zum Vergleich der Werte für TimeLastMulticastReceived auch die Werte für TimeLastPacketReceived verglichen; beide IOPs sind dann am gemeinsamen Datenverkehr beteiligt, wenn sich diese Zeitwerte innerhalb des in ReceiveTolerance festgelegten Toleranzbereichs befinden.
- Sind die beiden IOPs nicht am gemeinsamen Datenverkehr beteiligt, dann wird durch diese Prozedur festgestellt, ob der lokale IOP am gemeinsamen Datenverkehr beteiligt ist (Schritt 106). Der lokale Netzwerk-Provider stellt dann fest, daß der lokale IOP nicht am gemeinsamen Datenverkehr beteiligt ist, wenn die Wert für TimeLastMulticastReceived oder TimeLastPacketReceived für den lokalen IOP um mindestens den Wert ReceiveTolerance größer sind, als der empfangene Wert (d. h. wenn der lokale Empfang der letzten Nachricht mit Gruppenadressierung um mindestens den Wert ReceiveTolerance weiter zurückliegt, als der entsprechende Wert für den entfernten IOP). Ist der lokale IOP nicht am gemeinsamen Datenverkehr beteiligt, dann schließt der Netzwerk-Provider daraus, daß in der Empfangsleitung vom LAN 40 zum IOP ein Fehler vorliegt. Der Netzwerk-Provider geht deshalb in den Offline-Zustand 74 über (oder verbleibt in diesem Zustand) (Schritt 108).
- Sind beide IOPs am gemeinsamen Datenverkehr beteiligt (Schritt 100), dann stellt der Netzwerk-Provider fest, ob keiner der IOPs die Störpakete des anderen empfängt (Schritt 102). Dies ist dann der Fall, wenn der Wert jedes Netzwerk-Providers für TimeLastNoiseReceived um mindestens den Wert Receivelolerance größer ist, als der lokale Wert für TimeLastNoiseTransmitted, und wenn der lokale Wert für TimeLastNoiseReceived um mindestens den Wert Receivelolerance größer ist, als der empfangene Wert für TimeLastNoiseTransmitted. Empfängt keiner der IOPs die Störpakete des anderen (Schritt 102), dann überprüft der lokale Provider, ob ein Übertragungsfehler gemeldet wird (Schritt 109). Ist dies nicht der Fall, dann legt der Netzwerk-Provider zugrunde, daß sich der Fehler innerhalb des LAN 40 befinden muß, da gleichzeitig an beiden Verbindungen 62 und 64 ein Fehler vorliegen müßte, damit diese Zustandswerte zustande kommen. Das gleichzeitige Eintreten dieser beiden Fehlerzustände gilt als unwahrscheinlich. Meldet der Netzwerk- Provider einen Übertragungsfehler (Schritt 109), dann geht er in den Offline-Zustand über (Schritt 108).
- Empfängt zumindest einer der IOPs die Störpakete des anderen, dann stellt der Netzwerk-Provider fest, ob lokal übertragene Störpakete vom anderen IOP empfangen werden (Schritt 104). Dies ist dann der Fall, wenn der für TimeLastNoiseReceived empfangene Wert den lokalen Wert für TimeLastNoiseTransmitted nicht um mindestens den Wert für ReceiveTolerance überschreitet. Werden lokal übertragene Störpakete vom anderen IOP empfangen, dann liegt im lokalen IOP kein Fehler vor. Andererseits legt, wenn die lokal übertragenen Störpakete nicht vom anderen IOP empfangen werden, der Netzwerk-Provider zugrunde, daß im Übertragungsweg vom lokalen IOP zum LAN 40 ein Fehler vorliegen muß, und der lokale Netzwerk-Provider geht in den Offline-Zustand 74 über (Schritt 108).
- Bei allen Tests gilt, daß, wenn ein empfangener Zeitwert größer ist als der Wert für TimeNetworkMonitored, dieser Zeitwert als ungültig betrachtet wird. Dieser Mechanismus soll verhindern, daß falsche Daten verwendet werden. Eine weitere Beschränkung hinsichtlich des Wechsels von Zuständen besteht darin, daß ein sich im Offline-Zustand 74 befindender Netzwerk-Provider zumindest ein Paket empfangen haben muß, solange er sich in diesem Zustand befindet, bevor er in den Online-Zustand 70 übergeht. Durch diese Einschränkung wird der Zustandswechsel verhindert, solange für keinen der IOPs ein Netzwerkverkehr sichtbar ist.
- Weitere Ausführungen ergeben sich aus den nachfolgenden Ansprüchen. Zum Beispiel können beide IOPs im oben beschriebenen System redundant sein. Bei Verwendung einer ähnlichen Methode des Vergleichens von relativen Zeitwerten für verschiedene Kategorien der Kommunikation können drei oder mehr IOPs verwendet werden. Werden drei oder mehr IOPs verwendet, dann können die Antwort von verschiedenen IOPs gemeinsam herangezogen werden, um Übermittlungsfehler zu erkennen. Zusätzlich könnten die relativen Zeitwerte für andere als die oben beschriebenen Kategorien von Systemereignissen für die Fehlererkennung genutzt werden. Der Ansatz, die relative Zeitmessung von Ereignissen der Datenübermittlung zu nutzen, kann auch für das Erkennen von internen Kommunikationsfehlern innerhalb des fehlertoleranten Systems selbst angewendet werden. Schließlich könnten die IOPs mit verschiedenen LANs verbunden werden, wenn die Übermittlung ihrer Störpakete entsprechend gewährleistet wäre.
Claims (24)
1. Verfahren zum Erkennen von Fehlern in einem fehlertoleranten Computersystem, mit
einem ersten Ein-/Ausgabeprozessor und einem zweiten Ein-/Ausgabeprozessor, die an ein
Datenübermittlungssystem gekoppelt sind, gekennzeichnet durch folgende Schritte:
Anwenden eines zeitlichen Kriteriums auf eine Kategorie der Datenübermittlung, die
vom ersten Ein-/Ausgabeprozessor verarbeitet wird, um ein erstes Zeitmessungs-Ergebnis zu
erhalten;
Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die
vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, um ein zweites Zeitmessungs-Ergebnis
zu erhalten;
Herstellen einer Beziehung zwischen dem ersten Zeitmessungs-Ergebnis und dem
zweiten Zeitmessungs-Ergebnis; und
auf Grundlage der hergestellten Beziehung feststellen, ob ein Fehler aufgetreten ist.
2. Verfahren nach Anspruch 1, wobei der Schritt "Feststellen, ob ein Fehler aufgetreten
ist" mit beinhaltet, daß ein Fehler dann erkannt wird, wenn die Differenz zwischen den
Zeitmessungs-Ergebnissen einen Schwellenwert überschreitet.
3. Verfahren nach Anspruch 1, wobei das zeitliche Kriterium die Zeit einer letzten
Übertragung oder eines letzten Empfangs ist.
4. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen.
5. Verfahren nach Anspruch 4, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen und an eine
Adresse gerichtet sind, auf die normalerweise der zweite Ein-/Ausgabeprozessor anspricht.
6. Verfahren nach Anspruch 4, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor ausgesendet und über das
Datenübermittlungssystem zum zweiten Ein-/Ausgabeprozessor geleitet werden.
7. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die von außerhalb des Computersystems stammen.
8. Verfahren nach Anspruch 7, wobei die Nachrichten von einem zweiten Computer
stammen, der an das Datenübermittlungssystem gekoppelt ist.
9. Verfahren nach Anspruch 7, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die von außerhalb des Computersystems stammen und an eine
Systemgruppe adressiert sind, zu der das Computersystem gehört.
10. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die von einem dritten Element des Computersystems stammen,
das mit dem Ein-/Ausgabeprozessor Daten austauscht.
11. Verfahren nach Anspruch 1, ferner mit dem Schritt "Senden des ersten Zeitmessungs-
Ergebnisses vom ersten Ein-/Ausgabeprozessor an den zweiten Ein-/Ausgabeprozessor",
wobei:
der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der
Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird" mit einschließt,
daß das Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die
vom ersten Ein-/Ausgabeprozessor verarbeitet wird, am ersten Ein-/Ausgabeprozessor
stattfindet;
der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der
Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird" beinhaltet, daß
das Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom
zweiten Ein-/Ausgabeprozessor verarbeitet wird, am zweiten Ein-/Ausgabeprozessor
stattfindet; und
der Schritt "Herstellen einer Beziehung zwischen den Zeitmessungs-Ergebnissen" mit
beinhaltet, daß am zweiten Ein-/Ausgabeprozessor die Differenz zwischen den Zeitmessungs-
Ergebnissen festgestellt wird.
12. Verfahren nach Anspruch 11, wobei das erste Zeitmessungs-Ergebnis über einen
bestimmten Kommunikationskanal zwischen dem ersten und dem zweiten Ein-
/Ausgabeprozessor übermittelt wird.
13. Verfahren nach Anspruch 1, wobei
der Schritt "Anwenden eines zeitlichen Kriteriums auf eine Kategorie der
Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird" ferner beinhaltet,
daß eine Vielzahl von zeitlichen Kriterien auf eine entsprechende Vielzahl von Kategorien der
Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, angewendet wird,
um eine erste Vielzahl von Zeitmessungs-Ergebnissen zu erhalten;
der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der
Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird" ferner
beinhaltet, daß die Vielzahl von zeitlichen Kriterien auf die entsprechende Vielzahl von
Kategorien der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird,
angewendet wird, um eine zweite Vielzahl von Zeitmessungs-Ergebnissen zu erhalten; und
der Schritt "Herstellen einer Beziehung zwischen den Zeitmessungs-Ergebnissen"
ferner beinhaltet, daß zwischen einander entsprechenden Zeitmessungs-Ergebnissen aus der
ersten und der zweiten Vielzahl von Zeitmessungs-Ergebnissen Beziehungen hergestellt
werden.
14. Fehlertolerantes Computersystem, mit einem ersten und einem zweiten Ein-
/Ausgabeprozessor, die an ein Datenübermittlungssystem gekoppelt sind, dadurch
gekennzeichnet, daß:
der erste Ein-/Ausgabeprozessor so konfiguriert ist, daß er eine Kategorie der
Datenübermittlung verarbeitet und ein zeitliches Kriterium auf die Kategorie der
Datenübermittlung anwendet, um ein erstes Zeitmessungs-Ergebnis zu erhalten;
der zweite Ein-/Ausgabeprozessor so konfiguriert ist, daß er die Kategorie der
Datenübermittlung verarbeitet und ein zeitliches Kriterium auf die Kategorie der
Datenübermittlung anwendet, um ein zweites Zeitmessungs-Ergebnis zu erhalten; und
das Computersystem so konfiguriert ist, daß es zwischen den Zeitmessungs-
Ergebnissen eine Beziehung herstellt und aufgrund dieser Beziehung feststellt, ob ein Fehler
aufgetreten ist.
15. System nach Anspruch 14, wobei das zeitliche Kriterium die Zeit einer letzten
Übertragung oder eines letzten Empfangs ist.
16. System nach Anspruch 14, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen.
17. System nach Anspruch 16, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor ausgesendet und durch
das Datenübermittlungssystem an den zweiten Ein-/Ausgabeprozessor geleitet werden.
18. System nach Anspruch 16, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen und an eine
Adresse gerichtet sind, auf die normalerweise der zweiten Ein-/Ausgabeprozessor anspricht.
19. System nach Anspruch 14, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die von außerhalb des fehlertoleranten Systems stammen.
20. System nach Anspruch 19, wobei die Nachrichten von einem zweiten Computer
stammen, der an das Datenübermittlungssystem gekoppelt ist.
21. System nach Anspruch 19, wobei die Kategorie der Datenübermittlung solche
Nachrichten mit einschließt, die von außerhalb des fehlertoleranten Systems stammen und an
eine Systemgruppe gerichtet sind, zu denen das fehlertolerante System gehört.
22. System nach Anspruch 14, ferner mit einem dritten Element des Computersystem, das
mit den Ein-/Ausgabeprozessoren Daten austauscht, wobei die Kategorie der
Datenübermittlung solche Nachrichten mit einschließt, die von diesem dritten Element
stammen.
23. System nach Anspruch 14, ferner mit:
einem bestimmten Kommunikationskanal, durch den der erste und der zweite Ein-
/Ausgabeprozessor aneinander gekoppelt sind, wobei der Kommunikationskanal so
konfiguriert ist, daß das erste Zeitmessungs-Ergebnis vom ersten Ein-/Ausgabeprozessor an
den zweiten Ein-/Ausgabeprozessor gesendet wird;
wobei der zweite Ein-/Ausgabeprozessor so konfiguriert ist, daß er eine Differenz
zwischen den Zeitmessungs-Ergebnissen feststellt und, wenn die Differenz einen
Schwellenwert überschreitet, erkennt, ob ein Fehler aufgetreten ist.
24. System nach Anspruch 14, wobei:
der erste Ein-/Ausgabeprozessor ferner so konfiguriert ist, daß er eine Vielzahl von
zeitlichen Kriterien auf eine entsprechende Vielzahl von Kategorien der Datenübermittlung,
die vom ersten Ein-/Ausgabeprozessor verarbeitet werden, anwendet und dadurch eine erste
Vielzahl von Zeitmessungs-Ergebnissen herstellt;
der zweite Ein-/Ausgabeprozessor ferner so konfiguriert ist, daß der die Vielzahl von
zeitlichen Kriterien auf die entsprechende Vielzahl von Kategorien der Datenübermittlung,
die vom zweiten Ein-/Ausgabeprozessor verarbeitet werden, anwendet und dadurch eine
zweite Vielzahl von Zeitmessungs-Ergebnissen herstellt; und
das Computersystem ferner so konfiguriert ist, daß es zwischen einander
entsprechenden Ergebnissen aus der ersten und der zweiten Vielzahl von Zeitmessungs-
Ergebnissen Beziehungen herstellt, und daß es aufgrund der hergestellten Beziehungen
feststellt, ob ein Fehler aufgetreten ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/891,539 US5983371A (en) | 1997-07-11 | 1997-07-11 | Active failure detection |
PCT/US1998/014451 WO1999003038A1 (en) | 1997-07-11 | 1998-07-13 | Active failure detection |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69802535D1 DE69802535D1 (de) | 2001-12-20 |
DE69802535T2 true DE69802535T2 (de) | 2002-07-25 |
Family
ID=25398370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69802535T Expired - Lifetime DE69802535T2 (de) | 1997-07-11 | 1998-07-13 | Aktive fehlererkennung |
Country Status (8)
Country | Link |
---|---|
US (1) | US5983371A (de) |
EP (1) | EP0993633B1 (de) |
JP (1) | JP4166939B2 (de) |
AT (1) | ATE208921T1 (de) |
AU (1) | AU737333B2 (de) |
CA (1) | CA2295853A1 (de) |
DE (1) | DE69802535T2 (de) |
WO (1) | WO1999003038A1 (de) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6105151A (en) * | 1997-05-13 | 2000-08-15 | 3Com Corporation | System for detecting network errors |
US6134678A (en) * | 1997-05-13 | 2000-10-17 | 3Com Corporation | Method of detecting network errors |
US6289022B1 (en) * | 1997-10-21 | 2001-09-11 | The Foxboro Company | Methods and systems for fault-tolerant data transmission |
JPH11203157A (ja) * | 1998-01-13 | 1999-07-30 | Fujitsu Ltd | 冗長装置 |
US6381656B1 (en) * | 1999-03-10 | 2002-04-30 | Applied Microsystems Corporation | Method and apparatus for monitoring input/output (“I/O”) performance in I/O processors |
US6820213B1 (en) | 2000-04-13 | 2004-11-16 | Stratus Technologies Bermuda, Ltd. | Fault-tolerant computer system with voter delay buffer |
US6687851B1 (en) | 2000-04-13 | 2004-02-03 | Stratus Technologies Bermuda Ltd. | Method and system for upgrading fault-tolerant systems |
US6691225B1 (en) | 2000-04-14 | 2004-02-10 | Stratus Technologies Bermuda Ltd. | Method and apparatus for deterministically booting a computer system having redundant components |
US7065672B2 (en) | 2001-03-28 | 2006-06-20 | Stratus Technologies Bermuda Ltd. | Apparatus and methods for fault-tolerant computing using a switching fabric |
US6928583B2 (en) * | 2001-04-11 | 2005-08-09 | Stratus Technologies Bermuda Ltd. | Apparatus and method for two computing elements in a fault-tolerant server to execute instructions in lockstep |
US7260741B2 (en) * | 2001-09-18 | 2007-08-21 | Cedar Point Communications, Inc. | Method and system to detect software faults |
JP2003288279A (ja) | 2002-03-28 | 2003-10-10 | Hitachi Ltd | 記憶装置間の障害検出方法、及びこれに用いられる記憶装置 |
US7096383B2 (en) * | 2002-08-29 | 2006-08-22 | Cosine Communications, Inc. | System and method for virtual router failover in a network routing system |
US7562229B2 (en) * | 2003-01-23 | 2009-07-14 | Hewlett-Packard Development Company, L.P. | Codeword-based auditing of computer systems and methods therefor |
US7228545B2 (en) * | 2003-01-23 | 2007-06-05 | Hewlett-Packard Development Company, L.P. | Methods and apparatus for managing the execution of a task among a plurality of autonomous processes |
WO2004086225A1 (ja) * | 2003-03-24 | 2004-10-07 | Fujitsu Limited | 仮想計算機システム |
US20050066218A1 (en) * | 2003-09-24 | 2005-03-24 | Stachura Thomas L. | Method and apparatus for alert failover |
US7320127B2 (en) * | 2003-11-25 | 2008-01-15 | Cisco Technology, Inc. | Configuration synchronization for redundant processors executing different versions of software |
GB0402572D0 (en) * | 2004-02-05 | 2004-03-10 | Nokia Corp | A method of organising servers |
JP4128974B2 (ja) | 2004-03-31 | 2008-07-30 | 富士通株式会社 | レイヤ2ループ検知システム |
CN100440799C (zh) * | 2005-09-06 | 2008-12-03 | 华为技术有限公司 | 一种接入设备中主备板备份及倒换的方法 |
JP4619940B2 (ja) * | 2005-12-21 | 2011-01-26 | 富士通株式会社 | ネットワーク障害箇所検出装置及びネットワーク障害箇所検出方法 |
US7975166B2 (en) * | 2008-03-05 | 2011-07-05 | Alcatel Lucent | System, method and computer readable medium for providing redundancy in a media delivery system |
US8903893B2 (en) * | 2011-11-15 | 2014-12-02 | International Business Machines Corporation | Diagnostic heartbeating in a distributed data processing environment |
WO2016077570A1 (en) | 2014-11-13 | 2016-05-19 | Virtual Software Systems, Inc. | System for cross-host, multi-thread session alignment |
JP2021503913A (ja) * | 2017-11-29 | 2021-02-15 | コーニング インコーポレイテッド | フィルターを備えた細胞培養用のキャップ及び細胞培養方法 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US31407A (en) * | 1861-02-12 | Improvement in plows | ||
US3818458A (en) * | 1972-11-08 | 1974-06-18 | Comress | Method and apparatus for monitoring a general purpose digital computer |
USRE31407E (en) | 1978-05-10 | 1983-10-04 | Tesdata Systems Corporation | Computer monitoring system |
US4360912A (en) * | 1979-11-23 | 1982-11-23 | Sperry Corporation | Distributed status reporting system |
US4451916A (en) * | 1980-05-12 | 1984-05-29 | Harris Corporation | Repeatered, multi-channel fiber optic communication network having fault isolation system |
US4477873A (en) * | 1982-04-29 | 1984-10-16 | International Telephone & Telegraph Corporation | Channel monitor for connection to channel lines |
US4491968A (en) * | 1983-04-07 | 1985-01-01 | Comsonics, Inc. | Status monitor |
JPS59212930A (ja) * | 1983-05-18 | 1984-12-01 | Hitachi Ltd | 端末主導型電源投入制御方法および制御装置 |
US4611289A (en) * | 1983-09-29 | 1986-09-09 | Coppola Anthony F | Computer power management system |
US4610013A (en) * | 1983-11-08 | 1986-09-02 | Avco Corporation | Remote multiplexer terminal with redundant central processor units |
US4589066A (en) * | 1984-05-31 | 1986-05-13 | General Electric Company | Fault tolerant, frame synchronization for multiple processor systems |
US4967344A (en) * | 1985-03-26 | 1990-10-30 | Codex Corporation | Interconnection network for multiple processors |
US4710926A (en) * | 1985-12-27 | 1987-12-01 | American Telephone And Telegraph Company, At&T Bell Laboratories | Fault recovery in a distributed processing system |
US4780844A (en) * | 1986-07-18 | 1988-10-25 | Commodore-Amiga, Inc. | Data input circuit with digital phase locked loop |
US4847837A (en) * | 1986-11-07 | 1989-07-11 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Local area network with fault-checking, priorities and redundant backup |
EP0306211A3 (de) * | 1987-09-04 | 1990-09-26 | Digital Equipment Corporation | Synchronisiertes Doppelrechnersystem |
AU616213B2 (en) * | 1987-11-09 | 1991-10-24 | Tandem Computers Incorporated | Method and apparatus for synchronizing a plurality of processors |
US5193179A (en) * | 1988-08-09 | 1993-03-09 | Harris Corporation | Activity monitor system non-obtrusive statistical monitoring of operations on a shared bus of a multiprocessor system |
US5109486A (en) * | 1989-01-06 | 1992-04-28 | Motorola, Inc. | Distributed computer system with network and resource status monitoring |
JPH02294753A (ja) * | 1989-05-09 | 1990-12-05 | Fujitsu Ltd | 入出力処理装置の初期化方式 |
US4951171A (en) * | 1989-05-11 | 1990-08-21 | Compaq Computer Inc. | Power supply monitoring circuitry for computer system |
US5086499A (en) * | 1989-05-23 | 1992-02-04 | Aeg Westinghouse Transportation Systems, Inc. | Computer network for real time control with automatic fault identification and by-pass |
US5068780A (en) * | 1989-08-01 | 1991-11-26 | Digital Equipment Corporation | Method and apparatus for controlling initiation of bootstrap loading of an operating system in a computer system having first and second discrete computing zones |
US5226120A (en) * | 1990-05-21 | 1993-07-06 | Synoptics Communications, Inc. | Apparatus and method of monitoring the status of a local area network |
US5157663A (en) * | 1990-09-24 | 1992-10-20 | Novell, Inc. | Fault tolerant computer system |
US5404542A (en) * | 1990-10-19 | 1995-04-04 | Everex Systems, Inc. | Power line switching circuit with monitor |
US5214782A (en) * | 1990-12-10 | 1993-05-25 | Generic Computer Services | Power supply monitor for personal computer |
US5542047A (en) * | 1991-04-23 | 1996-07-30 | Texas Instruments Incorporated | Distributed network monitoring system for monitoring node and link status |
CA2071804A1 (en) * | 1991-06-24 | 1992-12-25 | Ronald G. Ward | Computer system manager |
JPH07500705A (ja) * | 1991-09-03 | 1995-01-19 | サイエンティフィック−アトランタ・インコーポレーテッド | 光ファイバ状態監視及び制御システム |
JP3243264B2 (ja) * | 1991-10-16 | 2002-01-07 | 富士通株式会社 | マルチプロセッサシステムにおける通信バスの障害制御方式 |
US5363503A (en) * | 1992-01-22 | 1994-11-08 | Unisys Corporation | Fault tolerant computer system with provision for handling external events |
US5423037A (en) * | 1992-03-17 | 1995-06-06 | Teleserve Transaction Technology As | Continuously available database server having multiple groups of nodes, each group maintaining a database copy with fragments stored on multiple nodes |
JPH0612288A (ja) * | 1992-06-29 | 1994-01-21 | Hitachi Ltd | 情報処理システム及びその監視方法 |
US5390326A (en) * | 1993-04-30 | 1995-02-14 | The Foxboro Company | Local area network with fault detection and recovery |
US5488304A (en) * | 1993-06-02 | 1996-01-30 | Nippon Telegraph And Telephone Corporation | Method and apparatus for judging active/dead status of communication cable |
US5448723A (en) * | 1993-10-15 | 1995-09-05 | Tandem Computers Incorporated | Method and apparatus for fault tolerant connection of a computing system to local area networks |
DE69424565T2 (de) * | 1993-12-01 | 2001-01-18 | Marathon Technologies Corp., Stow | Fehler-betriebssichere/fehler tolerante computerbetriebsmethode |
US5493650A (en) * | 1994-03-02 | 1996-02-20 | Synoptics Communications, Inc. | Apparatus and method for monitoring the presence of cables connected to ports of a computer network controller and automatically reconfiguring the network when cables are connected to or removed from the controller |
US5696895A (en) * | 1995-05-19 | 1997-12-09 | Compaq Computer Corporation | Fault tolerant multiple network servers |
-
1997
- 1997-07-11 US US08/891,539 patent/US5983371A/en not_active Expired - Lifetime
-
1998
- 1998-07-13 EP EP98934467A patent/EP0993633B1/de not_active Expired - Lifetime
- 1998-07-13 CA CA002295853A patent/CA2295853A1/en not_active Abandoned
- 1998-07-13 AT AT98934467T patent/ATE208921T1/de not_active IP Right Cessation
- 1998-07-13 JP JP2000502457A patent/JP4166939B2/ja not_active Expired - Lifetime
- 1998-07-13 WO PCT/US1998/014451 patent/WO1999003038A1/en active IP Right Grant
- 1998-07-13 DE DE69802535T patent/DE69802535T2/de not_active Expired - Lifetime
- 1998-07-13 AU AU83980/98A patent/AU737333B2/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
AU8398098A (en) | 1999-02-08 |
ATE208921T1 (de) | 2001-11-15 |
DE69802535D1 (de) | 2001-12-20 |
AU737333B2 (en) | 2001-08-16 |
EP0993633A1 (de) | 2000-04-19 |
WO1999003038A1 (en) | 1999-01-21 |
EP0993633B1 (de) | 2001-11-14 |
CA2295853A1 (en) | 1999-01-21 |
JP2001509657A (ja) | 2001-07-24 |
JP4166939B2 (ja) | 2008-10-15 |
US5983371A (en) | 1999-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69802535T2 (de) | Aktive fehlererkennung | |
DE69414219T2 (de) | Verfahren und Vorrichtung zur fehlertoleranten Verbindung eines Rechnersystems mit einem lokalen Netz | |
EP0732654B1 (de) | Verfahren zur fehlertoleranten Kommunikation unter hohen Echtzeitbedingungen | |
DE69033050T2 (de) | Verfahren zur Feststellung eines fehlerhaften Kabels und zur Umschaltung zu einem redundanten Kabel in einem universellen Netz | |
DE3853022T2 (de) | Verfahren zur Ausbreitung von Netzwerkzustandsnachrichten. | |
DE3752116T2 (de) | Verfahren zur Netzkonfigurationssteuerung | |
DE69021469T2 (de) | Verfahren zur Sicherheitsübertragssteuerung zwischen redundanten Netzwerkschnittstellbausteinen. | |
DE10360190A1 (de) | Vorrichtung für die Erfassung von Verbindungsfehlern auf der Backplane des hochverfügbaren Ethernet | |
EP2169882B1 (de) | Schiffsruder-Steuerung mit einem CAN-Bus | |
DE102014102582A1 (de) | Fehlertolerantes Steuerungssystem | |
WO2001013230A1 (de) | Verfahren zum erzwingen der fail-silent eigenschaft in einem verteilten computersystem und verteilereinheit eines solchen systems | |
EP1062787A1 (de) | Lokales netzwerk, insbesondere ethernet-netzwerk, mit redundanzeigenschaften sowie redundanzmanager | |
DE10130027A1 (de) | Bereitschaftsredundanz bei invers multiplexenden Diensten (IMA) | |
DE69125778T2 (de) | Verfahren zur Sicherung von in einer Primär- und Sekundärdatenbank gespeicherten Daten in einem Prozessregelsystem | |
EP2637362A1 (de) | Busteilnehmer-Einrichtung zum Anschluss an einen linienredundanten, seriellen Datenbus und Verfahren zur Steuerung der Kommunikation eines Busteilnehmers mit einem linienredundanten, seriellen Datenbus | |
DE69219369T2 (de) | Ringübertragungssystem mit einem Bussicherungssystem und Verfahren | |
DE10312699A1 (de) | Nichtinvasives Testen von Netzwerkschnittstellen-Fehlercodes für ein Sicherheitsnetzwerk | |
DE69738041T2 (de) | Wiederherstellung eines ISDN D-Kanals ohne Verlust von Signalisierungs- oder Paketdaten | |
DE19921589C2 (de) | Verfahren zum Betrieb eines Datenübertragungssystems | |
DE60309012T2 (de) | Verfahren und system zur sicherstellung eines busses und eines steuerservers | |
WO2004071010A2 (de) | Verfahren und vorrichtung zum mediumredundanten betreiben eines endgerätes in einem netzwerk | |
EP1399818B1 (de) | Verfahren und vorrichtung zur kommunikation in einem fehlertoleranten verteilten computersystem | |
DE69928977T2 (de) | Verfahren und Anordnung zur Verbindung von Fibre-Channel-Netzen und ATM-Netzen | |
DE102018203001A1 (de) | Elektronisches Datenverteilsteuergerät und Verfahren zum Betreiben eines solchen | |
EP1851934B1 (de) | Verfahren zur fehlererkennung eines nachrichteninterfaces in einer kommunikationseinrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |