DE69802535T2

DE69802535T2 - Aktive fehlererkennung

Info

Publication number: DE69802535T2
Application number: DE69802535T
Authority: DE
Inventors: C. Lord; B. Schwartz
Original assignee: Marathon Technologies Corp
Current assignee: Marathon Technologies Corp
Priority date: 1997-07-11
Filing date: 1998-07-13
Publication date: 2002-07-25
Anticipated expiration: 2018-07-14
Also published as: AU8398098A; ATE208921T1; DE69802535D1; AU737333B2; EP0993633A1; WO1999003038A1; EP0993633B1; CA2295853A1; JP2001509657A; JP4166939B2; US5983371A

Description

Die vorliegende Erfindung bezieht sich auf das Erkennen von Fehlern, wie z. B. Kommunikationsfehlern, in einem fehlertoleranten Computersystem.
In fehlertoleranten Computersystemen werden für gewöhnlich redundante Hardware- Elemente verwendet. Für gewöhnlich haben einzelne Elemente im System die Aufgabe, Fehler zu erkennen, indem sie Signale überwachen, die von anderen Elementen des Systems oder außerhalb des Systems generiert werden.
Zusätzlich kann ein Systemelement periodisch einen sogenanntes "Herzschlag"-Signal übertragen, das anzeigt, daß das Element richtig funktioniert. Wird von einem anderen Systemelement dieses Herzschlag-Signal nicht empfangen, dann legt dies dem Empfänger- Element nahe, daß das Überträgerelement nicht richtig funktioniert. Daß kein Herzschlag- Signal empfangen wird kann jedoch auch durch einen Fehler im Übertragungsweg zwischen den beiden Elementen bedingt sein. Im Allgemeinen sollte bei der Fehlerbehandlung zwischen Fehlern in einem Systemelement und Fehlern im Übertragungsweg zwischen Elementen unterschieden werden.
Redundante Netzwerk-Interface-Controller (NICs) werden in fehlertoleranten Computersystemen verwendet, um eine zuverlässige, ununterbrochene Kommunikation mit einem externen Netzwerk zu gewährleisten. Im Allgemeinen befindet sich ein NIC in einem Pimärmodus bzw. aktiven Modus, in dem der NIC für die Kommunikation mit anderen Vorrichtungen im Netzwerk zuständig ist, während sich der andere NIC in einem Standby- Modus befindet.
Im Betrieb können die NICs Herzschlag-Nachrichten austauschen, um Fehler in einem von einem NIC ausgehenden Verbindungsweg durch das externe Netzwerk und zurück zu einem anderen NIC aufzuspüren. Ein Fehler im Verbindungsweg zwischen NICs kann an verschiedenen Punkten auftreten, einschließlich der Ein- und Ausgängen der NICs, der Übertragungs- und Empfangsverbindungen zwischen den NICs und dem externen Netzwerk, - oder im externen Netzwerk selbst. Der Verbindungspunkt zum externen Netzwerk liegt im Allgemeinen in einem Port eines Netzwerk-Verteilers, wobei der Verteiler mit verschiedenen Netzwerkkomponenten verbunden ist. Jeder NIC kann mit einem anderen Verteiler im externen Netzwerk verbunden sein, um zu vermeiden, daß ein einzelner Verteiler zu einer kritischen Fehlerstelle wird.
In der EP-A-0 649 092 ist ein Computersystem dargestellt, in dem die Verbindungen zu einem lokalen Netzwerk (LAN) überwacht werden, indem Herzschlag-Nachrichten zwischen den LAN-Controllern sowie anderweitiger Datenverkehr mit dem LAN überwacht werden.

Zusammenfassung

Die in den unabhängigen Ansprüchen 1 und 14 definierte Erfindung bezieht sich auf das Erkennen von Fehlern in einem fehlertoleranten Computersystem, das zwei Ein- /Ausgabeprozessoren beinhaltet, die mit einem Datenübermittlungssystem verbunden sind. Weitere Verbesserungen gehen aus den Unteransprüchen hervor.
Das Computersystem kann Fehler erkennen, die in Zusammenhang mit einem primären Ein-/Ausgabeprozessor oder einem Standby - Ein-/Ausgabeprozessor auftreten. Das System kann ferner zwischen Fehlern der Ein-/Ausgabeprozessoren und Übertragungsfehlern im Datenübermittlungsnetzwerk selbst unterscheiden. Zur Fehlererkennung analysiert das System Kategorien der Datenübermittlung, die nicht "herzschlagähnliche" Übertragungen sind. Das System kann Fehler erkennen, wenn die Ein-/Ausgabeprozessoren sich auf einem gemeinsamen Netzwerksegment befinden und den gleichen Datenverkehr überwachen können. Das System kann auch dann Fehler erkennen, wenn sich die Prozessoren auf verschiedenen Segmenten befinden und, aufgrund der Filterfunktion von Netzwerkelementen wie z. B. Schaltern oder aktiven Verteilern, nicht den gleichen Datenverkehr überwachen können.
Auf Kategorien der Datenübermittlung, die von jedem Ein-/Ausgabeprozessor verarbeitet werden, kann ein zeitliches Kriterium angewendet werden, zur Erkennung eines Fehlers kann zwischen den für die verschiedenen Prozessoren erhaltenen Ergebnissen eine Beziehung hergestellt werden. Ein Fehler kann z. B. dann angezeigt werden, wenn eine Differenz in der zeitlichen Koordination der Datenübermittlung einen Schwellenwert überschreitet. Das zeitliche Kriterium kann die Zeit einer letzten Übertragung oder eines letzten Empfangs einer Kategorie der Datenübermittlung sein.
Eine Kategorie der Datenübermittlung können z. B. Nachrichten sein, die von außerhalb des fehlertoleranten Systems stammen, wie z. B. von einem anderen, mit dem Datenübermittlungssystem verbundenen Computersystem. Solche Nachrichten können an eine Systemgruppe gerichtet sein, zu der das fehlertolerante System gehört. Die Kategorie kann auch Nachrichten mit einschließen, die von einem der Ein-/Ausgabeprozessoren stammen, einschließlich solcher Nachrichten, die an den anderen Prozessor gerichtete sind, oder Nachrichten, die von einem anderen Element des Systems stammen.
Ein Aspekt der vorliegenden Erfindung ist allgemein das Erkennen eines Fehlers in einem fehlertoleranten Computersystem mit einem ersten Ein-/Ausgabeprozessor und einem zweiten Ein-/Ausgabeprozessor, die an ein Datenübermittlungssystem gekoppelt sind. Auf Kategorien der Datenübermittlung, die vom ersten und vom zweiten Ein-/Ausgabeprozessor verarbeitet werden, wird ein zeitliches Kriterium angewendet, um ein erstes und ein zweites Zeitmessungs-Ergebnis zu erhalten. Zwischen den Zeitmessungs-Ergebnissen wird eine Beziehung hergestellt, und auf Grundlage der so hergestellten Beziehung wird festgestellt, ob ein Fehler aufgetreten ist.
Ausführungen der Erfindung können eines oder mehrere der folgenden Merkmale beinhalten. Das Erkennen eines Fehlers kann beispielsweise beinhalten, einen Fehler daran zu erkennen, daß die Differenz zwischen den Zeitmessungs-Ergebnissen einen bestimmten Schwellenwert überschreitet.
Das zeitliche Kriterium kann die Zeit einer letzten Übertragung oder eines letzten Empfangs sein. Die Kategorie der Datenübermittlung kann Nachrichten beinhalten, die vom ersten Ein-/Ausgabeprozessor stammen, wie z. B. Nachrichten, die an eine Adresse gerichtet sind, auf die normalerweise der zweite Ein-/Ausgabeprozessor anspricht, oder Nachrichten, die vom ersten Ein-/Ausgabeprozessor abgeschickt und über das Datenübermittlungssystem dem zweiten Ein-/Ausgabeprozessor zugeleitet werden. Die Kategorie der Datenübermittlung kann auch Nachrichten beinhalten, die von außerhalb des Computersystems stammen, wie z. B. Nachrichten, die von einem zweiten Computer stammen, der mit dem Datenübertragungssystem verbunden ist, oder Nachrichten, die an eine Systemgruppe gerichtet sind, zu der das Computersystem gehört. Die Kategorie der Datenübermittlung kann auch Nachrichten beinhalten, die von einem dritten Element des Computersystems stammen, das mit den Ein-/Ausgabeprozessoren Daten austauscht.
Das zeitliche Kriterium kann am ersten Ein-/Ausgabeprozessor auf die Kategorie der Datenübermittlung angewendet werden, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, und das erste Zeitmessungs-Ergebnis kann vom ersten Ein-/Ausgabeprozessor an den zweiten Ein-/Ausgabeprozessor übermittelt werden. Das zeitliche Kriterium kann am zweiten Ein-/Ausgabeprozessor auf die Kategorie der Datenübermittlung angewendet werden, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, und die Beziehung zwischen den Zeitmessungs-Ergebnissen kann am zweiten Ein-/Ausgabeprozessor hergestellt werden. Das erste Zeitmessungs-Ergebnis kann über einen bestimmten Kommunikationskanal zwischen den Ein-/Ausgabeprozessoren übermittelt werden.
Eine Vielzahl von zeitlichen Kriterien kann auf eine entsprechende Vielzahl von Kategorien der Datenübermittlung angewendet werden, die von den Ein-/Ausgabeprozessoren verarbeitet werden, um eine erste und eine zweite Vielzahl von Zeitmessungs-Ergebnissen zu erhalten. Zwischen den Ergebnissen aus der ersten Vielzahl von Zeitmessungs-Ergebnissen und den entsprechenden Ergebnissen aus der zweiten Vielzahl von Zeitmessungs-Ergebnissen können Beziehungen hergestellt werden
Ein Vorteil der vorliegenden Erfindung besteht darin, daß Fehler, die auf dem Datenübermittlungsweg zwischen dem fehlertoleranten System und dem Datennetzwerk entstehen, erkannt werden können, und insbesondere, daß Fehler, die auf den Datenwegen entstehen, die die Ein-/Ausgabeprozessoren miteinander verbinden, von Fehlern in den Prozessoren unterschieden werden können.
Weitere Merkmale und Vorteile der vorliegenden Erfindung gehen aus der nachfolgenden Beschreibung unter Bezugnahme auf die Figuren sowie aus den Ansprüchen hervor.

Kurzbeschreibung der Figuren

Es zeigen
Fig. 1 ein Blockschaltbild eines fehlertoleranten Computersystems mit redundanten Rechenelementen und Ein-/Ausgabeprozessoren;
Fig. 2 ein Zustandsdiagramm eines Ein-/Ausgabeprozessors; und
Fig. 3 bis 5 Ablaufpläne von Funktionen, die von einem Ein-/Ausgabeprozessor ausgeführt werden.

Beschreibung

In Fig. 1 ist ein fehlertolerantes System 10 dargestellt, das zweifach redundante Rechenelemente (CEs) 12 und 14 enthält, sowie zweifach redundante Ein- /Ausgabeprozessoren (IOPs) 24 und 26 und Verbindungsvorrichtungen 36 und 38 für die Übermittlung. Die CEs 12 und 14 führen parallele Betriebsabläufe aus. Jedes CE kommuniziert mit sowohl IOP 24 als auch IOP 26. CE 12 ist über die Verbindungsleitungen 50 und 54 angeschlossen, und CE 14 über die Verbindungsleitungen 52 und 56. Die Verbindungsleitungen führen durch die Verbindungsvorrichtungen 36 und 38 für die Datenübermittlung.
Jedes CE schließt eine Zentraleinheit (CPU) 16 oder 18 und einen Interface-Controller (IC) 20 oder 22 mit ein. Die ICs stellen eine Schnittstelle zwischen den CPUs und den Verbindungsleitungen her. Eine Ein-/Ausgabeanforderung der CPU 16 wird z. B. vom IC 20 über die Verbindungsleitungen 50 und 54 an die IOPs 24 und 26 übertragen. Aufgrund der sie verbindenden Kommunikationsstruktur sollten die IOPs im Normalbetrieb identische Befehlssequenzen von jedem CE erhalten
Jeder IOP schließt eine CPU 28 oder 30 und einen Netzwerk-Interface-Controller (NIC) 32 oder 34 mit ein. Die Netzwerk-Provider 29 und 31 sind Softwaretreiber, die in den CPUs 28 und 30 aktiv sind. Die NICs 32 und 34 machen es möglich, daß die Netzwerk- Provider durch die Netzwerkverbindungen 62 und 64 über ein lokales Netz (LAN) 40 miteinander kommunizieren. Über einen dafür vorgesehenen Übertragungsweg 60, der die CPUs 28 und 30 miteinander verbindet, können die Netzwerk-Provider 29 und 31 Nachrichten austauschen, ohne das LAN 40 zu nutzen.
Ein Netzwerk-Provider befindet sich in einem Primärzustand, während sich der andere Netzwerk-Provider im Standby-Zustand befindet. Aus CE 12 oder 14 stammende Daten werden nur von dem sich im Primärzustand befindenden Netzwerk-Provider über das LAN an andere Vorrichtung übertragen.
Die Netzwerkverbindungen 62 und 64 stellen Verbindungen zu den NICs 32 und 34 her und enden an Eingängen der Datenübermittlungsverteiler 42 und 44 des LAN 40. Die Verteiler 42 und 44 sind über eine Brücke 66 des LAN 40 miteinander verbunden. Die Verteiler 42 und 44 haben bei der Datenübermittlung keine Filterfunktion, wohingegen die Brücke 66 Datenübermittlungen filtert, die nicht an eine Vorrichtung gerichtet sind, auf die über einen bestimmten Eingang der Brücke zugegriffen wird. Die Verteiler 42 und 44 befinden sich deshalb auf verschiedenen Segmenten des LAN 40. Andere Vorrichtungen, wie z. B. die Vorrichtung 46, die an das LAN 40 angeschlossen sind, können mit dem fehlertoleranten System 10 kommunizieren.
Jeder NIC 32 und 34 hat eine festgelegte, eindeutige "physikalische" Adresse und eine programmierbare "logische" Adresse, die so konfiguriert ist, daß sie für beide NICs gleich ist. Die logische Adresse wird für die Kommunikation zwischen dem fehlertoleranten System 10 und Vorrichtungen im LAN 40, wie z. B. der Vorrichtung 46 oder Vorrichtungen, auf die über das LAN 40 zugegriffen werden kann, genutzt. Jeder NIC ist auch dafür programmiert, Nachrichten mit Gruppenadressierung zu empfangen, wie z. B. Nachrichten mit allgemeiner Adressierung, mit mehreren Adressen, oder mit funktionellen Adressen. Eine von einem NIC verschickte Nachricht mit Gruppenadressierung weist die eindeutige physikalische Adresse des NIC als Nachrichtenquelle aus. Der Empfänger einer Nachricht mit Gruppenadressierung kann also feststellen, von welchem NIC die Nachricht abgeschickt wurde.
Die Netzwerkverbindungen 62 und 64 können auf dem gleichen Segment des LAN 40 enden, oder auf verschiedenen Segmenten. Allgemein ist es so, daß, wenn die Verbindungen 62 und 64 auf dem gleichen Segment enden, beide NICs den gesamten Datenverkehr auf diesem Segment überwachen können. Dementsprechend können Daten, die von einem NIC übertragen werden, vom andern NIC selbst dann empfangen werden, wenn sie nicht an diesen NIC adressiert sind. Im Gegensatz dazu können, wie in Fig. 1 gezeigt, die Netzwerkverbindungen 62 und 64 auf verschiedenen Segmenten bei den Verteilern 42 und 44 enden. Diese Verteiler sind durch die Brücke 66 so miteinander verbunden, daß sie sich auf verschiedenen Segmenten des LAN 40 befinden. Die Brücke 66 ist so konfiguriert, daß sie an ein Segment adressierte Daten filtert, um unnötigen Gebrauch von Übertragungskapazitäten dieses Segments zu vermeiden. Die Brücke vergleicht von einem Segment ankommende Daten mit einer Tabelle von Adressen von Vorrichtungen, die auf diesem bestimmten Segment mit der Brücke 66 verbunden sind, oder die über dieses Segment kommunizieren. Eine Nachricht, die an eine bestimmte Vorrichtung adressiert ist (d. h. eine Direktnachricht anstelle einer Nachricht mit Gruppenadressierung), die nicht in der Tabelle für ein Segment aufgelistet ist, wird von der Brücke 66 nicht an dieses Segment weitergeleitet. Andererseits werden Nachrichten mit Gruppenadressierung auf allen Segmenten eines LAN ungefiltert weitergeleitet.
Im Betrieb stellt das fehlertolerante System 10 fest, ob die Netzwerkverbindungen 62 und 64 mit einem gemeinsamen Segment des LAN 40 verbunden sind, und daraus resultierend, ob beide NICs den gleichen Netzwerkverkehr überwachen können sollten. Stellt das System fest, daß sich die NICs auf verschiedenen Segmenten befinden, dann folgt daraus, daß nur der Verkehr mit identischer Gruppenadressierung von beiden NICs gemeinsam überwacht werden kann.
Im Betrieb wird die Datenübermittlung sowohl vom primären Netzwerk-Provider als auch vom Standby-Netzwerk-Provider überwacht um festzustellen, ob ein Fehler aufgetreten ist. Würde die Netzwerkverbindung eines IOP durch einen aufgetretenen Fehler außer Funktion gesetzt, so werden entsprechende Maßnahmen ergriffen. Verliert der aktive Netzwerk-Provider die Verbindung zum Netzwerk und ist der Standby-Netzwerk-Provider online, so wird der Standby-Netzwerk-Provider zum neuen primären Netzwerk-Provider umgeschaltet. Verliert der Standby-Netzwerk-Provider die Verbindung zum Netzwerk, so geht er in den offline Zustand über, bis die Verbindung wiederhergestellt ist.
Die Netzwerk-Provider erkennen Fehler, indem sie Kategorien der Datenübermittlung überwachen und die seit der letzten Datenübermittlung in jeder Kategorie vergangene Zeit festhalten. Erhält ein Netzwerk-Provider einen Hinweis darauf, daß ein Übertragungsfehler aufgetreten sein könnte, so tauscht er mit dem anderen Netzwerk-Provider über den Übertragungsweg 60 eine Zustandsmeldung aus. Die Zustandsmeldung enthält die Zeiten der letzten Übertragung. Jeder Netzwerk-Provider vergleicht die in einer empfangenen Nachricht enthaltenen Zeiten mit den Zeiten, die im empfangenden Netzwerk-Provider festgehalten sind, um eventuelle Systemfehler zu erkennen. Bei diesen Vergleichen wird vom Netzwerk- Provider ein Toleranzzeitraum als Maßstab angelegt, innerhalb dessen die verglichenen Zeiten übereinstimmen sollten. Dieser Toleranzzeitraum berücksichtigt natürliche Schwankungen in den Übertragungszeiten sowie die für das Erstellen und Übertragen der Zustandsmeldungen benötigte Zeit.
Um die Zustände der Netzwerkverbindungen 62 und 64 sowie des Zustand des LAN 40 zu erfassen, übertragen die Netzwerk-Provider 29 und 31 über die NICs 32 und 34 periodisch Nachrichten mit Gruppenadressierung, bekannt als "Störpakete" (Noise Packets), die an eine Gruppenadresse gerichtet sind, die von beiden NICs überwacht wird. Als Ursprungsadresse der Nachricht mit Gruppenadressierung wird die eindeutige physikalische Adresse des übertragenden NIC angegeben, so daß die Empfänger-NICs die Quelle identifizieren können. Befinden sich die Netzwerkverbindungen auf einem gemeinsamen Segment, so wird die Nachricht direkt von den NICs empfangen. Befinden sich Quell- und Empfänger-NIC auf verschiedenen Segmenten, so werden die Pakete mit Gruppenadressierung im Normalbetrieb des LAN 40 von einem Segment an das andere weitergeleitet.
Beim Initialisieren des fehlertoleranten Systems 10 durchlaufen die Netzwerk- Provider 29 und 31 eine Sequenz von drei Anlaufzuständen. In einem ersten Zustand, dem verbundenen Zustand (joined State), haben beide IOPs eine Verbindung zum LAN 40 sowie eine über den Übertragungsweg 60 führende Verbindung zwischen den Prozessoren 28 und 30 hergestellt. Im nächsten, einem synchronisierten Zustand, wird die auf den CPUs 16 und 18 ausgeführte Übertragungs-Umleitungssoftware mit den Netzwerk-Providern 29 und 31 synchronisiert. In einem vollständig initialisierten Zustand können schließlich Ein- /Ausgabeanforderungen, die in den CPUs 16 und 18 verarbeitet werden, zur Kommunikation mit dem LAN 40 an die Netzwerk-Provider 29 und 31 verschickt werden.
Wie in Fig. 2 dargestellt nehmen beide Netzwerk-Provider, wenn sie vollständig initialisiert sind, in einen Online/Standby-Zustand 70 ein. In einem nächsten Schritt wird ein Netzwerk-Provider vom Online/Standby-Zustand in den Online/Primär-Zustand 72 überführt. Hat ein sich in einem der beiden Online-Zustände 70, 72 befindender Netzwerk-Provider einen Hinweis darauf, daß er die Verbindung zum Netzwerk verloren haben könnte, dann versendet dieser Netzwerk-Provider periodisch Netzwerk-Zustands-Anfragen an den anderen Netzwerk-Provider. Wird bestätigt, daß die Verbindung zum Netzwerk nicht mehr besteht, dann geht der Netzwerk-Provider in den Offline-Zustand 74 über. Erkennt der sich im Online/Primär-Zustand 72 befindende Nertzwerk-Provider, daß er nicht mehr mit dem Netzwerk verbunden ist und geht in den Offline-Zustand 74 über, dann geht der sich im Online/Standby-Zustand 70 befindende Netzwerk-Provider in den Online/Primär-Zustand über. Es ist zu beachten, daß der automatische Übergang vom Online/Primärzustand 72 in den Offline-Zustand 74 nur dann zulässig ist, wenn der andere Netzwerk-Provider sich im Online/Standby-Zustand 70 befindet. Ein Netzwerk-Provider, der sich im Offline-Zustand 74 befindet, versendet periodisch Netzwerk-Status-Anfragen an den anderen Netzwerk-Provider über die Verbindung 60. Ist die Netzwerkverbindung wiederhergestellt, dann nimmt der Netzwerk-Provider wieder den Zustand Online/Standby 70 ein.
Zusätzlich zu den automatischen Übergängen können vom Operator gesteuerte Zustandswechsel von den Zuständen online und offline 70, 72, 74 in einen deaktivierten Zustand 76 auftreten. Wird ein sich im Zustand 76 befindender Netzwerk-Provider manuell reaktiviert, dann nimmt dieser Netzwerk-Provider den Online/Standby-Zustand 70 ein und geht dann unmittelbar in den Offline-Zustand 74 über, wenn die Verbindung zum Netzwerk nicht bestätigt wird. Schließlich kann durch weitere Erkennungsmechanismen festgestellt werden, daß ein Netzwerk-Provider ausgefallen ist, wodurch dieser in einen Fehlerzustand 78 überführt wird.
Wie in Fig. 3 dargestellt überprüft ein sich in einem der Online- oder Offline-Zustände 70, 72 oder 74 befindender Netzwerk-Provider mehrere Male, ob über den Übertragungsweg 60 eine Netzwerk-Zustands-Anfrage an den anderen Netzwerk-Provider gesendet werden sollte. Konkret stellt der Netzwerk-Provider fest, ob er eine Netzwerk-Zustands-Anfrage abschicken soll, nachdem ein bestimmter Netzwerk-Zustands-Intervall, genannt NetworkStatusInterval, abgelaufen ist. Der Standardwert für den NetworkStatusInterval beträgt 1.000 Millisekunden. Nach Ablauf dieses Intervalls stellt der Netzwerk-Provider fest, ob eine von drei Bedingungen erfüllt wird. Die erste Bedingung ist erfüllt, wenn in einem Paket-Empfangs-Intervall, genannt ReceivePacketInterval, keine "Nicht-Stör-Pakete" (Non Noise Packets) empfangen wurden (Schritt 80). Der Standardwert für den ReceivePacket- Interval beträgt 4.000 Millisekunden, was dem typischen Maximalwert für den Intervall zwischen vom System 10 empfangenen Paketen entspricht. Die zweite Bedingung ist dann erfüllt, wenn vom anderen Netzwerk-Provider im vorangegangenen Paket-Empfangs-Intervall keine Störpakete empfangen wurden (Schritt 82). Die dritte Bedingung ist immer dann erfüllt, wenn der Netzwerk-Provider sich im Offline-Zustand 74 befindet (Schritt 84). Ist eine dieser Bedingungen erfüllt, dann wird an den anderen Netzwerk-Provider eine Netzwerk-Zustands- Anfrage abgeschickt (Schritt 86). Beim Übertragen einer Anfrage wird nicht berücksichtigt, ob auf eine vorangegangene Anfrage eine Antwort empfangen wurde.
Nach Erhalt einer Netzwerk-Zustands-Anfrage erstellt ein Netzwerk-Provider üblicherweise eine Antwortnachricht, die folgende Kommunikationsdaten enthält:
TimeLastNoiseReceived Seit Empfang des letzten Störpakets vom anderen Prozessor vergangene Zeit
TimeLastPacketReceived Seit Empfang des letzten an die logische (System-) Adresse gerichteten Nicht-Stör-
Pakets vergangene Zeit
TimeLastMulticastReceived Seit Empfang des letzten Nicht-Stör-Pakets mit Gruppenadressierung vergangene Zeit
TimeLastNoiseTransmitted Seit Absenden der letzten Störnachricht vergangene Zeit
TimeNetworkMonitored Zeitraum, in dem der Netzwerk-Provider Daten gesammelt hat (d. h. verfügbare Betriebszeit des Systems)
CountTransmitFailures Aktueller Zählerstand für Übertragungsfehler
Um zu vermeiden, daß beide Netzwerk-Provider gleichzeitig einen Fehler erkennen und keiner von beiden im Online/Primärzustand 72 verbleibt, antwortet ein sich im Online/Primärzustand 72 befindender Netzwerk-Provider anders auf eine Netzwerk-Zustands- Anfrage, als ein Netzwerk-Provider, der sich nicht im Online/Primärzustand befindet. Verschickt ein sich im Online/Primärzustand 72 befindender lokaler Netzwerk-Provider eine Netzwerk-Zustands-Anfrage und erhält seinerseits eine Netzwerk-Zustands-Anfrage vom entfernten Netzwerk-Provider, bevor er auf seine eigene Anfrage eine Antwort erhalten hat, dann zieht der lokale Netzwerk-Provider die in der empfangenen Anfrage erhaltene Information heran, um seine eigene Anfrage zu beantworten, anstatt den Empfang einer Antwort abzuwarten. Der lokale Netzwerk-Provider antwortet nicht auf die von ihm empfangene Anfrage. Verschickt ein lokaler Netzwerk-Provider, der sich nicht im Online/Primärzustand 72 befindet, eine Netzwerk-Zustands-Anfrage und erhält seinerseits eine Netzwerk-Zustands-Anfrage vom entfernten Netzwerk-Provider, bevor er auf seine eigene Anfrage eine Antwort erhalten hat, dann antwortet der lokale Netzwerk-Provider auf die Anfrage und zieht nicht die in der empfangenen Anfrage erhaltene Information heran, um seine noch offene Anfrage zu beantworten.
Wie in Fig. 4 dargestellt stellt ein lokaler Netzwerk-Provider nach Erhalt eines Netzwerk-Status-Berichts (Schritt 87) fest, ob der lokale oder der entfernte Netzwerk- Provider sich noch nicht im vollständig initialisierten Zustand befindet (Schritt 88), ob sich der entfernte Netzwerk-Provider im Fehlerzustand 78 oder im deaktivierten Zustand 76 befindet (Schritt 90), oder ob sich der lokale Netzwerk-Provider im Fehlerzustand 78 oder im deaktivierten Zustand 76 (d. h. nicht in einem der Zustände online oder offline 70, 72 oder 74) befindet (Schritt 92). Wird keine dieser Bedingungen erfüllt, dann führt der lokale Netzwerk- Provider eine Prozedur 94 durch um festzustellen, ob der IOP die Verbindung zum Netzwerk verloren hat. Wird mindestens eine der Bedingungen erfüllt, dann wird die Antwortnachricht verworfen (Schritt 96), und die Antwort wird nicht verarbeitet.
Wie in Fig. 5 dargestellt wird im ersten Schritt der Prozedur 94 festgestellt, ob beide IOPs am gemeinsamen Datenverkehr beteiligt sind (Schritt 100). Die Definition des gemeinsamen Datenverkehrs hängt von der Feststellung des lokalen Netzwerk-Providers ab, ob sich beide IOPs auf einem gemeinsamen Segment oder auf verschiedenen Segmenten des LAN 40 befinden. Zunächst gehen beide Netzwerk-Provider davon aus, daß sich die IOPs auf verschiedenen Segmenten befinden. In diesem Falle bezieht sich der gemeinsame Datenverkehr auf von den IOPs empfangene Pakete mit Gruppenadressierung, die keine Störpakete sind. Beide IOPs nehmen am gemeinsamen Datenverkehr teil, wenn der Wert für TimeLastMulticastReceived im Netzwerk-Statusbericht und der vom lokalen Netzwerk- Provider berechnete Wert innerhalb eines Toleranzbereichs liegen, der als Receivelolerance bezeichnet wird. Der Standardwert für ReceiveTolerance beträgt 1.000 Millisekunden. Stellen die Netzwerk-Provider fest, daß sie sich auf dem selben Segment befinden, dann schließt der gemeinsame Datenverkehr auch Pakete mit ein, die an die logische Adresse des Systems 10 gerichtet sind. Deshalb werden zusätzlich zum Vergleich der Werte für TimeLastMulticastReceived auch die Werte für TimeLastPacketReceived verglichen; beide IOPs sind dann am gemeinsamen Datenverkehr beteiligt, wenn sich diese Zeitwerte innerhalb des in ReceiveTolerance festgelegten Toleranzbereichs befinden.
Sind die beiden IOPs nicht am gemeinsamen Datenverkehr beteiligt, dann wird durch diese Prozedur festgestellt, ob der lokale IOP am gemeinsamen Datenverkehr beteiligt ist (Schritt 106). Der lokale Netzwerk-Provider stellt dann fest, daß der lokale IOP nicht am gemeinsamen Datenverkehr beteiligt ist, wenn die Wert für TimeLastMulticastReceived oder TimeLastPacketReceived für den lokalen IOP um mindestens den Wert ReceiveTolerance größer sind, als der empfangene Wert (d. h. wenn der lokale Empfang der letzten Nachricht mit Gruppenadressierung um mindestens den Wert ReceiveTolerance weiter zurückliegt, als der entsprechende Wert für den entfernten IOP). Ist der lokale IOP nicht am gemeinsamen Datenverkehr beteiligt, dann schließt der Netzwerk-Provider daraus, daß in der Empfangsleitung vom LAN 40 zum IOP ein Fehler vorliegt. Der Netzwerk-Provider geht deshalb in den Offline-Zustand 74 über (oder verbleibt in diesem Zustand) (Schritt 108).
Sind beide IOPs am gemeinsamen Datenverkehr beteiligt (Schritt 100), dann stellt der Netzwerk-Provider fest, ob keiner der IOPs die Störpakete des anderen empfängt (Schritt 102). Dies ist dann der Fall, wenn der Wert jedes Netzwerk-Providers für TimeLastNoiseReceived um mindestens den Wert Receivelolerance größer ist, als der lokale Wert für TimeLastNoiseTransmitted, und wenn der lokale Wert für TimeLastNoiseReceived um mindestens den Wert Receivelolerance größer ist, als der empfangene Wert für TimeLastNoiseTransmitted. Empfängt keiner der IOPs die Störpakete des anderen (Schritt 102), dann überprüft der lokale Provider, ob ein Übertragungsfehler gemeldet wird (Schritt 109). Ist dies nicht der Fall, dann legt der Netzwerk-Provider zugrunde, daß sich der Fehler innerhalb des LAN 40 befinden muß, da gleichzeitig an beiden Verbindungen 62 und 64 ein Fehler vorliegen müßte, damit diese Zustandswerte zustande kommen. Das gleichzeitige Eintreten dieser beiden Fehlerzustände gilt als unwahrscheinlich. Meldet der Netzwerk- Provider einen Übertragungsfehler (Schritt 109), dann geht er in den Offline-Zustand über (Schritt 108).
Empfängt zumindest einer der IOPs die Störpakete des anderen, dann stellt der Netzwerk-Provider fest, ob lokal übertragene Störpakete vom anderen IOP empfangen werden (Schritt 104). Dies ist dann der Fall, wenn der für TimeLastNoiseReceived empfangene Wert den lokalen Wert für TimeLastNoiseTransmitted nicht um mindestens den Wert für ReceiveTolerance überschreitet. Werden lokal übertragene Störpakete vom anderen IOP empfangen, dann liegt im lokalen IOP kein Fehler vor. Andererseits legt, wenn die lokal übertragenen Störpakete nicht vom anderen IOP empfangen werden, der Netzwerk-Provider zugrunde, daß im Übertragungsweg vom lokalen IOP zum LAN 40 ein Fehler vorliegen muß, und der lokale Netzwerk-Provider geht in den Offline-Zustand 74 über (Schritt 108).
Bei allen Tests gilt, daß, wenn ein empfangener Zeitwert größer ist als der Wert für TimeNetworkMonitored, dieser Zeitwert als ungültig betrachtet wird. Dieser Mechanismus soll verhindern, daß falsche Daten verwendet werden. Eine weitere Beschränkung hinsichtlich des Wechsels von Zuständen besteht darin, daß ein sich im Offline-Zustand 74 befindender Netzwerk-Provider zumindest ein Paket empfangen haben muß, solange er sich in diesem Zustand befindet, bevor er in den Online-Zustand 70 übergeht. Durch diese Einschränkung wird der Zustandswechsel verhindert, solange für keinen der IOPs ein Netzwerkverkehr sichtbar ist.
Weitere Ausführungen ergeben sich aus den nachfolgenden Ansprüchen. Zum Beispiel können beide IOPs im oben beschriebenen System redundant sein. Bei Verwendung einer ähnlichen Methode des Vergleichens von relativen Zeitwerten für verschiedene Kategorien der Kommunikation können drei oder mehr IOPs verwendet werden. Werden drei oder mehr IOPs verwendet, dann können die Antwort von verschiedenen IOPs gemeinsam herangezogen werden, um Übermittlungsfehler zu erkennen. Zusätzlich könnten die relativen Zeitwerte für andere als die oben beschriebenen Kategorien von Systemereignissen für die Fehlererkennung genutzt werden. Der Ansatz, die relative Zeitmessung von Ereignissen der Datenübermittlung zu nutzen, kann auch für das Erkennen von internen Kommunikationsfehlern innerhalb des fehlertoleranten Systems selbst angewendet werden. Schließlich könnten die IOPs mit verschiedenen LANs verbunden werden, wenn die Übermittlung ihrer Störpakete entsprechend gewährleistet wäre.

Claims

1. Verfahren zum Erkennen von Fehlern in einem fehlertoleranten Computersystem, mit einem ersten Ein-/Ausgabeprozessor und einem zweiten Ein-/Ausgabeprozessor, die an ein Datenübermittlungssystem gekoppelt sind, gekennzeichnet durch folgende Schritte:

Anwenden eines zeitlichen Kriteriums auf eine Kategorie der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, um ein erstes Zeitmessungs-Ergebnis zu erhalten;

Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, um ein zweites Zeitmessungs-Ergebnis zu erhalten;

Herstellen einer Beziehung zwischen dem ersten Zeitmessungs-Ergebnis und dem zweiten Zeitmessungs-Ergebnis; und

auf Grundlage der hergestellten Beziehung feststellen, ob ein Fehler aufgetreten ist.

2. Verfahren nach Anspruch 1, wobei der Schritt "Feststellen, ob ein Fehler aufgetreten ist" mit beinhaltet, daß ein Fehler dann erkannt wird, wenn die Differenz zwischen den Zeitmessungs-Ergebnissen einen Schwellenwert überschreitet.

3. Verfahren nach Anspruch 1, wobei das zeitliche Kriterium die Zeit einer letzten Übertragung oder eines letzten Empfangs ist.

4. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen.

5. Verfahren nach Anspruch 4, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen und an eine Adresse gerichtet sind, auf die normalerweise der zweite Ein-/Ausgabeprozessor anspricht.

6. Verfahren nach Anspruch 4, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor ausgesendet und über das Datenübermittlungssystem zum zweiten Ein-/Ausgabeprozessor geleitet werden.

7. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von außerhalb des Computersystems stammen.

8. Verfahren nach Anspruch 7, wobei die Nachrichten von einem zweiten Computer stammen, der an das Datenübermittlungssystem gekoppelt ist.

9. Verfahren nach Anspruch 7, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von außerhalb des Computersystems stammen und an eine Systemgruppe adressiert sind, zu der das Computersystem gehört.

10. Verfahren nach Anspruch 1, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von einem dritten Element des Computersystems stammen, das mit dem Ein-/Ausgabeprozessor Daten austauscht.

11. Verfahren nach Anspruch 1, ferner mit dem Schritt "Senden des ersten Zeitmessungs- Ergebnisses vom ersten Ein-/Ausgabeprozessor an den zweiten Ein-/Ausgabeprozessor", wobei:

der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird" mit einschließt, daß das Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, am ersten Ein-/Ausgabeprozessor stattfindet;

der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird" beinhaltet, daß das Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, am zweiten Ein-/Ausgabeprozessor stattfindet; und

der Schritt "Herstellen einer Beziehung zwischen den Zeitmessungs-Ergebnissen" mit beinhaltet, daß am zweiten Ein-/Ausgabeprozessor die Differenz zwischen den Zeitmessungs- Ergebnissen festgestellt wird.

12. Verfahren nach Anspruch 11, wobei das erste Zeitmessungs-Ergebnis über einen bestimmten Kommunikationskanal zwischen dem ersten und dem zweiten Ein- /Ausgabeprozessor übermittelt wird.

13. Verfahren nach Anspruch 1, wobei

der Schritt "Anwenden eines zeitlichen Kriteriums auf eine Kategorie der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird" ferner beinhaltet,

daß eine Vielzahl von zeitlichen Kriterien auf eine entsprechende Vielzahl von Kategorien der

Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet wird, angewendet wird, um eine erste Vielzahl von Zeitmessungs-Ergebnissen zu erhalten;

der Schritt "Anwenden des zeitlichen Kriteriums auf die Kategorie der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird" ferner beinhaltet, daß die Vielzahl von zeitlichen Kriterien auf die entsprechende Vielzahl von Kategorien der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet wird, angewendet wird, um eine zweite Vielzahl von Zeitmessungs-Ergebnissen zu erhalten; und

der Schritt "Herstellen einer Beziehung zwischen den Zeitmessungs-Ergebnissen" ferner beinhaltet, daß zwischen einander entsprechenden Zeitmessungs-Ergebnissen aus der ersten und der zweiten Vielzahl von Zeitmessungs-Ergebnissen Beziehungen hergestellt werden.

14. Fehlertolerantes Computersystem, mit einem ersten und einem zweiten Ein- /Ausgabeprozessor, die an ein Datenübermittlungssystem gekoppelt sind, dadurch gekennzeichnet, daß:

der erste Ein-/Ausgabeprozessor so konfiguriert ist, daß er eine Kategorie der Datenübermittlung verarbeitet und ein zeitliches Kriterium auf die Kategorie der Datenübermittlung anwendet, um ein erstes Zeitmessungs-Ergebnis zu erhalten;

der zweite Ein-/Ausgabeprozessor so konfiguriert ist, daß er die Kategorie der Datenübermittlung verarbeitet und ein zeitliches Kriterium auf die Kategorie der Datenübermittlung anwendet, um ein zweites Zeitmessungs-Ergebnis zu erhalten; und

das Computersystem so konfiguriert ist, daß es zwischen den Zeitmessungs- Ergebnissen eine Beziehung herstellt und aufgrund dieser Beziehung feststellt, ob ein Fehler aufgetreten ist.

15. System nach Anspruch 14, wobei das zeitliche Kriterium die Zeit einer letzten Übertragung oder eines letzten Empfangs ist.

16. System nach Anspruch 14, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen.

17. System nach Anspruch 16, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor ausgesendet und durch das Datenübermittlungssystem an den zweiten Ein-/Ausgabeprozessor geleitet werden.

18. System nach Anspruch 16, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die vom ersten Ein-/Ausgabeprozessor stammen und an eine Adresse gerichtet sind, auf die normalerweise der zweiten Ein-/Ausgabeprozessor anspricht.

19. System nach Anspruch 14, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von außerhalb des fehlertoleranten Systems stammen.

20. System nach Anspruch 19, wobei die Nachrichten von einem zweiten Computer stammen, der an das Datenübermittlungssystem gekoppelt ist.

21. System nach Anspruch 19, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von außerhalb des fehlertoleranten Systems stammen und an eine Systemgruppe gerichtet sind, zu denen das fehlertolerante System gehört.

22. System nach Anspruch 14, ferner mit einem dritten Element des Computersystem, das mit den Ein-/Ausgabeprozessoren Daten austauscht, wobei die Kategorie der Datenübermittlung solche Nachrichten mit einschließt, die von diesem dritten Element stammen.

23. System nach Anspruch 14, ferner mit:

einem bestimmten Kommunikationskanal, durch den der erste und der zweite Ein- /Ausgabeprozessor aneinander gekoppelt sind, wobei der Kommunikationskanal so konfiguriert ist, daß das erste Zeitmessungs-Ergebnis vom ersten Ein-/Ausgabeprozessor an den zweiten Ein-/Ausgabeprozessor gesendet wird;

wobei der zweite Ein-/Ausgabeprozessor so konfiguriert ist, daß er eine Differenz zwischen den Zeitmessungs-Ergebnissen feststellt und, wenn die Differenz einen Schwellenwert überschreitet, erkennt, ob ein Fehler aufgetreten ist.

24. System nach Anspruch 14, wobei:

der erste Ein-/Ausgabeprozessor ferner so konfiguriert ist, daß er eine Vielzahl von zeitlichen Kriterien auf eine entsprechende Vielzahl von Kategorien der Datenübermittlung, die vom ersten Ein-/Ausgabeprozessor verarbeitet werden, anwendet und dadurch eine erste Vielzahl von Zeitmessungs-Ergebnissen herstellt;

der zweite Ein-/Ausgabeprozessor ferner so konfiguriert ist, daß der die Vielzahl von zeitlichen Kriterien auf die entsprechende Vielzahl von Kategorien der Datenübermittlung, die vom zweiten Ein-/Ausgabeprozessor verarbeitet werden, anwendet und dadurch eine zweite Vielzahl von Zeitmessungs-Ergebnissen herstellt; und

das Computersystem ferner so konfiguriert ist, daß es zwischen einander entsprechenden Ergebnissen aus der ersten und der zweiten Vielzahl von Zeitmessungs- Ergebnissen Beziehungen herstellt, und daß es aufgrund der hergestellten Beziehungen feststellt, ob ein Fehler aufgetreten ist.