DE69523124T2

DE69523124T2 - Fehlererkennungssystem für einen gespiegelten Speicher in einer duplizierten Steuerung eines Plattenspeicherungssystems

Info

Publication number: DE69523124T2
Application number: DE69523124T
Authority: DE
Inventors: Barry J. Oldfield; Mark D. Petersen
Original assignee: Hewlett Packard Co
Current assignee: Hewlett Packard Development Co LP
Priority date: 1994-12-15
Filing date: 1995-07-11
Publication date: 2002-05-29
Anticipated expiration: 2015-07-12
Also published as: US5699510A; EP0717358A1; JPH08249130A; JP3655683B2; EP0717358B1; DE69523124D1

Description

GEBIET DER ERFINDUNG

Diese Erfindung bezieht sich allgemein auf Computerplatten- Speichersteuerungseinrichtungen und insbesondere auf ein System und ein Verfahren zum Erfassen von Steuerungseinrichtungsversagen in einem Mehrfachsteuerungseinrichtungs- Plattenspeichersystem mit gespiegeltem Speicher.

HINTERGRUND DER ERFINDUNG

Bei Hochverfügbarkeits-Computerplattenspeichersystemen gibt es den. Wunsch nach Redundanz in all den physischen Bauteilen, die ein Teilsystem bilden, um die Möglichkeit für einen Verlust von Daten und die Ausfallzeit auf das Versagen eines Bauteiles hin zu reduzieren. Die Verwendung von Zweifachplattenspeichersteuerungseinrichtungen, jede davon mit ihrem eigenen Speicher, schafft mehrere große Vorteile für ein Plattenspeichersystem. Es wird beispielsweise (1) eine Redundanz von Speicherinformationen erhalten, um im Falle des Versagens oder des Verlustes einer der Steuerungseinrichtungen oder ihres Speichers seine Wiederherstellung zu ermöglichen; (2) die Wiederherstellung von einer deaktivierten Steuerungseinrichtung ist aufgrund der Ersatzschaltfähigkeiten der Sekundärsteuerungseinrichtung durchführbar; und (3) durch die Verfügbarkeit der Sekundärsteuerungseinrichtung wird eine längere Betriebszeit des Systems erreicht.
Durch den Wunsch nach mehr Leistungsfähigkeit aus diesen redundanten Teilsystemen sind das Caching bzw. die Cache- Speicherung und die Verwendung von Speichern als temporäre Speicher mittlerweile weit verbreitet. Die Einrichtungen, mit denen diese physischen Duplikatspeicher synchron gehalten werden, können schwierig sein. Einige Plattensysteme verwenden einen latenten Prozeß (verzögerte Aktualisierung oder Massenaktualisierung), um diese Duplizierung zu erzeugen, aber dieser Ansatz neigt dazu, die Leistungsfähigkeit zu verringern und ist sehr kompliziert zu handhaben. Ein anderer Lösungsansatz (der in dieser Erfindung verwendet wird) ist die Bildung eines in Echtzeit Gespiegelten- Speicher-Prozesses, um diese Duplizierung der Daten zu erzeugen und exakt beizubehalten. Die Verwendung eines synchronisierten, redundanten Echtzeitspeichers (gespiegelten Speichers) bei Zweifachsteuerungseinrichtungen kann die Geschwindigkeit und Exaktheit im Falle einer Ersatzschaltung von einer Steuerungseinrichtung zur anderen erhöhen.
Die Verwendung eines redundanten Speichern erschwert jedoch das Problem der Schaffung von Lösungen für Mehrfachplattenspeichersteuerungseinrichtungen wesentlich. Beispiele der zu bewältigenden erheblichen Probleme umfassen die effektive und zuverlässige (1) Erfassung von Steuerungseinrichtungsversagen frühzeitig im Zusammenhang mit der Gespiegelter-Speicher-Verarbeitung, um mögliche Probleme, die durch eine spätere Entdeckung des Versagens entstehen können, zu reduzieren; (2) Erfassung von Steuerungseinrichtungsversagen ohne erhebliche Hardware- und/oder Softwarezusatzanforderungen; und (3) Erfassung von Steuerungseinrichtungsversagen, um die Steuerungseinrichtungen zu trennen und die Spiegelung ihrer Speicher ohne den Verlust von Verarbeitungsvorgängen und -fähigkeiten zu unterbrechen.
Bei den gegebenen vorher erwähnten Problemen im Zusammenhang mit der Erfassung von Steuereinrichtungsversagen bei einem Mehrfachsteuerungseinrichtungs-Plattenspeichersystem und anderen Problemen, die hier nicht angesprochen sind, wird die Verwendung von gespiegelten Speichern zwischen Steuerungseinrichtungen in einem Mehrfachsteuerungseinrichtungssystem im Stand der Technik bisher allgemein nicht gelehrt.
Es ist die Aufgabe der vorliegenden Erfindung, ein effektives und zuverlässiges System zur Erfassung von Steuerungseinrichtungsversagen, für synchrone, gespiegelte Echtzeitspeichersteuerungseinrichtungen bei einem Zweifachsteuerungseinrichtungs-Plattenspeichersystem zu schaffen
Diese Aufgabe wird durch ein System gemäß Anspruch 1 und durch ein Verfahren gemäß Anspruch 5 gelöst.
Gemäß den Prinzipien der vorliegenden Erfindung bei dem bevorzugten Ausführungsbeispiel, bei einem Plattenspeichersystem, mit Zweifachsteuerungseinrichtungen und gespiegeltem Speicher, erzeugt die Entscheidungslogik, die jeder Steuerungseinrichtung zugeordnet ist, Zustandsübergangssignale, um den Zugriffsstatus eines gespiegelten Speichers für die Steuerungseinrichtung, die das Signal erzeugt, zu identifizieren. Jede Entscheidungslogik überwacht außerdem die Zustandsübergangssignale der anderen. Ein Versagen im Gespiegelten-Speicher-System zwischen den Zweifachsteuerungseinrichtungen wird durch eine Steuerungseinrichtung erfaßt, die ein unkorrektes Zustandsübergangssignal erfaßt, das von der anderen Steuerungseinrichtung übertragen wurde. Ein Versagen wird außerdem dadurch erfaßt, daß eine Steuerungseinrichtung nicht innerhalb einer spezifizierten Zeitüberschreitungsperiode ein Zustandsübergangssignal von der anderen Steuerungseinrichtung erfaßt.
Gemäß weiterer Prinzipien der vorliegenden Erfindung werden Speicherauffrischungszyklen angezapft, um zu bewirken, daß die Entscheidungslogik die Zustandsübergangssignale zyklisch durchläuft um dadurch jede Stauerungseinrichtung dazu zu zwingen, regelmäßig einen Gespiegelten-Speicher- Zugriff zu versuchen, wodurch ein Speichersystemversagen erfaßt werden kann. Folglich werden in Fällen, wo es sein kann, daß Steuerungseinrichtungsspeicherzugriffe nicht oft auftreten, wie beispielsweise bei einer Slave- Steuerungseinrichtung in einem Master-/Slave-Kontext, Speichersystemversagen aufgrund der fortlaufenden Entscheidung zwischen den Steuerungseinrichtungen für einen Speicherzugriff bei einem Auffrischungsvorgang eher früher als später erfaßt.
Durch das Versagenerfassungssystem und -verfahren der vorliegenden Erfindung wird die Zuverlässigkeit der Steuerungseinrichtungen und der gespiegelten Speicher erhöht. Andere Aufgaben, Vorteile und Fähigkeiten der vorliegenden Erfindung werden im Verlauf der weiteren Beschreibung deutlicher.

BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Blockdiagramm, das einen Überblick über das System der vorliegenden Erfindung für die Erfassung von Steuerungseinrichtungsversagen bei einem Zweifachsteuerungseinrichtungs-Plattenspeichersystem darstellt, welches zwischen denselben einen gespiegelten Speicher aufweist;
Fig. 2 ist ein schematisches Blockdiagramm der vorliegenden Erfindung;
Fig. 3 ist das schematische Blockdiagramm von Fig. 2, worin einfach gerichtete Kommunikationswege dargestellt sind, für die Erfassung von Steuereinrichtungsversagen während einem Auffrischungszyklus eines gespiegelten Speichers gemäß der Prinzipien der vorliegenden Erfindung; und
Fig. 4 ist ein Entscheidungslogik-Zustandsübergangsdiagramm, das die Speicherzugriffsstatuszustände für jede Steuerungseinrichtung darstellt.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNG

Fig. 1 ist ein Blockdiagramm, das einen Überblick des Systems der vorliegenden Erfindung für die Erfassung von Steuerungseinrichtungsversagen eines Gespiegelter-Speicher- Systems bei einem Zweifachsteuerungseinrichtungs- Plattenspeichersystem 10 darstellt. Das Plattenspeicherkontrollsystem 10 umfaßt ein Plattenspeicherteilsystem 15, in dem Plattenspeichervorrichtungen 12 umfaßt sind, und Zweifachplattenspeichersteuerungseinrichtungen 20 und 25. Die Steuerungseinrichtungen 20 und 25 haben jeweils einen Speicher 30 und 35.
Obwohl beinahe jeder Typ von RAM (Random Access Memory = Direktzugriffspeicher) für die Verwendung als Speicher 30 und 35 geeignet ist, wird beim bevorzugten Ausführungsbeispiel ein nicht-flüchtiger RAM (oder ein flüchtiger RAM, das unter Verwendung einer Leistungsversorgungssicherung nicht-flüchtig gemacht wird) verwendet, um im Falle eines Lesitungsausfalls die Aufrechterhaltung der Daten zu ermöglichen. Es wird darauf hingewiesen, daß, obwohl im Diagramm nur Zweifachsteuerungseinrichtungen 20 und 25 gezeigt sind und hier allgemein erörtert werden, , daß die hierin ausgedrückten und implizierten Prinzipien genauso bei anderen Mehrfachsteuerungseinrichtungsumgebungen, d. h. mit mehr als zwei Steuerungseinrichtungen, anwendbar sind.
Jeder Speicher 30 und 35 ist ein gespiegelter Speicher. Wie es in der Technik wohlbekannt ist, bedeutet gespiegelter Speicher einfach, daß die Daten in einem Speicher in einen anderen Speicher kopiert oder "gespiegelt" werden. Gespiegelter Speicher, wie er in der vorliegenden Erfindung verwendet wird, bedeutet, daß die Daten in dem Speicher der einen Steuerungseinrichtung in dem Speicher der anderen Steuerungseinrichtung dupliziert oder "gespiegelt" werden.
Die Existenz von Zweifachsteuerungseinrichtungen und eines gespiegelten Speichers in jeder dieser Einrichtungen schafft eine fehlertolerante Umgebung für das Plattenspeichersystem 10. Bei dem Ereignis eines Versagens einer der Steuerungseinrichtungen oder eines der Steuerungseinrichtungsspeichersysteme schafft die Existenz der anderen Steuerungseinrichtung und ihres gespiegelten Speichers nämlich eine nahtlose Ersatzschaltoption für die fortlaufende Verarbeitung. In diesem Zusammenhang tritt Kommunikation zwischen den Steuerungseinrichtungen 20 und 25 auf, um eine kosteneffektive Echtzeitverbindung zu schaffen, und um es jeder Steuerungseinrichtung zu ermöglichen, den Zustand der Duplikatsteuerungseinrichtung zu überwachen und Aktivitäten zu koordinieren.
Bei dem bevorzugten Ausführungsbeispiel ist der gespiegelte Speicher ein in Echtzeit gespiegelter Speicher, d. h. ein einzelner Mikroprozessor oder Direktspeicherzugriff aktualisiert Daten in die oder erhält Daten von den beiden Speichern 30 und 35 im wesentlichen zum gleichen Zeitpunkt. Entscheidungslogik 40 und 45 steuern, wann jeder Steuerungseinrichtung Zugriff erteilt wird, um Daten zu aktualisieren oder vom gespiegelten Speicher zu empfangen. Die Entscheidungslogiken 40 und 45 kommunizieren miteinander, so daß jede weiß, welche Steuerungseinrichtung gegenwärtigen Zugriff auf die Speicher hat. Jede Entscheidungslogik erzeugt Zustandsübergangssignale, um den Zugriffsstatus eines gespiegelten Speichers für die Steuerungseinrichtung zu identifizieren, die das Signal erzeugt. Jede Entscheidungslogik überwacht außerdem die Zustandsübergangssignale der anderen. Dementsprechend wird ein Versägen im Gespiegelter- Speicher-System zwischen den Zweifachsteuerungseinrichtungen dadurch erfaßt, daß eine Steuerungseinrichtung ein unkorrektes Zustandsübergangssignal, das von der anderen Steuerungseinrichtung übertragen wurde erfaßt, oder daß die eine Steuerungseinrichtung nicht innerhalb einer spezifizierten Zeitüberschreitungsperiode ein Zustandsübergangssignal von der anderen Steuerungseinrichtung erfaßt.
Bei dem bevorzugten Ausführungsbeispiel ermöglichen die Entscheidungslogiken 40 und 45 nur einer Steuerungseinrichtung den Zugriff auf die Speicher zu einem einzigen Zeitpunkt. Wenn beispielsweise der Steuerungseinrichtung 20 Zugriff auf Speicher 30 erteilt wird, bekommt sie genauso Zugriff auf den Speicher 35, wobei für die Steuerungseinrichtung 25 der Zugriff auf keinen der beide Speicher freigegeben ist. Die Entscheidungslogiken 40 und 45 steuern den gleichzeitigen Zugriff, indem sie miteinander kommunizieren, um geeignete Signalleitungen in jeder Steuerungseinrichtung zu aktivieren und/oder zu deaktivieren.
Wenn man bedenkt, daß einer der Hauptzwecke einer Zweifachsteuerungseinrichtungskonfiguration darin besteht, bei dem Ereignis eines Versagens einer der Steuerungseinrichtungen die Fähigkeit zur unittelbaren Ersatzschaltung von einer zur anderen Steuerungseinrichtung zu ermöglichen, ist es unbedingt erforderlich, daß der Speicherinhalt jeder Steuerungseinrichtung identisch ist, bevor eine Steuerungseinrichtungsersatzschaltung auftritt, so daß der Betrieb ohne Unterbrechung fortgesetzt wird. Genauso ist es unbedingt erforderlich, daß ein Steuerungseinrichtungsversagen frühzeitig im Verarbeitungsschema erfaßt wird, so daß die Spiegelung des Speichers deaktiviert werden kann, und die Datenintegrität des Speichers von zumindest der nicht ausgefallenen Steuerungseinrichtung für den fortlaufenden Systembetrieb zuverlässig bleibt. Dementsprechend konzentriert sich die vorliegende Erfindung auf die frühe Erfassung eines Steuerungseinrichtungsversagens bei einer Mehrfachsteuerungseinrichtungskonfiguration, indem als Hauptelement die Entscheidungslogiken 40 und 45 verwendet werden, um den Zugriffsstatus des gespiegelten Speichers zwischen den Steuerungseinrichtungen 20 und 25 zu kommunizieren und zu steuern.
In Fig. 2 ist ein detaillierteres schematisches Blockdiagramm des Systems der vorliegenden Erfindung gezeigt. Gleiche Komponenten der Figuren behalten gleiche Bezugszeichen. Dementsprechend wird auf jede Steuerungseinrichtung 20 und 25 allgemein Bezug genommen, auf jeden gespiegelten Speicher 30 und 35 wird als NVDRAM (Non-Volatile Dynamic Random Access Memory = nicht-flüchtiger dynamischer Direktzugriffspeicher) Bezug genommen, wie es beim bevorzugten Ausführungsbeispiel verwendet wird, und auf die Entscheidungslogiken 40 und 45 wird gleichfalls wie in Fig. 1 Bezug genommen. Zu Vereinfachungszwecken wird auf die NVDRAM- Steuerungseinrichtungen 50 und 55 hier als DRAM- Steuerungseinrichtungen Bezug genommen. Alle Richtungspfeile zeigen Kommunikationswege und/oder Datenübertragungswege an.
Jede DRAM-Steuerungseinrichtung 50 und 55 hat ihren eigenen internen Taktgeber (nicht gezeigt) zum Steuern ihrer jeweiligen Schaltungsanordnung und für Zwecke, wie beispielsweise das Einleiten einer Anforderung einer Speicherauffrischung. Dementsprechend hat jede Entscheidungslogik 40 und 45 ihren eigenen internen Taktgeber, wodurch eine Antwortzeitüberschreitung erfaßt werden kann, wenn Zustandsübertragungssignale von einer Entscheidungslogik zur anderen übertragen werden. Wie bereits in Bezug auf Fig. 1 angemerkt, steuern die Entscheidungslogiken 40 und 45, welcher Steuerungseinrichtung Zugriff auf die Speicher 30 und 35 erteilt wird, und welche Steuerungseinrichtung am Zugriff auf denselben gehindert wird. Als solches kommunizieren die Entscheidungslogik 40 und 45 miteinander über Zustandsübertragungssignale und kommunizieren jeweils mit bestimmten lokalen Speichersystemkontrolleinrichtungen, einschließlich DRAM-Steuerungseinrichtungen 50 und 55, Puffern 60 und 65, Steuerungssende-/empfangsgeräten 70 und 75 und Datensende- /empfangsgeräten 80 und 85.
Wie im Stand der Technik üblich, verwalten und erzeugen die DRAM-Steuerungseinrichtungen 50 und 55 Zeitgebungs- und Steuerlogiksignale, wie z. B. RAS (Row Address Strobe = Zeilenadreßhinweissignal), CAS (Column Address Strobe = Spaltenadreßhinweissignal), WE (Write Enable = Schreibfreigabe), OE (Output Enable = Ausgabefreigabe) usw., um auf geeignete Adressen in dem DRAM 30 bzw. 35 zuzugreifen. Die Puffer 60 und 65 sind DRAM-Steuerungseinrichtungspuffer zum Freigeben und/oder Nicht-Freigeben jeder - DRAM- Steuerungseinrichtung 50 und 55 hinsichtlich des Zugriffs auf den DRAM 30 bzw. 35.
Die Steuerungseinrichtungssende-/empfangsgeräte 70 und 75 sind bidirektionale Sende-/empfangsgerätepuffer für eine lokale Steuerungseinrichtung (d. h. die Steuerungseinrichtung, an der sich das Send-/empfangsgerät befindet), um (1) Adreßsignale zu einer Rückwandplatine 78 des Computersystems zu treiben, um auf den Speicher der anderen (entfernten) Steuerungseinrichtung zuzugreifen, oder (2) Adreßsignale von der entfernten Steuerungseinrichtung über die Rückwandplatine zu empfangen, um auf den Speicher der lokalen Steuerungseinrichtung zuzugreifen. Die Datensende- /empfangsgeräte 80 und 85 sind gleichfalls bidirektionale Sende-/empfangsgerätepuffer für eine lokale Steuerungseinrichtung, um (1) Datensignale zur Rückwandplatine 78 zu treiben, um sie an die entfernte Steuerungseinrichtung zu senden, oder (2) Datensignale von der entfernten Steuerungseinrichtung über die Rückwandplatine zu empfangen.
Jede DRAM-Steuerungseinrichtung 50 und 55 ist konfiguriert um den Speicher (DRAM 30 bzw. 35) mit einem Auffrischungsintervall aufzufrischen, welches durch jeden eigenen, unabhängig ausführenden Taktgeber der DRAM- Steuerungseinrichtungen bestimmt wird. Diese Speicherauffrischungszyklen werden als Mittel dafür verwendet, zu bewirken, daß jede Entscheidungslogik die Zustandsübergangssignale zyklisch durchläuft, und um dadurch jede Steuerungseinrichtung dazu zu zwingen, einen Gespiegelter- Speicher-Zugriff zu versuchen, d. h. ein Zugriff auf den Speicher, der sich auf der lokalenund entfernten Steuerungseinrichtung befindet, und zwar auf einer zuverlässig dauerhaften Basis, wodurch ein Speichersystemversagen erfaßt werden kann. Dieses System und dieses Verfahren bietet Zuverlässigkeit in jeder Zweifachsteuerungseinrichtungsbeziehung, wie z. B. Master/Master (peer/peer) oder Master/Slave. Dieses System und diese Methode sind besonders wertvoll bei einer Master/Slave- Steuerungseinrichtungsbeziehung, da eine Slavesteuerungseinrichtung eventuell nicht oft auf den gespiegelten Speicher zugreift und daher nicht erfassen würde, ob die entfernte Steuerungseinrichtung veragt hat, bis zu einem späteren, möglicherweise nachteiligen Zeitpunkt.
Wenn durch eine DRAM-Steuerungseinrichtung 50 oder 55 signalisiert wird, daß ein Speicherzugriffszyklus (Lesen, Schreiben oder Auffrischen) auftritt, wird dieses Signal zu seiner lokalen Entscheidungslogik 40 oder 45 übertragen. Wenn diese lokale Steuerungseinrichtung gegenwärtig keinen Zugriff auf den gespiegelten Speicher hat, überträgt die lokale Entscheidungslogik ein Zustandsübergangssignal, das Zugriff auf den gespiegelten Speicher anfordert, an die andere (entfernte) Steuerungseinrichtung. Das Zustandsübergangssignal identifiziert den Status des Zugriffs auf den gespiegelten Speicher der (lokalen) Steuerungseinrichtung, die das Signal überträgt. Beispielsweise wird bei diesem Fall ein Zustandsübergangssignal, welches Speicherzugriff anfordert, zur entfernten Entscheidungslogik übertragen. In Reaktion darauf erfaßt die entfernte Steuerungseinrichtung, die gegenwärtig Zugriff auf den gespiegelten Speicher hat, das anfordernde Zustandsübergangssignal und antwortet mit einem Antwortzustandsübergangssignal, um der anfordernden Steuerungseinrichtung Zugriff auf den gespiegelten Speicher zu gewähren. Das antwortende Zustandsübergangssignal tritt auf, nachdem die entfernte Steuerungseinrichtung ihren eigenen Zugriff auf den gespiegelten Speicher abgeschlossen hat, falls ein solcher gerade stattfindet, wenn die Anforderung empfangen wird.
Sobald die lokale Entscheidungslogik die Speicheranforderung überträgt, löst sie ihren eigenen Taktgeber aus, um eine Zeitüberschreitungsperiode zu takten. Falls die entfernte Steuerungseinrichtung nicht innerhalb des vorbestimmten Zeitintervalls, d. h. der Zeitüberschreitungsperiode, antwortet, erkennt die lokale Steuerungseinrichtung, daß beim entfernten Steuerungseinrichtungsspeichersystem ein Versagen aufgetreten ist.
Ein Versagen eines entfernten Steuerungseinrichtungsspeichersystems wird außerdem erfaßt, wenn die lokale Steuerungseinrichtung ein unkorrektes Zustandsübergangssignal erfaßt, das von der Fernsteuerungseinrichtung übertragen wird. Wenn beispielsweise die lokale Steuerungseinrichtung erwartet, daß sie ein Zustandsübergangssignal empfängt, welches ihr Zugriff auf den gespiegelten Speicher erteilt, aber statt dessen ein anderes Zustandsübergangssignal von der entfernten Steuerungseinrichtung empfängt, erkennt die lokale Steuerungseinrichtung, daß ein Versagen aufgetreten ist.
Durch diese Zustandsübergangssignale und in Verbindung mit dem Zeitüberschreitungsintervall (1) überträgt jede Steuerungseinrichtung ihren eigenen Zugriffsstatus bezüglich des gespiegelten Speichers, (2) erfaßt den Status der anderen Steuerungseinrichtung, und/oder (3) erfaßt, ob ein geeignetes Statussignal übertragen wurde. Ferner werden Speicherauffrischungszyklen angezapft, um zu erzwingen, daß die Zustandsübergangssignale willkürlich zyklisch durchlaufen werden, wodurch regelmäßig auf den gespiegelten Speicher zugegriffen wird, um eine regelmäßige und zuverlässige Einrichtung zum Erfassen von Versagen bei dem Speichersystem zu liefern.
Die Funktionsweise von Fig. 2 wird am besten durch das in Fig. 3 gezeigte Beispiel veranschaulicht. Fig. 3 ist gleich wie Fig. 2, außer daß die zweifach gerichteten Pfeile von Fig. 2 in Fig. 3 durch einfach gerichtete Pfeile ersetzt sind, welche die tatsächlichen gerichteten Kommunikationswege während einer Auffrischung des gespiegelten Speichers durch die Steuerungseinrichtung 20 darstellen. Es wird darauf hingewiesen, daß, obwohl diese Darstellung und die damit verbundene Erörterung die Zustandsübergangssignale veranschaulicht, die von der Entscheidungslogik während einem Speicherauffrischungszyklus erzeugt werden, solche Zustandsübergangssignale auch während anderer Speicherzugriffstransaktionen auftreten, wie z. B. einem Lese- oder Schreibvorgang.
Für den Fall, daß die Steuerungseinrichtung 20 eine Anforderung einer Speicherauffrischung auslöst, aktiviert die DRAN-Steuerungseinrichtung 50 ein Anforderungssignal an ihre eigene Entscheidungslogik 40. Falls die Steuerungseinrichtung 20 nicht bereits Zugriff auf den gespiegelten Speicher hat, tritt die Entscheidungslogik 40 in einen Anforderungszustand ein und überträgt ein solches Zustandsübergangssignal an die Entscheidungslogik 45 der Steuerungseinrichtung 25. Ein Anforderungszustand besteht dann, wenn die lokale Entscheidungslogik 40 (in diesem Beispiel) darauf wartet, daß die entfernte Entscheidungslogik 45 der Steuerungseinrichtung 20 Zugriff auf den entfernten DRAM 35 erteilt.
Falls die DRAM-Steuerungseinrichtung 55 gerade auf den gespiegelten Speicher zugreift, wenn die Entscheidungslogik 45 das von der Entscheidungslogik 40 übertragene Anforderungszustandsübergangssignal erfaßt, wird die DRAM- Steuerungseinrichtung 55 ihren Zyklus für die Benutzung des Speichers (entweder zum Lesen, Schreiben oder Auffrischen) abschließen und ihre eigene Anforderung an die Entscheidungslogik 45 entfernen. Die Entscheidungslogik 45 überträgt dann ein Zustandsübergangssignal, das Speicherzugriff erteilt, an die Entscheidungslogik 40 und tritt anschließend in einen Slave-Zustand ein. Auf das Eintreten in den Slave-Zustand hin eintzieht die Entscheidungslogik 45 die Freigabe des DRAM-Steuerungseinrichtungspuffers 65 (wie durch die Darstellung gezeigt, daß kein Richtungspfeil vom Puffer 65 ausgeht, d. h. von diesem weg zeigt). Die Entscheidungslogik 45 stellt außerdem Steuerungseinrichtungssende-/empfangsgeräte 75 ein, um Adreßsignale von der Rückwandplatine 78 zum DRAM 35 zu treiben (wie durch die Richtungspfeile 73 und 77 gezeigt).
Die Entscheidungslogik 40 quittiert dies, indem sie in einen Master-Zustand eintritt, bei dem der Steuerungseinrichtung 20 Zugriff auf beide Speicher 30 und 35 ermöglicht wird. Die Entscheidungslogik 40 gibt ihren lokalen DRAM- Steuerungseinrichtungspuffer 60 (wie durch den Richtungspfeil 62 gezeigt) frei, und stellt Steuerungssende- /empfangsgeräte 70 ein, um von der Steuerungseinrichtung 20 zu der Rückwandplatine 78 zu treiben (wie durch den Richtungspfeil 73 gezeigt).
Als nächstes führt die DRAM-Steuerungseinrichtung 50 einen DRAM-Auffrischungszyklus durch, indem sie CAS und RAS aktiviert, um auf ihren eigenen DRAM 30 zuzugreifen (wie durch den Richtungspfeil 64 gezeigt), und indem sie dieselben durch die Steuerungssende-/empfangsgeräte 70 und 75 aktiviert, um auf den DRAM 35 der Steuerungseinrichtung 25 zuzugreifen (wie durch die Richtungspfeile 66, 73 und 77 gezeigt). Folglich werden der DRAM 30 und 35 im wesentlichen gleichzeitig aufgefrischt.
Gemäß Fig. 4 wird ein Entscheidungslogikzustandsübergangsdiagramm dargestellt, das die Speicherzugriffsstatuszustände für jede Steuerungseinrichtung in einer Master/Slave- Beziehung zeigt. Wie vorher erörtert, steuern die Entscheidungslogiken 40 und 45 (Fig. 1-3) den Spiegelungsbetrieb der Speicher 30 und 35 durch die Übertragung und Erfassung von Zustandsübergangssignalen. Die Entscheidungslogik steuert außerdem die Ausgabefreigaben und Richtungsauswahl aller Puffer und Sende-/empfangsgeräte, die mit dem Speichersystem verbunden sind. Daher wird nur einer Steuerungseinrichtung die Befähigung erteilt, zu einem einzigen Zeitpunkt sowohl auf die lokalen als auch die entfernten DRAM- Bänke zuzugreifen. Die andere Steuerungseinrichtung kann auf keinen der beiden Speicher zugreifen, bis die Entscheidungslogik geeignete Übergangszustände zyklisch durchläuft, zu Zeiten wie beispielsweise während einem Speicherauffrischungszyklus oder einer anderen Lese/Schreiboperation.
Während die Entscheidungslogik ihre verschiedenen Zustände durchläuft, sendet sie ihren gegenwärtigen Zustand an die entfernte Steuerungseinrichtung und überwacht gleichfalls die Zustandsübergangssignale der entfernten Entscheidungslogik. Dies ermöglicht es jedem Logiksatz, einen Fehler bei dem anderen zu erfassen.
Es wird darauf hingewiesen, daß verschiedene Übergangszustände vorkommen können und nicht alle Übergangszustände in der Darstellung von Fig. 4 gezeigt werden. Einige der verschiedenen Zustände, wie sie im bevorzugten Ausführungsbeispiel verwendet und in Fig. 4 abgebildet werden, werden jedoch wie folgt beschrieben:
RÜCKSETZEN: Während die Rücksetzenleitung auf der Steuerungseinrichtungsplatine aktiviert ist, bleibt die Entscheidungslogik im Rücksetzenzustand 90. In diesem Zustand sind die lokalen Rückwandplatine-Steuerungs- und Datensende-/empfangsgeräte (70, 75, 80 und 85 in Fig. 1), sowie auch die lokale DRAM-Steuerungseinrichtung (50 und 55) nicht freigegeben. Sobald-das Neueinstellen ausgelöst wird, tritt die Entscheidungslogik in den Slave-Zustand ein.
SLAVE: Im Slave-Zustand 95 zeigen die lokalen Steuerungsrückwandplatinesende /-empfangsgeräte der auf den lokalen DRAM, wobei der Puffer der lokalen DRAM- Steuerungseinrichtung (60 oder 65) nicht freigegeben ist. Die lokalen Rückwandplatinedatensende-/empfangsgeräte der sind entsprechend der durchgeführten Operation (Lesen oder Schreiben) gesetzt. Wenn eine Anforderung eines Speicherzugriffs von der lokalen DRAM-Steuerungseinrichtung durch die lokale Entscheidungslogik empfangen wird, tritt die lokale Entscheidungslogik in den Anforderungszustand ein, damit sie in der Lage ist, auf die Speicher zuzugreifen.
ANFORDERUNG: Der Taktgeber der lokalen Entscheidungslogik wird gestartet, wenn der Anforderungszustand 100 zuerst betreten wird. In diesem Zustand wird das Anforderungszustandsübergangssignal an die entfernte Entscheidungslogik übertragen, wobei die lokale Entscheidungslogik darauf wartet, daß die entfernte Entscheidungslogik der lokalen Steuerungseinrichtung Zugriff auf den entfernten DRAM erteilt. Die lokalen Rückwandplatinesende-/empfangsgeräte der und die DRAM-Steuerungseinrichtung sind auf die selbe Weise eingestellt wie im Slave-Zustand. Falls der Taktgeber ein Zeitüberschreitungsintervall signalisiert, bevor der Zugriff auf den entfernten DRAM von der entfernten Entscheidungslogik erteilt wird, tritt die lokale Entscheidungslogik in den Ausfallzustand ein. Wenn der Zugriff erteilt wird, tritt die lokale Entscheidungslogik in den Master- Zustand ein.
MASTER: Im Masterzustand 105 wird Zugriff auf beide DRAM- Bänke 30 und 35 gewährt. Die lokalen Rückwandplatinesteuerungssende-/empfangsgeräte zeigen auf die entfernte Platine, wobei der Puffer der lokalen DRAM-Steuerungseinrichtung (60 oder 65) freigegeben ist. Die Rückwandplatinedatensende-/empfangsgeräte sind entsprechend der durchgeführten Operation (Lesen oder Schreiben) eingestellt. Die Entscheidungslogik bleibt in diesem Zustand, bis eine Anforderung von der entfernten Platine erfaßt wird, und die Anforderungsleitung von der lokalen DRAM-Steuerungseinrichtung deaktiviert wird. Dieser Zustand wird betreten, nachdem die entfernte Steuerungseinrichtung in den Slave-Zustand eingetreten ist.
ERTEILUNG: Die lokale Entscheidungslogik tritt in den Erteilungszustand 110 ein, wenn sie erfaßt, daß die entfernte Steuerungseinrichtung die Spiegelschnittstelle anfordert. Die lokale Entscheidungslogik wartet in diesem Zustand, bis die lokale DRAM-Steuerungseinrichtung ihren gegenwärtigen Speicherzugriff abgeschlossen hat und ihre Anforderungsleitung deaktiviert ist.
VERSAGEN: Der Versagenzustand 115 wird betreten, wenn (1) der Bus nicht innerhalb der vom Taktgeber in der lokalen Entscheidungslogik überwachten Zeitüberschreitungsperiode erteilt wird oder (2) ein unzulässiger Übergangszustand an der entfernten Steuerungseinrichtung erfaßt wird. Die Entscheidungslogik bleibt in diesem Zustand, bis die lokale Steuerungseinrichtung neu eingestellt wird, wonach der Rücksetzustand betreten wird, oder die entfernte Entscheidungslogik den Rücksetzzustand eintritt, wonach der Neusynchronisationzustand betreten wird. Während dieses Zustands sind beide Rückwandplatinesende-/empfangsgeräte nicht freigegeben, während der DRAM-Steuerungseinrichtungspuffer freigegeben ist.
NEUSYNCHRONISATION (RESYNCH): Der Neusynchronisationzustand 120 wird jedesmal betreten, wenn die lokale Entscheidungslogik erfaßt, daß die entfernte Entscheidungslogik in den Rücksetzzustand eingetreten ist. Jedesmal, wenn dieser Zustand betreten wird, wird ein Taktgeber gestartet. Die Entscheidungslogik bleibt in diesem Zustand, bis die entfernte Entscheidungslogik den Rücksetzzustand verläßt oder das Zeitüberschreitungsintervall abgeschlossen ist. Wenn das Zeitüberschreitungsintervall abgeschlossen ist, wird der Versagenzustand betreten. Der Slavezustand wird betreten, wenn die entfernte Steuerungseinrichtung den Rücksetzzustand verläßt, bevor das Zeitüberschreitungsintervall abgeschlossen ist. Während dieses Zustands sind beide Rückwandplatinesende-/empfangsgeräte nicht freigegeben, und der DRAM-Steuerungseinrichtungspuffer freigegeben.
EINZEL: Der Einzelzustand 125 wird jedesmal betreten, wenn das Vorhandensein einer zweiten Steuerungseinrichtung nicht erfaßt wird, oder wenn die Steuerungseinrichtungen in einem "Isolationsmodus" bleiben sollen, d. h. in einem Zustand, in dem die Speicher nicht gespiegelt werden. Die Entscheidungslogik bleibt in diesem Zustand, solange eine dieser beiden Bedingungen vorliegt oder eine Steuerungseinrichtungsrücksetzung erfaßt wird. Bei allen Fällen ist ein Rücksetzenzustand der nächste Zustand. Während dieses Zustands sind beide Rückwandplatinesende-/empfangsgeräte nicht freigegeben und der DRAM-Steuerungseinrichtungspuffer ist freigegeben.
Was im Vorgehenden beschrieben wurde, sind die bevorzugten Ausführungsbeispiele eines Systems und eines Verfahrens für die Erfassung von Steuerungseinrichtungsversagen bei einem Zweifachsteuerungseinrichtungs-Plattenspeichersystem, das zwischen denselben einen gespiegelten Speicher aufweist. Es ist klar, daß die vorliegende Erfindung ein leistungsfähiges Werkzeug bietet für die Schaffung einer kosteneffektiven Echtzeitverbindung zwischen Steuerungseinrichtungen, und es jeder Steuereinrichtung ermöglicht, den Zustand der anderen zu überwachen, und es ermöglicht, daß die Aktivitäten jeder Steuerungseinrichtung für die Fehlererfassung koordiniert werden. Darüber hinaus wird es für einen Fachmann auf diesem Gebiet offensichtlich sein, daß die vorliegende Erfindung leicht unter Verwendung jeglicher im heutigen Stand der Technik existierenden Hardware- und Softwarewerkzeugen, von denen es eine Vielfalt gibt, implementiert werden kann. Es wird darauf hingewiesen, daß, obwohl die vorliegende Erfindung bezugnehmend auf spezielle Ausführungsbeispiele beschrieben wurde, andere alternative Ausführungsbeispiele und Verfahren der Implementation oder Modifikation verwendet werden können, ohne den Schutzbereich der Erfindung zu verlassen.

Claims

1. Ein Versagenerfassungssystem (10) für ein Computerplattenspeichersteuerungssystem, das eine Mehrzahl von Steuerungseinrichtungen (20, 25) aufweist, wobei jede Steuerungseinrichtung einen hinsichtlich jeder anderen Steuerungseinrichtung im wesentlichen gespiegelten Speicher (30, 35) aufweist, mit:

(a) einer Einrichtung zum Übertragen eines ersten Zustandsübergangssignals (40, 45) durch eine erste Steuerungseinrichtung der Mehrzahl von Steuerungseinrichtungen zu einer zweiten Steuerungseinrichtung der Mehrzahl von Steuerungseinrichtungen, wobei das erste Zustandsübergangssignal ein Signal ist, das eine Anforderung (100) des Zugriffs auf den gespiegelten Speicher der zweiten Steuerungseinrichtung anzeigt;

(b) einer Einrichtung zum Einleiten einer Zeitperiode von vorbestimmter Dauer, wobei die Zeitperiode im wesentlichen gleichzeitig zu der Übertragung des ersten Zustandsübergangssignals von der ersten Steuerungseinrichtung zu der zweiten Steuerungseinrichtung beginnen soll; und

(c) einer Einrichtung zum Erfassen (40, 45) von entweder

(i) einem zweiten Zustandsübergangssignal, das von der zweiten Steuerungseinrichtung übertragen wird, wobei das zweite Zustandsübergangssignal ein Signal, das eine Erteilung (110) eines Zugriffs auf den gespiegelten Speicher an die erste Steuerungseinrichtung anzeigt, oder ein unkorrektes Zustandsübergangssignal ist, wodurch das Versagen der zweiten Steuerungseinrichtung durch die erste Steuerungseinrichtung erfaßt wird; oder

(ii) einem Abschluß der Zeitperiode, der ein Versagen der zweiten Steuerungseinrichtung anzeigt.

2. Das Versagenerfassungssystem gemäß Anspruch 1, bei dem das erste Zustandsübergangssignal ein Signal ist, das eine Anforderung (100) des Zugriffs auf den gespiegelten Speicher jeder Steuerungseinrichtung anzeigt.

31. Das Versagenerfassungssystem gemäß Anspruch 1, das ferner eine Einrichtung zum Übertragen des ersten Zustandsübergangssignals auf das Ereignis eines Speicherzugriffszyklusses (40, 45, 50, 55) hin umfaßt.

4. Das Versagenerfassungssystem gemäß Anspruch 1, bei dem, wenn der ersten Steuerungseinrichtung der Zugriff auf den gespiegelten Speicher erteilt (110) ist, der zweiten Steuerungseinrichtung der Zugriff auf den gespiegelten Speicher verwehrt wird.

5. Ein Verfahren zum Erfassen eines Speichersystemversagens bei einem Computerplatterispeichersteuerungssystem (10), das eine erste und eine zweite Plattensteuerungseinrichtung (20, 25) und zwischen denselben einen gespiegelten Speicher (30, 35) umfasst, wobei das Verfähren folgende Schritte aufweist:

(a) Überträgen eines ersten Zustandsübergangssignals durch die erste Steuerungseinrichtung an die zweite Steuerungseinrichtung (100), wobei das erste Zustandsübergangssignal ein Signal ist, das eine Anförderung (100) des Zugriffs auf den gespiegelten Speicher der zweiten Steuerungseinrichtung anzeigt;

(b) Starten eines Taktgebers durch die erste Steuerungseinrichtung im wesentlichen gleichzeitig zu der Übertragung des ersten Zustandsübergangssignals von der ersten Steuerungseinrichtung zu der zweiten Steuerungseinrichtung, um eine Zeitperiode von vorbestimmter Dauer einzuleiten;

(c) Erfassen durch die erste Steuerungseinrichtung von entweder

(i) einem zweiten Zustandsübergangssignal (110), das von der zweiten Steuerungseinrichtung übertragen wird, wobei das zweite Zustandsübergangssignal ein Signal, das die Erteilung (110) eines Zugriffs auf den gespiegelten Speicher an die erste Steuerungseinrichtung anzeigt, oder ein unkorrektes Zustandsübergangssignal ist, wodurch das Versagen der zweiten Steuerungseinrichtung durch die erste Steuerungseinrichtung erfaßt wird; und

(ii) einem Abschluß der Zeitperiode, die ein Versagen des zweiten Steuerungseinrichtungsspeichersystems anzeigt.

6. Das Verfahren gemäß Anspruch 5, bei dem das erste Zustandsübergangssignal eine Anforderung eines Zugriffs auf den gespiegelten Speicher jeder Steuerungseinrichtung anzeigt.

7. Das Verfahren gemäß Anspruch 5, bei dem das erste Zustandsübergangssignal auf ein Ereignis eines Speicherzugriffzyklusses hin übertragen wird.

8. Das Verfahren gemäß Anspruch 5, bei dem, wenn der ersten Steuerungseinrichtung Zugriff auf den gespiegelten Speicher erteilt ist, der zweiten Steuerungseinrichtung der Zugriff auf den gespiegelten Speicher Verwehrt wird.