DE3789929T2

DE3789929T2 - Verfahren und Gerät zur Fehlerkorrektur in einem aus parallelem Prozessor bestehenden Datenverarbeitungssystem.

Info

Publication number: DE3789929T2
Application number: DE3789929T
Authority: DE
Inventors: W Daniel Hillis
Original assignee: Thinking Machines Corp
Current assignee: Thinking Machines Corp
Priority date: 1986-09-15
Filing date: 1987-09-15
Publication date: 1994-09-08
Anticipated expiration: 2007-09-16
Also published as: US4791641A; EP0261031B1; ATE106582T1; CA1292579C; EP0261031A3; JP2738687B2; DE3789929D1; JPS6394353A; EP0261031A2; AU7820987A

Description

Die vorliegende Erfindung bezieht sich auf eine Vorrichtung gemäß dem Oberbegriff des Patentanspruchs 1 und auf ein Verfahren gemäß dem Oberbegriffs des Patentanspruchs 7.
Mit zunehmender Größe von RAM's, die in Zusammenhang mit einem digitalen Prozessor als Teil eines Gesamtcomputersystems eingesetzt werden, ist es notwendig geworden, für die Korrektur von Fehlern, die bei Lese-/Schreib-Operationen an solchen großen Speichern auftreten, für eine Korrektur zu sorgen. Eine einfache Form einer Fehlerkorrektur betrifft die Verwendung eines Parity-Bits als ein zusätzliches digitales Bit in einem Multibit-Wort, welches entweder den binären Wert Eins oder Null basierend auf einer Funktion der Bit-Charakteristik einer jeden Bitposition in dem Datenwort einnimmt. Ein unterschied zwischen dem digitalen Wort, wie es gelesen worden ist und dem digitalen Wort, wie es in den Speicher eingeschrieben worden ist, welcher einen Fehler repräsentiert, könnte beispielsweise durch Verwendung eines Parity-Bits oder einer ungeraden Anzahl von Bitfehlern innerhalb des Wortes erkannt werden, indem das Parity-Bit zusammen mit dem Wort, welches in den Speicher eingeschrieben worden ist, aufgezeichnet wird und anschließend das ausgelesene Parity-Bit mit einer Rekonstruktion des Parity-Bits von dem Datenwort, wie es gelesen worden ist, verglichen wird. Wenn ein unterschied auftritt, so stellt dies ein Anzeichen für einen Fehler in einer ungeraden Anzahl von Bits dar. Typischerweise ist die Wahrscheinlichkeit für einen Fehler ausreichend gering, so daß die Wahrscheinlichkeit, daß ein Fehler in mehr als einem einzelnen Bit auftritt, gering ist. Bei der Verwendung eines Parity-Bits konnte jedoch nicht festgestellt werden, an welcher Stelle der Fehler auftrat, sondern konnte das Computersystem lediglich über das Vorhandensein eines Fehlers informiert werden, woraufhin zusätzliche Korrekturschritte, wie beispielsweise ein zweiter Versuch, die Daten in korrekter Weise zu lesen, ausgeführt werden konnte.
In letzter Zeit wurden verbesserte Fehlerkorrekturcodes entsprechend dem einen oder anderen Algorithmus entwickelt, welche eine Funktion aller Bits in jedem digitalen Wort waren. Während der Schreib- und Lese-Operationen werden diese Fehlerkorrekturcodes in dem Speicher an der gleichen Adresse, wie das Datenwort selbst ausgezeichnet. Ein Fehlerdetektionsschaltkreis, der das digitale Wort untersucht und ein Fehlerkorrekturcode, der von dem Speicher gelesen wird, bewirkt, daß nicht nur die Existenz eines Fehlers identifiziert wird, sondern daß angezeigt wird, welches Bit fehlerhaft ist und daß dieses Bit korrigiert wird. Entsprechend dem Umfang des Fehlerkorrekturcodes konnten viele in einem oder mehreren Bitpositionen detektiert werden. Ein bei sechzehn Bitprozessoren und Speichern üblicherweise angewendetes Verfahren benutzt einen sechs Bit-Fehlerkorrekturcode, welcher als Funktion eines jeden Bits in dem Datenwort durch einen speziellen Algorithmus erzeugt worden ist, wobei der Algorithmus so ausgelegt wird, daß er die Erkennung der häufigsten Fehlertypen ermöglichte.
Selbstverständlich ist es, mit Ausnahme einer vollständigen Redundanz, unmöglich, alle Fehler zu detektieren, die während Lese-/Schreib-Zyklen bei digitalen Speichern auftreten können. Es wurde jedoch erkannt, daß es ausreichend ist, weniger als die vollständige Redundanz zu verwenden, wie beispielsweise einen sechs Bit-Korrekturcode für ein sechzehn Bit-Datenwort, um damit in hohem Maße die Wahrscheinlichkeit zu erhöhen in der Lage zu sein, Daten in korrekter Weise in einen Speicher zu schreiben und von diesem zu lesen, trotz der Existenz eines gewissen vorgegebenen Satzes von Fehlern, die derartige Speicher typischerweise ausgesetzt sind.
Die folgenden US-Patentanmeldungen betreffen den technischen Hintergrund und können als nützlich für das Verständnis der Erfindung angesehen werden:
Anmelde-Nr. 499 474, Anmeldetag: 31. Mai 1993, Titel: Parallel Prozessor;
Anmelde-Nr. 499 471, Anmeldetag: 31. Mai 1983, Titel: Parallel Prozessor/Memory Circuit (entspricht US-A-4 709 327);
Anmelde-Nr. 671 835, Anmeldetag: 15. Nov. 1984, Titel; Method and Apparatus for Routing Message Packets (entspricht US-A- 4 598 400);
Anmelde-Nr. 740 943, Anmeldetag: 31. Mai 1985, Titel: Method and Apparatus for interconnecting Prozessors in a Hyperdimensional Array (entspricht US-A-4 805 091);
Anmelde-Nr. 814 348, Anmeldetag: 27. Dez. 1985, Titel: Method and Apparatus for Simulating Systems Described by Partial Differential Equations (entspricht US-A-4 809 202);
Anmelde-Nr. 832 913, Anmeldetag: 24. Feb. 1986, Titel: Method of Simulated Additional Processors in a Simd Parallel Processor Array (entspricht US-A-4 773 038).
Mit Einführung parallel verarbeitender Digitalcomputer, für die obige US-Patentanmeldungen repräsentativ sind, werden die inhärenten Geschwindigkeitsbegrenzungen der Seriendatenverarbeitung, die selbst bei extrem großen und schnellen Prozessoren und dazu assoziierten Speichern auftreten, vermieden, indem die Verarbeitungsfunktion über eine große Anzahl von parallelen Prozessoren und zugeordneten Speichern verteilt wird, von denen jeder relativ klein im Vergleich zu den Prozessoren- und Speichergrößen großer Computer sein kann, die jedoch, wenn sie miteinander in einer hierarchischen Anordnung von Nachrichtennetzwerken verbunden sind, in effektiver Weise große Menge von Daten sehr schnell verarbeiten können.
Die Speichergröße eines jeden Speichers, der mit einem einzigen Prozessor in einen derartigen parallelen Prozessorarrangement assoziiert ist, kann relativ klein, beispielsweise in der Größenordnung von 4K-Bits sein. Während es technisch möglich ist, einen Speicher in dieser Größe zu fertigen, welcher eine genügend kleine Fehlerwahrscheinlichkeit aufweist, so daß keine Fehlerkorrektur benötigt wird, so nimmt die Fahlerwahrscheinlichkeit dennoch dramatisch als statistische Funktion bezogen auf die gesamte Speicheranordnung zu, wenn tausende derartiger Speicher typischerweise in einem parallelen Prozessorarrangement Verwendung finden. Als Ergebnis davon wird es notwendig, Fehlerkorrekturen für jeden der tausenden von Speichern in einen parallelen Prozessorarrangement vorzusehen. Ein Fehlerkorrektursystem, welches bei jedem der Speicher in einem parallel verarbeitenden Datensystem Anwendung finden könnte, ist aus US-A-4 228 496 bekannt, welches im Detail in Zusammenhang mit Fig. 3 diskutiert werden soll. Die Kosten eines derartigen Fehlerkorrektursystems jedem Speicher zuzufügen, erhöhen in starkem Maße die Kosten des parallel verarbeitenden Systems.
Es ist daher die Aufgabe der vorliegenden Erfindung, eine Fehlerkorrektureinrichtung und ein Verfahren zur Fehlerkorrektur anzugeben, welche die Effektivität und die Effizienz bei der Fehlerkorrektur in einem parallelen Datenverarbeitungssystem erhöhen.
Diese Aufgabe wird durch die Gegenstände der Ansprüche 1 und 7 gelöst.
Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird das Lesen und Schreiben von Daten zwischen einer Vielzahl von Speichern und dazu assoziierten parallelen Prozessoren synchronisiert und koordiniert, um ein einzelnes Datenwort und einen einzigen Fehlerkorrekturcode, der von dem einzelnen Datenwort bestimmt wird, zu bilden. Das einzelne Datenwort umfaßt eine Sammlung von Datenwörtern, welche in eine Vielzahl von Speichern eingeschrieben oder von diesen gelesen werden sollen. Der entwickelte Fehlerkorrekturcode, welcher die mehreren Datenwörter als einziges Wort behandelt, erhöht die Effizienz und die Effektivität der Fehlerkorrektur in einer Multiprozessor-Umgebung. Der einzelne Fehlerkorrekturcode, der einer Vielzahl von Datenwörtern, die von der Vielzahl von Speichern gelesen werden und in diese eingeschrieben werden, zugefügt wird, kann aus einem einzelnen Parity-Bit oder einem komplexen Satz von Bits, welche basierend auf einem mehreren Fehlerkorrekturalgorithmen welche für die Korrektur von Fehlern in einer oder mehreren Bitstellen in dem einzelnen kombinierten Datenwort geschaffen wurden, entwickelt werden.
Bei einer anderen bevorzugten Ausführungsform der vorliegenden Erfindung werden eine Vielzahl von Speichern typischerweise durch parallele Prozessoren einer Berechnungseinheit, bei der die Berechnungskapazität über die Vielzahl von parallel und simultan arbeitenden kleinen Prozessoren verteilt ist, koordiniert. Der Lese/Schreibdatenfluß der von einem Satz von mehreren derartiger Prozessoren oder von einem Satz mehrerer derartiger Prozessoren gesteuert wird, wird kombiniert, um ein einziges, gleichzeitig zugeführtes Datenwort zu bilden, welches in den mehreren assoziierten Speichern zusammen mit dem Fehlerkorrekturcode gespeichert wird, wobei der Fehlerkorrekturcode durch einen einzigen Fehlerkorrekturcodegenerator als Funktion der kombinierten Wörter von den mehreren Prozessoren gebildet wird. Der Speicher, dem das kombinierte Wort und der assoziierte Fehlerkorrekturcode zugeführt wird, kann aus mehreren separaten Speichern oder segmentierten Abschnitten aus einzelnen Hardewarespeichern bestehen. Daten, die von einem derartigen Speicher oder derartigen Speichern gelesen werden, werden dann durch ein einziges Fehlerdetektions- und Korrekturschema verarbeitet, um ein korrigiertes kombiniertes Datenwort zu erhalten, welches dann separiert wird, um den korrespondierenden Prozessor des Satzes der mehreren Prozessoren zugeführt zu werden oder von diesem verwendet zu werden.
Diese und andere Merkmale der vorliegenden Erfindung sind im folgenden anhand der beispielhaften detaillierten Beschreibung und den zugehörigen Zeichnungen näher erläutert, von denen zeigen:
Fig. 1 ein verallgemeinertes Blockschaltbild einer parallelen Prozessorumgebung;
Fig. 2 ein verallgemeinertes Blockschaltbild des Datenflusses und der Steuerung zwischen einem Prozessor und einem assoziierten RAM;
Fig. 3 ein Blockschaltbild, das ein typisches Fehlerkorrekturschema zum Lesen und Schreiben von Daten zu und von einem Speicher illustriert;
Fig. 4 ein Blockschaltbild zur Verwendung des Verfahrens der einheitlichen Fehlerkorrektur mit einer Vielzahl von Prozessoren und einem assoziierten Speicher;
Fig. 5 ein Speicherzuordnungsdiagramm, welches zum Verständnis der vorliegenden Erfindung geeignet ist.
Die vorliegende Erfindung stellt eine Verbesserung der Fehlerkorrekturmöglichkeit bei Lese/Schreibfunktionen, wie sie mit einer Vielzahl von Speichern und korrespondierenden Prozessoren assoziiert sind, wie dies typischerweise bei einer Multiprozessor- oder parallelen Prozessorumgebung anzutreffen ist, dar.
In Fig. 1 ist ein Blockdiagramm gezeigt, das die Umgebung eines parallelen Prozessorsystems repräsentiert und das insbesondere derartige Systeme repräsentiert, wie sie in den oben angegebenen Anmeldungen angetroffen werden können. Insbesondere wird eine derartige parallele Prozessorumgebung eine Vielzahl von Modulen 12 aufweisen, die kleine parallel arbeitende Prozessoren repräsentieren und wird weiterhin dazu assoziierte Speicher aufweisen. Derartige Prozessoren arbeiten typischerweise unter Steuerung eines externen Prozessors 14 über Steuerleitungen 16, wie dies genauer in den oben angegebenen Anmeldungen beschrieben ist. Zusätzlich wird der Datenfluß zwischen den Prozessor-/ und Speichermodulen 12 innerhalb der parallelen Prozessorumgebung über die Datenleitungen 18 durch ein Kommunikationsschema bestimmt, wobei ein Satz von N Prozessor-Speichermodulen 12 eine direkte Nachrichtenverbindung miteinander aufweisen, wohingegen eine Kommunikation zwischen anderen Modulen 12 einen Datenaustausch über einen oder mehrere Prozessoren erfordert. Zusätzliche Steuerleitungen 20 werden verwendet, um den Datenfluß und die Steuersignale innerhalb der Multiprozessorumgebung zu erleichtern, wie dies in den oben angegebenen Anmeldungen genauer beschrieben ist.
Innerhalb eines jeden Prozessor/Speichermoduls 12 existiert ein identifizierbarer Prozessor 24 und ein assoziiertes RAM oder Speicher 26, wie dies vollständig in Fig. 2 gezeigt ist. Die Datenkommunikation kann direkt zwischen dem Prozessor und dem Speicher oder über einen Datenbus 28 unter Steuerung eines Steuerinterfaces 30 erfolgen, welches die Lese/Schreibfunktionen der Daten an den Speicher 26 in Zusammenhang mit dem Prozessor 24 bestimmt. Die Fig. 2 zeigt eine verallgemeinerte Beziehung zwischen dem Prozessor und dem Speicher, wobei Eingangs/Ausgangs-Funktionen vernachlässigt sind.
Obwohl der Speicher 26 nach außen und auch für den Prozessor 24 und die Steuerelemente 30 als einfacher physikalischer Speicher erscheint, in dem Daten geschrieben werden und von dem Daten gelesen werden, erfordern heutige Ansprüche an Zuverlässigkeit in Verbindung mit großem Speichervolumen die Verwendung eines Fehlerkorrekturschemas für die Lese/Schreibfunktion. Eine verallgemeinerte Darstellung für ein derartiges Schema ist in Fig. 3 gezeigt. Das Fehlerkorrekturschema korrigiert Fehler, die ein gelesenes Wort in ein oder mehreren Bitstellen von dem aufgezeichneten Datenwort abweichen lassen würden. Entsprechend dem Verfahren der Fig. 3 werden Daten, die dem Speicher über einen Datenbus 34 zugeführt werden und typischerweise eine Bitgröße X aufweisen, die vorzugsweise 16 beträgt, über ein Latch oder einen Pufferschalter 36 der Speicherhardware eines RAM's 38 zugeführt. Jedes Datenwort auf dem Bus 34 wird auch einem Codierschaltkreis 40 zugeführt, welcher entsprechend dem Verfahren einen Fehlerkorrekturcode oder ein Datenwort erzeugt, welches typischerweise eine geringe Anzahl von Bits Y aufweist, und, welches ebenfalls über den Interface-Schaltkreis 36 dem Speicher 38 zugeführt wird, um mit dem Datenwort auf dem Bus 34 an derselben Adresse abgespeichert zu werden. Im typischen Fall eines sechzehn Bit-Datenworts auf dem Bus 34 beträgt die Größe des Fehlerkorrekturcodes von dem Encoder 40 typischerweise sechs Bits gemäß allgemein üblicher Korrekturverfahren. Der Encoder 40 erzeugt ein Codewort, welches eine Funktion spezieller Bitzustände des Datenworts auf dem Bus 34 darstellt und welches statistisch gesehen das Auffinden und Anzeigen der am wahrscheinlichsten vorkommenden Fehler in den Daten, die von dem Speicher 38 gelesen werden, erlaubt. Wenn vollständige Redundanz benötigt wird, wäre der Fehlerkorrekturcode ein Duplikat des ursprünglich aufgezeichneten Wortes. Für eine minimale Fehleranzeige wäre der Fehlerkorrekturcode ein einfaches Parity-Bit. Dazwischen gibt es eine Vielzahl von Möglichkeiten. Die statistische Fehlerwahrscheinlichkeit und die Art des Fehlers bestimmt die vorteilhafteste und wirtschaftlichste Weise für die Erzeugung des Korrekturcodes durch den Encoder 40. Das Ziel ist es, die Größe des zusätzlichen Schaltkreises und die Größe des Fehlerkorrekturcodes und des Speicherplatzes, der dafür bereitgestellt wird, zu minimieren, während zur gleichen Zeit das notwendige Maß an Zuverlässigkeit für eine genaue Datenschreib- und Leseoperation erreicht werden sollte.
Beim Lesen des Speichers 38 werden die Daten von dem Bus 34 zusammen mit dem Fehlerkorrekturcode durch die Ausgangspuffer 42 einem Fehlerkorrekturschaltkreis 44 und einem Fehlerdetektionsschaltkreis 46 zugeführt. Der Fehlerdetektor 46 bestimmt durch Lesen des Fehlerkorrekturcodes im Zusammenhang mit den ausgelesenen Daten, ob ein Fehler aufgetreten ist oder nicht. Wenn ein Fehler aufgetreten ist, kann der Decoderschaltkreis 48 bestimmen, ob der Fehler zu einer Klasse von erwarteten Fehlern gehört und wo der Fehler aufgetreten ist und veranlaßt die Fehlerkorrekturschaltung 44 die ausgelesenen Daten zu korrigieren, so daß die von dem Korrekturschaltkreis 44 auf einen Ausgangsbus 45 gegebenen Daten eine exakte Reproduktion des ursprünglichen Wortes auf den Bus 34, wie es der Speicheradresse in dem Speicher 38 zugeführt worden ist, darstellen. Sollte der Fehler des Ausgangswortes nicht in einer erwarteten Kategorie liegen, beispielsweise wenn der Fehler auf mehr als einer Bit-Position des ursprünglichen Datenworts auftritt, ist es unmöglich, die gelesenen Daten zurückzuspeichern oder zu korrigieren und es wird dann manchmal ein zusätzlicher Detektionsschaltkreis verwendet, um diese Bedingung zu identifizieren oder über Interrupts oder andere Steuerpfade eine Fehlerbedingung bezüglich des Speichers anzuzeigen.
Da die Korrektur von Speicher/Lese-Schreibfehlern unter Verwendung von Fehlerkorrekturtechniken im wesentlichen einen auf Statistik begründeten Prozeß darstellt, bei dem Wahrscheinlichkeiten und über Erfahrungen gewonnene Feststellungen möglicher Fehler verwendet werden, beruht seine Komplexität nicht so sehr auf der Wahrscheinlichkeit, daß ein Fehler auftreten wird, sondern auf der wahrscheinlichen Weise in dem der Fehler auftreten wird. Die Hardware und die Zeit, die für einen Operationszyklus benötigt wird, muß nichtsdestotrotz unabhängig davon zur Verfügung gestellt werden, wie gering die Wahrscheinlichkeit dafür ist, daß sie benötigt wird. Daher ist die erforderliche Benutzung sehr unregelmäßig. Nichtsdestotrotz muß die aufgewendete Hardware ausreichend sein, um den benötigten Level an Speicherzuverlässigkeit sicherzustellen.
In einer Multi-Prozessorumgebung, bei der die Speicher-Prozessorbeziehung der Fig. 2 vervielfacht ist, beispielsweise auf das Zehntausendfache, wird die zusätzliche Systemkomplexität, die benötigt wird, um ein Fehlerkorrektursystem in Zusammenhang mit jedem Speicher zu verwenden, eine beträchtliche Belastung in wirtschaftlicher Hinsicht und in bezug auf die Verarbeitungsgeschwindigkeit. Obwohl die Wahrscheinlichkeit, daß ein Fehler in einem kleinen Speicher auftritt, sehr gering ist, erreicht die Wahrscheinlichkeit bei vielen Speichern einen Pegel, der die Verwendung einer Fehlerkorrektur erforderlich macht. Da es nicht möglich ist, zuverlässig vorauszusagen, welcher Speicher den Fehler bewirkt, ist es notwendig, daß für jeden kleinen Speicher eine Fehlerkorrektur vorgesehen ist. Gemäß der Lehre der vorliegenden Erfindung wird eine weitaus bessere Verwendung einer Fehlerkorrektur in einer Multiprozessor/Multispeicher-Umgebung dadurch erreicht, daß der Datenfluß zwischen einer Vielzahl von Prozessoren und einer Vielzahl von Speichern zusammengeführt wird und für diese Daten ein einzelnes Fehlerkorrekturschema verwendet wird. Da in einer Parallelprozessorumgebung der Datenfluß zwischen Prozessoren und ihrem Speicher innerhalb eines Prozessorsatzes typischerweise für gleichzeitige Lese/Schreibzyklen synchronisiert ist, wird es möglich, ein einziges Fehlerkorrektursystem für einen derartigen Satz von einer Vielzahl von Prozessoren zu verwenden. Da die Wahrscheinlichkeit für einen Fehler während einer Lese/Schreib-Operation mit dem Speicher weiterhin gering ist, ist es möglich, einen einzigen Fehlerkorrekturcode zu verwenden, der für ein kombiniertes Datenwort, welches die gesamten Daten der Vielzahl von Speichern, die mit der Vielzahl von Prozessoren assoziiert sind, einschließt, mit weniger als einer vollständigen Redundanz zu erreichen als dies bei mehrere dezentralisierter Fehlerkorrekturen der Fall ist. Dies erhöht die Effizienz beträchtlich und minimiert Hardwarekosten in einer Parallelprozessorumgebung.
Fig. 4 zeigt ein derartiges System, bei dem eine Vielzahl von Prozessoren 50 und zugeordnete Datenbusse 52 zum Zuführen von Daten, die in einen Speicher eingeschrieben werden sollen, vorgesehen sind, welche derart assoziiert sind, daß die Daten auf den Bussen 52 in einem Interface 54 als ein einzelnes großes Datenwort zusammengefaßt werden, welches auf den Ausgangsbus 56 gegeben wird. Die Daten auf dem Bus 56 weisen eine Byte-Größe von "NX" auf, wobei "X" die ursprüngliche Byte-Größe der Daten auf dem Bus 52 bedeutet und "N" die Anzahl der Prozessoren 50 darstellt, welche mit einem einzelnen Interface 54 assoziiert sind. Der System-Timing- und Steuerschaltkreis 58 wird betrieben um sicherzustellen, daß alle Daten von den Bussen 52 gleichzeitig auf dem Bus 56 erscheinen, um ein einzelnes kombiniertes Datenwort zu bilden. Ein derartiger Schaltkreis 58 ist typischerweise in Computersystemen vorgesehen. Dieses Datenwort wird durch ein Interface oder ein Puffersystem 60 einem Speicher 62 zugeführt. Gleichzeitig werden die Daten auf dem Bus 56 einem Fehlerencodierer 64 zugeführt, welcher einen Fehlercode auf dem Bus 66 erzeugt, welcher über ein Interface 60 dem Speicher 62 zugeführt wird, um an derselben Adresse, wie die Daten auf dem Bus 56 gespeichert zu werden. Der Speicher 62 kann aus einer Vielzahl separater Speicher bestehen oder kann typischerweise, wie dies in Fig. 5 gezeigt ist, aus einem einzelnen Speicher 68 bestehen, der für jede Adresse in Zellen 70 aufgeteilt ist, von denen jede einem Prozessor 50 zugewiesen ist und wobei eine abschließende Zelle 72 den Fehlerkorrekturcode des Busses 66 enthält. Auf diese Weise kann der Speicher 62 tatsächlich als eine Vielzahl von Speicher oder als eine Vielzahl von Speicherbereichen angesehen werden, von denen jeder mit einem der Prozessoren 50 assoziiert ist.
Die Daten, die von dem Speicher 62 von jeder Adresse ausgelesen werden, einschließlich den von der Vielzahl von Zellen 70 und der Fehlerzelle 72, die über einen Puffer oder ein Interface 76 auf den Ausgangsbus 74 kommen, werden einem Fehlerkorrektursystem 78 zugeführt. Die Zelle 72 wird über einen Bus 74 durch das Interface 76 einem Fehlerdetektions- und Decodiersystem 80 zugeführt, welcher für die Fehlerkorrektur bei den kombinierten Datenworten, die mit den Prozessoren 50 assoziiert sind, zuständig ist. Das Fehlerkorrektursystem 78 antwortet auf die Anzeige eines Fehlers von dem Fehlerdetektier- und Decodiersystem 80, um eine Fehlerkorrektur für die betroffenen Fehler, die in dem kombinierten Datenwort auf dem Bus 74 auftreten, zur Verfügung zu stellen und ein korrigiertes Datenwort auf dem Bus 82 durch einen Interface-Schaltkreis 84 zur Verfügung zu stellen, welcher das kombinierte Datenwort auf eine Vielzahl von Ausgangsbussen 86 verteilt, von denen jeder mit einem der Prozessoren 50 assoziiert ist. Daten von jeder der Zellen 70 werden für eine einzelne Adresse gleichzeitig von dem Speicher 62 gelesen, um ein einzelnes vergrößertes Datenwort zu bilden bezüglich dem, das Fehlerdetektiersystem 80 simultan arbeiten kann, um eine geeignete Fehlerkorrektur zur Verfügung zu stellen.
Bei einer geringen Fehlerwahrscheinlichkeit erlaubt das Zusammenführen einer größeren Anzahl von Bits innerhalb eines einzelnen Datenworts die Verwendung eines effizienteren und/oder effektiveren Fehlerkorrektur-Codierschemas, während gleichzeitig nur ein einzelnes Fehlerkorrektursystem für eine Vielzahl von Prozessoren und deren assoziierte Speicher benötigt wird. Es sei angemerkt, daß mehrere Fehlerkorrekturverfahren bekannt sind, deren Verwendung von spezifischen Annahmen und Wahrscheinlichkeiten von Fehlermustern in den Lese/Schreibspeicherzyklen abhängen und daß die Verwendung nicht auf eine oder mehrere spezielle Computerarchitekturen beschränkt ist. Die vorliegende Erfindung ist somit nur durch den Wortlaut der Ansprüche festgelegt.

Claims

1. Parallelcomputersystem mit einer Vielzahl von Prozessoren (16), von denen jeder einen zugewiesenen Speicherbereich (70) innerhalb einer Speichereinrichtung (62) aufweist, dadurch gekennzeichnet, daß

eine Vielzahl von Datenwörtern der entsprechenden Vielzahl von Prozessoren parallel einer einzigen kombinierten Fehlerkodiereinrichtung (64) zugeführt werden, um einen einzelnen kombinierten Fehlercode für die Vielzahl der Datenworte zu erzeugen, welcher in einem zugewiesenen Speicherbereich (72) zusammen mit der Vielzahl von Datenwörtern in einem adressierten Speicherplatz in der Speichereinrichtung gespeichert wird, und

die Vielzahl von Datenwörtern und der assoziierte einzelne kombinierte Fehlercode beim Lesen der Vielzahl von Datenwörtern parallel einer einzelnen kombinierten Fehlerdetektier- und Korrektureinrichtung (78, 80) zugeführt werden, um die Fehlerdetektier- und Korrektureinrichtung in die Lage zu versetzen, für die Vielzahl von Datenwörtern eine Fehlerdetektionsoperation gemäß dem einzelnen kombinierten Fehlercode auszuführen.

2. Parallelcomputersystem nach Anspruch 1, dadurch gekennzeichnete daß es weiterhin eine Einrichtung (58) zum gleichzeitigen Schreiben und Lesen der Vielzahl von Datenwörtern in der Speichereinrichtung, die dem einzelnen kombinierten Fehlercode entsprechen, enthält.

3. Parallelcomputersystem nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß es weiterhin eine Einrichtung (54) aufweist, zum Assoziieren der Vielzahl von Prozessoren (50), um eine parallele Verarbeitung sicherzustellen.

4. Parallelcomputersystem nach mindestens einem der Ansprüche 1 bis 3, dadurch gekennzeichnete daß die Speichereinrichtung (62) korrespondierende Segmente (70) mit einer einzigen Speicheradresse aufweist, wobei ein vorgegebenes Segment (72) der Speicheradresse für den einzelnen kombinierten Fehlercode verwendet wird.

5. Parallelcomputersystem nach mindestens einem der Ansprüche 1 bis 4, dadurch gekennzeichnete daß der einzelne kombinierte Fehlercode ein einzelnes Parity-Bit aufweist.

6. Parallelcomputersystem nach mindestens einem des Ansprüche 1 bis 4, dadurch gekennzeichnet, daß der einzelne kombinierte Fehlercode eine Vielzahl von Bits aufweist.

7. Verfahren zum Ausführen einer Fehlerkorrektur bei einem Parallelcomputersystem mit einer Vielzahl von Prozessoren, von denen jeder einen zugewiesenen Speicherbereich (70) innerhalb einer Speichereinrichtung aufweist, gekennzeichnet durch folgende Schritte:

Codieren der Datenwörter der Vielzahl von Prozessoren, von denen jeder ein Datenwort parallel zur Verfügung stellt, um einen einzelnen kombinierten Fehlercode für alle Datenwörter zu erhalten und Speichern der Vielzahl von Datenwörtern zusammen mit-dem einzelnen kombinierten Fehlercode in der Speichereinrichtung (62),

Ausführen einer einzelnen kombinierten Fehlerdetektionsoperation im Zusammenhang mit der Vielzahl von Datenwörtern, in dem diese parallel von der Speichereinrichtung zusammen mit dem einzelnen Fehlercode gelesen werden und durch Aktivieren einer Fehlerdetektier- und Korrektureinrichtung parallel bei der Vielzahl von Datenwörtern Fehler zu detektieren und zu korrigieren gemäß dem einzelnen kombinierten Fehlercode.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Daten die zu dem einzelnen kombinierten Fehlercode gehören, gleichzeitig in die Speichereinrichtung geschrieben und von dieser gelesen werden.

9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, daß weiterhin vorgesehen ist, daß die Vielzahl von Prozessoren (50) miteinander assoziiert sind, um eine parallele Verarbeitung zu gewährleisten.

10. Verfahren nach Anspruch 7, 8 oder 9, dadurch gekennzeichnet, daß weiterhin vorgesehen ist, daß die Speichereinrichtung (62) Speichersegmente mit einer einzigen Speicheradresse aufweist, wobei ein vorgegebenes Segment (72) der Speicheradresse für den einzelnen kombinierten Fehlercode verwendet wird.