DE2539977C3 - Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage - Google Patents
Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer DatenverarbeitungsanlageInfo
- Publication number
- DE2539977C3 DE2539977C3 DE2539977A DE2539977A DE2539977C3 DE 2539977 C3 DE2539977 C3 DE 2539977C3 DE 2539977 A DE2539977 A DE 2539977A DE 2539977 A DE2539977 A DE 2539977A DE 2539977 C3 DE2539977 C3 DE 2539977C3
- Authority
- DE
- Germany
- Prior art keywords
- signal
- failure
- module
- circuit arrangement
- monitored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000012545 processing Methods 0.000 title claims description 38
- 230000002093 peripheral effect Effects 0.000 title claims description 5
- 238000001514 detection method Methods 0.000 title claims 2
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 description 16
- 238000012423 maintenance Methods 0.000 description 8
- 238000011084 recovery Methods 0.000 description 7
- 230000007423 decrease Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013024 troubleshooting Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0787—Storage of error reports, e.g. persistent data storage, storage using memory protection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/28—Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0727—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/325—Display of status information by lamps or LED's
- G06F11/326—Display of status information by lamps or LED's for error or online/offline status
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Debugging And Monitoring (AREA)
Description
Die Erfindung betrifft eine Schaltungsanordnung in einer modular aufgebauten Datenverarbeitungsanlage
mit Moduln, die sich gegenseitig aushelfen können, zur Erkennung von fehlerhaften Zuständen peripherer
Einheiten nach dem Oberbegriff des Anspruchs 1.
Die Zuverlässigkeit von Datenverarbeitungsanlagen hat heute eine solche Höhe erreicht, daß sie fast
ausfallfrei arbeiten und ihre Leistung nur wegen Wartungsproblemen abnimmt. Dabei sind sie aber immer
schwieriger unter Kontrolle zu halten, weil sie ihre eigenen Fehler weitgehend kompensieren.
Eine Anlage kann z. B. eine Funktionseinheit aus dem Verkehr ziehen und andere Funktionseinheiten
an deren Stelle benutzen. Somit arbeitet die Anlage weiter, ihr Wirkungsgrad kann jedoch abnehmen,
wenn immer mehr Funktionseinheiten ausfallen und von ihr umgangen werden. Auch für Anlageteile, die
der Datenübermittlung dienen, wurden ausgeklügelte Fehlerkorrekturcodes ausgearbeitet, die der Anlage
die Korrektur der Daten gestatten, auch wenn viele Fehler in einer Datenreihe auftreten. Somit kann eine
Anlage Daten richtig auslesen, obwohl ihre Funktionseinheiten mit zunehmendem Alter in ihrer Leistung
nachlassen.
Unter diesen Voraussetzungen kann ein für die Wartung einer Datenverarbeitungsanlage verantwortlicher
Wartungstechniker eine solche Anlage untersuchen, die richtig zu arbeiten scheint. Da sie jedoch
Fehler selbst korrigieren kann und über die Möglichkeit verfügt, nichtarbeitende oder ausgefallene
Funktionseinheiten zu umgehen, kann ihre Leistung mit zunehmendem Alter abnehmen. Um die
Anlage auf dem höchsten Wirkungsgrad zu halten, wäre es daher für den Wartungstechniker erwünscht,
die Entwicklung des Leistungsverhaltens, bezogen auf Betriebszustände, wie Ströme und Spannungen, von
außerhalb der Toleranzen liegenden Schaltungsmoduln oder auswechselbaren Einheiten zu kennen.
Außerdem sollte er Ausfälle in Funktionseinheiten kennen, die wegen dieser Ausfälle vielleicht umgangen
worden sind.
So sind Schaltungen für die Überwachung von Moduln, durch welche festgestellt wurde, ob die Spannungen
in den Moduln innerhalb der Toleranzen liegen, in der Vergangenheit benutzt worden. Ebenso
sind Geräte zur Abtastung einer Anzahl von Schaltkreisen zwecks Prüfung derselben bekannt. So ist beispielsweise
in der DE-OS 2 262 476 ein Fehlersuchsystem und maschinell ausgeführtes Fehlersuchverfahren
beschrieben, das Leistungsabfall und Betriebsausfall eines peripheren Gerätes festzustellen vermag.
Keines dieser Geräte wurde jedoch in Verbindung mit einer Anlage benutzt, die sich selbst reorganisieren
kann. Das Problem der Überwachung der Leistungs-
abnähme einer Anlage, weiche sich selbst helfen kann,
gab es daher gar nicht.
Demgegenüber besteht die Aufgabe der Erfindung darin, für eine modulare Datenverarbeitungsanlage,
deren Module sich bei der Funktionsausführung aushelfen können, eine Schaltungsanordnung anzugeben,
die eine genaue Lokalisierung von fehlerhaften oder ausgefallenen Moduln ermöglicht.
Gelöst wird diese Aufgabe der Erfindung durch die in dem Hauptanspruch angegebenen Merkmale. ι ο
Vorteilhafte Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen
zu entnehmen.
Mit der Erfindung wird also der Vorteil erzielt, daß
in einer Datenverarbeitungsanlage, die in der Lage ist, ihre eigenen Fehler zu korrigieren, notfalls durch
eine Umstrukturierung ihrer Verarbeitungs- und Funktionseinheiten, dem Wartungsdienst der sonst
nicht erkennbare Leistungsabfall der Anhge sichtbar gemacht werden kann.
Ein Ausführungsbeispiel der Erfindung ist in den Zeichnungen dargestellt und wird anschließend näher
beschrieben. Es zeigt
Fig. 1 ein Ausführungsbeispiel der Erfindung in einer
Datenspeicheranlage mit einer Verarbeitungsein- zr>
heit, die in Verbindung mit n, ehreren Funktionseinheiten arbeitet, in diesem FaI. mit Lese/Schreibgeräten
und ihren Steuerungen,
Fig. 2 eine NetzteilfühlerschaUung, die für die in Fig. 1 gezeigten Fühler verwendet werden kann, jo
Fig. 3 A und 3 B den Prozeßablauf in einer der genannten
Verarbeitungseinheiten bei der Überwachung der Netzteil-Fühlerschaltungen und bei der
Aufzeichnung von Frühwarnungen und Ausfällen.
Die in Fig. 1 gezeigte Datenspeicheranlage umfaßt Ji
eine Verarbeitungseinheit 10, die mehrere Funktionseinheiten 12 steuert.
Da der Betrieb der Anlage bei der Steuerung der Lese- und Schreiboperationen von Daten nicht Teil
dieser Erfindung ist, sind die Kommunikationswege 4» zwischen den Funktionseinheiten und der Verarbeitungseinheit
nicht dargestellt. Die Kommunikationswege aber zwischen der Verarbeitungseinheit 10 und
den Fühlern für Toleranzüberschreitungen (TU) und Ausfall sowie den TU-Anzeigen 14 sind ein Teil der -r>
Erfindung und deshalb in Fig. 1 dargestellt.
Die Einrichtungen mit Ausfallfühler und -Anzeige 14 gehören zu einer Funktionseinheit 12. Der Betrieb
eines Toleranzüberschreitungs- und Ausfaltfühlers ist im einzelnen in Fig. 2 dargestellt. Die Abfühlopera- -.0
tion beginnt mit den Netzteilfühlerschaltungen 16 und
18, welche das Lese/Schreib-Netzteil 20 bzw. das Steuerungsnetzteil 22 überwachen.
Es gibt zwei Arten von Netzteilfühlerschaltungen in jedem Fühlerblock 16 und 18 der Fig. 1. Die erste v,
Art ist ein Toleranzüberschreitungs- oder Frühwarnfühler. Die zweite Art ist der Ausfall-Fühler. Diese
Fühler werden später genauer im Zusammenhang mit Fig. 2 beschrieben.
Die TU- oder Frühwarnfühler überwachen Moduln wi
zur Erkennung von Spannungen am Eingang oder Ausgang, die ungefähr 4% außerhalb der Toleranzgrenzen
liegen. Ein Modul in einem solchen Zustand arbeitet wahrscheinlich noch richtig. Die Tatsache jedoch,
daß es außerhalb der Toleranz liegt, zeigt an, μ daß seine Leistung nachzulassen beginnt. Die TU-Fühler
sind somit Teile einer Frühwarnanlage. Die TU-Leitungen der Schaltungen 16 und 18 werden im
ODER-Glied 24 zusammengeschaltet und ergeben ein TU-Bit in einem Zustandsbyteregister 26. Am
Ende einer Lese- oder Schreiboperation durch die Lese/Schreibeinheit 27 schaltet die Lese/Schreibsteuerung
28 das Tor 30 ein, um ein Zustandsbyte an die Verarbeitungseinheit 10 zinückzuleiten. Ein
Zustandsbyte besteht aus mehreren TU-Bits, d. h. aus dem individuellen Bit mehrerer TU-Fühler.
Jede TU-Leitung wird auch an eine TU-Anzeige 32 geführt. Eine TU-Anzeige besteht aus einem verzögerten
Haltekreis 34, einer monostabilen Kippschaltung 36 und einer Lichtemitterdiode (LEDj 38.
Wenn eine TU-Leitung beaufschlagt wird und anzeigt, daß ein Frühwarnfühler einen außer der Toleranz liegenden
Zustand erkannt hat, wird der verzögerte Haltekreis angesteuert, aber noch nicht in den Haltezustand
versetzt. Die ansteigende Flanke des Signals auf der TU-Leitung löst die monostabile Kippschaltung
36 aus. Wenn das Signal auf der TU-Leitung noch vorhanden ist, wenn die monostabile Kippschaltung
36 wieder zurückschaltet, wird der Haltekreis in den Haltezustand versetzt, and die LED 38 schaltet ein.
Die Zeitverzögerung durch die monostabile Kippschaltung 36 soll erreichen, daß kurze und vorübergehende
Überschreitungen der Toleranz von Betriebszuständen den Haltekreis noch nicht in den
Haltezustand versetzen und die LED 38 zum Aufleuchten bringen. Die LED 38 bleibt eingeschaltet,
bis ein Wartungstechniker den Haltekreis 34 von Hand zurückstellt. Die TU-Anzeige eines jeden Fühlers
der Ausfallfühler und -Anzeigen 14 bezeichnet daher dem Wartungstechniker diejenigen Moduln, die
zu irgendeinem Zeitpunkt während des Betriebes der Anlage außer Toleranz geraten sind.
Die Ausfall-Fühler der Schaltungsblöcke 16 und 18 haben Ausgangsleitungen, die durch Multiplexer zusammengefaßt
werden. Der Multiplexer 40 überwacht die Netzteilfühler für das Lese/Schreib-Netzteil, während
der Multiplexer 42 die Ausfall-Fehler für das Steuerungsnetzteil überwacht. Die Multiplexer 40 und
42 wirken als Selektionsschalter, über welche die Ausfall-Fühler elektronisch abgefragt werden können.
Die Abfrageoperation wird durch die Verarbeitungseinheit lOgesteueit, die eine Abfrage nur einleitet,
wenn von ihr ein Operationsausfall- oder -Fehlerzustand erkannt worden ist. Die Abfrage wird durch
ein Signal zum Einstellen des Flipflop 44 und Einschalten des Zählers 46 eingeleitet. Wenn das Flipflop
44 eingestellt ist, wird die Torschaltung 48 zum Übertragen von Taktimpulsen an den Zähler 46 eingeschaltet.
Der Zähler 46 wird durch das Startsignal auf 0 zurückgesetzt und beginnt somit aufwärtszuzählen,
wenn er Taktimpulse empfängt. Jede Zahl, die beim Hochzählen des Zählers zustande kommt, stellt die
Adresse eines Ausfall-Fühlers in einer Einrichtung der Ausfall-Fühler und -Anzeigen 14 dar. Die
Adresse im Zähler 46 wird der entsprechenden Fühler- und Anzeigeeinrichtung über die Treiber 50 mitgeteilt,
weiche die Empfänger 52 einer jeden Einrichtung 14 speisen.
An jeden Empfänger 52 ist ein Adreßkodierer 54 angeschlossen. Wenn die dekodierte Adresse einem
Ausfall-Fühler entspricht, schaltet die Adreßdekodierung den Multiplexer 40 bzw. 42 zum Weiterleiten
des Ausgangssignals des betreffenden Ausfall-Fühlers an das ODER-Glied 56 ein.
Das ODER-Glied 56 sammelt die Ausgangssignale
10
15
20
25
der Multiplexerschaltungen 40 und 42 und leitet ein binäres Signal an einen Treiber 58 weiter, der seinerseits
ein Signal an den Empfänger 60 bei der Verarbeitungseinheit zurückgibt. Die Empfänger 62 und 64
gehören zu anderen Ausfall-Fühlern und -Anzeigen 14 anderer Funktionseinheiten. Jede Ausfallanzeige,
die vom Empfänger 60, 62 oder 64 empfangen wird, wird durch das ODER-Glied 66 übernommen. Der
Ausfall-Status wird an die Verarbeitungseinheit 10 zurückgeleitet und setzt das Flipflop 44 zurück, um
den Abfragevorgang anzuhalten.
Wenn der Abfragevorgang einen Ausfall ermittelt hat, kann die Verarbeitungseinheit 10 die zum Ausfall
gehörige Adresse dem Register 68 entnehmen. Das Register 68 spiegelt den Inhalt des Zählers 46 wider.
Die Verarbeitungseinheit 10 verzeichnet dann den Ausfall-Status zusammen mit der Adresse und kann
anschließend die Abfrage durch Einschalten des Flipflop 44 wieder fortsetzen, wobei die Torschaltung 48
wieder eingeschaltet ist. Dann werden die Taktimpulse an den Zähler 46 geleitet und veranlassen diesen
zur Wiederaufnahme der Abfrage.
Da die Netzteilfühlerschaltungen 16 und 18 und ihr zugehöriges Übermittlungsgerät zur Verarbeitungseinheit
10 aus der Stromversorgung der Verarbeitungseinheit gespeist werden, können sie letzterer
einen Ausfall mitteilen, wenn die Netzteile 20 und 22, welche die Funktionseinheiten versorgen, ausfallen.
Das Übermittlungsgerät, v/elches durch die Verarbeitungseinheit 10 gespeist wird, umfaßt die Empfänger
52, die Adreßdekodierer 54, die Multiplexer 40 und 42, das ODER-Glied 56, den Treiber 58 und
die TU-Anzeigen 32.
In Fig. 2 ist ein Beispiel für einen Frühwarn- und einen Ausfall-Fühler gezeigt. Typischerweise wird von
dieser Fühlerschaltiung ein austauschbares Modul 70 überwacht. Der Ausfall-Fühler besteht aus den Komparatoren
72 und 74 und der Logikschaltung 76. Der Komparator 72 überwacht den Betriebszustand am
Ausgang des Moduls 70, um festzustellen, ob das Signal innerhalb von 25 % der durch Referenz definierten
Normalwerte liegt. Der Komparator 74 überwacht in gleicher Weise den Betriebszustand am Eingang
zum Modul, um festzustellen, ob da«: Eingangssignal innerhalb 25% der Normalwerte liegt.
Die Komparatoren 72 und 74 geben solange ein hohes Ausgangssignal ab, als die von ihnen überwachten
Signale innerhalb der Toleranzen liegen. Ein Ausfall wird daher erkannt, wenn die Logik 76 feststellt,
daß das Signal des Komparators 74 hoch ist, während dasjenige des Komparators 72 annähernd Null ist. Die
Logik 76 besteht aus einem Inverter 78 zur Überwachung des Signalausgangs am Komparator 72 und einem
UND-Glied 79 zur Kombination des invertierten Ausgangs von 72 mit dem Ausgang von 74. Das
UND-Glied 79 gibt somit nur ein Signal ab, das einen Ausfall des Moduls 70 anzeigt, wenn das Ausgangssignal
des Komparators 72 abfällt und damit anzeigt, daß das Signal am Modulausgang außerhalb des Toleranzbereiches
liegt, während das Signal am Ausgang ω des Komparators 74 hoch bleibt und anzeigt, daß der
Pegel am Moduleingang innerhalb der Toleranz liegt. Die in den Komparatoren 72 und 74 benutzte Toleranz
von 25 % ist nicht kritisch. Eine Toleranz sollte so gewählt werden, daß die Anzeige einer Toleranz- (,5
Überschreitung einem Ausfall dieses Moduls gleichkommt.
Die Logikschaltung 76 kann natürlich bedeutend
45
50 erweitert werden, um mehr als ein austauschbares Modul zu überwachen. Ein Satz von Moduln kann
z. B. von Komparatoren überwacht werden, die an ausgewählte Moduleingänge oder -ausgänge angeschlossen
sind, und die Logik 76 kann aus einem logischen Baum bestehen, um dasjenige Modul des Modulsatzes,
das ausgefallen ist, zu identifizieren.
Der TU-Fühler umfaßt einen Komparator 80, der das Ausgangssignal des austauschbaren Moduls 70
überwacht, um festzustellen, ob es innerhalb von 4% der durch ein an den Komparator 80 angelegtes Referenzsignal
definierten normalen Betriebsgrenzen liegt. Der Komparator 80 kann an den Eingang oder
an den Ausgang des Moduls angeschlossen werden. Die durch die TU-Fühler zu überwachenden Leitungen
können frei unter den kritischeren Leitungen oder den Leitungen ausgewählt werden, die früh eine
Warnanzeige bei einer Leistungsabnahme abgeben. Die beim Komparator 80 angewandte Toleranz von
4% ist ebenfalls eine Sache der freien Wahl. Der Toleranzbereich sollte so gewählt werden, daß die Frühwarnfunktion
erfüllt wird.
In Fig. 3 A ist der Betriebsablauf der Verarbeitungseinheit 10 der Fig. 1 bei der Steuerung der Abtastung
und Protokollführung über die Betriebszustände in der Datenspeicheranlage dargestellt. Der
Ablauf beginnt, sobald die Verarbeitungseinheit erkennt, daß eine Lese/Schreiboperation ausgefallen ist
und Fehlerkorrekturverfahren eingeleitet werden müssen. Wenn ein Betriebsfehler auftritt, verzweigt
sich der Ablauf im Entscheidungsblock 82 zum Block 84. Während der Aktivzeit des Blockes 84 speichert
die Einheit 10 das vom Zustandsbyteregister 26 empfangene Zustandsbyte. Als nächstes leitet die Verarbeitungseinheit
im Block 86 das übliche Wiederherstellungsverfahren ein. Dieses Verfahren kann darin
bestehen, daß versucht wird, dieselben Daten noch einmal zu lesen oder zu schreiben, und es kann auch
Fehlerkorrekturkodes enthalten, mit denen versucht wird, die fehlerhafte Bits enthaltenden Daten zu korrigieren.
Dann folgt die Protokollführung, welche abhängig von der erfolgreichen ode»· erfolglosen Wiederherstellung
zwei verschiedene Wege einschlagen kann.
Wenn die Wiederherstellung erfolgreich war, verzweigt sich der Ablauf im Block 88 zum Entscheidungsblock
90. Wenn das TU-Bit im Statusbyte nicht »Eins« ist, dann geht der Ablauf zwecks Protokollierung
vom Entscheidungsblock 90 weiter zum Block 92. Im Block 92 meidei und proiokullleri die Verarbeitungseinheit
10 die ganze Wiederherstellungsaktion zur Behebung des Fehlers sowie die vom Zustandsbyteregister
empfangene Zustandsinformation.
Wenn das TU-Bit im Zustandsbyte »Eins« ist, geht der Ablauf vom Entscheidungsblock 90 weiter zum
Block 94, wobei die Verarbeitungseinheit 10 die Modulprüfung nach Ausfällen einleitet, wie sie oben im
Zusammenhang mit Fig. 1 beschrieben wurde. Der Entscheidungsblock 96 überwacht dann die Ergebnisse
dieser Abfrage, um festzustellen, ob ein Modul ausgefallen ist. Wenn das der Fall ist, geht es weiter
zum Block 98, wobei die Adresse des ausgefallenen Moduls gemeldet und protokolliert wird. Dieser Ausfall
wird insofern als temporärer Ausfall betrachtet, als das Wiederherstellungsverfahren erfolgreich war
und den Ausfall überwinden konnte.
Wenn andererseits kein Modulfehler während der Modulabfrage erkannt wird, verzweigt sich der Ablauf
vom Entscheidungsblock 96 zum Block 100. Dann meldet die Verarbeitungseinheit 10 einen vorübergehenden
Ausfall der Stromversorgung, der typischerweise auf einen Ausfall des Stromnetzes zurückzuführen
ist, welches die Verarbeitungsanlage speist.
Der Ablauf führt von jedem Block 92, 98 und 100 in einer Schleife zurück zum Entscheidungsblock 82,
mit anderen Worten, der Melde- und Protokollierungsvorgang ist dann abgeschlossen und die Anlage
für die nächste Operation bereit. Die nächste Operation würde erfahrungsgemäß nicht ausfallen und der
Ablauf vom Entscheidungsblock 82 zum Block 102 verzweigen, wodurch angezeigt wird, daß die Operation
erfolgreich beendet wurde und einen normalen Endzustand hatte. Die Verarbeitung wird dann weiter
fortgesetzt, bis wieder ein Fehler oder ein Funktionsausfall auftritt.
Wenn das Wiederherstellungsverfahren im Entscheidungsblock 88 in Fig. 3 A nicht erfolgreich ist,
verzweigt sich der Ablauf vom Entscheidungsblock 88 zur Fig. 3B. In Fig. 3B sind die Modulabfrage und
der Protokollierungsvorgang in einer Situation gezeigt, in der die Wiederherstellung nicht erfolgreich
war.
Der Betriebsablauf nach Fig. 3B beginnt beim Block 104, wo die Verarbeitungseinheit 10 die Abfrage
der Moduln einleitet, wie sie vorher im Zusammenhang mit Fig. 1 beschrieben wurde. Der Entscheidungsblock
106 zeigt, daß die Ergebnisse der Modulabfrage überwacht werden. Wenn kein Modulausfall
vorliegt, geht der Ablauf weiter zum Block 108, wobei erkannt wird, daß der Ausfall in der Funktionseinheit und nicht in der Stromversorgungseinheit liegt.
Dieser Schluß wird von der Verarbeitungseinheit gezogen, da die Netzteilfühlerschaltungen 16 und 18 nur
die Netzteile und nicht die Funktionsmoduln überwachen, die aus den Netzteilen versorgt werden. Das ergibt
sich logisch daraus, da die Wiederherstellung nicht erfolgreich war und die Netzteilmoduln sich
während der Modulabfrage als einwandfrei erweisen.
Die Verarbeitungseinheit 10 meldet im nächsten
Ablaufschritt 110, daß die Funktionseinheit nicht zur Verfügung steht und macht eine Eintragung im Protokollträger
für die nachfolgende Benutzung durch den Wartungstechniker.
Wenn die Modulabfrage zeigt, daß ein Modul ausgefallen ist, verzweigt sich der Ablauf vom Entscheidungsblock
106 zum Block 112. Dieser zeigt der Verarbeitungseinheit 10 den logischen Schluß an, daß der
Ausfall in einem Netzteil liegen muß. Im Ablaufschritt 114 protokolliert die Verarbeitungseinheit 10 die
Funktionseinheit als nicht verfügbar. Im Schritt 116 wird außerdem die Adresse (Identifikation) des ausgefallenen
Moduls protokolliert, wie sie vom Register 68 erhältlich ist (Fig. 1). So erfährt der Wartungstechniker
aus der Durchsicht des Protokolls, welches austauschbare Modul im Netzteil ersetzt werden
muß.
Nachdem die Protokollierung entweder im Block 110 oder 116 abgeschlossen ist, wird der Ablauf mit
Block 118 fortgesetzt, wobei die Verarbeitungseinheit 10 die ausgefallene Funktionseinheit elektronisch aus
der nutzbaren Anlage herausnimmt. Gleichzeitig wählt sie eine Alternativeinheit zur Durchführung von
Operationen aus, die vorher der herausgenommenen Funktionseinheit zugeordnet waren. Unmittelbar danach
protokolliert die Verarbeitungseinheit 10 im Schritt 120 eine Nachricht, welche die Reparatur der
defekten Funktionseinheit verlangt.
Wenn die defekte Funktionseinheit aus der Anlage herausgetrennt ist, kehrt die Ablaufsteuerung zur
Fig. 3 A zurück und versucht noch einmal, die gewünschte Operation auszuführen. Mit einer anderen
Einheit verläuft diese Operation sehr wahrscheinlich erfolgreich. Der Ablauf verzweigt sich vom Entscheidungsblock
82 zum Block 102 und zeigt an, daß die Operation erfolgreich beendet ist und ein normaler
Endzustand vorliegt.
Hierzu 3 Blatt Zeichnungen
•30 209/232
Claims (6)
1. Schaltungsanordnung in einer modular aufgebauten Datenverarbeitungsanlage mit Moduln,
die sich gegenseitig aushelfen können, zur Erkennung von fehlerhaften Zuständen peripherer Einheiten
mit Signalspannungen bzw. -ströme abfragenden Uberwachungsschaltungen zur Feststellung
von Leistungsabfall bzw. -ausfall und einer zentralen Einrichtung zur Abfrage dieser Überwachungsschaltungen,
gekennzeichnet durch folgende Merkmale:
a) in jedem überwachten Modul (z. B. 70,
F i g. 2) ist ein Frühwarnfühler (80) angeord- ι;
net, der schon auf geringe nicht notwendigerweise zu Fehlern führende Toleranzabweichungen
der Ausgangssignale des zugehörigen Netzteils anspricht und ein Frühwarnsignal zur Anzeige bringt; x
b) am Ausgang jedes überwachten Moduls ist ein erster Ausfallfühler (72) vorgesehen, der
ein Signal erzeugt, wenn das überwachte Ausgangssignal zu Fehlern führende Toleranzabweichungen
aufweist; 2>
c) am Eingang jedes Moduls ist ein zweiter Ausfallfühler (74) vorgesehen, der ein Signal
erzeugt, wenn das überwachte Eingangssignal zu Fehlern führende Toleranzabweichungen
aufweist; jo
d) jedem überwachten Modul ist eine logische Schaltung (76) zugeordnet, die den Modul
als fehlerhaft meldet, wenn das Ausgangssignal fehlerhaft ist, das Eingangssignal jedoch
nicht; r>
e) es sind Abfrageeinrichtungen (40,42,46 und
54) vorhanden, die zur zentralen Erfassung von Ausfällen mit den Ausgängen der logischen
Schaltungen verbunden sind, um eine zentrale Aufzeichnung der Ausfallmeldun- ■">
gen vorzunehmen.
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß ein Frühwarnfühler
(80, Fig. 2) wenigstens einen Komparator mit Eingängen für ein zu überwachendes und ein Re- ·)·»
ferenzsignal und mit einem Ausgang für ein Signal umfaßt, dessen Auftreten das Abweichen des
überwachten Signals vom Referenzwert über eine wählbare Toleranzgrenze hinaus anzeigt.
3. Schaltungsanordnung nach Anspruch 1 oder ■>
<> 2, dadurch gekennzeichnet, daß Einrichtungen (32) zum Anzeigen von Leistungsschwund mit den
Frühwarnfühlern (80) verbunden sind und daß sie eine Verzögerungsschaltung (36) enthalten, die
bewirkt, daß Leistungsschwund nur angezeigt Vi
wird, wenn er länger als die Verzögerungszeit andauert.
4. Schaltungsanordnung nach einem der Ansprüche 1 bis 3, daduich gekennzeichnet, daß die
genannten Frühwarn- und Ausfallfühler (72, 74, wi 80) nur mit dem Netzteil (20,22) einer peripheren
Einheit (12) in Verbindung stehen.
5. Schaltungsanordnung nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet,
daß zur Aufzeichnung von Adressen M ausgefallener Moduln (70) ein Adressenzähler
(46), eine von der zentralen Verarbeitungseinheit (10) gesteuerte Auslöseeinrichtung (44, 48) für
den Adressenzähler und ein von der Verarbeitungseinheit abrufbares Register (68) zur Speicherung
der Ausfallanzeigen vorhanden sind.
6. Schaltungsanordnung nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet,
daß die Einrichtung (32) für Leistungsschwundanzeige mit einem Eingang zur manuellen
Rückstellung ausgerüstet ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US507650A US3928830A (en) | 1974-09-19 | 1974-09-19 | Diagnostic system for field replaceable units |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2539977A1 DE2539977A1 (de) | 1976-04-01 |
DE2539977B2 DE2539977B2 (de) | 1979-06-13 |
DE2539977C3 true DE2539977C3 (de) | 1980-02-28 |
Family
ID=24019556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2539977A Expired DE2539977C3 (de) | 1974-09-19 | 1975-09-09 | Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage |
Country Status (14)
Country | Link |
---|---|
US (1) | US3928830A (de) |
JP (1) | JPS5634895B2 (de) |
AT (1) | AT353514B (de) |
AU (1) | AU498769B2 (de) |
BR (1) | BR7506026A (de) |
CA (1) | CA1033844A (de) |
CH (1) | CH585435A5 (de) |
DD (1) | DD121206A5 (de) |
DE (1) | DE2539977C3 (de) |
FR (1) | FR2285659A1 (de) |
GB (1) | GB1509783A (de) |
IT (1) | IT1041934B (de) |
NL (1) | NL7510814A (de) |
SE (1) | SE422849B (de) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2335000A1 (fr) * | 1975-12-09 | 1977-07-08 | Stofa Mobila Intreprinderea | Procede et installation pour la poursuite, le controle et la synthese automatiques des parametres de production |
US4133477A (en) * | 1976-04-15 | 1979-01-09 | Xerox Corporation | Fault detection and system for electrostatographic machines |
DE2714481A1 (de) * | 1976-04-15 | 1978-01-12 | Xerox Corp | Xerographisches reproduziergeraet mit fehlerermittlungssystem |
GB1536046A (en) * | 1976-06-30 | 1978-12-20 | Ibm | Data processing system power control |
US4205374A (en) * | 1978-10-19 | 1980-05-27 | International Business Machines Corporation | Method and means for CPU recovery of non-logged data from a storage subsystem subject to selective resets |
US4255748A (en) * | 1979-02-12 | 1981-03-10 | Automation Systems, Inc. | Bus fault detector |
US4322854A (en) * | 1979-05-18 | 1982-03-30 | Allan B. Bundens | Data communications terminal |
US4393498A (en) * | 1981-01-22 | 1983-07-12 | The Boeing Company | Method and apparatus for testing systems that communicate over digital buses by transmitting and receiving signals in the form of standardized multi-bit binary encoded words |
JPS5935209A (ja) * | 1982-08-20 | 1984-02-25 | Koyo Denshi Kogyo Kk | シ−ケンスコントロ−ラ |
US5023779A (en) * | 1982-09-21 | 1991-06-11 | Xerox Corporation | Distributed processing environment fault isolation |
US4514846A (en) * | 1982-09-21 | 1985-04-30 | Xerox Corporation | Control fault detection for machine recovery and diagnostics prior to malfunction |
US4578773A (en) * | 1983-09-27 | 1986-03-25 | Four-Phase Systems, Inc. | Circuit board status detection system |
US4649514A (en) * | 1983-11-30 | 1987-03-10 | Tandy Corporation | Computer revision port |
US4630191A (en) * | 1984-04-13 | 1986-12-16 | New Holland, Inc. | Automatic baler with operator controlled diagnostics |
US4713810A (en) * | 1985-09-19 | 1987-12-15 | Gte Sprint Communications Corp. | Diagnostic technique for determining fault locations within a digital transmission system |
US4710924A (en) * | 1985-09-19 | 1987-12-01 | Gte Sprint Communications Corp. | Local and remote bit error rate monitoring for early warning of fault location of digital transmission system |
US5090014A (en) * | 1988-03-30 | 1992-02-18 | Digital Equipment Corporation | Identifying likely failure points in a digital data processing system |
CA1318030C (en) * | 1988-03-30 | 1993-05-18 | Herman Polich | Expert system for identifying failure points in a digital data processing system |
US5019980A (en) * | 1989-07-14 | 1991-05-28 | The Boeing Company | General purpose avionics display monitor |
US5161158A (en) * | 1989-10-16 | 1992-11-03 | The Boeing Company | Failure analysis system |
AU660661B2 (en) * | 1991-02-05 | 1995-07-06 | Storage Technology Corporation | Knowledge based machine initiated maintenance system |
WO1992014207A1 (en) * | 1991-02-05 | 1992-08-20 | Storage Technology Corporation | Hierarchical distributed knowledge based machine initiated maintenance system |
US5305437A (en) * | 1991-09-03 | 1994-04-19 | International Business Machines Corporation | Graphical system descriptor method and system |
US5400346A (en) * | 1992-03-16 | 1995-03-21 | Phoenix Microsystems, Inc. | Method for diagnosing conditions in a signal line |
US5561760A (en) * | 1994-09-22 | 1996-10-01 | International Business Machines Corporation | System for localizing field replaceable unit failures employing automated isolation procedures and weighted fault probability encoding |
US6205561B1 (en) * | 1997-12-11 | 2001-03-20 | Microsoft Corporation | Tracking and managing failure-susceptible operations in a computer system |
US6665822B1 (en) * | 2000-06-09 | 2003-12-16 | Cisco Technology, Inc. | Field availability monitoring |
US6919816B2 (en) * | 2001-06-07 | 2005-07-19 | Dell Products, L.P. | System and method for displaying computer system status information |
DE10244131B4 (de) * | 2002-09-23 | 2006-11-30 | Siemens Ag | Verfahren zur Unterstützung einer Identifizierung einer defekten Funktionseinheit in einer technischen Anlage |
US7313717B2 (en) * | 2003-04-17 | 2007-12-25 | Sun Microsystems, Inc. | Error management |
US7234085B2 (en) * | 2004-01-13 | 2007-06-19 | International Business Machines Corporation | Method, system, and product for hierarchical encoding of field replaceable unit service indicators |
EP1791346A1 (de) * | 2005-11-25 | 2007-05-30 | BRITISH TELECOMMUNICATIONS public limited company | Backupsystem für Video und Signalverarbeitungssystemen |
US8230261B2 (en) * | 2009-12-17 | 2012-07-24 | Hewlett-Packard Development Company, L.P. | Field replaceable unit acquittal policy |
US20110321052A1 (en) * | 2010-06-23 | 2011-12-29 | International Business Machines Corporation | Mutli-priority command processing among microcontrollers |
JP6592918B2 (ja) * | 2015-03-11 | 2019-10-23 | 株式会社サタケ | 穀物調製設備の制御装置 |
CN106055451B (zh) * | 2016-05-23 | 2019-02-15 | 努比亚技术有限公司 | 信息处理方法及电子设备 |
CN110488206B (zh) * | 2019-08-13 | 2022-07-05 | 科华恒盛股份有限公司 | 一种故障监控系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3027542A (en) * | 1958-07-14 | 1962-03-27 | Beckman Instruments Inc | Automatic marginal checking apparatus |
NL283162A (de) * | 1961-09-13 | |||
GB1107876A (en) * | 1965-04-06 | 1968-03-27 | Inst Kib An Ukr Ssr | Device for checking the operation of digital computers |
FR1523390A (fr) * | 1967-03-22 | 1968-05-03 | Constr Telephoniques | Perfectionnements aux circuits matriciels |
US3581286A (en) * | 1969-01-13 | 1971-05-25 | Ibm | Module switching apparatus with status sensing and dynamic sharing of modules |
US3641505A (en) * | 1969-06-25 | 1972-02-08 | Bell Telephone Labor Inc | Multiprocessor computer adapted for partitioning into a plurality of independently operating systems |
US3814922A (en) * | 1972-12-01 | 1974-06-04 | Honeywell Inf Systems | Availability and diagnostic apparatus for memory modules |
US3803560A (en) * | 1973-01-03 | 1974-04-09 | Honeywell Inf Systems | Technique for detecting memory failures and to provide for automatically for reconfiguration of the memory modules of a memory system |
US3838260A (en) * | 1973-01-22 | 1974-09-24 | Xerox Corp | Microprogrammable control memory diagnostic system |
-
1974
- 1974-09-19 US US507650A patent/US3928830A/en not_active Expired - Lifetime
-
1975
- 1975-07-04 GB GB28184/75A patent/GB1509783A/en not_active Expired
- 1975-07-22 AU AU83269/75A patent/AU498769B2/en not_active Expired
- 1975-08-07 FR FR7525145A patent/FR2285659A1/fr active Granted
- 1975-08-14 CA CA233,464A patent/CA1033844A/en not_active Expired
- 1975-08-27 JP JP10311475A patent/JPS5634895B2/ja not_active Expired
- 1975-08-27 IT IT26592/75A patent/IT1041934B/it active
- 1975-08-28 SE SE7509556A patent/SE422849B/xx not_active IP Right Cessation
- 1975-09-09 DE DE2539977A patent/DE2539977C3/de not_active Expired
- 1975-09-10 AT AT698675A patent/AT353514B/de not_active IP Right Cessation
- 1975-09-15 NL NL7510814A patent/NL7510814A/xx not_active Application Discontinuation
- 1975-09-17 CH CH1206875A patent/CH585435A5/xx not_active IP Right Cessation
- 1975-09-17 DD DD188396A patent/DD121206A5/xx unknown
- 1975-09-18 BR BR7506026*A patent/BR7506026A/pt unknown
Also Published As
Publication number | Publication date |
---|---|
CA1033844A (en) | 1978-06-27 |
BR7506026A (pt) | 1976-08-03 |
ATA698675A (de) | 1979-04-15 |
IT1041934B (it) | 1980-01-10 |
CH585435A5 (de) | 1977-02-28 |
DE2539977B2 (de) | 1979-06-13 |
NL7510814A (nl) | 1976-03-23 |
JPS5634895B2 (de) | 1981-08-13 |
SE7509556L (sv) | 1976-03-22 |
AU498769B2 (en) | 1979-03-22 |
JPS5150625A (de) | 1976-05-04 |
DD121206A5 (de) | 1976-07-12 |
DE2539977A1 (de) | 1976-04-01 |
AT353514B (de) | 1979-11-26 |
GB1509783A (en) | 1978-05-04 |
FR2285659A1 (fr) | 1976-04-16 |
FR2285659B1 (de) | 1978-03-17 |
AU8326975A (en) | 1977-01-27 |
US3928830A (en) | 1975-12-23 |
SE422849B (sv) | 1982-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2539977C3 (de) | Schaltungsanordnung zur Erkennung fehlerhafter Zustände peripherer Einheiten in einer Datenverarbeitungsanlage | |
EP0238841B1 (de) | Fehlergesicherte, hochverfügbare Multiprozessor-Zentralsteuereinheit eines Vermittlungssystemes und Verfahren zum Speicherkonfigurationsbetrieb dieser Zentralsteuereinheit | |
DE3222692A1 (de) | Elektrisches stromversorgungssystem | |
CH658137A5 (de) | Steuereinrichtung mit einem speicher und einer schnittstelle, insbesondere fuer werkzeugmaschinen. | |
EP0615211B1 (de) | Verfahren zum Speichern sicherheitsrelevanter Daten | |
EP0436818B1 (de) | Diagnosesystem für eine digitale Steuereinrichtung | |
DE60008872T2 (de) | Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem | |
EP0141161A2 (de) | Schaltungsanordnung zum Erkennen von statischen und dynamischen Fehlern in Schaltungsbaugruppen | |
DE2364314C2 (de) | Zeitmultiplexübertragungssystem für mehrere Kanäle | |
DE2823457C2 (de) | Schaltungsanordnung zur Fehlerüberwachung eines Speichers einer digitalen Rechenanlage | |
DE2014729C3 (de) | Datenverarbeitungssystem mit Einrichtungen zur Fehlerermittlung und zur Systemumkonfiguration unter Ausschluß fehlerhafter Systemeinheiten | |
DE10347196B4 (de) | Vorrichtung zur Überprüfung einer Schnittstelle | |
EP0864875B1 (de) | Verfahren zur Überprüfung einer Sicherheitsschaltung | |
DE2705190C3 (de) | Schaltungsanordnung zur Überwachung von Signalleitungen in Fernmelde-, insbesondere Fernsprechanlagen | |
DE2737350B1 (de) | Einrichtung zur Fehlerbehandlung in einer mikroprogrammgesteuerten Datenverarbeitungsanlage | |
DE2315285C3 (de) | Anordnung zur Steuerung der Abtastung in Vermittlungssystemen | |
DE2942133C2 (de) | Prüfeinrichtung für Kleinrechnersysteme | |
DE2616186C3 (de) | Verfahren zur Prüfung des Speicherteiles einer Steuereinrichtung für eine Vermittlungsanlage, insbesondere Fernsprechvermittlungsanlage | |
DE2315750C2 (de) | Schaltungsanordnung für durch Rechner zentralgesteuerte Fernmeldevermittlungsanlagen, insbesondere Fernsprechvermittlungsanlagen | |
DE2460289C3 (de) | Datenverarbeitendes System, insbesondere Fernsprechvermittlungssystem | |
DE10243145B4 (de) | Verfahren zur Überwachung eines Hardwaretreiberausgangs | |
DE2842317C2 (de) | Schaltungsanordnung für Fernmeldeanlagen, insbesondere Fernsprechvermittlungsanlagen, mit zentralen Steuereinrichtungen und peripheren Schalteinrichtungen | |
DE102005001390A1 (de) | Verfahren zur Identifikation fehlerhafter Busteilnehmer | |
EP1751634B1 (de) | Verfahren zur überwachung eines verbundes von steuergeräten | |
DE1118273B (de) | Verfahren zur automatischen Meldung des Ortes von Fehlern, die in nachrichtenverarbeitenden Systemen, insbesondere in Fernsprechvermittlungssystemen, auftreten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |