DE112020002528B4

DE112020002528B4 - Algorithmen für die verwendung von lastinformationen von benachbarten knoten beim adaptiven routing

Info

Publication number: DE112020002528B4
Application number: DE112020002528.4T
Authority: DE
Inventors: Duncan Roweth; Edwin L. Froese; Joseph G. Kopnick; Andrew S. Kopser; Robert Alverson
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2019-05-23
Filing date: 2020-03-23
Publication date: 2024-10-17
Anticipated expiration: 2040-03-24
Also published as: US20240171506A1; US20220210081A1; US11799764B2; WO2020236258A1; US20250030627A1; DE112020002496T5; US12058035B2; WO2020236279A1; US12360924B2; US12335137B2; US11882025B2; US20220210054A1; US11848859B2; WO2020236276A1; WO2020236286A1; WO2020236295A1; US20230403229A1; WO2020236290A1; US20240259302A1; WO2020236292A1

Abstract

Verfahren zum Weiterleiten von Daten zwischen einer Mehrzahl von Switches (102, 104, 106, 108, 110, 202, 602, 604, 606, 702, 704, 706, 708) mit einer Mehrzahl von Verbindungen, die zwischen der Mehrzahl von Switches angeschlossen sind, wobei das Verfahren umfasst:an einem Switch, Empfangen einer Mehrzahl von Lastsignalen von einer Mehrzahl von benachbarten Switches, wobei jedes der Mehrzahl von Lastsignalen einen Satz von Werten umfasst, die eine Last an jedem der Mehrzahl von benachbarten Switches anzeigen, die das Lastsignal bereitstellen, wobei jeder Wert innerhalb des Satzes von Werten eine Anzeige für jede Verbindung der Mehrzahl von daran angeschlossenen Verbindungen bereitstellt, ob die Verbindung besetzt oder ruhig ist,wobei die Anzeige, ob die Verbindung besetzt ist, eine Fern-Switch--Besetzte-Ports-Maske umfasst, die Ports der benachbarten Switches charakterisiert, wobei eine oder mehrere der Fern-Switch-Besetzte-Port-Masken transformiert werden, um Einträge einer Fern-Switch-Besetzte-Globale-Ports-Tabelle zu bilden, und eine oder mehrere der Fern-Switch-Besetzte-Ports-Masken transformiert werden, um Einträge einer Fern-Switch-Besetzte-Lokale-Ports-Tabelle zu bilden, wobei die Fern-Switch-Besetzte-Ports-Masken von den benachbarten Switches empfangen werden; undbasierend auf der Mehrzahl von Lastsignalen, Auswahl einer Ausgangsverbindung zum Routen eines empfangenen Pakets und Routen des empfangenen Pakets über die ausgewählte Ausgangsverbindung.

Description

Beschreibung des Standes der Technik
Da netzwerkfähige Geräte und Anwendungen immer allgegenwärtiger werden, erfordern verschiedene Arten von Datenverkehr sowie die ständig steigende Netzwerklast immer mehr Leistung von der zugrunde liegenden Netzwerkarchitektur. So können beispielsweise Anwendungen wie High-Performance Computing (HPC), Medien-Streaming und Internet of Things (IOT) verschiedene Arten von Datenverkehr mit unterschiedlichen Merkmalen erzeugen. Infolgedessen stehen Netzwerkarchitekten zusätzlich zu den herkömmlichen Netzwerkleistungskennzahlen wie Bandbreite und Verzögerung weiterhin vor Herausforderungen wie Skalierbarkeit, Vielseitigkeit und Effizienz.
US 2016/0080502 A1 betrifft ein Verfahren umfassend das Bestimmen einer Netzwerkanforderung für mindestens eine Anwendung, das dynamische Bestimmen einer für die Datenübertragung geeigneten Verbindung in Übereinstimmung mit einer Richtlinie, die zumindest teilweise auf einem aktuellen Netzwerkzustand basiert, um die Netzwerkanforderung zu erfüllen, und das Routen eines oder mehrerer Anwendungsnetzwerkdatenflüsse, die mit der mindestens eine Anwendung assoziiert sind, über die Verbindung.
US 2012/0287821 A1 betrifft ein Verfahren und ein System, das eine dynamische Änderung der Routing-Informationen einer Netzwerkverbindung ermöglicht und dabei Blockierungen vermeidet und die Paketreihenfolge beibehält.
Kurzbeschreibung der Zeichnungen
Die vorliegende Offenbarung wird in Übereinstimmung mit einer oder mehreren verschiedenen Ausführungsformen unter Bezugnahme auf die folgenden Figuren im Detail beschrieben. Die Figuren dienen lediglich der Veranschaulichung und stellen lediglich typische oder beispielhafte Ausführungsformen dar.

zeigt ein Beispielnetzwerk, in dem verschiedene Ausführungsformen implementiert werden können.
zeigt ein Beispiel für ein Switch-System, das Flusskanäle in Übereinstimmung mit verschiedenen Ausführungsformen ermöglicht.
zeigt Crossbars, die in einem Beispiel für einen Crossbar-Switch gemäß verschiedenen Ausführungsformen implementiert sind.
zeigt eine Beispiel-Kachelmatrix, die den Ports des Beispiel-Edge-Switching-Systems von in Übereinstimmung mit verschiedenen Ausführungsformen entspricht.
zeigt ein Beispiel für eine Kachel, die die Kachelmatrix von in Übereinstimmung mit verschiedenen Ausführungsformen bildet.
zeigt eine beispielhafte Implementierung einer Alterswarteschlange in Übereinstimmung mit verschiedenen Ausführungsformen.
und sind Blockdiagramme einer beispielhaften FRF-Komponente, die an jedem Port des beispielhaften Edge-Switching-Systems von implementiert ist.
zeigt ein Beispiel für die Routenauswahl gemäß verschiedenen Ausführungsformen.
zeigt ein Beispiel für die Aktualisierung lokaler und globaler Lastwerte und deren Verwendung in Übereinstimmung mit verschiedenen Ausführungsformen.
zeigt ein Beispiel für ein auf der durchschnittlichen Last basierendes Routing.
zeigt ein Beispiel für ein auf der Last des benachbarten Switches basierendes adaptives Routing in Übereinstimmung mit verschiedenen Ausführungsformen.
zeigt ein Beispiel einer Rechnerkomponente, die in der Lage ist, Anweisungen für ein lastbasiertes adaptives Routing gemäß einer Ausführungsform auszuführen.
ist ein Beispiel für eine Rechnerkomponente, in der verschiedene hier beschriebene Ausführungsformen implementiert werden können.
Die Abbildungen sind nicht erschöpfend und beschränken die vorliegende Offenbarung nicht auf die genaue Form, die offenbart wird.

Detaillierte Beschreibung
Die vorliegende Offenbarung beschreibt Systeme und Verfahren, die für Exascale-Computing geeignet sind, z. B. für die Durchführung datenintensiver Aufgaben wie Simulationen, Datenanalyse und künstliche Intelligenz bei Exascale-Geschwindigkeiten. Insbesondere wird ein HPC-Netzwerk oder eine HPC-Verbindungsstruktur bereitgestellt, die Ethernet-kompatibel sein kann, mit Datenspeichern von Drittanbietern verbunden werden kann und mit einer Switch-Komponente aufgebaut werden kann, die eine extrem hohe Bandbreite aufweist, z. B. in der Größenordnung von 12,8 TB/s/dir pro Switch mit z. B. 64 200-Gbit/s-Ports, die eine große Netzwerkbildung mit sehr geringem Durchmesser (z. B. nur drei Netzwerksprünge) unterstützen. Darüber hinaus können niedrige Latenzzeiten durch neuartige Überlastungskontrollmechanismen, adaptives Routing und die Verwendung von Verkehrsklassen erreicht werden, die eine flexible Gestaltung von Bandbreite, Priorität und Routing-Strategie ermöglichen.
Die Erfindung wird durch die unabhängigen Ansprüche 1, 7 und 12 definiert. Beispielhafte Ausführungsformen sind ferner durch die abhängigen Ansprüche definiert.
Bei der Weitergabe von Informationen von Switch zu Switch ist es notwendig, sofortige Entscheidungen über den nächsten Sprung auf dem Pfad zu treffen. Die Entscheidungen werden anhand von Informationen getroffen, die aus dem lokalen Status und von benachbarten Switches übermittelt werden. Die Verwendung von Informationen aus vielen verschiedenen Quellen ermöglicht genauere/effizientere Entscheidungen. Dazu gehören auch Informationen von Nachbarn.
Frühere Systeme übermittelten Informationen über die durchschnittliche Last von Switch zu Switch. Allerdings sind detailliertere Informationen von verwandten oder benachbarten Switches hilfreicher. Dementsprechend kann in einigen Ausführungsformen ein Satz von Werten Informationen enthalten, die den Status von Ausgangsports verwandter/benachbarter Switches angeben. Durch die Weitergabe dieses Wertesatzes können wesentlich bessere Routing-Entscheidungen getroffen werden. In einem Beispiel wird ein Flag von benachbarten Switches zurückgegeben, wobei das Flag ein Bit für jeden Ausgangsport enthält. Bei einem Switch mit 64 Ausgängen würde beispielsweise ein 64-Bit-Flag übertragen. Dies ist viel genauer als die einfache Weitergabe eines globalen Durchschnittswerts für benachbarte Ports.
zeigt ein Beispiel für ein Netzwerk 100 mit einer Mehrzahl von Switches, das auch als „Switch-Fabric“ bezeichnet werden kann. „Wie in dargestellt, kann das Netzwerk 100 Switches 102, 104, 106, 108 und 110 umfassen. Jeder Switch kann eine eindeutige Adresse oder ID innerhalb der Switch-Fabric 100 haben. Verschiedene Arten von Geräten und Netzwerken können mit einer Switch-Fabric verbunden werden. Beispielsweise kann ein Speicherarray 112 über den Switch 110 mit der Switch-Fabric 100 verbunden werden; ein InfiniBand- (IB-) basiertes HPC-Netzwerk 114 kann über den Switch 108 mit der Switch-Fabric 100 verbunden werden; eine Anzahl von Endhosts, wie z. B. Host 116, kann über den Switch 104 mit der Switch-Fabric 100 verbunden werden; und ein IP/Ethernet-Netzwerk 118 kann über den Switch 102 mit der Switch-Fabric 100 verbunden werden. Beispielsweise kann ein Switch wie Switch 102 802.3-Frames (einschließlich der eingekapselten IP-Nutzdaten) über Ethernet-Geräte wie Netzwerkschnittstellenkarten (NICs), Switches, Router oder Gateways empfangen. IPv4- oder IPv6-Pakete, speziell für das Netzwerk 100 formatierte Frames usw. können ebenfalls empfangen und durch die Switch-Fabric 100 zu einem anderen Switch, z. B. Switch 110, transportiert werden. Auf diese Weise ist das Netzwerk 100 in der Lage, mehrere Arten von Datenverkehr gleichzeitig zu verarbeiten. Im Allgemeinen kann ein Switch über Edge-Ports und Fabric-Ports verfügen. Ein Edge-Port kann mit einem Gerät verbunden werden, das sich außerhalb der Fabric befindet. Ein Fabric-Port kann über eine Fabric-Verbindung mit einem anderen Switch innerhalb der Fabric verbunden werden.
Normalerweise kann der Verkehr über einen Eingangsport eines Edge-Switches in die Switch-Fabric 100 eingespeist werden und die Switch-Fabric 100 über einen Ausgangsport eines anderen (oder desselben) Edge-Switches verlassen. Ein Ingress-Edge-Switch kann injizierte Datenpakete in Flüsse gruppieren, die durch Fluss-IDs identifiziert werden können. Das Konzept eines Datenflusses ist nicht auf ein bestimmtes Protokoll oder eine bestimmte Schicht (wie Schicht-2 oder Schicht-3 im OSI-Referenzmodell) beschränkt. Ein Datenfluss kann z. B. dem Datenverkehr mit einer bestimmten Quell-Ethernet-Adresse, dem Datenverkehr zwischen einer Quell-IP-Adresse und einer Ziel-IP-Adresse, dem Datenverkehr, der einem TCP- oder UDP-Port/IP-5-Tupel entspricht (Quell- und Ziel-IP-Adresse, Quell- und Ziel-TCP- oder-UDP-Portnummer und IP-Protokollnummer), oder dem Datenverkehr, der von einem auf einem Endhost laufenden Prozess oder Thread erzeugt wird, zugeordnet werden. Mit anderen Worten: Ein Fluss kann so konfiguriert werden, dass er Daten zwischen beliebigen physischen oder logischen Einheiten zuordnet. Die Konfiguration dieser Zuordnung kann per Fernzugriff oder lokal am Ingress-Edge-Switch vorgenommen werden.
Beim Empfang von injizierten Datenpaketen kann der Ingress-Edge-Switch dem Datenstrom eine Fluss-ID zuweisen. Diese Fluss-ID kann in einem speziellen Header enthalten sein, den der Ingress-Edge-Switch zur Verkapselung der injizierten Pakete verwenden kann. Darüber hinaus kann der Ingress-Edge-Switch auch die ursprünglichen Header-Felder eines injizierten Pakets untersuchen, um die entsprechende Adresse des Egress-Edge-Switch zu ermitteln, und diese Adresse als Zieladresse in den Einkapselungs-Header aufnehmen. Es ist zu beachten, dass die Fluss-ID ein lokal signifikanter Wert sein kann, der für eine Verbindung spezifisch ist, und dass dieser Wert nur für einen bestimmten Eingangsport auf einem Switch eindeutig sein kann. Wenn das Paket an den Next-Hop-Switch weitergeleitet wird, tritt das Paket in eine andere Verbindung ein, und die Fluss-ID kann entsprechend aktualisiert werden. Da die Pakete eines Flusses mehrere Verbindungen und Switches durchlaufen, können die diesem Fluss entsprechenden Fluss-IDs eine eindeutige Kette bilden. Das heißt, dass an jedem Switch, bevor ein Paket den Switch verlässt, die Fluss-ID des Pakets auf eine Fluss-ID aktualisiert werden kann, die von der ausgehenden Verbindung verwendet wird. Diese Einszu-Eins-Zuordnung zwischen den Fluss-IDs kann am Ingress-Edge-Switch beginnen und am Egress-Edge-Switch enden. Da die Fluss-IDs nur innerhalb einer eingehenden Verbindung eindeutig sein müssen, kann ein Switch eine große Anzahl von Flüssen aufnehmen. Wenn eine Fluss-ID beispielsweise 11 Bits lang ist, kann ein Eingangsport bis zu 2048 Flüsse unterstützen. Darüber hinaus kann das Match-Muster (ein oder mehrere Header-Felder eines Pakets), das zur Zuordnung zu einem Datenfluss verwendet wird, eine größere Anzahl von Bits enthalten. Ein 32-Bit langes Abgleichmuster, das mehrere Felder in einem Paket-Header enthalten kann, kann beispielsweise 2^32 verschiedene Header-Feld-Muster abbilden. Wenn eine Fabric über N Ingress-Edge-Ports verfügt, kann eine Gesamtzahl von N*2^32 identifizierbaren Flüssen unterstützt werden.
Ein Switch kann jedem Datenfluss eine eigene, dedizierte Eingangswarteschlange zuweisen. Diese Konfiguration ermöglicht es dem Switch, den Grad der Überlastung einzelner Datenströme zu überwachen und zu verwalten und eine Blockierung der Warteschlange zu verhindern, die auftreten könnte, wenn ein gemeinsamer Puffer für mehrere Datenströme verwendet wird. Wenn ein Paket an den Ziel-Egress-Switch geliefert wird, kann der Egress-Switch eine Bestätigung (ACK) in Upstream-Richtung über denselben Datenpfad an den Ingress-Edge-Switch zurücksenden. Da dieses ACK-Paket denselben Datenpfad durchläuft, können die Switches entlang des Pfades die Zustandsinformationen erhalten, die mit der Zustellung des entsprechenden Datenflusses verbunden sind, indem sie die Menge der ausstehenden, unbestätigten Daten überwachen. Diese Zustandsinformationen können dann verwendet werden, um ein flussspezifisches Verkehrsmanagement durchzuführen, um den Zustand des gesamten Netzwerks und eine faire Behandlung der Flüsse zu gewährleisten. Wie weiter unten näher erläutert, kann die Switch-Fabric durch diese Warteschlangenbildung pro Datenfluss in Kombination mit flussspezifischen Zustellungsbestätigungen eine effektive, schnelle und genaue Überlastungskontrolle durchführen. Im Gegenzug kann die Switch-Fabric den Datenverkehr mit einer deutlich verbesserten Netzwerkauslastung bereitstellen, ohne dass es zu Überlastungen kommt.
Flüsse können dynamisch oder „on the fly“ je nach Bedarf eingerichtet und freigegeben werden. Insbesondere kann ein Fluss von einem Edge-Switch eingerichtet werden (z. B. wird die Zuordnung von Fluss-ID zu Paket-Header hergestellt), wenn ein Datenpaket am Switch ankommt und diesem Paket noch keine Fluss-ID zugewiesen wurde. Während dieses Paket das Netzwerk durchläuft, können Fluss-IDs an jedem Switch, den das Paket durchläuft, zugewiesen werden, und es kann eine Kette von Fluss-IDs vom Eingang bis zum Ausgang gebildet werden. Nachfolgende Pakete, die zum selben Fluss gehören, können auf dem Datenpfad dieselben Fluss-IDs verwenden. Wenn Pakete an den Ziel-Egress-Switch zugestellt und ACK-Pakete von den Switches entlang des Datenpfads empfangen werden, kann jeder Switch seine Statusinformationen in Bezug auf die Menge der ausstehenden, nicht bestätigten Daten für diesen Fluss aktualisieren. Wenn die Eingangswarteschlange eines Switches für diesen Datenfluss leer ist und es keine weiteren unbestätigten Daten gibt, kann der Switch die Fluss-ID freigeben (d. h. diesen Flusskanal freigeben) und die Fluss-ID für andere Flüsse wiederverwenden. Durch diesen datengesteuerten dynamischen Mechanismus für die Einrichtung und den Abbau von Datenflüssen wird eine zentrale Verwaltung der Datenflüsse überflüssig, und das Netzwerk kann schnell auf Änderungen der Verkehrsmuster reagieren.
Es ist zu beachten, dass sich die hier beschriebene Netzwerkarchitektur von Softwaredefinierten Netzwerken (SDN) unterscheidet, die in der Regel das OpenFlow-Protokoll verwenden. In SDN werden Switches von einem zentralen Netzwerk-Controller konfiguriert, und Pakete werden auf der Grundlage eines oder mehrerer Felder in den Headern der Schicht 2 (Datenverbindungsschicht, z. B. Ethernet), Schicht 3 (Netzwerkschicht, z. B. IP) oder Schicht 4 (Transportschicht, z. B. TCP oder UDP) weitergeleitet. Im SDN wird eine solche Header-Feld-Suche an jedem Switch im Netzwerk durchgeführt, und es gibt keine schnelle, auf der Fluss-ID basierende Weiterleitung, wie sie in den hier beschriebenen Netzwerken erfolgt. Da die OpenFlow-Header-Feld-Suche mit ternärem inhaltsadressierbarem Speicher (TCAM) durchgeführt wird, können die Kosten für solche Suchvorgänge hoch sein. Da die Konfiguration der Header-Feld-Zuordnung von der zentralen Steuereinheit vorgenommen wird, ist der Auf- und Abbau jeder Zuordnungsbeziehung relativ langsam und kann eine beträchtliche Menge an Steuerverkehr erfordern. Infolgedessen kann die Reaktion eines SDN-Netzwerks auf verschiedene Netzwerksituationen, wie z. B. eine Überlastung, langsam sein. Im Gegensatz dazu können in dem hier beschriebenen Netzwerk die Flows dynamisch auf der Grundlage der Verkehrsnachfrage auf- und abgebaut werden, und die Pakete können mit einer Fluss-ID fester Länge weitergeleitet werden. Mit anderen Worten: Flusskanäle können datengesteuert und dezentral verwaltet (d. h. eingerichtet, überwacht und abgebaut) werden, ohne dass ein zentraler Controller eingreifen muss. Darüber hinaus kann die auf der Fluss-ID basierende Weiterleitung die Menge des verwendeten TCAM-Speicherplatzes reduzieren, so dass eine viel größere Anzahl von Flüssen untergebracht werden kann.
Nehmen wir an, dass die Speichermatrix 112 Daten über TCP/IP an den Host 116 senden soll (siehe das Beispiel in ). Während des Betriebs kann die Speichermatrix 112 das erste Paket mit der IP-Adresse des Hosts 116 als Zieladresse und einem vorbestimmten TCP-Port, der im TCP-Header angegeben ist, senden. Wenn dieses Paket den Switch 110 erreicht, kann der Paketprozessor am Eingangsport des Switches 110 ein TCP/IP-5-Tupel dieses Pakets identifizieren. Der Paketprozessor des Switches 110 kann auch feststellen, dass dieses 5-Tupel derzeit keiner Fluss-ID zugeordnet ist, und kann diesem 5-Tupel eine neue Fluss-ID zuweisen. Darüber hinaus kann der Switch 110 den Ausgangs-Switch, d. h. den Switch 104, für dieses Paket anhand der IP-Adresse des Ziels (d. h. des Hosts 116) bestimmen (vorausgesetzt, der Switch 110 weiß, dass der Host 116 mit dem Switch 104 verbunden ist). Anschließend kann der Switch 110 das empfangene Paket mit einem Fabric-Header einkapseln, der die neu zugewiesene Fluss-ID und die Fabric-Adresse des Switches 104 angibt. Switch 110 kann dann die Weiterleitung des eingekapselten Pakets an Switch 104 auf der Grundlage einer Fabric-Weiterleitungstabelle planen, die von allen Switches in Fabric 100 unter Verwendung eines Routing-Algorithmus wie Link State oder Distance Vector berechnet werden kann.
Es ist zu beachten, dass die oben beschriebenen Vorgänge im Wesentlichen mit Leitungsgeschwindigkeit und mit geringer Pufferung und Verzögerung durchgeführt werden können, wenn das erste Paket empfangen wird. Nachdem das erste Paket verarbeitet und für die Übertragung eingeplant wurde, können nachfolgende Pakete desselben Datenflusses vom Switch 110 noch schneller verarbeitet werden, da dieselbe Datenfluss-ID verwendet wird. Darüber hinaus können die Flusskanäle so gestaltet werden, dass die Zuweisung, der Abgleich und die Freigabe von Flusskanälen im Wesentlichen die gleichen Kosten verursachen. So können beispielsweise eine bedingte Zuweisung eines Flusskanals auf der Grundlage einer Nachschlageübereinstimmung und eine separate, unabhängige Freigabe eines anderen Flusskanals fast in jedem Taktzyklus gleichzeitig durchgeführt werden. Das bedeutet, dass die Erzeugung und Kontrolle der Flusskanäle fast keinen zusätzlichen Overhead zur regulären Weiterleitung von Paketen bedeutet. Der Überlastungskontrollmechanismus hingegen kann die Leistung einiger Anwendungen um mehr als drei Größenordnungen verbessern.
An jedem Switch entlang des Datenpfads (einschließlich der Switches 110, 106 und 104) kann ein dedizierter Eingangspuffer für diesen Datenfluss bereitgestellt werden, und die Menge der übertragenen, aber nicht quittierten Daten kann verfolgt werden. Wenn das erste Paket den Switch 104 erreicht, kann der Switch 104 feststellen, dass die Fabric-Zieladresse im Fabric-Header des Pakets mit seiner eigenen Adresse übereinstimmt. Daraufhin kann der Switch 104 das Paket aus dem Fabric-Header entkapseln und das entkapselte Paket an den Host 116 weiterleiten. Außerdem kann der Switch 104 ein ACK-Paket erzeugen und dieses ACK-Paket an den Switch 110 zurücksenden. Da dieses ACK-Paket denselben Datenpfad durchläuft, können die Switches 106 und 110 jeweils ihre eigenen Statusinformationen für die unbestätigten Daten für diesen Fluss aktualisieren.
Im Allgemeinen kann eine Überlastung des Netzwerks dazu führen, dass sich die Netzwerkpuffer füllen. Wenn ein Netzwerkpuffer voll ist, sollte der Verkehr, der den Puffer passieren will, idealerweise verlangsamt oder gestoppt werden. Andernfalls könnte der Puffer überlaufen, und die Pakete könnten verworfen werden. In herkömmlichen Netzwerken erfolgt die Überlastungskontrolle in der Regel von Ende zu Ende am Rand. Es wird davon ausgegangen, dass der Kern des Netzwerks nur als „dumme Röhre“ fungiert, deren Hauptzweck die Weiterleitung des Datenverkehrs ist. Ein solches Netzwerkdesign leidet oft unter einer langsamen Reaktion auf Überlastungen, da Überlastungsinformationen oft nicht schnell an die Edge-Geräte gesendet werden können und die daraus resultierenden Maßnahmen der Edge-Geräte die Überlastung nicht immer wirksam beseitigen können. Diese langsame Reaktion schränkt wiederum die Auslastung des Netzwerks ein, denn um das Netzwerk überlastungsfrei zu halten, muss der Netzwerkbetreiber häufig die Gesamtmenge des in das Netzwerk eingespeisten Verkehrs begrenzen. Außerdem ist eine Endezu-Ende-Überlastungskontrolle in der Regel nur dann wirksam, wenn das Netzwerk nicht bereits überlastet ist. Sobald das Netzwerk stark überlastet ist, würde eine Ende-zu-Ende-Überlastungssteuerung nicht mehr funktionieren, da die Überlastungsmeldungen selbst überlastet sein können (es sei denn, für das Senden von Überlastungssteuerungsmeldungen wird ein separates Netzwerk der Steuerungsebene verwendet, das sich vom Netzwerk der Datenebene unterscheidet).
Im Gegensatz dazu können die Flusskanäle verhindern, dass eine solche Überlastung innerhalb der Switch-Fabric entsteht. Der Flusskanal-Mechanismus kann erkennen, wenn ein Fluss einen gewissen Grad an Überlastung erfährt, und als Reaktion darauf neue Pakete desselben Flusses verlangsamen oder daran hindern, in die Fabric zu gelangen. Im Gegenzug können diese neuen Pakete in einer Flusskanal-Warteschlange am Edge-Port zwischengespeichert werden und werden erst dann in die Fabric gelassen, wenn Pakete für denselben Flow die Fabric am Edge-Zielport verlassen. Durch diesen Prozess kann der Gesamtpufferbedarf dieses Flusses innerhalb der Fabric auf eine Menge begrenzt werden, die nicht dazu führt, dass die Fabric-Puffer zu voll werden.
Mit Flusskanälen verfügen die Switches über einigermaßen genaue Statusinformationen über die Menge der ausstehenden Daten im Transit innerhalb der Fabric. Diese Zustandsinformationen können für alle Flüsse an einem Ingress-Edge-Port aggregiert werden. Dies bedeutet, dass die Gesamtmenge der von einem Ingress-Edge-Port eingespeisten Daten bekannt ist. Folglich kann der Flusskanal-Mechanismus eine Grenze für die Gesamtdatenmenge in der Fabric festlegen. Wenn alle Edge-Ports diese Begrenzung anwenden, kann die Gesamtmenge der Paketdaten in der gesamten Fabric gut kontrolliert werden, was wiederum verhindern kann, dass die gesamte Fabric gesättigt wird. Die Flusskanäle können auch den Fortschritt eines einzelnen überlasteten Flusses innerhalb der Fabric verlangsamen, ohne andere Flüsse zu verlangsamen. Mit dieser Funktion können Pakete von einem Überlastungs-Hotspot ferngehalten werden, während gleichzeitig verhindert wird, dass die Puffer voll werden, und freier Pufferplatz für nicht zusammenhängenden Verkehr gewährleistet wird.
zeigt einen Beispiel-Switch 202 (bei dem es sich um eine Ausführungsform eines oder mehrerer der Switches 102, 104, 106, 108 und 110 handeln kann), der zur Erstellung einer Switch-Fabric, z. B. der Switch-Fabric 100 von , verwendet werden kann. In diesem Beispiel kann ein Switch 202 eine Reihe von Kommunikationsports, wie z. B. Port 220, umfassen. Jeder Port kann einen Sender und einen Empfänger enthalten. Der Switch 202 kann auch einen Prozessor 204, eine Speichervorrichtung 206 und einen Logikblock 208 für die Flusskanalumschaltung enthalten. Das Flusskanal-Schaltodul 208 kann mit allen Kommunikationsports gekoppelt werden und kann außerdem einen Crossbar-Switch 210, einen EFCT-Logikblock 212, einen IFCT-Logikblock 214 und einen OFCT-Logikblock 216 umfassen.
Der Crossbar-Switch 210 umfasst Crossbars, die so konfiguriert werden können, dass sie Datenpakete und Steuerpakete (wie ACK-Pakete) zwischen den Kommunikationsports weiterleiten. Der EFCT-Logikblock 212 kann von einer Edge-Verbindung empfangene Pakete verarbeiten und die empfangenen Pakete auf der Grundlage eines oder mehrerer Header-Felder in den Paketen den jeweiligen Flüssen zuordnen. Darüber hinaus kann der EFCT-Logikblock 212 FGFC-Ethernet-Frames zusammenstellen, die an einen Endhost übermittelt werden können, um die von einzelnen Prozessen oder Threads eingespeiste Datenmenge zu steuern. Der IFCT-Logikblock 214 kann den IFCT enthalten und verschiedene Flusssteuerungsmethoden als Reaktion auf Steuerpakete durchführen, wie z. B. ACKs zur Endpunkt-Überlastungs-Benachrichtigung und auf Fabric-Verbindungs-Credits basierende Flusssteuerungs-ACKs. Der OFCT-Logikblock 216 kann eine Speichereinheit enthalten, die die OFCT speichert und mit dem IFCT-Logikblock eines anderen Switches kommuniziert, um die Fluss-ID eines Pakets zu aktualisieren, wenn das Paket an einen Next-Hop-Switch weitergeleitet wird.
In einer Ausführungsform ist der Switch 202 ein anwendungsspezifischer integrierter Schaltkreis (ASIC), der 64 Netzwerkports bereitstellen kann, die entweder mit 100 Gbit/s oder 200 Gbit/s für einen Gesamtdurchsatz von 12,8 Tbps arbeiten können. Jeder Netzwerk-Edge-Port kann IEEE 802.3-Ethernet und auf Optimized-IP basierende Protokolle sowie Portals unterstützen, ein erweitertes Frame-Format, das höhere Raten kleiner Nachrichten unterstützt. Ethernet-Frames können auf der Grundlage ihrer L2-Adresse überbrückt oder auf der Grundlage ihrer L3-Adresse (1Pv4//1Pv6) weitergeleitet werden. Optimized-IP-Frames können nur einen L3 (IPv4/IPv6)-Header haben und werden geroutet. Spezialisierte NIC-Unterstützung kann für das erweiterte Portals-Frame-Format verwendet werden und kann direkt auf das Fabric-Format des Netzwerks 100 abgebildet werden, z. B. ein Fabric-Format, das bestimmte Steuer- und Statusfelder zur Unterstützung einer Multi-Chip-Fabric bereitstellt, wenn Switches/Switch-Chips, wie Switches 102, 104, 106, 108 und 110, verbunden sind und miteinander kommunizieren. Wie bereits angedeutet, kann ein auf Flusskanälen basierender Überlastungskontrollmechanismus von solchen Switches verwendet werden und auch hohe Übertragungsraten für kleine Pakete (z. B. mehr als 1,2 Milliarden Pakete pro Sekunde pro Port) erreichen, um den Anforderungen von HPC-Anwendungen gerecht zu werden.
Der Switch 202 kann systemweite Quality-of-Service- (QoS-) Klassen bereitstellen und steuern, wie die Netzwerkbandbreite verschiedenen Verkehrsklassen und verschiedenen Anwendungsklassen zugewiesen wird, wobei eine einzelne privilegierte Anwendung auf mehr als eine Verkehrsklasse zugreifen kann. Bei Konflikten um die Netzwerkbandbreite wählen die Arbitratoren die weiterzuleitenden Pakete auf der Grundlage ihrer Verkehrsklasse und der für diese Klasse verfügbaren Credits aus. Netzwerk 100 kann minimale und maximale Bandbreiten für jede Verkehrsklasse unterstützen. Wenn eine Klasse ihre Mindestbandbreite nicht ausschöpft, können andere Klassen die ungenutzte Bandbreite nutzen, aber keine Klasse kann mehr als die ihr zugewiesene Höchstbandbreite erhalten. Die Möglichkeit, die Bandbreite zu verwalten, bietet die Möglichkeit, Netzwerkressourcen sowie CPUs und Speicherbandbreite einer bestimmten Anwendung zuzuweisen.
Zusätzlich zur Unterstützung von QoS-Klassen führt der Switch 202 eine auf dem Flusskanal basierende Überlastungskontrolle durch und kann die Anzahl der Netzwerk-Sprünge, z. B. in einem Netzwerk mit einer Dragonfly-Topologie, von fünf auf drei Netzwerk-Sprünge reduzieren. Das Design des Switches 202, das weiter unten ausführlicher beschrieben wird, kann die Netzwerkkosten und den Stromverbrauch reduzieren und die Verwendung innovativer adaptiver Routing-Algorithmen erleichtern, die die Anwendungsleistung verbessern. Eine durch eine Mehrzahl von Switches, wie z. B. eine Mehrzahl von Switches 202, geschaffene Fabric kann auch beim Aufbau von Fat-Tree-Netzwerken verwendet werden, z. B. beim Aufbau eines Speichersubsystems zur Integration mit Netzwerken und Software von Drittanbietern. Darüber hinaus ermöglicht die Verwendung von Switch 202 ein feinkörniges adaptives Routing unter Beibehaltung einer geordneten Paketzustellung. In einigen Ausführungsformen kann der Switch 202 so konfiguriert werden, dass er den Header eines Pakets von einem Eingangsport an einen Ausgangsport sendet, bevor die vollständige Datennutzlast eintrifft, so dass die Lastmetrik des Ausgangsports künftige Lasten widerspiegeln kann, wodurch die von Switch 202 getroffenen adaptiven Routing-Entscheidungen verbessert werden.
Der Crossbar-Switch 210 kann aus separaten, verteilten Crossbars bestehen, die Daten/Datenelemente zwischen Eingangs- und Ausgangsports weiterleiten. In einigen Ausführungsformen und wie in dargestellt, gibt es fünf verteilte Crossbars, einschließlich einer Anforderungs-Crossbar 210a, einer Grant-Crossbar 210b, einer Credit-Crossbar 210c, einer Ack-Crossbar 210d und einer Daten-Crossbar 210e zwischen Eingangsport 220b und Ausgangsport 220c.
Die Anforderungs-Crossbar 210a wird verwendet, um Anforderungen von einem Eingang an eine gezielte Ausgangswarteschlange zu senden. Die Grant-Crossbar 210b wird verwendet, um einen Grant zurück an den Eingang zu senden, um eine Anforderung zu erfüllen. Insbesondere gibt die Grant-Crossbar 210b einen Zeiger zurück, der anzeigt, wo sich ein Paket in einem Eingangspuffer befindet. Es sollte beachtet werden, dass ein Grant zurückgegeben wird, wenn in der Ausgabe Platz für das entsprechende Paket vorhanden ist. Die Grant-Crossbar 201b kann optional auch eine Gutschrift für angeforderten Platz in der Ausgabe zurückgeben. Es ist zu beachten, dass der Grant zurückgegeben wird, wenn es einen Aufnahmeplatz für ein Paket am Ausgang gibt, z. B. einen Ausgangsport 220c, so dass Pakete nicht blockiert werden können (obwohl sie vorübergehend um Ressourcen konkurrieren können).
Es wird darauf hingewiesen, dass in Übereinstimmung mit verschiedenen Ausführungsformen ein Credit-Protokoll verwendet werden kann, um zu garantieren, dass es einen Aufnahmeplatz für eine Anforderung am Ausgang gibt. Dementsprechend kann eine Credit-Crossbar 210c verwendet werden, um Credit für angeforderten Platz in der Ausgabe zurückzugeben.
Eine Daten-Crossbar 210d wird verwendet, um gewährte Pakete von einem Eingangspuffer zu einem gezielten Ausgangspuffer zu übertragen. Eine Ack-Crossbar 210e dient der Weiterleitung von Ack-Paketen von den Ausgangsports 220c zu den Eingangsports 220b. Die Acks werden entsprechend einem in einer Ausgangsflusskanaltabelle gespeicherten Zustand gesteuert.
Es wird darauf hingewiesen, dass die Daten-Crossbar 210d Multitakt-Pakete mit Headern und Daten bewegt, während die anderen vier Crossbars (Anforderungs-Crossbar 210a, Grant-Crossbar 210b, Credit-Crossbar 210c und Ack-Crossbar 210e) nur Header von Paketen mit einem Takt bewegen. Alle fünf Crossbars verwenden dieselbe Architektur mit Zeilen- und Spaltenbussen innerhalb einer 8 x 4-Matrix von 32 Dual-Port-Kacheln (wie unten beschrieben).
Zurück zu : Der Switch 202 kann eine Mehrzahl von Sende-/Empfangsports haben, z. B. Port 220. Die Mehrzahl der Ports kann in einer Kachelmatrix strukturiert sein. zeigt ein Beispiel für eine solche Kachelmatrix 300. In einer Ausführungsform umfasst die Kachelmatrix 300 32 Kacheln, von denen jede zwei Ports umfasst, die zur Implementierung der Crossbar-Umschaltung zwischen den Ports und zur Bereitstellung der folgenden Elemente verwendet werden: eine Serializer/De-Serializer (SERDES)-Schnittstelle zwischen dem Kern des Switches 202 und externen seriellen Hochgeschwindigkeitssignalen zum Treiben der Signale vom Switch 202; eine Media-Access-Control- (MAC-) Sub-Layer-Schnittstelle zur Physical Coding Sublayer (PCS); eine PCS-Schnittstelle zwischen dem SERDES und der Ethernet-MAC-Funktion; eine Link-Level-Retry- (LLR-) Funktion, die auf einer paketweisen Basis arbeitet und geordnete Sätze verwendet, um Initialisierungssequenzen, Acks und Nacks zu liefern; und einen Ingress Transforms-Block zum Konvertieren zwischen verschiedenen Frame-Fabric-Formaten. Jede Kachel enthält einen Crossbar-Switch wie den Crossbar-Switch 210 für jede der Crossbars (210a-201e). Wie im Folgenden näher erläutert wird, kann das Routing in der Switch-Fabric durch eine Fabric-Routing-Funktion (FRF) gesteuert werden, die im Switch 202 implementiert ist, wobei eine separate Instanz der FRF-Komponente ( in der Eingangslogik für jeden Port des Switch 202 implementiert sein kann. Wie oben erwähnt, enthält jeder Port eine Instanz der FRF-Komponente, aber zur Vereinfachung der Referenz bzw. zur Veranschaulichung werden nur zwei FRF-Instanzen (400a, 400b) als Beispiel angeführt.
Jeder Crossbar-Switch 210 hat sechzehn Eingänge 220b, einen für jeden Port in seiner Zeile, und acht Ausgänge 220c, einen für jeden Port in seiner Spalte. Zeilenbusse können von jeder Quelle in einer Zeile zu allen acht Crossbars in dieser Zeile geführt werden (one-to-all). Die Arbitrierung kann an der Crossbar von den sechzehn Zeilenbussen in dieser Zeile zu den acht Spaltenbussen in einer bestimmten Spalte durchgeführt werden. An jeder 16 x 8-Crossbar kann für jeden der Zeilenbusse eine Pufferung vorgesehen werden, um Pakete während der Zeiten aufzufangen, in denen ein Spaltenbus umkämpft ist. In einigen Ausführungsformen wird ein Nicht-Jumbo-Paket von einem Zeilenbus ferngehalten, es sei denn, es ist Platz für das gesamte Paket im Eingangspuffer der Ziel-Crossbar. Aufgrund von Flächenbeschränkungen dürfen Jumbo-Pakete auch dann übertragen werden, wenn nicht genügend Platz vorhanden ist (der Crossbar-Eingangspuffer ist nur so groß, dass ein Nicht-Jumbo-Paket darin versenkt werden kann), wobei der Zeilenbus so lange blockiert wird, bis das Paket die Arbitrierung gewinnt und Platz frei wird, wenn es auf einen Spaltenbus übertragen wird.
Spaltenbusse werden von einer bestimmten Crossbar zu jedem Zielport innerhalb einer Spalte geführt (all-to-all). Jedes Ziel kann eine weitere Arbitrationsebene zwischen den Spaltenbussen der vier Zeilen haben. Mit sechzehn Zeilenbussen, die acht Crossbars ansteuern und jeweils acht Spaltenbusse versorgen, ergibt sich ein 4-facher Geschwindigkeitszuwachs zwischen Zeilen und Spalten. Jede Zeile hat identische Verbindungen, wobei die Verbindungen von einem zu allen Zeilenbussen für eine einzelne Zeile in Zeilenbussen dargestellt sind. Jede Kachel hat je nach Crossbar eine Verzögerung von einem (request, grant, credit) oder zwei (data, ack) Takten pro Kachel. Dies ergibt eine maximale Verzögerung von sieben oder vierzehn Takten, um zwischen der Spalte ganz links und der Spalte ganz rechts zu gelangen. Credit-Rückgaben, die über die Credit-Crossbar 210c geleitet werden, haben eine Verzögerung von einem Takt pro Kachel und können daher maximal sieben Takte bis zur vollständigen Übertragung benötigen.
Es sollte beachtet werden, dass jede Spalte identische Verbindungen mit den All-to-All-Spaltenbus-Verbindungen für eine einzelne Spalte haben kann, und dass es eine Verzögerung von zwei Takten pro Kachel geben kann, was zu einer Verzögerung von sechs Takten führt, um von der obersten Zeile zur untersten Zeile zu gelangen. Es wird außerdem darauf hingewiesen, dass sowohl Zeilen- als auch Spaltenbusse das oben erwähnte Credit-basierte Protokoll verwenden, um zu bestimmen, wann sie in der Lage sind zu senden. Im Falle von Zeilenbussen verwaltet der Quellport die Anzahl der Credits für die Eingangspuffer der Crossbars innerhalb dieser Zeile. Bei der Daten-Crossbar ist darauf zu achten, wann ein Paket auf einen Zeilenbus gehen darf. Wenn Grants, die auf einen bestimmten Crossbar-Eingangspuffer abzielen, alle über eine einzige Warteschlange laufen, muss vor Beginn der Paketübertragung Platz für das Paket am Anfang der Warteschlange geschaffen werden. Wenn die Grants auf mehrere Warteschlangen verteilt sind, wird eine Paketübertragung erst dann gestartet, wenn im Puffer Platz für ein ganzes Paket maximaler Größe vorhanden ist, um zu verhindern, dass kleine Pakete große Pakete verdrängen. Auf diese Weise wird eine einmal begonnene Paketübertragung auf einem Zeilenbus erst dann beendet, wenn das gesamte Paket übertragen wurde. Dementsprechend sind die Eingangspuffer der Crossbars so konfiguriert, dass sie groß genug sind, um die maximale Paketgröße plus zusätzlichen Platz für den ungünstigsten Fall eines Roundtrips (Paketversand bis Credit-Rückgabe) zu bewältigen. Dies ist bei Jumbo-Paketen nicht der Fall. Um Pufferfläche zu sparen, sind die Crossbar-Eingangspuffer nur tief genug, um eine MTU ohne Jumbo-Größe (1500 Byte) zu verarbeiten, wobei ein Jumbo-Paket einen Zeilenbus blockieren kann, während es darauf wartet, Zugriff auf den gewünschten Spaltenbus zu erhalten.
Bei Spaltenbussen verwaltet jede Crossbar die Anzahl der Credits für die Eingangspuffer an jedem Zielport in dieser Spalte. Im Gegensatz zu Zeilenbussen ist es nicht erforderlich, dass für ein Paket maximaler Größe Credits verfügbar sind, bevor die Übertragung dieses Pakets auf einem Spaltenbus beginnt. Einzelne Wörter des Pakets werden übertragen, wenn Credits verfügbar werden. Daher muss der Eingangspuffer am Zielort für jeden Spaltenbus nur so groß sein, dass er im schlimmsten Fall den Hin- und Rückweg (Paket zu Credit) abdeckt.
zeigt detaillierter eine Beispielimplementierung mit zwei Ports, z. B. den Ports 0 und 1, die von Kachel 1 verwaltet werden, zusammen mit der Crossbar 220a, die einen Satz von Zeilenbussen und Spaltenkanälen mit Crossbars pro Kachel umfasst. Auf diese Weise hat jeder Port seinen eigenen Zeilenbus, der über seine Zeile kommuniziert, und jede Kachel hat die bereits erwähnte 16 x 8-Crossbar, die für Eckumkehrungen verwendet wird, und einen Satz von acht Spaltenkanälen, die die acht Ports in dieser Spalte versorgen. Mit anderen Worten: Jeder Crossbar-Switch 210 hat sechzehn Zeilenbus-Eingangspuffer und acht mögliche Ziele. Damit die Daten z. B. vom Eingangsport 17 zum Ausgangsport 52 gelangen, werden sie vom Eingangsport 17 entlang eines Zeilenbusses geleitet, durchlaufen eine lokale Crossbar, die eine 16-zu-8-Arbitrierung darstellt, und gelangen dann über einen Spaltenkanal zum Ausgangsport 52. Bezogen auf das gesamte Routing durch alle verteilten Crossbars ist die interne Bandbreite viermal größer als die externe Bandbreite, was dazu führt, dass beim Routing nahezu jeder beliebigen Permutation des Datenverkehrs durch den Switch 202 mit dem Eingang Schritt gehalten werden kann.
Zwischen den sechzehn Quellen für jedes Ziel kann ein faires Round-Robin-Verfahren angewendet werden. Sobald eine Quelle die Arbitrierung für die Daten-Crossbar 210d gewonnen hat, behält sie die Kontrolle über den Zielspaltenbus, bis das gesamte Paket gesendet wurde. Jeder Ausgang gewährt eine begrenzte Menge an Paketnutzlast, so dass zu erwarten ist, dass der Wettbewerb um einen bestimmten Spaltenbus bei größeren Paketen recht begrenzt sein sollte. Aus diesem Grund wird erwartet, dass eine Round-Robin-Arbitrierung selbst bei möglicherweise großen Unterschieden in der Paketgröße zwischen den Anforderern ausreichend ist.
Die Teile des Switches 202, die mit den Ausgangsfunktionen verbunden sind, arbeiten im Allgemeinen mit Frames im Switch-Fabric-Format und haben einen Fabric-Header, auch z. B. für einen Frame, der an einem Ethernet-Port innerhalb eines einzelnen Switches 202 ankommt und sich darauf stützt.
Die Ausgangskontrolle der Alterswarteschlange ist für die Annahme von Anforderungen von allen Eingangsports, z. B. den Eingangsports 220b, über die Anforderungsquerleiste 210a, die Pufferung der Anforderungen, die Unterscheidung zwischen ihnen nach Verkehrsklassen unter Verwendung eines Traffic-Shapers und die Weiterleitung der Anforderungen an die OFCT 216 zur Gewährung über die Grant-Crossbar 210b verantwortlich. Die Pufferung der Alterswarteschlange wird so verwaltet, dass jeder Eingang genügend Platz für den Datenfluss hat, während ein Eingang mit mehreren Datenflüssen, die auf einen bestimmten Ausgang abzielen, mehr Platz beanspruchen kann. Insbesondere wird der Platz in der Alterswarteschlange durch die Ausgabesteuerung verwaltet. Die Alterswarteschlange/Ausgabesteuerung kann auch für die Verwaltung des Zugriffs auf die Verbindung zuständig sein, und zwar entweder mit Hilfe einer Credit-basierten Flusskontrolle für einen angeschlossenen Eingangspuffer oder einer pausenbasierten Flusskontrolle für Nicht-Fabric-Verbindungen. Wenn ein Paket von der Alterswarteschlange freigegeben wird, wird es auf die Verbindung übertragen. Darüber hinaus verfügt die Alterungswarteschlange über einen Pfad, der es Paketen, die an einem bestimmten Port, z. B. einem der Eingangsports 220b, initiiert wurden (z. B. Wartungs- oder Reduktionspakete), ermöglicht, sich um Ressourcen an dem betreffenden Port zu bemühen.
Die Anforderungen kommen über einen Spaltenbus von jeder Zeile der Matrix 30 in den Ausgangssteuerblock. Jeder Spaltenbus speist ein unabhängiges FIFO (z. B. ein First-in-First-out-Schieberegister oder einen Puffer), wobei der Platz im FIFO über Credits verwaltet wird. Die FIFOs können so bemessen sein (24 tief), dass sie einen Umlauf plus zusätzlichen Platz abdecken, damit Anforderungen aus den Crossbars 210a-210e herausgeschoben werden können und ein Blockieren des Kopfes der Reihe verhindert wird. Vor dem Schreiben in einen FIFO kann eine Anforderung auf einen gültigen Fehlerkorrekturcode (ECC) geprüft werden. Weist die ECC-Prüfung entweder einen Multi-Bit-Fehler (MBE) oder einen Single-Bit-Fehler (SBE) im Zielfeld auf (d. h. die Anforderung wurde an den falschen Port weitergeleitet), wird die Anforderung als ungültig betrachtet und mit einer Fehlermarkierung verworfen.
Die LRU-Arbitrierung (Least Recently Used) kann zwischen den Spaltenbus-FIFOs durchgeführt werden, um zu entscheiden, welcher FIFO an die Alterswarteschlangenverwaltung weitergeleitet wird. Wenn Anforderungen aus jedem FIFO entfernt werden, werden Credits an die entsprechende Crossbar zurückgegeben. Die Zeile, mit der ein eingehender Spaltenbus korrespondiert, kann sowohl davon abhängen, wo in der Matrix sich die Kachel befindet, als auch davon, in welcher Hälfte der Kachel sich der Block befindet.
Der Ausgabepuffer (OBUF) stellt Anforderungen an den Ausgabesteuerungsblock, um Reduzierungs- und Wartungspakete über eine Verbindung zu senden. Diesen Anforderungen kann die höchste Priorität eingeräumt werden. Ein FIFO mit 8 Speicherplätzen kann verwendet werden, um diese Reduktions-/Wartungspaketanforderungen zu puffern, während sie auf Ressourcen warten. Reduktionspakete brauchen keine Flusskanäle zu verwenden, und Wartungspakete können Loopback verwenden, um einen Fluss zu erzeugen, so dass eine Überprüfung der Verfügbarkeit von Flusskanälen oder ein Durchlauf durch den OFCT zur Erzeugung eines Grant nicht erforderlich ist. Reduzierungs- und Wartungspakete müssen auch keinen Platz im Ausgangspuffer verwenden, so dass keine Überprüfung des Platzes erforderlich ist. Stattdessen kann eine Prüfung auf die Eingangsbutter des Verbindungspartners durchgeführt werden. Wenn dies zulässig ist, kann eine Shaping Queue (SQ) oder ein virtueller Kanal (VC) gewährt werden, wodurch Grants aus dem Alterswarteschlangen-Pfad während dieses Zyklus blockiert werden.
Die Größe der nächsten zu verarbeitenden Anforderung des Ausgangspuffers wird mit max_frame_size verglichen. Übersteigt sie diese Einstellung, wird der Auftrag nicht verarbeitet und ein Fehlerflag gesetzt. Dies führt dazu, dass der Ausgabepuffer-Anforderungspfad blockiert wird, bis ein Warm-Reset durchgeführt wird. Das Fehlerflag bleibt gesetzt, bis der Reset erfolgt ist. Die Bedingung kann auch aufgehoben werden, indem die Einstellung von max_frame_size auf einen Wert erhöht wird, der über der Größe der blockierten Ausgabepufferanforderung liegt. Die für den Vergleich verwendete Größe kann die in der Ausgabepufferanforderung angegebene Größe sein (die eine auf der Leitung verwendete 4-Byte-Frame-Prüfsumme (FCS) enthalten kann).
Jedem Eingang kann ein fester Platz in der Alterswarteschlange zugewiesen werden. Dieser Platz in der Warteschlange ist groß genug, um einen Platz für jede SQ/VC zu reservieren, mit genügend zusätzlichem Platz, um einen Request/Credit Roundtrip abzudecken. Es obliegt der Eingabe, den ihr zugewiesenen Platz für ihre SQs/VCs zu verwalten. Diese Zuweisung (fixed_al/oc) ist über ein Steuer- und Statusregister (CSR) in jeder Eingangswarteschlange (INQ) programmierbar und kann z. B. im Bereich von 64-96 Speicherplätzen liegen. Der verbleibende Platz in der Warteschlange (8K-64*fixed_al/oc) kann ein gemeinsam genutzter Platz sein, der für alle Eingänge zur Verfügung steht. Der gemeinsam genutzte Speicherplatz kann von der Ausgabe verwaltet werden, indem eingehende Anforderungen bei ihrem Eintreffen vom statischen in den gemeinsam genutzten Speicherplatz verschoben werden, sofern im gemeinsam genutzten Speicherplatz Platz vorhanden ist, vorbehaltlich der Grenzen pro Eingabe. Wenn eine Anforderung in den gemeinsam genutzten Bereich verschoben wird, wird ein Credit zurückgegeben, z. B. sofort über die Credit-Crossbar 210c, wobei die Anforderung in der Warteschlange als im gemeinsam genutzten Bereich befindlich markiert wird.
Wird eine Anforderung bewilligt, so wird der gemeinsam genutzte Speicherplatz gutgeschrieben, wenn er als gemeinsam genutzter Speicherplatz markiert ist. Wenn sie nicht als gemeinsam genutzter Speicherplatz gekennzeichnet ist, wird die Anforderung als Nutzung des statischen Speicherplatzes betrachtet und ein Credit wird mit dem Grant an die Eingabe zurückgegeben.
Aufgrund von Konflikten in der Credit-Crossbar 210c ist es möglich, dass Credits nicht in jeder Taktperiode gesendet werden. Dementsprechend bietet ein FIFO einen Puffer für diese vorübergehenden Unterbrechungen. Der Platz in diesem FIFO wird benötigt, bevor eine Anforderung von der Anforderungs-Crossbar übernommen wird. Ein FIFO mit einer Tiefe von 32 Speicherplätzen kann verwendet werden, um die Wahrscheinlichkeit eines Rückstaus in die Anforderungs-Crossbar 210a zu begrenzen. Der gemeinsam genutzte Raum kann Grenzen dafür haben, wie viel Platz eine Eingabe (von einem Eingangsport 220b) einnehmen kann. Diese Grenzen können als Prozentsatz des verfügbaren Platzes festgelegt werden. Ist der Grenzwert beispielsweise auf 50 % festgelegt, hat ein aktiver Eingangsport Zugriff auf 50% des Pufferspeichers, bei zwei aktiven Eingangsports erhält jeder 37,5 % ((space_used_by_1 + space_left*0,5)/2 = (50 %+50 %*0,5)/2), bei drei aktiven Eingangsports erhält jeder 29,2 % ((space_used_by_2 + space_left*0,5)/3 = (75 %+25 %*0,5)/3) usw. Darüber hinaus kann der gesamte von den aktiven Eingangsports belegte Platz auf die angegebene Gesamtzahl (50%, 75%, 87,5%) begrenzt werden. Somit kann der jedem Eingangsport 220b zugewiesene Platz dynamisch variieren, je nachdem, wie viele Eingangsports gerade aktiv sind. Die Hinzufügung eines aktiven Eingangsports führt dazu, dass andere aktive Eingangsports ihren Platz aufgeben, der dann von dem neuen Eingang eingenommen wird.
Da eine Teilung in Hardware nicht einfach zu bewerkstelligen ist, kann die oben erwähnte Funktion zur Verwaltung der Credits in der Warteschlange als Nachschlagetabelle 310 mit 64 Einträgen 312 implementiert werden. Die Anzahl der derzeit aktiven Eingänge in den Alterswarteschlangen 320 indiziert 315 die Nachschlagetabelle 310. Die Werte 314 in der Nachschlagetabelle 310 spiegeln den Grenzwert für die Anzahl der gemeinsam genutzten Speicherplätze wider, die ein Eingang einnehmen kann, sowie den Gesamtspeicherplatz, den er als Ganzes verbrauchen kann. Es liegt also an der Software, die Werte 314 in der Nachschlagetabelle 310 zu programmieren, je nachdem, wie viel gemeinsam genutzter Speicherplatz insgesamt vorhanden ist und welchen Prozentsatz jeder Eingangsport einnehmen darf. Wenn mehr Eingangsports 220b aktiv werden, wird jedem Eingangsport 220b weniger Platz zugestanden, und der insgesamt verfügbare Platz nimmt zu. Eingehende Anforderung von den Eingangsports 220b, die diesen Grenzwert überschreiten oder insgesamt den Grenzwert für den Gesamtspeicherplatz überschreiten, dürfen keinen weiteren gemeinsamen Speicherplatz beanspruchen. Um die Anzahl der aktiven Eingangsports 220b in den Alterswarteschlangen zu verfolgen, wird ein Satz von 64 Zählern 316 (einer für jeden Eingangsport) verwendet. Diese Zähler werden hochgezählt, wenn eine Anforderung in die Alterswarteschlangen 320 gestellt wird, und sie werden heruntergezählt, wenn sie herausgenommen werden (d. h. wenn sie gewährt werden). Ein Zähler für die Anzahl der von Null verschiedenen Zählerstände 319 wird als Index in der Nachschlagetabelle 310 verwendet. Um den gemeinsam genutzten Speicherplatz zu verwalten, kann außerdem ein zusätzlicher Satz von 64 Zählern 318 verwendet werden, um die aktuelle Nutzung des gemeinsam genutzten Speicherplatzes durch jeden Eingang zu verfolgen. Es kann auch ein einziger Zähler 334 vorhanden sein, der zur Verfolgung der Gesamtnutzung des gemeinsam genutzten Speicherplatzes verwendet werden kann. Diese Zähler werden mit den aktuellen Quoten verglichen, um festzustellen, ob eine Anforderung den gemeinsam genutzten Speicherplatz nutzen darf oder nicht. Die Zähler 316, 318 können z. B. 13 Bit breit sein, um den maximalen Wert eines Objekts, der etwas weniger als 8K betragen kann, ausreichend zu erfassen.
Die Warteschlangen 320 können einen einzigen Speicher-RAM 321 mit 8K Speicherplätzen verwenden. Diese Speicherplätze können dynamisch 32 separaten Warteschlangen zugewiesen werden (eine für jede SQ/VC), wobei jede aus einer verknüpften Liste von Speicherplätzen innerhalb des RAM 321 besteht. Dadurch kann jede SQ/VC je nach Bedarf mehr Platz beanspruchen.
Es kann eine Alterswarteschlange 320 mit einem vorderen Zeiger 322 erstellt werden, der auf den Anfang der Warteschlange zeigt, und einem nächsten Zeiger 324 für jede Position, der auf das nächste Element in der Warteschlange zeigt. Die letzte Position in der Warteschlange kann durch einen hinteren Zeiger 326 angezeigt werden. Die Elemente werden vom Anfang der Warteschlange entnommen und am Ende der Warteschlange eingefügt. Zusätzlich zu den oben genannten Datenstrukturen verfügt jede Warteschlange über ein FIFO 328 mit Einträgen an ihrem Kopf. Diese FIFOs 328 können sicherstellen, dass eine Warteschlange bei jedem Takt eine Anforderung mit einer Lesezugriffszeit von mehreren Takten aus dem Anforderungs-RAM 321 erhalten kann. Wenn eine neue Anforderung eintrifft und das Kopf-FIFO 328 für diese Warteschlange nicht voll ist, umgeht sie das Anforderungs-RAM 321 und kann direkt in das Kopf-FIFO 328 geschrieben werden. Sobald die Anforderungen für eine bestimmte Alterswarteschlange in den Anforderungs-RAM 321 geschrieben werden, werden die nachfolgenden Anforderungen ebenfalls in den Anforderungs-RAM 321 geschrieben, um die Ordnung aufrechtzuerhalten. Der Bypass-Pfad kann wieder verwendet werden, wenn sich keine weiteren Anforderungen für diese Alterswarteschlange im Anforderungs-RAM 321 befinden und Platz im Kopf-FIFO 328 vorhanden ist. Wenn eine Anforderung aus einem Kopf-FIFO 328 gelesen wird und sich entsprechende Anforderungen in der Warteschlange im Anforderungs-RAM 321 befinden, wird eine De-Queue eingeleitet. Es kann jeweils ein Kopf-FIFO 328 gelesen werden, so dass pro Taktperiode ein einziger Dequeue-Vorgang ausgelöst werden kann. Es kann eine Logik enthalten sein, um die verschiedenen Wettlaufbedingungen zwischen einer laufenden oder bevorstehenden Enqueue-Operation und dem Lesen eines Head-FIFO 3280020zu behandeln.
Der oben erwähnte ECC-Schutz, der im Alterswarteschlangen-RAM 321 verwendet wird, kann auf die FIFOs 328 ausgedehnt werden, um die Datenweg-Flops zu schützen. Die resultierende Struktur kann 8K Flops umfassen (32 Warteschlangen x 5 tief x SQ-Bits breit). Bei der Generierung des ECC kann die Nummer der Alterswarteschlange in die Berechnung einbezogen (aber nicht gespeichert) werden, um die Verwaltung der freien Liste zusätzlich zu überprüfen. Bei der Überprüfung der ECC kann die Anforderung als fehlerhaft angesehen werden, wenn in den Bits der Warteschlangennummer ein MBE oder ein SBE vorhanden ist.
Ein freier Listen-RAM kann ein einfaches FIFO sein, das mit Zeigern auf alle 8K-Einträge initialisiert wird, wenn ein Reset durchgeführt wird. Es kann eine Zählung vorgenommen werden, um zu verfolgen, wie viele Einträge in der freien Liste gültig sind. Wenn Einträge entnommen werden, werden sie von der Vorderposition des FIFO entfernt und verwendet. Wenn Einträge zurückgegeben werden, werden sie an das Ende des FIFO geschoben. Eine bestimmte Anzahl von Einträgen (z. B. drei Einträge) am Kopf der freien Liste kann in Flops gehalten werden, damit sie für einen schnellen Zugriff verfügbar sind. Wie bei den Kopf-FIFOs für die Alterswarteschlangen wird ECC durch die Flops getragen, um Schutz zu bieten. Die resultierende Struktur kann minimale Flops haben (57 = 3 tief x 19 Bit breit).
Um die volle Leistung für kleine Pakete zu erreichen, unterstützen Alterswarteschlangen sowohl ein Enqueue als auch ein Dequeue pro Taktperiode. Die Operationen in den Datenstrukturen für eine Enqueue-Operation werden im Folgenden erläutert und können sich unterscheiden, je nachdem, ob die zu schreibende Warteschlange leer ist oder nicht.
In einigen Fällen ist ein gleichzeitiger Enqueue- und Dequeue-Vorgang in einer bestimmten Warteschlange leicht zu handhaben, da sie separate Felder verwenden und aktualisieren. Einige spezielle Szenarien können auftreten, z. B. wenn eine Dequeue-Operation die Alterswarteschlange leert. Um dieses Szenario zu behandeln, wird logischerweise zuerst eine Dequeue-Operation durchgeführt, gefolgt von einer Enqueue-Operation. Dementsprechend wird ein Leer-Flag als gesetzt angesehen, wenn die Warteschlange durch die Dequeue-Operation geleert wird, und dann durch die Enqueue-Operation gelöscht.
Die oben erwähnte Arbitrierung kann zwischen Anforderungen durchgeführt werden, die vorbehaltlich der Verwaltung des Eingangspuffers, des Ausgangspuffers und der Flusskanalquoten gewährt werden dürfen. Die Arbitrierung kann auch angehalten werden, wenn keine Credits für den OFCT-Eingangs-FIFO vorhanden sind. In einigen Ausführungsformen kann die Arbitrierung auf zwei Ebenen durchgeführt werden. Erstens kann die Traffic-Shaping-Arbitration zur Arbitrierung zwischen den SQs verwendet werden. Eine Deficit-Round-Robin-Arbitration kann verwendet werden, um zwischen VCs innerhalb einer bestimmten SQ zu arbitrieren. Die Traffic-Shaping-Arbitration kann eine Reihe von Token-Buckets verwenden, um die Bandbreite jeder SQ wie folgt zu steuern: acht Leaf-Buckets, eines für jede SQ; vier Branch-Buckets und ein Head-Bucket.
Die Arbitrierung kann in drei Gruppen unterteilt werden, wobei die erste Gruppe die höchste Priorität hat, gefolgt von einer zweiten Gruppe, die wiederum von einer dritten Gruppe gefolgt wird. Für die erste und zweite Gruppe kann die Arbitrierung unter den in Frage kommenden SQs auf die gleiche Weise erfolgen. Zwischen den SQs für jede der acht Prioritätsstufen kann eine achtfache Round-Robin-Arbitrierung durchgeführt werden (acht parallele Round-Robin-Arbitrierungen). Zwischen den Prioritätsstufen kann eine feste Arbitrierung durchgeführt werden. Die Arbitrierung der Gruppe 3 hat beispielsweise keine Prioritäten und ist daher einfach eine einzige achtfache Round-Robin-Arbitrierung.
Bei der Arbitrierung in der ersten Gruppe ergibt sich die Priorität für jeden aus der Einstellung in den Blattbereichen. Für die Arbitrierung in der zweiten Gruppe ergibt sich die Priorität aus der Einstellung in den Zweigen der Blattbereiche. In allen Fällen sind die Bereiche, die als für diese Gruppe in Frage kommend geprüft werden, auch die Bereiche, aus denen Paketgrößen-Token bezogen werden, wenn die Anforderung die Arbitrierung gewinnt.
Bei der Auswahl der Alterswarteschlange 320 können Pakete klassifiziert werden, um die SQ auszuwählen, an die ihre Anforderung weitergeleitet wird. Dadurch kann der mit einer Anwendung verbundene Verkehr anders gestaltet werden als der Verkehr, der von einer anderen Anwendung oder einer anderen Verkehrsklasse stammt. Dies kann an den Edge-Ports, die mit einer Netzwerkkarte verbunden sind, von Nutzen sein, da die Anwendungen so konfiguriert sind, dass sie einen Teil der Ressourcen des Knotens nutzen, und ihnen dementsprechend ein Teil der Netzwerkbandbreite zugewiesen wird. Gemäß einer Ausführungsform erfolgt diese Klassifizierung durch Einteilung der Pakete in eine Verkehrsklassenkennung (FTAG), z. B. einen 4-Bit-Code, der Teil des Fabric-Frame-Headers ist, und eine VLAN-ID (VNI), wenn das Paket in die Fabric eintritt. Die FTAG und VNI können dann verwendet werden, wenn das Paket die Fabric verlässt, um die Shaping-Warteschlange auszuwählen.
Ein Konfigurationsregister kann verwendet werden, um FTAGs auf SQs abzubilden. Diese Konfiguration stimmt mit der entsprechenden Konfiguration in der Eingangswarteschlange überein. Wenn der Ausgangspuffer Credits von Verbindungspartnern anfordert oder zurückgibt, wandelt er eine bestimmte FTAG in eine SQ um. Für die Paketinjektion befindet sich die FTAG in R_TF_OBUF_CFG_PFG_TX_CTRL. Bei der Testerzeugung befindet sich die FTAG im Teststeuerungsregister. Wenn die Reduktions-Engine (RED) eine Credit-Rückgabe anfordert, befindet sich die FTAG in ret_cdt/tag. Wenn ein Reduktions-Frame aus dem Ausgabestrom entfernt wird und Credits des Verbindungspartners zurückgegeben werden müssen, ist die FTAG im Frame-Header zu finden.
Was die hier erörterten SQs betrifft, so kann jede Alterswarteschlange 320 32 SQs haben, die durch {SQ, VC} adressiert werden. Die 3-Bit-SQ 330 kann als Formgebungsfunktion betrachtet werden, und der VC wählt eine von vier Warteschlangen innerhalb dieser Formgebungsfunktion aus. Für Ethernet-Egress-Ports (Edge-Ports) wird der VC zur Vermeidung von Deadlocks nicht benötigt. Dementsprechend können alle 32 SQs 330 verfügbar sein. In einem solchen Szenario kann die SQ 330 ausgewählt werden, indem die SQ-Basis aus R_TF_OBUF_CFG_FTAG_SQ_MAP zu den unteren Bits der VNI addiert wird. Die 5-Bit-Summe legt die {SQ,VC} fest, die an die Alterswarteschlange zu senden ist. Es ist zu beachten, dass bei der Injektion von Frames an einem Egress-Port keine VNI verfügbar ist und daher direkt eine SQ-Basis verwendet werden kann. Bei Fabric-Verbindungen wird die SQ 330 aus den oberen drei Bits der SQ Base entnommen. Der VC kann aus dem Frame-Header entnommen werden, wenn Credits für Reduktionsframes zurückgegeben werden, oder aus der entsprechenden Steuer-CSR (R_TF_OBUF_CFG_TEST_CTRL oder R_TF_OBUF_CFG_PFG_TX_CTRL), wenn Frames injiziert werden.
Die Verwaltung des Eingangspuffers eines Verbindungspartners kann von der Art des Geräts abhängen, an das die Verbindung angeschlossen ist. Geräte wie der Switch 202 können eine Credit-basierte Flusskontrolle verwenden, bei der jeder Credit eine Speicherzelle im Eingangspuffer darstellt. Andere Geräte können eine Standard-Ethernet-Pause oder eine auf Prioritätspausen basierende Flusssteuerung verwenden. Anforderung, die als lokal beendet gekennzeichnet sind (lac term set), müssen die Flusskontrolle des Eingangspuffers des Verbindungspartners nicht berücksichtigen und brauchen keine zugehörigen Zähler zu aktualisieren. Der Speicherplatz des Verbindungspartners muss nicht berücksichtigt werden, wenn sich die Verbindung im Entleerungszustand befindet.
Für die Credit-basierte Flusskontrolle kann der Verbindungspartner-Eingangspuffer in acht Pufferklassen unterteilt werden. Jeder SQ 330 kann einer dieser 8 Pufferklassen zugewiesen werden. Für jede der Pufferklassen werden Credits verwaltet, wobei jeder Credit 32 Byte Speicherplatz im Verbindungspartner-Eingangspuffer darstellt. Damit die auf Credits basierende Flusskontrolle mit verschiedenen Geräten (Switch, erweiterte NIC) funktionieren kann, die jeweils unterschiedliche Zellengrößen haben können, ist die Zellengröße ein programmierbarer Wert in Einheiten von 32 Byte.
Es kann zwei Sätze von VCs geben, wobei jeder SQ 330 einem Satz zugewiesen ist. Für jeden VC kann eine maximale Frame-Größe an Speicherplatz reserviert werden, und jeder VC-Satz kann eine andere maximale Frame-Größe haben. Der verbleibende Teil des Verbindungspartner-Eingangspuffers ist gemeinsam genutzter dynamischer Speicherplatz, der von jeder SQ/VC genutzt werden kann, vorbehaltlich der Grenzen pro VC und Pufferklasse.
Die Größe, die mit der Anforderung kommt, stellt die Größe des Pakets auf der Leitung dar, die einen 4-Byte-FCS enthält. Diese wird beim Verbindungspartner in eine interne 2-Byte-FCS umgewandelt, bevor das Paket in den Eingangspuffer des Verbindungspartners geschrieben wird, so dass die Gutschrift diesen Unterschied berücksichtigen muss, der ein Faktor an der Grenze der Zellengröße sein kann. Bei einer Zelle mit einer Größe von 96 Byte wird beispielsweise für eine Zelle mit einer Größe von 97 oder 98 Byte eine einzelne Zelle benötigt. Um zu wissen, wann dies der Fall ist, enthält die Anforderung einen Korrekturterm, der wie folgt berechnet wird: req.len_correct= (byte_len % 16) == 1 oder 2.
Eine weitere Validierung dieses Begriffs ist erforderlich, um ihn in eine beliebige Zellgrößengrenze umzuwandeln. Er ist gültig, wenn die Länge die Zellgröße knapp überschreitet. Damit kann der validierte Term fen_correct wie folgt bestimmt werden: len_correct = (((16-Byte-Größe)% (2*32-Byte-Zellengröße))== 1) & req. len correct.

Ein Beispiel dafür, wie diese Werte für einige Zellen- und Paketgrößen funktionieren, ist in der folgenden Tabelle dargestellt: Länge-Korrekt-Berechnung

Größe (Bytes)	Anforderung len_correct	Größe (16B-Einheiten)	Zellengröße (32B-Einheiten)	len_correct Modulo-Ergebnis	len_correct	Credit-Aufnahme
64	0	4	2	0	0	2
65	1	5	2	1	1	2
66	1	5	2	1	1	2
67	0	5	2	1	0	3
96	0	6	3	0	0	3
97	1	7	3	1	1	3
98	1	7	3	1	1	3
99	0	7	3	1	0	4
128	0	8	4	0	0	4
129	1	9	4	1	1	4
130	1	9	4	1	1	4
131	0	9	4	1	0	5

Die mit der Anforderung gelieferte Größe verwendet 8-Byte-Einheiten, und die Zellengröße des Verbindungspartner-Eingabepuffers ist ein Vielfaches von 32 Byte (32 * y, wobei y = Zellengröße aus dem CSR). Zunächst wird die 8-Byte-Größe in eine 16-Byte-Größe umgewandelt (ROUNDUP((8-Byte-Größe)/2)). Auch die Zellengröße wird in 16-Byte-Einheiten umgerechnet (2*y). Mathematisch lässt sich die Anzahl der Zellen, die eine Anforderung benötigt, wie folgt berechnen: ROUNDDN(((16-Byte-Größe)+ 2*y - 1 - len_correct)/(2*y)) = Anzahl der Zellen
Eine Teilung ist zwar in der Hardware möglich, kann aber aus zeitlichen Gründen nicht im kritischen Pfad der Arbitrierung durchgeführt werden. Stattdessen wird eine alternative Credit-Verwaltung verwendet. Das heißt, die Credits werden in Einheiten von 32 Bytes gehalten. Wenn eine Anforderung die Arbitrierung gewinnt, wird die Anzahl der in Anspruch genommenen Credits um den maximalen Fehlerterm (2 * y-1) nach folgender Berechnung angepasst ROUNDDN(((16-Byte-Größe)+ 2*y -1)/2) = maximal benötigte 32-Byte-Credits. Da diese Berechnung den für das Paket benötigten Credit überschätzt, kann im nächsten Takt eine Modulo-Operation (X = (16-Byte-Größe) MOD 2*y, y = 32-Byte-Zellengröße aus dem CSR) durchgeführt werden, um den tatsächlichen Restwert zu ermitteln. Dieser Wert wird zusammen mit dem Term len_correct zur Anpassung des Credit-Zählers verwendet. Die Formel, mit der der Anpassungswert (adf_val) für X erstellt wird, lautet: Wenn (X == 0) adj_val = y -1 sonst wenn (X == 1 und fen_correct) adj_val = y sonst adj_val = ROUNDDN((X-1)/2)

Die nachstehende Tabelle zeigt ein Beispiel für Credit-Anforderungen für 96-Byte-Zellen, das die über mehrere Paketlängen hinweg verwendeten Werte für die 96-Byte-Zellen des Switch-Eingangspuffers (y = 3) angibt. Beispiel für eine Credit-Anforderung für 96-Byte-Zellen

Paketgröße (Bytes)	Paketgröße (16-Byte-Einheiten)	Credit-Aufnahm e	Modulo-Ergebnis	len_correct	adj_val	Korrigierte Credit-Aufnahme
48	3	4	3	0	1	3
64	4	4	4	0	1	3
80	5	5	5	0	2	3
96	6	5	0	0	2	3
97	7	6	1	1	3	3
98	7	6	1	1	3	3
99	7	6	1	0	0	6
128	8	6	2	0	0	6

Wenn eine Anforderung gefiltert wird, bevor sie an den Eingangspuffer des Verbindungspartners weitergeleitet wird, gibt die Logik des Ausgangspuffers die SQ und VC zurück, so dass sie verwendet werden können, um die Credits an die entsprechenden Credit-Zähler zurückzugeben. Es ist keine Größe erforderlich, da die Paketgröße immer die gleiche ist, nämlich die Länge eines Reduktions-Frames (69 Byte oder 16 Byte Größe= 5).
Die lokale (Master-) Seite der Verbindung führt eine Zählung der Anzahl der von jedem VC über beide Sätze gesendeten Pakete (insgesamt 8), eine Zählung der an jeden VC gesendeten Paketmenge (in 3 2-Byte-Mengen) (4) und eine Zählung der für jede Pufferklasse gesendeten Paketmenge (in 32-Byte-Mengen) (8). Der Verbindungspartner (Slave) der Verbindung behält den gleichen Satz von Zählungen bei, wobei diese regelmäßig über die Verbindung gesendet werden. Der Unterschied zwischen den Zählungen auf der Master- und der Slave-Seite besteht in einer Zählung der Anzahl der Pakete im Eingangspuffer des Verbindungspartners von jedem VC über beide Sätze hinweg sowie in einer Zählung des derzeit von jedem VC und jeder Pufferklasse belegten Platzes (in 32-Byte-Mengen). Außerdem wird die Gesamtmenge des von allen Paketen belegten Platzes gezählt. Eine Zusammenfassung der Zähler lautet wie folgt: master_vcx_cnt[4]/slave_vcx_cnt[4] - Master- und Slave-Zähler für die Anzahl der Pakete, die an jeden VC im Satz X gesendet wurden; master_vcy_cnt[4]/slave_vcy_cnt[4] - Master- und Slave-Zähler für die Anzahl der Pakete, die an jeden VC im Satz Y gesendet wurden; master_bc_cnt[8]/slave_bc_cnt[8] - Master- und Slave-Zählungen des von jeder Pufferklasse belegten Platzes in Einheiten von 32 Byte; master_vc_cnt[4]/slave_vc_cnt[4] - Master- und Slave-Zählungen des von jedem VC belegten Speicherplatzes in Einheiten von 32 Byte; master-tot-cnt/slave-tot-cnt - Master- und Slave-Zählungen des insgesamt belegten Speicherplatzes in Einheiten von 32 Byte.
Alle Zähler werden bei einem Warm-Reset auf Null gesetzt. Sie werden auch auf Null gesetzt, wenn sich die Verbindung im Entleerungszustand befindet oder wenn das CSR-Bit DBG_RESET zum Löschen ihres Zustands gesetzt ist. Der Ausgangspufferfilter lenkt ein Reduktionspaket auf einen anderen Weg als den zum Eingangspuffer des Verbindungspartners. In diesem Fall kann ein Signal zusammen mit dem SQ und VC des Pakets zurückgegeben werden. Auch hier ist die Länge nicht erforderlich, da die Größe dieser Pakete festgelegt ist. Diese Information wird verwendet, um die entsprechenden Master Credit Counts anzupassen.
Eine Anforderung darf an der Arbitrierung teilnehmen, wenn entweder ihre VC-Anzahl 0 ist (was anzeigt, dass ihr ein statisch zugewiesener Slot zur Verfügung steht) oder im dynamischen Bereich Platz für einen Frame maximaler Größe ist (vorbehaltlich der angestrebten Pufferklasse und VC-Grenzen). Es kann einen einzigen programmierbaren Wert für die maximale Frame-Größe geben, der für alle VCs und SQs verwendet wird. Die Anforderungsvalidierung für den Eingangspufferspeicher kann mit Hilfe der Credit-basierten Flusskontrolle erfolgen.
Die Credit-basierte Flusskontrolle kann zur Aufteilung eines dynamischen Raums auf zwei voneinander unabhängige Arten verwendet werden: erstens auf der Grundlage eines Limits, wie viel dynamischen Raum jeder der vier VCs einnehmen kann, und zweitens auf der Grundlage eines Limits, wie viel dynamischen Raum jede der acht Pufferklassen einnehmen kann. In beiden Fällen werden die Grenzen als Prozentsatz des verfügbaren Platzes festgelegt. Für ein bestimmtes Paket sollte sowohl in seinem Ziel-VC als auch in seiner Pufferklasse Platz zur Verfügung stehen. Wenn z. B. für jeden Bereich ein Limit von 50 % festgelegt ist, hat ein aktiver Bereich Zugriff auf 50 % des Pufferbereichs, bei zwei aktiven Bereichen erhält jeder Bereich 37,5 % ((50+50*0,5)/2), bei drei aktiven Bereichen erhält jeder Bereich 29,2 % ((75+25*0,5)/3) und so weiter. Außerdem kann der Gesamtplatz, der von den aktiven Plätzen belegt wird, auf die angegebene Gesamtzahl (50%, 75%, 87,5%) begrenzt werden. Dementsprechend variiert der jedem Platz zugewiesene Platz dynamisch je nachdem, wie viele Plätze gerade aktiv sind. Wenn ein zusätzlicher Platz aktiv wird, müssen die anderen aktiven Plätze einen Teil ihres Platzes abgeben, der dann von dem neuen Platz eingenommen wird.
Wie die oben beschriebene Teilungsfunktion ist auch diese Funktion als Nachschlagetabelle implementiert. Für den VC-Speicherplatz gibt es in diesem Beispiel 16 Einträge, wobei jeder Eintrag den für jeden VC verfügbaren Speicherplatz sowie den insgesamt für alle VCs verfügbaren Speicherplatz angibt. Für die Pufferklassen kann es 256 Einträge geben, wobei jeder Eintrag den für jede Pufferklasse verfügbaren Platz sowie den für alle Pufferklassen insgesamt verfügbaren Platz angibt. Der Platz wird jeweils in 2048-Byte-Einheiten angegeben. Die Tiefe jeder Tabelle reicht aus, um alle Kombinationen aktiver Mitglieder (VCs oder Pufferklassen) abzudecken, wobei jede eine unabhängige Einstellung für ihre Prozentsätze haben kann. Damit ist es Sache der Software, die Werte in der Tabelle zu programmieren, je nachdem, wie viel dynamischer Speicherplatz insgesamt zur Verfügung steht und welchen Prozentsatz jedes Mitglied über alle möglichen Kombinationen hinweg einnehmen darf. Je mehr davon aktiv werden, desto weniger Platz wird ihnen zugestanden und desto mehr Platz ist insgesamt verfügbar. Anforderungen nach Speicherplatz, die über diesem Grenzwert oder insgesamt über dem Gesamtgrenzwert liegen, dürfen keinen weiteren dynamischen Speicherplatz beanspruchen.

Eine VC- oder Pufferklasse gilt als aktiv, wenn sie entweder eine Anforderung in einer Alterungswarteschlange hat oder wenn sie ausstehende Gutschriften für Verbindungspartner-Eingangspufferplätze hat. Nehmen wir als Beispiel an, es gibt nur 4 Räume (Tabelle mit 16 Einträgen) mit den Prozentsätzen SPACE0(50%), SPACE1(4O%), SPACE2(30%), SPACE3(10%) und einem dynamischen Gesamtraum von 16KB. Daraus ergeben sich die in der nachstehenden Beispieltabelle für den Pufferspeicher angegebenen Werte in Mengen von 16 Byte. Beispiel für Pufferraum

Index	SPACE3	SPACE2	SPACE1	SPACE0	Insgesamt
0	K.A.	K.A.	K.A.	K.A.	K.A.
1	K.A.	K.A.	K.A.	512	512
2	K.A.	K.A.	410	K.A.	410
3	K.A.	K.A.	319	398	717
4	K.A.	307	K.A.	K.A.	307
5	K.A.	250	K.A.	416	666
6	K.A.	255	339	K.A.	594
7	K.A.	202	270	337	809
8	102	K.A.	K.A.	K.A.	102
9	94	K.A.	K.A.	469	563
10	94	K.A.	377	K.A.	471
11	75	K.A.	299	374	748
12	95	284	K.A.	K.A.	379
13	78	234	K.A.	389	701
14	80	239	319	K.A.	638
15	79	236	315	394	1024

Als Beispiel werden die Werte in der Zeile für Index 7 wie folgt berechnet: Gesamt%= 0,5 + (1-0,5)*0,4 + (1-0,5-(1-0,5)*0,4)*0,3 = 0,79; SPACE0 = (0,5/(0,5+0,4+0,3))*0,79*1024 = 337; SPACE1 = (0,4/(0,5+0,4+0,3))*0,79*1024 = 270; SPACE2 = (0,3/(0,5+0,4+0,3))*0,79* 1024 = 202; Gesamt= 337 + 270 + 202 = 809
Wie oben erwähnt und unter Bezugnahme auf können Switches, wie z. B. der Switch 202, verwendet werden, um eine Switch-Fabric zu erstellen, wobei die Switch-Ports 220 so konfiguriert werden können, dass sie entweder als Edge-Ports oder als Fabric-Ports arbeiten. Wie bereits erwähnt, kann der Switch 202 verschiedene Netzwerktopologien unterstützen, einschließlich, aber nicht beschränkt auf, z. B. Dragonfly- und Fat-Tree-Topologien. Netzwerke können aus einem oder mehreren Slices bestehen, die jeweils die gleiche Gesamttopologie aufweisen, obwohl sich die Slices in Bezug auf ihre Zusammensetzung unterscheiden können. Die Knoten sind mit einem oder mehreren Ports in jeder Slices verbunden. Wenn ein Netzwerk mehrere Slices hat und ein Knoten mit mehr als einem Slice verbunden ist, wird angenommen, dass der Knoten in jedem Slice an der gleichen Stelle angeschlossen ist.
Das Routing in der Switch-Fabric kann durch eine in Switch 202 implementierte Fabric-Routing-Funktion (FRF) gesteuert werden. Ein Beispiel für eine FRF-Komponente 400 ist in den dargestellt. Es versteht sich, dass eine separate Instanz der FRF-Komponente 400 innerhalb der Eingangslogik für jeden Port des Switches 202 implementiert werden kann. Die von der FR-Komponente 400 getroffenen Routing-Entscheidungen können auf diejenigen Frames angewendet werden, die nicht bereits Teil eines etablierten Flusses sind. Es ist zu beachten, dass die FRF-Komponente 400 nicht notwendigerweise weiß, ob ein bestimmter Frame mit einem Fluss verbunden ist oder nicht, sondern vielmehr eine unabhängige Weiterleitungsentscheidung für jeden an einem Eingangsport präsentierten Frame trifft. Die FRF-Komponente 400 kann Filter, Tabellen, Schaltkreise und/oder Logik, wie z. B. Auswahlschaltkreise/Logik, umfassen, um die Weiterleitung von Daten durch eine Switch-Fabric, wie hier beschrieben, zu bewirken. Wie dargestellt, umfasst die FRF-Komponente 400 mindestens: eine Minimal-Port-Auswahlkomponente 402 (die eine Minimaltabellenkomponente 402A umfasst), verschiedene Ports-Filter (Filter für zugelassene Ports, Filter für betriebsbereite Ports, Filter für besetzte Ports); eine Komponente 402B zur Unterscheidung bevorzugter Ports; Komponenten/Logik 402C zur pseudozufälligen Auswahl nach unten; Ausnahmetabellen 404 (einschließlich einer Ausnahmelistentabelle 404A); eine Komponente 406 für betriebsbereite Ports, die eine globale Fehlertabelle 406A umfasst; und eine Routing-Algorithmus-Tabelle 408. Wie in dargestellt, kann die FRF-Komponente 400 ferner Folgendes umfassen: eine Nicht-Minimal-Port-Auswahlkomponente 410, die eine lokale Nicht-Minimal-Auswahlkomponente 410A und eine globale Nicht-Minimal-Auswahlkomponente 410B umfasst; und eine Ausgangslogikkomponente 412 (die Teil des Ausgangssteuerblocks eines Switches ist), die eine adaptive Auswahlkomponente oder -logik 412A umfasst. Die FRF-Komponente 400 umfasst weitere Komponenten, die hier beschrieben werden.
Insbesondere bestimmt die FRF-Komponente 400 mit dem Diskriminator 402B für bevorzugte Ports einen bevorzugten Port, um jeden am Eingangsport präsentierten Frame weiterzuleiten, und zwar auf der Grundlage der Ziel-Fabric-Adresse (DFA) eines empfangenen Frames, des aktuellen Routing-Zustands des Frames (wo sich der Frame auf seinem Pfad befindet und welchen Pfad bzw. welche Pfade er genommen hat, um seinen aktuellen Routing-Zustand zu erreichen), des Routing-Algorithmus und der Konfiguration der Switch-Fabric und der mit dem Ausgangsport (dem zuvor erwähnten bevorzugten Port, an den der Frame weitergeleitet werden soll) verbundenen Lastmetriken unter Verwendung von Filtern für besetzte Ports.
Die FRF-Komponente 400 kann eine Routing-Algorithmus-Tabelle 408 enthalten, die als softwarekonfigurierbare Tabelle ausgeführt sein kann, die auf der Grundlage des aktuellen Routing-Zustands des Frames gültige Auswahlmöglichkeiten bestimmt. Gültige Entscheidungen sind beispielsweise, ob ein lokaler minimaler, globaler minimaler, lokaler nicht-minimaler oder globaler nicht-minimaler Pfad für den nächsten Hop des Frames gewählt werden darf. Der Routing-Status enthält Informationen wie den VC, auf dem der Frame empfangen wurde, und ob er sich in der Quell-, der Ziel- oder einer Zwischengruppe befindet. Die Routing-Algorithmus-Tabelle 408 bestimmt zusammen mit der adaptiven Auswahlfunktion oder -logik 412A (wie unten beschrieben) auch den VC, der für den nächsten Sprung des Frames verwendet werden soll.
Als Beispiel wird das Frame-Routing mit Unicast-DFAs beschrieben. Es ist jedoch zu beachten, dass die DFA der Routing-Anforderung entweder im Unicast- oder im Multicast-Format vorliegen kann. Das Unicast-Format kann ein 9-Bit-Global-ID-Feld (global_id), ein 5-Bit-Switch-ID-Feld (switch_id) und ein 6-Bit-Endpunkt-ID-Feld (endpoint_id) enthalten. Die globale ID kann eine Gruppe innerhalb des Netzwerks eindeutig identifizieren. Sie identifiziert insbesondere die letzte Gruppe, an die der Frame zugestellt werden muss. Die Switch-ID identifiziert eindeutig einen Switch innerhalb der durch die globale ID identifizierten Gruppe. Das Feld Endpunkt-ID identifiziert zusammen mit der globalen ID und der Switch-ID den Endpunkt, der mit dem Rand des Netzwerks verbunden ist und an den der Frame zugestellt werden soll. Dieses Feld wird einem Port oder einem Satz Ports auf dem Switch zugeordnet, der durch die globale ID und die Switch-ID identifiziert wird.
Das Multicast-Format enthält ein 13-Bit-Multicast-ID-Feld (multicast_id). Dieses Feld wird von der FRF-Komponente 400 auf einen Satz Ports am aktuellen Switch abgebildet, an den der Frame weitergeleitet werden soll.
Aus diesen Informationen ermittelt die FRF-Komponente 400 einen aktualisierten Routing-Status für den Frame, der dann in den Frame übertragen wird. Um beispielsweise das Routing in einer Dragonfly-Topologie zu realisieren, kann der aktuelle Status eines Frames aus dem VC des Frames (wie oben beschrieben) ermittelt werden. Basierend auf algorithmischen Switch-Fabric Routing-Regeln, die für die Switch-Fabric spezifiziert sind (deren Auswahl weiter unten beschrieben wird), bestimmt die FRF-Komponente 400 einen bestimmten VC, der für den nächsten Hop des Frames verwendet wird, um Deadlocks zu vermeiden. Zusätzliche Routing-Statusinformationen können abhängig davon bereitgestellt werden, wo sich der Frame auf seinem Weg befindet, z. B. ob der Frame in seiner Quellgruppe, in einer Zwischengruppe oder in seiner Zielgruppe ist. Es sei darauf hingewiesen, dass die FRF-Komponente 400 eine Port-Filterung durchführt (die weiter unten ausführlicher beschrieben wird), indem sie Filter für zugelassene Ports, Filter für betriebsbereite Ports, Filter für besetzte Ports usw. verwendet, um festzustellen, ob ein bevorzugter Port, an den ein Frame weitergeleitet werden soll, derzeit fehlerhaft, besetzt, nicht vorhanden usw. ist.
Der Switch 202 verteilt die Lastinformationen zwischen den Switches. Die FRF-Komponente 400 empfängt die Lastmessung von und von ihrem zugehörigen Ausgangsport. Die FRF-Komponente 400 empfängt von ihrem zugehörigen Eingangsport zusammengefasste Lastinformationen für einen benachbarten Switch. Jede FRF-Komponente 400 tauscht Lastinformationen mit allen anderen FRF-Instanzen innerhalb desselben Switches aus. Die FRF-Komponente 400 liefert zusammengefasste Lastinformationen an ihren zugehörigen Ausgangsport zur Weiterleitung an einen benachbarten Switch. Durch den Lastverteilungsmechanismus erfährt jede FRF-Komponente 400 die an jedem Ausgangsport ihres Switches gemessene Last. Außerdem erfährt jede FRF die zusammengefassten Lastinformationen für alle benachbarten Switches.
Es ist zu beachten, dass die FRF-Komponente 400 das Multicasting von Frames unterstützen kann. Wenn ein Multicast-DFA empfangen wird, bestimmt die FRF-Komponente 400 einen Satz von Ports, an die der mit dem Multicast-DFA verbundene Frame weitergeleitet werden soll. Der Satz von Ports kann durch Zugriff auf eine Nachschlagetabelle bestimmt werden, die softwarekonfigurierte Multicast-Fabric-Adressen auf Ausgangsports abbildet. Auf diese Weise können Probleme im Zusammenhang mit doppelten Multicast-Frame-Kopien vermieden werden.
zeigt ein Beispiel für einen Routenauswahlprozess, der eine Abwärtsauswahl von Portkandidaten und eine adaptive Routenauswahl auf der Grundlage der Last beinhaltet. Die FRF-Komponente 400 berücksichtigt drei Kategorien von Kandidatenports, an die ein Frame weitergeleitet werden kann: bevorzugte Minimalpfad-Kandidatenports 502, nicht bevorzugte Minimalpfad-Kandidatenports 504 und Nicht-Minimalpfad-Kandidatenports 506. Je nachdem, wo sich ein Frame auf seinem Weg befindet, sind Nicht-Minimalpfad-Kandidatenports entweder globale Nicht-Minimalpfad-Kandidatenports oder lokale Nicht-Minimalpfad-Kandidatenports.
Die Filterung kann auf die drei Kategorien von Portkandidaten angewandt werden, z. B. auf die Filterung betriebsbereiter Ports, die Filterung nutzbarer Ports und die Filterung besetzter Ports. Die hier angewandte Port-Filterung kann verwendet werden, um die Menge der gültigen Ports, die als Pfadkandidaten in Frage kommen, zu reduzieren, indem abwesende und/oder fehlerhafte und/oder besetzte Ports identifiziert und entfernt werden.
Die Filterung betriebsbereiter Ports (oder die Filterung nicht-betriebsbereiter Ports) kann sich auf die Entfernung nicht-betriebsbereiter Ports aus Portsätzen beziehen, die als Kandidaten für das Routing in Betracht gezogen werden, z. B. bevorzugte Minimalpfad-Kandidatenports 502, nichtbevorzugte Minimalpfad-Kandidatenports 504 und Nicht-Minimalpfad-Kandidatenports 506. Das heißt, der Switch 202 kann bestimmte Ports als nicht betriebsbereit identifizieren. Diese nicht betriebsbereiten Ports können in einer Maske für nicht betriebsbereite Ports angegeben werden. Es sei darauf hingewiesen, dass in einigen Ausführungsformen die Software erzwingen kann, dass zusätzliche Ports des Switches 202 als nicht betriebsbereit eingestuft werden, indem sie ein nicht betriebsbereites Port-CSR verwendet, z. B. wenn ein oder mehrere Ports aufgrund geplanter Wartungsarbeiten abgeschaltet werden sollen.
Bei der Filterung nutzbarer (oder unbrauchbarer) Ports können Kandidatenports herausgefiltert werden, die normalerweise akzeptabel gewesen wären, aber z. B. aufgrund von Fehlern im Netzwerk 100 nicht mehr akzeptabel/unbrauchbar sind, um einen oder mehrere Ziel-Switches, ZielGruppen (von Switches) usw. zu erreichen, nicht mehr akzeptabel/unbrauchbar geworden sind, aber für das Erreichen eines oder mehrerer anderer Ziel-Switches akzeptabel/brauchbar bleiben. In einigen Ausführungsformen kann die globale Fehlertabelle 406A verwendet werden, um globale Minimalpfad-Portkandidaten und globale Nicht-Minimalpfad-Portkandidaten in Abhängigkeit von einer Zielgruppe des weitergeleiteten Frames zu blockieren. So können beispielsweise Portkandidaten, die zu einer Zwischengruppe (von Switches) ohne Konnektivität zu einer bestimmten Zielgruppe (von Switches) führen, bei der Weiterleitung von Frames zu dieser Zielgruppe nicht berücksichtigt werden, obwohl dieselben Portkandidaten nicht unbedingt für andere Zielgruppen gesperrt werden müssen. Die globale Fehlertabelle 406A kann über das Feld global_id der DFA des Frames ermittelt oder indiziert werden.
In einigen Ausführungsformen kann eine Ausnahmeliste, die in der Ausnahmelistentabelle 404A geführt wird, verwendet werden, um Portkandidaten in Abhängigkeit von der Zielgruppe oder dem Switch, an den der Frame weitergeleitet wird, bedingt auszuschließen. Es ist zu beachten, dass die Ausnahmelistentabelle 440A dazu verwendet werden kann, bevorzugte globale Mindestpfad-Ports zu identifizieren. Dementsprechend wird die Ausnahmelistentabelle 404A zum Ausschluss von Portkandidaten verwendet, wenn sie nicht zur Ermittlung bevorzugter globaler Mindestpfad-Ports eingesetzt wird.
Es sollte beachtet werden, dass das Wissen darüber, welche Ports in einem benachbarten Switch besetzt sind, verwendet werden kann, um zu bestimmen, ob die Ports, die mit einem benachbarten Switch verbunden sind, schlechte Kandidaten für den Empfang eines Frames sind, basierend darauf, ob der benachbarte Switch den Frame anschließend an einen Port weiterleiten muss, der bereits besetzt ist. Bei der Prüfung von Ports, die für das globale Minimal-Routing in Frage kommen, sind die mit einem benachbarten Switch verbundenen Ports beispielsweise schlechte Kandidaten, wenn die globalen Ports des benachbarten Switches, die mit der Zielgruppe des Frames verbunden sind, alle besetzt sind. Ähnlich verhält es sich, wenn in der Zielgruppe die mit einem benachbarten Switch verbundenen Ports als Kandidaten für das lokale nicht-minimale Routing in Frage kommen, wenn die lokalen Ports des benachbarten Switches, die mit dem Ziel-Switch des Frames verbunden sind, alle besetzt sind.
Dementsprechend kann die FRF-Komponente 400 eine Filterung nach besetzten Ports durchführen, indem sie Besetzte-Ports-Masken verwendet, um stark belastete Ports von der Betrachtung als Kandidatenports auszuschließen. Es ist zu beachten, dass in einigen Ausführungsformen stark ausgelastete Ports aus der Betrachtung entfernt werden, wenn andere, nicht stark ausgelastete Kandidatenports vorhanden sind. Andernfalls, wenn keine nicht stark belasteten Ports vorhanden sind, werden die stark ausgelasteten Ports durch die Filterung nach Auslastung nicht aus der Betrachtung entfernt. Die FRF-Komponente 400 verwaltet vier Masken für besetzte Ports, d. h. Ports, deren Last einen softwaredefinierten Schwellenwert überschreitet: Fern-Switch-Besetzte-Ports-Maske ; globale Nicht-Minimal-Besetzte-Globale-Ports-Maske; globale Nicht-Minimal-Besetzte-Lokale-Port-Maske; Fern-Switch-Besetzte-Ports-Maske. Die Fern-Switch-Besetzte-Ports-Maske und andere Lastinformationen werden zwischen den Switches ausgetauscht, um den entfernten Switch zu füllen.
Eine lokale Switch-Besetzte-Ports-Maske kann sowohl auf Minimalpfad-Kandidatenports als auch auf lokale Nicht-Minimalpfad-Kandidatenports angewendet werden. Die FRF generiert eine 64-Bit- ls_busy_port_mask, indem sie die local_load jedes Ports mit einem softwaredefinierten Schwellenwert vergleicht. Ports, deren Auslastung höher ist als dieser Schwellenwert, werden in dieser Maske als besetzt markiert.
Eine globale Nicht-Minimal-Besetzte-Globale-Ports-Maske Maske kann auf globale Ports globaler Nicht-Minimalpfad-Kandidatenports angewendet werden. Die FRF erzeugt eine 64-Bitgnmbgp_mask, indem er die gnmgp_load jedes Ports mit einem softwaredefinierten Schwellenwert vergleicht. Ports, deren Auslastung höher ist als dieser Schwellenwert, werden in dieser Maske als beschäftigt markiert.
Eine globale Nicht-Minimal-Besetzte-Lokale-Ports-Maske kann auf lokale Ports von globalen Nicht-Minimalpfad-Kandidatenports angewendet werden. Die FRF erzeugt eine 64-Bitgnmblp_mask, indem sie die gnmlp_load jedes Ports mit einem softwaredefinierten Schwellenwert vergleicht. Ports, deren Auslastung höher ist als dieser Schwellenwert, werden in dieser Maske als besetzt markiert.
Eine zielgruppenabhängige Besetzte-Ports-Maske, die aus einer Fern-Switch-Besetzte-Globale-Ports-Tabelle gewonnen wird, kann auf globale Minimalpfad-Kandidatenports angewendet werden. Wenn ein Frame in seiner Zielgruppe weitergeleitet wird, kann dementsprechend eine Ziel-Switch-abhängige Besetzte-Ports-Maske, die aus einer Fern-Switch-Besetzte-Lokale-Ports-Tabelle gewonnen wird, auf lokale Nicht-Minimalpfad-Kandidatenports angewendet werden.
Nach Anwendung der oben erwähnten Filter- oder Abwärtsauswahlstufe kann sich ein Satz von überlebenden Portkandidaten 508 ergeben. Das heißt, dass eine reduzierte Anzahl von Portkandidaten ermittelt werden kann, nachdem nicht funktionsfähige und unbrauchbare, stark belastete Portkandidaten entfernt wurden und eine Gruppe von Portkandidaten übrig bleibt. In einigen Ausführungsformen wird ein Pseudo-Zufallsauswahlverfahren verwendet, um die Anzahl der überlebenden Pfadkandidatenports 508 weiter auf eine bestimmte Schwellenanzahl von Ports zu reduzieren, die jeder Kategorie von Kandidatenports zugeordnet sind (bevorzugte Minimalpfad-Kandidatenports, nichtbevorzugte Minimalpfad-Kandidatenports und Nicht-Minimalpfad-Kandidatenports). In einigen Ausführungsformen kann diese Schwellenanzahl von Kandidaten-Ports vier Kandidaten-Ports pro Kategorie betragen. Wenn die Mindestanzahl der Kandidatenports nicht erreicht wird, werden keine Kandidatenports aus dieser Kategorie in Betracht gezogen.
In einigen Ausführungsformen kann diese pseudozufällige Auswahl (oder Abwärtsauswahl) von Kandidatenports gewichtet werden. Wie weiter unten beschrieben wird, kann diese Gewichtung angewandt werden, um einer potenziellen Verzerrung bei der Verteilung des global nicht minimalen Verkehrs auf die globalen Verbindungen einer Gruppe entgegenzuwirken. Das heißt, jedem Port können gemäß der CSR-Konfiguration Gewichtungen, z. B. zwischen 0 und 15, zugewiesen werden. Mit dieser Gewichtung kann die Wahrscheinlichkeit beeinflusst werden, mit der einzelne Kandidatenports ausgewählt werden, so dass Ports mit einer höheren Gewichtung eine größere Chance haben, ausgewählt zu werden. Beispielsweise führt eine Gewichtung von 15 dazu, dass ein Port mit 15-facher Wahrscheinlichkeit im Pseudo-Zufallsauswahlverfahren ausgewählt wird. In einigen Ausführungsformen können die Portkandidaten auf der Grundlage der ihnen zugewiesenen Gewichte in vier Gruppen (GW1, GW2, GW4, GW8) gefiltert werden, wobei ein Portkandidat je nach zugewiesenem Gewicht zu mehreren Gruppen gehören kann (z. B. gehört ein Portkandidat mit der Gewichtung 1 nur zu einer Gruppe, während ein Portkandidat mit der Gewichtung 5 zu zwei Gruppen gehört (GW1 und GW4, d. h. 1 + 4 = 5) und ein Portkandidat mit der Gewichtung 15 zu allen vier Gruppen gehört (Gw1, GW2, GW4, GW8, d. h. 1 + 2 + 4 + 8 = 15). Die Anzahl der Portkandidaten in jeder Gruppe kann bestimmt werden (nW1, nW2, nW4, nW8), und die Pseudo-Zufallsauswahl wird auf jede Gruppe angewendet, um einen Portkandidaten aus jeder Gruppe auszuwählen (cW1, cW2, cW4, cW8). Das Gewicht jeder Gruppe kann zusammen mit ihrem Gesamtgewicht berechnet werden: wW1 = nW1; wW2 = 2*nW2; wW4 = 4*nW4; wW8 = 8*nws; wtotal= wW1+wW2+wW4+wW8. Eine fünfte Pseudo-Zufallsauswahl kann durchgeführt werden, um eine Zahl j aus dem Bereich O ... Wtotal - 1 zu wählen. Einer der Kandidaten cW1, cW2, cW4, cW8 wird auf der Grundlage des Wertes von j wie folgt als der nach unten gewählte Kandidaten-Port ausgewählt: Wenn j < wW1, wähle cW1; wenn j < wW1 + wW2, wähle cW2; wenn j < wW1 + wW2 + wW4, wähle cW4; sonst wähle cW8.
Es ist zu beachten, dass ein und derselbe Kandidaten-Port von mehr als einer der Instanzen/Iterationen der gewichteten Pseudo-Zufallsauswahllogik 410C ausgewählt werden kann, wodurch sich die Anzahl der ausgewählten Kandidaten-Ports verringert. Die Wahrscheinlichkeit, dass ein und derselbe Kandidaten-Port von mehr als einem der mgnm = 4 globalen, nicht minimalen, gewichteten Pseudo-Zufallsselektoren ausgewählt wird, nimmt mit zunehmender Anzahl der zur Auswahl stehenden Kandidaten-Ports ab. Im Zusammenhang mit einer Dragonfly-Topologie und einem Netzwerk mit voller globaler Bandbreite gibt es an einem Edge-Port in der Quellgruppe potenziell etwa 48 mögliche globale nicht-minimale Kandidatenports: 16 globale Ports und 32 lokale Ports. Wenn ein lokaler Hop genommen wurde, ist der nächste Hop ein globaler Hop, wodurch sich die Anzahl der Kandidatenports auf etwa 16 reduziert. Wenn das Netzwerk sich jedoch so verschmälert, dass es nur ein Viertel der vollen globalen Bandbreite unterstützt, stehen nach einem lokalen Hop möglicherweise nur 4 globale Kandidaten zur Auswahl.
Die FRF-Komponente 400 kann die empfangenen Besetzte-Ports-Masken des entfernten Switches verwenden, um die oben erwähnte globale Besetzte-Ports-Tabelle des entfernten Switches mit Besetzte-Ports-Masken zu generieren, die Ports identifizieren, die mit benachbarten Switches verbunden sind, die als globale Minimalpfad-Kandidaten auf der Grundlage der Zielgruppe, zu der der Frame geroutet wird, vermieden werden sollten. In ähnlicher Weise können die empfangenen Fern-Switch-Besetzte-Ports-Masken auch verwendet werden, um die oben erwähnte Fern-Switch-Besetzte-Lokale-Ports-Tabelle mit Besetzte-Ports-Masken zu erstellen, die Ports identifizieren, die mit benachbarten Switches verbunden sind, die als lokale Nicht-Minimalpfad-Kandidaten vermieden werden sollten, wenn in der Zielgruppe geroutet wird, basierend auf dem Ziel-Switch, zu dem der Frame geroutet wird.
Die rs_busy_port_masks werden verwendet, um die Eignung benachbarter Switches (ob die Ports benachbarter Switches besetzt oder ruhig sind) für das Erreichen bestimmter Zielgruppen über globale Minimalpfade und bestimmter Ziel-Switches über lokale nicht-minimale Pfade oder über lokale Minimalpfade zu beurteilen. Jede FRF-Instanz, die einem lokalen Port oder einem globalen Port entspricht, kann so konfiguriert werden, dass sie eine 64-Bit-Maske rs_busy_port_mask erzeugt. Die generierte Maske wird an den mit diesem Port verbundenen Partner-Switch übermittelt. Ebenso kann der Partner-Switch eine rs_busy_port_mask generieren und zurücksenden.
Jede FRF-Instanz übermittelt die rs_busy_port_mask, die sie von ihrem Partner-Switch erhalten hat, über den Portstatusring an die FRF-Instanzen an allen anderen Ports des Switches. Der Port-Status-Ring kommuniziert Last- und Statusinformationen zwischen allen FRF-Instanzen des Switches. Jede FRF-Instanz erfasst alle rs_busy_port_masks, so dass alle FRF-Instanzen den Entfernte-Besetzte-Ports-Status erfahren, der von allen benachbarten Switches bereitgestellt wird. Jede FRF-Instanz verwendet die rs_busy_port_masks, die sie empfängt, um die RSBGP-Tabelle (Remote Switch Busy Global Port) und die RSBLP-Tabelle (Remote Switch Busy Local Port) zu erstellen.
Die Generierung der rs_busy_port_mask erfolgt in zwei Schritten. Im ersten Schritt wird die local_load jedes Ports mit einem per Software konfigurierbaren Schwellenwert verglichen, wodurch eine Zwischenmaske aller Ports erzeugt wird, die individuell besetzt sind. Ports, die als nicht betriebsbereit eingestuft werden, werden in der Zwischenmaske ebenfalls als beschäftigt erfasst. Im zweiten Schritt wird die Verbindungsbündelung berücksichtigt, so dass ein Port in der rs_busy_port_mask nur dann als besetzt markiert wird, wenn er und alle anderen Ports, die Teil desselben Bündels sind, in der Zwischenmaske als besetzt markiert sind. Entweder sind alle Ports, die zum selben Bündel gehören, in der rs_busy_port_mask als besetzt markiert, oder keiner. Globale Ports, die Teil desselben Bündels sind, verbinden sich alle mit derselben entfernten Gruppe. Lokale Ports, die Teil desselben Bündels sind, verbinden sich alle mit demselben entfernten Switch innerhalb der aktuellen Gruppe.
Da die rs_busy_port_masks verwendet werden, um festzustellen, ob der Switch, der die Maske erzeugt hat, ein guter Kandidat für das Routing eines Frames zu einer anderen Gruppe oder zu einem anderen Switch in der aktuellen Gruppe ist, wird die Bündelung verwendet, um eine konsistente Ansicht der Eignung des erzeugenden Switches zu liefern, wenn der Belegt-Status über seine Verbindungen, die mit der Zielgruppe oder dem Ziel-Switch in der aktuellen Gruppe verbunden sind, inkonsistent ist. Der Grund für die hier beschriebene Behandlung der Bündelung ist, dass der Switch, der die rs_busy_port_mask generiert, ein Kandidat für das Erreichen der Zielgruppe oder des Ziel-Switches in der aktuellen Gruppe bleibt, solange er mindestens eine Verbindung zur Zielgruppe oder zum Switch hat, die nicht besetzt ist; das adaptive Routing an dem Switch, der die rs_busy port_mask generiert hat, sollte den Frame an die nicht besetzte Verbindung weiterleiten.
Die Ports müssen entweder im CSR für gebündelte Ports oder im CSR für nicht gebündelte Ports enthalten sein (beide sind Teil der statischen Beschreibung der Verkabelung), damit sie in der rs_busy port_mask als besetzt markiert werden können. Die gebündelten Portmasken werden gescannt, um die Bündel und die darin enthaltenen Ports zu identifizieren. Darüber hinaus wird die Maske der nicht gebündelten Ports konsultiert, um alle anderen Ports zu identifizieren, die nicht zu einem Bündel gehören, deren Belegt-Status aber ebenfalls in die generierte rs_busy_port_mask aufgenommen werden sollte.
Bei der Berechnung der rs_busy_port_mask wird ein anderer softwaredefinierter Schwellenwert verwendet, da die Übermittlung und Verarbeitung der rs_busy_port_mask und die Zustellung eines Frames, der dieser Maske unterliegt, an den entfernten Switch, der die Maske generiert hat, eine größere Latenzzeit erfordert. Wegen der größeren Latenzzeit kann es sinnvoll sein, von einem Port eine höhere Auslastung zu verlangen, bevor er als so ausgelastet gilt, dass er nicht mehr für den Empfang zusätzlicher Frames von einem entfernten Switch in Frage kommt. Ein ausgelasteter entfernter Port sollte so ausgelastet sein, dass er während der gesamten Zeit, die für den Empfang eines Frames, der der Maske unterliegt, erforderlich ist, ausgelastet bleibt.
Die vorgenannte RSBGP-Tabelle speichert Besetzte-Ports-Masken, indiziert nach Zielgruppe (global_id). Sie wird dynamisch mit den in den empfangenen rs_busy_port_masks enthaltenen Informationen zusammen mit den im Konfigurationsstatus gespeicherten topologischen Informationen über das System gefüllt. Auch hier wird die RSBGP-Tabelle bei der Bewertung globaler Minimalpfade verwendet, die aus einem Sprung zu einem benachbarten Switch bestehen, der einen globalen Port hat, der mit der Zielgruppe verbunden ist, um Ports des aktuellen Switches herauszufiltern, die für das Erreichen der Zielgruppe schlecht geeignet sind, weil der oder die entsprechenden globalen Ports des benachbarten Switches, die von den herausgefilterten Ports des aktuellen Switches erreicht werden, zu stark belastet sind.
Die RSBLP-Tabelle speichert Belegts-Ports-Masken, die nach dem Ziel-Switch (switch_id) indiziert sind, und kann wiederum bei der Auswertung lokaler nicht-minimaler Pfade verwendet werden, die aus einem lokalen Hop zu einem benachbarten Switch und einem weiteren lokalen Hop zum Ziel-Switch bestehen. Sie wird dynamisch mit Hilfe der in den empfangenen rs_busy_port_masks enthaltenen Informationen zusammen mit den im Konfigurationsstatus gespeicherten topologischen Informationen über das System ausgefüllt. Bei Topologien wie Fat-Tree, bei denen ein lokaler Minimalpfad aus einem lokalen Hop zu einem benachbarten Switch gefolgt von einem weiteren lokalen Hop zum Ziel-Switch bestehen kann, kann die RSBLP-Tabelle auch bei der Bewertung lokaler Minimalpfade verwendet werden. Die RSBLP-Tabelle wird verwendet, um Ports des aktuellen Switches herauszufiltern, die für die indirekte Erreichung des Ziel-Switches ungeeignet sind, weil der Port oder die Ports des benachbarten Switches, die mit dem Ziel-Switch verbunden sind, zu stark belastet sind.
Es ist zu beachten, dass auf die RSBGP-Tabelle und die RSBLP-Tabelle nie für dieselbe Routing-Anforderung zugegriffen wird. Auf erstere wird zugegriffen, wenn ein Frame geroutet wird, der nicht in der Zielgruppe ist, und auf letztere wird nur zugegriffen, wenn ein Frame geroutet wird, der in der Zielgruppe ist. Daher können beide im selben Speicher implementiert werden, der als Remote Switch Busy Port Table bezeichnet wird.
Ein Busy Ports Filter wird verwendet, um Kandidaten für Minimalpfad-Ports zu entfernen, die eine schlechte Wahl sind, weil sie zu stark belasteten Pfaden führen. Separate Kopien des Busy Ports Filter werden unabhängig voneinander auf die bevorzugten und die nicht bevorzugten Minimalpfad-Ports angewendet. Wenn das globale Minimalrouting aktiviert ist, werden in einer ersten Stufe dieses Filters die Ports entfernt, die im indizierten Eintrag der Fern-Switch-Besetzte-Globale-Ports-Tabelle als besetzt markiert sind. Wenn in der Zielgruppe lokales Minimal-Routing aktiviert ist, entfernt eine optionale erste Stufe dieses Filters Ports, die im indizierten Eintrag der Tabelle „Remote Switch Busy Local Port Table“ oder der Tabelle „Remote Switch Busy Global Port Table“ als besetzt markiert sind, wobei die verwendete Tabelle auf der CSR-Konfiguration basiert. Die erste Stufe dieses Filters ist nicht anwendbar und wird nicht mit der Dragonfly-Topologie verwendet, wenn sie sich in der Zielgruppe befindet; sie kann jedoch auf andere Topologien einschließlich Fat Tree angewendet werden. In einer zweiten Stufe dieses Filters werden Ports entfernt, die in der oben genannten ls_busy_port_mask als besetzt markiert sind. Bleiben nach der zweiten Filterstufe keine Kandidaten übrig, wird die zweite Filterstufe deaktiviert, so dass die einzigen verbleibenden Kandidatenports, sofern vorhanden, in der Adaptiven Auswahlstufe als hoch ausgelastet angesehen werden.
Ein Local Non-Minimal-Busy-Port-Filter wird in der Zielgruppe verwendet, um lokale Nicht-Minimal-Kandidatenports zu entfernen, die eine schlechte Wahl sind, weil sie zu stark belasteten Pfaden führen. In einer ersten Stufe dieses Filters werden Ports entfernt, die in dem indizierten Eintrag der Tabelle „Remote Switch Busy Local Port Table“ oder der Tabelle „Remote Switch Busy Global Port Table“ als besetzt markiert sind, wobei die verwendete Tabelle auf der CSR-Konfiguration basiert. In einer zweiten Stufe dieses Filters werden Ports entfernt, die in der oben genannten ls_busy_port_mask als besetzt markiert sind. Bleiben nach der zweiten Filterstufe keine Kandidaten übrig, wird die zweite Filterstufe deaktiviert, so dass die einzigen verbleibenden Kandidatenports, sofern vorhanden, in der Adaptiven Auswahlstufe als hoch ausgelastet angesehen werden.
Ein globaler Nicht-Minimal-BusyPort-Filter wird verwendet, wenn das globale Nicht-Minimal-Routing aktiviert ist, um Kandidaten für globale Nicht-Minimalpfad-Ports zu entfernen, die eine schlechte Wahl sind, weil sie zu stark belasteten Pfaden führen. Konkret werden globale Ports, die in der oben genannten gnmbgp_mask als besetzt markiert sind, und lokale Ports, die in der oben genannten gnmblp_mask als besetzt markiert sind, entfernt. Bleiben nach Anwendung dieser Masken keine Kandidaten übrig, werden beide Masken deaktiviert, so dass die einzigen verbleibenden Kandidatenports, falls vorhanden, in der adaptiven Auswahlphase als hoch belastet angesehen werden.
Unter der Voraussetzung, dass es mindestens einen gültigen Kandidatenport gibt, dürfen die verschiedenen Busy Port Filter (Busy Ports Filter, Local Non-Minimal (LN) Busy Port Filter, Global Non-Minimal (GN) Busy Port Filter) nicht alle Kandidatenports gemeinsam blockieren. Wenn es brauchbare Portkandidaten gibt, werden sie zugelassen, auch wenn sie „schlecht“ sind, wenn es keine bessere Wahl gibt. Andernfalls wird eine leere Routenantwort für die Routing-Anforderung erzeugt, wenn tatsächlich Routen verfügbar sind.
Um zu verhindern, dass eine falsche Antwort auf eine leere Route erzeugt wird, werden die erste Stufe des Filters für besetzte Ports des bevorzugten und des nicht bevorzugten minimalen Pfads ( und die erste Stufe des Filters für besetzte Ports des lokalen nicht minimalen Pfads ( werden alle deaktiviert, wenn die folgenden Bedingungen alle zutreffen: Kein Kandidat überlebt die erste Stufe des Filters für besetzte Ports des bevorzugten minimalen Pfads (Busy Ports Filter); kein Kandidat überlebt die erste Stufe des Filters für besetzte Ports des nicht bevorzugten minimalen Pfads (Busy Ports Filter); kein Kandidat überlebt die erste Stufe des Filters für besetzte Ports des lokalen nicht-minimalen Pfads (Local Non-Minimal (LN) Busy Port Filter); und kein Kandidat überlebt den Filter für besetzte Ports des globalen nicht-minimalen Pfads (Global NonMinimal (GN) Busy Port Filter).
Es ist zu beachten, dass es keine Kandidatenports für den minimalen Pfad gibt, wenn das minimale Routing deaktiviert ist (Filter für zulässige Ports). Lokale Nicht-Minimalpfad-Kandidatenports gibt es nur, wenn das lokale Nicht-Minimalpfad-Routing aktiviert ist (Lokale Nicht-Minimalpfad-Kandidatenports). Globale Nicht-Minimalpfad-Kandidaten gibt es nur, wenn das globale Nicht-Minimalpfad-Routing aktiviert ist (globale Nicht-Minimalpfad-Kandidatenports). Lokales und globales nicht-minimales Routing sind in der Regel nicht beide gleichzeitig aktiviert. Wenn die erste Stufe der Filter für besetzte Ports des bevorzugten und des nicht-bevorzugten minimalen Pfads sowie der Filter für besetzte Ports des lokalen nicht-minimalen Pfads aufgrund der oben beschriebenen Bedingungen deaktiviert sind, sind die einzigen Kandidatenports, die in einer adaptiven Auswahlstufe (wie unten beschrieben) zu sehen sind, schlechte Kandidaten, da es sich um Ports handelt, die zu anderen Switches führen, deren Ports (die mit der Zielgruppe oder dem Ziel-Switch verbunden sind) stark belastet sind. Dies liegt daran, dass dies die einzigen Kandidatenports sind, die von den deaktivierten Filtern blockiert wurden, und dass es ohne diese deaktivierten Filter keine anderen Kandidaten gibt.
Die adaptive Auswahlphase wählt zwischen diesen verbleibenden/überlebenden Kandidatenports, die alle schlecht sind, auf der Grundlage ihrer verzerrten lokalen Last, obwohl ihre lokale Last nicht unbedingt den Grund für ihre schlechte Qualität widerspiegelt. Ihre schlechten Eigenschaften können das Ergebnis einer hohen Downstream-Last auf bestimmten Ports der anderen Switches sein, die von diesen Kandidatenports erreicht werden. Da die adaptive Auswahlphase möglicherweise nicht erkennen kann, wie schlecht diese Kandidaten sind, kann die hier beschriebene Koordination zwischen den verschiedenen Besetzte-Ports-Filtern genutzt werden. Wenn jeder Besetzte-Ports-Filter unabhängig voneinander entscheidet, ob er seine RSBGP- und RSBLP-Tabellenbasierten Filter deaktiviert oder nicht, könnten Situationen wie die folgende auftreten. Der nicht bevorzugte Minimalpfad-Filter für besetzte Ports könnte einen oder mehrere Kandidaten erzeugen, die nicht schlecht sind, ohne dass eine seiner Filterstufen deaktiviert ist. Der bevorzugte Minimal Path Busy Port Filter könnte nur einen oder mehrere Kandidatenports erzeugen, wenn beide Filterstufen deaktiviert werden. Somit sind alle Kandidatenports, die er erzeugen kann, schlecht. In der adaptiven Auswahlphase werden die nach unten ausgewählten, nicht schlechten, nicht bevorzugten Minimalpfad-Kandidatenports mit den nach unten ausgewählten, schlechten, bevorzugten Minimalpfad-Kandidatenports verglichen. Der adaptiven Auswahlstufe fehlt jedoch der Überblick darüber, wie schlecht die bevorzugten Minimalpfadkandidaten sind, so dass sie möglicherweise einen schlechten bevorzugten Minimalpfadkandidaten gegenüber einem nicht schlechten nicht bevorzugten Minimalpfadkandidaten auswählt.
Eine Alternative zu dem hier beschriebenen Koordinierungsmechanismus der Filter für besetzte Ports wäre, dass alle Filter für besetzte Ports unabhängig voneinander agieren, aber dass die Filter für besetzte Ports auf dem minimalen Pfad und die lokalen Filter für besetzte Ports auf dem nicht-minimalen Pfad jeweils ein Signal an die adaptive Auswahlstufe weiterleiten, um anzuzeigen, ob ihre jeweiligen Portkandidaten aufgrund besetzter Ports an nachgeschalteten Switches eine schlechte Wahl sind. Wenn dies der Fall ist, kann die adaptive Auswahlfunktion die Priorität ihrer Portkandidaten zugunsten anderer Ports aufheben. Das Ergebnis wäre das gleiche wie die hier beschriebene Koordinierung zwischen den verschiedenen Filtern für besetzte Ports.
Wie in dargestellt, kann eine lastbasierte adaptive Auswahl an den verbleibenden Pfadkandidatenports 510 durchgeführt werden, die nach dem von der FRF-Komponente 400 durchgeführten Pseudo-Zufallsauswahlprozess übrig bleiben. Die adaptive Auswahlphase führt zu einem einzigen, am wenigsten belasteten Portkandidaten 512, an den ein Frame weitergeleitet werden kann, wobei die aktuelle Belastung der Portkandidaten, die die Pseudozufallsauswahl nach unten überlebt haben (überlebende Portkandidaten 508), verglichen wird, um den am wenigsten belasteten Portkandidaten aus dieser verbleibenden Gruppe von Portkandidaten zu bestimmen.
In einigen Ausführungsformen werden bevorzugte Minimalpfad-Kandidatenports gegenüber nicht bevorzugten Minimalpfad-Kandidatenports und Minimalpfad-Kandidatenports gegenüber Nicht-Minimalpfad-Kandidatenports bevorzugt ausgewählt. Um diese bevorzugte Auswahl zu erreichen, kann vor der Durchführung des adaptiven Auswahlvergleichs ein Vorspannungswert zur Last jedes Portkandidaten hinzugefügt werden. Der verwendete Bias-Wert kann mit Hilfe von CSRs konfiguriert werden und kann je nach Art des Pfades, auf den er angewendet wird (d. h. nicht bevorzugt minimal, bevorzugt minimal und nicht minimal), der Verkehrsklasse des zu leitenden Frames und der Position des Frames auf seinem Pfad variieren. Beispielsweise können Frames, die zu einer Verkehrsklasse mit niedriger Latenz gehören, stärker auf minimale Pfade ausgerichtet sein als Frames in anderen Verkehrsklassen, um eine größere Wahrscheinlichkeit zu haben, Anforderungen oder Bedürfnisse mit niedriger Latenz zu erfüllen. Frames können auch zunehmend auf Minimalpfad-Routen ausgerichtet sein, je näher die Frames an ihrem Ziel sind.
Insbesondere stellen die Auslastungswerte die Auslastung der Ports des Switches 202 dar und werden bei der Auswertung der auslastungsbasierten Portmasken und beim Vergleich der Kandidaten-Ports während des adaptiven Routenauswahlprozesses verwendet. Lastbasierte Portmasken werden in den Filtern für ausgelastete Ports verwendet, um Ports, die aufgrund der aktuellen Auslastung nicht in Frage kommen, aus der Menge der in Frage kommenden Ports zu entfernen. Es gibt eine Reihe verschiedener Arten von Lastwerten, die innerhalb des Switches verwendet werden, und einige werden an benachbarte Switch-Geräte übermittelt. Diese Lastwerte werden in den folgenden Abschnitten beschrieben, wobei zu beachten ist, dass veranschaulicht, wie die Lastwerte gemessen, übermittelt und verwendet werden.
Es werden mehrere Lastmetriken berechnet und verwendet, um zu bestimmen, an welchen Port ein Frame weitergeleitet werden soll, wenn es mehr als einen Port gibt, an den der Frame weitergeleitet werden kann. Die Lastmetriken werden auch bei der Erstellung von Besetzte-Ports-Masken verwendet, die, wie oben beschrieben, dazu dienen, stark ausgelastete Ports aus der Betrachtung herauszunehmen.
Es werden hier fünf Lastmetriken beschrieben: lokale Last, Gruppenlast, globale nichtminimale globale Portlast, mittlere globale Last und globale nicht-minimale lokale Portlast.
Was die lokale Last betrifft, so wird die Last jedes Ausgangsports eines Switches (z. B. der Ausgangsports 220c des Switches 202) kontinuierlich bewertet und der entsprechenden FRF-Instanz als 8-Bit-Wert local_load zur Verfügung gestellt. Größere Werte stehen für eine höhere Last. Die aktuelle Last, die an jedem Ausgangsport vorhanden ist, wird vom Ausgangssteuerungs-Alterswarteschlangenblock gemessen. Die Ausgangsportlast wird von jeder Alterswarteschlangeninstanz an die FRF-Instanz (der FRF-Komponente 400) weitergegeben, die mit der Eingangsseite desselben Ports verbunden ist. Der der FRF bereitgestellte Lastwert ist ein 8-Bit-Wert, der als local_load bezeichnet wird. Die Alterswarteschlange bestimmt die lokale Last auf der Grundlage einer Kombination aus dem Verkehrsaufkommen, das sich in der Warteschlange befindet und darauf wartet, den Port zu verlassen, und dem Verkehrsaufkommen, das sich auf der gegenüberliegenden Seite der Verbindung im Eingangspuffer des Verbindungspartner-Switch-Geräts befindet. Jede FRF-Instanz verteilt den local_load-Wert, den sie von ihrer zugehörigen Alterswarteschlangen-Instanz erhält, an alle anderen FRF-Instanzen. Auf diese Weise erfährt jede FRF-Instanz die aktuelle local_load eines jeden Ausgangsports.
Wenn die Portlasten von Kandidatenports verglichen werden, um den besten Port für die Weiterleitung eines Frames zu bestimmen, wird der local_load-Wert des Ports für Ports verwendet, die für das Minimalpfad-Routing in Frage kommen, und für Ports, die für das lokale Nicht-Minimalpfad-Routing in Frage kommen.
Die Gruppenlast ist ein Maß dafür, wie geeignet eine Dragonfly-Gruppe für die Verwendung als Zwischengruppe in einem globalen nicht-minimalen Pfad ist. Der 8-Bit-Wert für die Gruppenlast wird nicht von einem Switch, wie z. B. dem Switch 202, berechnet, sondern ist softwarekonfigurierbar. Die Software könnte bei der Ableitung des group_load-Werts ein Maß für die Netzwerkinjektionslast verwenden, die auf der Eingangsseite der Edge-Ports der Gruppe vorhanden ist, oder den group_load-Wert auf der Grundlage einer Richtlinie bestimmen, die die Verwendung bestimmter Gruppen als nichtminimale Zwischengruppen verhindert, vielleicht auf der Grundlage der in den Gruppen laufenden Aufträge oder Dienste. Der Wert group_load soll also repräsentativ für den Umfang des lokalen Verkehrs innerhalb einer Gruppe sein.
Ein Netzwerkverwaltungs-Stack setzt den group_load-Wert durch regelmäßiges Schreiben in ein CSR. Der per Software konfigurierte Wert für die Gruppenauslastung wird über globale Verbindungen kommuniziert. FRF-Instanzen, die mit globalen Verbindungen verbunden sind, leiten den group_load-Wert, den sie von ihrem Verbindungspartner in der Gruppe auf der gegenüberliegenden Seite der Verbindungerhalten, an alle anderen FRF-Instanzen im Switch weiter. Auf diese Weise erfährt jede FRF-Instanz die Gruppenlastwerte der Gruppen am gegenüberliegenden Ende jeder der vom Switch abgeschlossenen globalen Verbindungen.
Bei der globalen nichtminimalen globalen Portauslastung (gnmgp_load) handelt es sich um eine Metrik, mit der die Eignung eines globalen Ports für die Weiterleitung eines Frames an die Zwischengruppe, die von der mit dem globalen Port verbundenen globalen Verbindung erreicht wird, beurteilt wird. Die gnmgp_load ist nominell gleich dem Maximum aus dem local_load-Wert des globalen Ports und dem group_load-Wert, der von der Gruppe empfangen wird, die von der globalen Verbindung erreicht wird. Durch die CSR-Konfiguration kann jedoch die Komponente group_load ausgeschlossen werden.
Wenn die Portlasten von Kandidatenports verglichen werden, um den besten Port für die Weiterleitung eines Frames zu bestimmen, wird der gnmgp_load-Wert des Ports für globale Ports verwendet, die für globales Nicht-Minimalpfad-Routing in Frage kommen.
Die mittlere globale Last (mean_global_load) ist für die Beurteilung der Eignung eines Switches für das Erreichen einer Zwischengruppe, die direkt mit diesem Switch verbunden ist, vorgesehen. Der mean_global_load-Wert ist ein 8-Bit-Wert, der dem arithmetischen Mittelwert der gnmgp_load-Werte aller globalen Ports des Switches entspricht. Ports, die entweder von der Hardware oder der Software als nicht betriebsbereit eingestuft werden, werden von der Berechnung ausgeschlossen. Die in die mean_global_load-Berechnung einzubeziehenden Ports werden über die CSR-Konfiguration bestimmt.
Wenn für einen Port, dessen Last in die Berechnung von mean_global_load einfließt, kein group_load-Wert empfangen wird, weil entweder keine Verbindungspartnerdaten für diesen Port empfangen werden oder weil die empfangenen Verbindungspartnerdaten keine globalen Verbindungsdaten sind, basiert der Beitrag dieses Ports zur mean_global_load ausschließlich auf der lokalen Last dieses Ports. Der berechnete mean_global_load-Wert wird über lokale Verbindungen kommuniziert. FRF-Instanzen, die mit lokalen Verbindungen verbunden sind, leiten den mean_global_load-Wert, den sie von ihrem Verbindungspartner im lokalen Switch auf der anderen Seite der Verbindung erhalten, an alle anderen FRF-Instanzen in einem Switch weiter. Auf diese Weise erfährt jede FRF-Instanz die mean_global_load-Werte der lokalen Switches am gegenüberliegenden Ende jeder der lokalen Verbindungen, die von dem Switch abgeschlossen werden, und kann diese Werte bei der globalen nicht-minimalen Pfadauswahl verwenden.
Globale nicht-minimale lokale Port-Last-Metriken werden von jeder FRF-Instanz berechnet. Die globale nicht-minimale lokale Portauslastung (gnmlp_load) ist eine Metrik zur Beurteilung der Eignung eines lokalen Ports für die Weiterleitung eines Frames an eine Zwischengruppe eines globalen nicht-minimalen Pfads. Die globale nichtminimale lokale Portauslastung berücksichtigt die Auslastung des lokalen Ports sowie die Eignung des lokalen Gruppen-Switches, mit dem der Port verbunden ist, um eine Zwischengruppe zu erreichen. Der gnmlp_load-Wert eines Ports ist gleich dem Maximum aus der local_load des Ports und der mean_global_load, die vom Partner-Switch des Ports gemeldet wird. Durch Softwarekonfiguration ist es möglich, die Komponente mean_global_load zu entfernen, so dass die gnmlp_load eines Ports einfach gleich seiner local_load wird.
Der gnmlp_load-Wert ist ein 8-Bit-Wert. Jede FRF-Instanz berechnet den gnmlp_load-Wert für alle Ports ihres Switches, an denen Verbindungspartnerdaten für eine lokale Verbindung empfangen werden. Wenn vom Partner-Switch eines Ports keine Laststatusinformationen empfangen werden, wird der gnmlp_load-Wert für diesen Port gleich dem local_load-Wert des Ports gesetzt.
veranschaulicht beispielhafte Lastmessungen und wie die Lastmessung zwischen Switches in einer Gruppe ausgetauscht werden kann. zeigt eine Gruppe von Switches, z. B. Gruppe 1, die die Switches 602, 604 und 606 umfasst, von denen jeder eine Ausführungsform des Switches 202 ( ) sein kann. Gruppenlastwerte können, wie oben erwähnt, über globale Verbindungen ausgetauscht werden, und wie dargestellt, werden Gruppenlastwerte von jedem der Switches 602, 604 und 606 von anderen Gruppen/Switches in der Switch-Fabric übertragen/empfangen. Innerhalb der Gruppe 1 tauschen die Switches 602, 604 und 606 mean_global_load-Werte aus. Der Switch 602 zeigt auch, wie er gnmlp_load-Werte an der Ausgangsseite lokaler Ports berechnet, basierend auf local_load an diesem Port und mean_global_load, das vom Verbindungspartner gemeldet wird. Darüber hinaus werden die local_load-Werte am Ausgang aller Ports vom Switch 602 berechnet. Es ist zu beachten, dass die Werte für mean_global_load und group_load über die Verbindungen zwischen den angeschlossenen Switches symmetrisch von jedem Switch zum anderen gesendet werden.
Der in den vorangegangenen Unterabschnitten beschriebene Fabric-Routing-Prozess wird für jeden empfangenen Frame durchgeführt. Der Switch bestimmt je nach den Ordnungsanforderungen des Datenverkehrs, ob er ein paketweises adaptives Routing (unter Verwendung der empfohlenen Anschlusswahl) oder ein flussbasiertes adaptives Routing (wobei die für das erste Paket in jedem Fluss festgelegte Anschlusswahl für alle Pakete im Fluss verwendet wird) durchführt.
Wie hier beschrieben, unterstützt ein Switch, z. B. der Switch 202, das Routing über minimale und nicht-minimale Pfade. Es wird darauf hingewiesen, dass minimale Pfade auf dem Ziel basieren. Wenn eine Ziel-NIC lokal ist, wird ein Ausgangsport ausgewählt, der mit dem Ziel-Switch verbunden ist. Befindet sich das Ziel in einer anderen Gruppe, wird das Paket an einen Switch innerhalb der lokalen Gruppe weitergeleitet, der mit der Zielgruppe verbunden ist. In einem großen System gibt es vielleicht nur einen solchen Pfad, aber in einem kleinen System gibt es wahrscheinlich viele, von denen einige mit dem Eingangs-Switch und andere mit Switches an anderen Stellen innerhalb seiner Gruppe verbunden sind. Der Eingangs-Switch wählt zwischen ihnen aus.
Die für das Minimalpfad-Routing in Frage kommenden Ports werden in bevorzugte und nicht bevorzugte Ports unterteilt, wobei die bevorzugten Ports zu einem Pfad mit weniger Sprüngen führen können. Bei nicht-minimalen Pfaden werden die Pakete über einen zwischengeschalteten Switch geleitet, der als Root-Switch bezeichnet wird. Root-Switches werden je nach den Ordnungsanforderungen des Verkehrs paketweise oder flussweise ausgewählt.
Nicht-minimaler Verkehr wird „nach oben“ zum Root-Switch und dann minimal „nach unten“ zum Ziel geleitet. In einigen Ausführungsformen werden zwischengeschaltete Root-Switches nach dem Zufallsprinzip ausgewählt, um die Last gleichmäßig zu verteilen. Das Netzwerk, z. B. das Netzwerk 100, bietet die Möglichkeit, die Auswahl der Zwischengruppen zu steuern, so dass der Datenverkehr in Richtung der Zwischengruppen geleitet wird, von denen bekannt ist, dass sie wenig belastet sind, oder weg von denen, die eine bestimmte Funktion haben oder bekanntermaßen stark belastet sind. Root-Switches können über alle Gruppen verteilt sein, wobei ein nicht-minimaler Pfad einen Root-Switch in der Quellgruppe, der Zielgruppe oder einer beliebigen Zwischengruppe erkennen kann. Globale nicht-minimale Routen nehmen einen indirekten Weg über einen Root-Switch in einer Zwischengruppe. Diese Pfade erfordern zwei globale Hops, einen von der Quellgruppe zu einer Zwischengruppe und einen von der Zwischengruppe zur Zielgruppe. Globale nichtminimale Pfade erfordern bis zu drei lokale Sprünge, einen in jeder Gruppe. Die maximale Pfadlänge beträgt normalerweise fünf Switch-to-Switch-Hops, unabhängig von der Größe des Systems. Obwohl unwahrscheinlich, ist es möglich, bis zu zwei zusätzliche lokale Sprünge zu verwenden, um Störungen innerhalb des Netzwerks zu umgehen.
Das minimale Routing ist zu bevorzugen, da die Wege kürzer sind und somit die Belastung des Netzwerks geringer ist. Minimales Routing allein führt jedoch bei einigen Verkehrsmustern zu einer schlechten Leistung, z. B. wenn alle Knoten in einer Gruppe mit Knoten in einer anderen Gruppe kommunizieren. Um eine gute Leistung in einem breiten Spektrum von Verkehrsmustern zu erreichen, ist eine Mischung aus minimalem und nichtminimalem Routing erforderlich.
Bei jedem Hop entlang des Pfades eines Frames werden die Routing-Modi, die verwendet werden können, um den Frame entlang seines nächsten Hop weiterzuleiten, durch die Konfiguration der FRF-Routing-Algorithmus-Tabelle 408 gesteuert. Wenn ein Frame an einem Switch-Eingangsport empfangen wird, werden die Arten von Pfaden bestimmt, über die der Frame weitergeleitet werden kann: lokal minimal, global minimal, lokal nicht-minimal und global nicht-minimal. Die Menge der Ausgangsports, an die der Frame weitergeleitet werden kann, wird durch die Art der an diesem Punkt zulässigen Pfade bestimmt.
Welche Arten von Pfaden zulässig sind, hängt davon ab, wo sich der Frame auf seiner Reise zwischen den Eingangs- und Ausgangsports des Netzwerks befindet. Die Pfadarten sind wie folgt. Lokale Minimalpfade wählen Verbindungen, die direkt mit dem Ziel-Switch des Frames verbunden sind, und können verwendet werden, wenn sich der Frame in seiner Zielgruppe befindet. Globale Minimalpfade können verwendet werden, wenn sich der Frame nicht in seiner Zielgruppe befindet, und wählen entweder globale Verbindungen, die direkt mit der Zielgruppe des Frames verbunden sind, oder lokale Verbindungen, die mit einem Switch verbunden sind, der funktionierende globale Verbindungen hat, die direkt mit der Zielgruppe des Frames verbunden sind. Lokale nicht-minimale Pfade können verwendet werden, wenn sich der Frame in seiner Zielgruppe befindet, oder wenn der Frame in einer Zwischengruppe ist. Lokale nicht-minimale Pfade wählen lokale Verbindungen, die mit anderen Switches in der Gruppe verbunden sind, ohne Rücksicht auf das Ziel des Frames. Befindet sich der Frame in der Zielgruppe, muss es möglich sein, den Ziel-Switch des Frames innerhalb eines weiteren Sprungs zu erreichen, nachdem man den lokalen nicht-minimalen Sprung genommen hat. In einer Zwischengruppe muss es möglich sein, einen Switch mit einer funktionierenden globalen Verbindung, die zur Zielgruppe des Frames führt, innerhalb eines weiteren Sprungs zu erreichen, nachdem man den lokalen nicht-minimalen Sprung genommen hat. Lokale Verbindungen, die zu Switches führen, bei denen dies nicht möglich ist, dürfen nicht ausgewählt werden.
Globale nicht-minimale Pfade können verwendet werden, wenn sich der Frame in seiner Quellgruppe und nicht in seiner Zielgruppe befindet. Globale nicht-minimale Pfade wählen entweder globale Verbindungen, die mit anderen Gruppen verbunden sind, oder lokale Verbindungen, die mit anderen Switches in der Quellgruppe verbunden sind, ohne Rücksicht auf das Ziel des Frames. Globale Verbindungen dürfen nur ausgewählt werden, wenn sie mit einer Gruppe verbunden sind, die über funktionierende Verbindungen mit der Zielgruppe des Frames verbunden ist. Ebenso dürfen lokale Verbindungen nur dann ausgewählt werden, wenn sie mit Switches verbunden sind, die über globale Verbindungen verfügen, die ihrerseits eine gültige globale nicht-minimale Pfadwahl darstellen.
Das adaptive Routing wählt zwischen minimalen und nicht-minimalen Pfaden (wie oben beschrieben) entsprechend ihrer aktuellen Auslastung.
Beim Minimalrouting werden in der Zielgruppe, aber nicht am Ziel-Switch, lokale Minimalrouten erzeugt, indem das switch_id-Feld der Ziel-Fabric-Adresse in einer lokalen Switch-Minimaltabelle nachgeschlagen wird ( . Die Suche liefert eine Reihe gültiger Verbindungen. Die lokale Switch-Minimaltabelle enthält 128 Einträge mit jeweils 64 Bits, wobei jedes Bit für einen möglichen Ausgangsport steht. Am Ziel-Switch wird die Auswahl des Ausgangsports oder der Ports durch Nachschlagen im Feld endpoint_id der Ziel-Fabric-Adresse in der Lokal-Port-Minimaltabelle getroffen. Die Suche liefert eine Reihe gültiger Verbindungen. Die Lokal-Port-Minimaltabelle des lokalen Ports enthält 64 Einträge mit jeweils 64 Bits, wobei jedes Bit für einen möglichen Ausgangsport steht.
Globale Minimalrouten werden generiert, indem das Feld global_id der Fabric-Zieladresse in einer globalen Minimaltabelle nachgeschlagen wird ( . Die Suche liefert eine Reihe gültiger Verbindungen. Die globale Minimaltabelle enthält 512 Einträge mit jeweils 64 Bit, wobei jedes Bit für einen möglichen Ausgangsport steht.
Lokale Minimalpfade bestehen aus höchstens einem Switch-to-Switch-Sprung, vom Quell-Switch zum Ziel-Switch, die beide in derselben Gruppe liegen. Es kann mehrere solcher Pfade geben. Lokale nicht-minimale Pfade führen über zwei Switch-to-Switch-Sprünge, vom Quell-Switch zu einem Zwischen-Switch, dem so genannten Root-Switch, und von dort zum Ziel-Switch. Es gibt viele solcher Pfade.
Globale Minimalpfade benötigen einen globalen Hop von der Quellgruppe zur Zielgruppe. Es gibt höchstens einen lokalen Hop in jeder der Quell- und Zielgruppen. Globale Minimalpfade erfordern unabhängig von der Systemgröße maximal drei Switch-to-Switch-Sprünge.
In bestimmten Systemkonfigurationen, in denen es mehrere globale Verbindungen gibt, die eine Quellgruppe mit einer Zielgruppe verbinden, kann es zu einer Verzerrung kommen, so dass der Anteil des in die Quellgruppe eingespeisten Verkehrs, der auf jede der globalen Verbindungen verteilt wird, nicht gleich ist. Betrachten wir als Beispiel den Fall von Switch A, B und C, die alle zur Gruppe X gehören, wobei Switch B drei globale Verbindungen hat, die ihn mit der Gruppe V verbinden, und Switch C zwei globale Verbindungen, die ihn mit der Gruppe V verbinden. Wenn der an Switch A injizierte Verkehr, der für die Gruppe V bestimmt ist, gleichmäßig auf Switch Band C verteilt wird, wird jeder der beiden globalen Verbindungen von Switch C stärker belastet als jeder der drei globalen Verbindungen von Switch B.
Um der Verzerrung entgegenzuwirken, kann die globale Minimaltabelle in mehrere Blöcke unterteilt werden, von denen jeder in der Lage ist, einen gültigen Satz globaler Routing-Entscheidungen für eine beliebige Zielgruppe zu erzeugen. Der Block, der für die Bearbeitung der Anforderung verwendet wird, wird von der FRF pseudozufällig für jeden Frame ausgewählt. Innerhalb jeder Blockinstanz der Globalen Minimaltabelle wird nur eine Teilmenge der möglichen Kandidatenports, die zum Erreichen der Zielgruppe verwendet werden können, ausgefüllt. Die Teilmenge wird so gewählt, dass sie der Verzerrung entgegenwirkt. Die bestückten Teilmengen können über die verschiedenen Blockinstanzen hinweg variiert werden, so dass alle möglichen Kandidatenports genutzt werden können.
Ein globaler Minimalpfad zwischen einem Edge-Port in einer Gruppe und einem Edge-Port in einer anderen Gruppe kann einen, zwei oder drei Sprünge über Fabric-Verbindungen erfordern. Ein Sprung, wenn der Switch mit dem Ingress-Edge-Port in der Quellgruppe über eine globale Verbindung direkt mit dem Switch mit dem Egress-Edge-Port in der Zielgruppe verbunden ist. Zwei Sprünge, wenn der Frame eine globale Verbindung zwischen den beiden Gruppen durchläuft, die direkt mit dem Eingangs-Switch in der Quellgruppe oder mit dem Ausgangs-Switch in der Zielgruppe verbunden ist. In diesem Fall ist auch ein Hop über eine lokale Verbindung entweder in der Quell- oder in der Zielgruppe erforderlich. Schließlich sind drei Sprünge erforderlich, wenn der Frame eine globale Verbindung durchläuft, die weder mit dem Eingangs-Switch in der Quellgruppe noch mit dem Ausgangs-Switch in der Zielgruppe direkt verbunden ist. In diesem Fall ist sowohl in der Quell- als auch in der Zielgruppe ebenfalls ein Hop über eine lokale Verbindung erforderlich. Der lokale Verbindungs-Hop in der Quellgruppe bringt den Frame vom Ingress-Switch zum Quellgruppen-Switch, der mit der globalen Verbindung verbunden ist. Der lokale Verbindungs-Hop in der Zielgruppe bringt den Frame vom Zielgruppen-Switch, der mit der globalen Verbindung verbunden ist, zum Egress-Switch.
Bei der Identifizierung von Ports, die für einen Minimalpfad in Frage kommen, ist die FRF in der Lage, die Kandidaten in eine Gruppe bevorzugter und eine Gruppe nicht bevorzugter Ports einzuteilen. Die bevorzugten Ports sind diejenigen, die einen globalen Minimalpfad ermöglichen, der zwei oder weniger Fabric-Verbindungs-Hops erfordert. Die nicht bevorzugten Ports sind alle Kandidaten für einen minimalen Pfad, die nicht als bevorzugt eingestuft sind. Die Verwendung bevorzugter Pfade, sofern verfügbar und nicht zu stark belastet, reduziert die durchschnittliche Belastung der lokalen Fabric-Verbindungen des Systems, da sie die durchschnittliche Anzahl der pro Frame durchlaufenen lokalen Fabric-Verbindungen verringert. Die Verwendung eines bevorzugten Pfads kann auch die End-to-End-Latenzzeit des Frames verringern.
Beim lokalen nicht-minimalen Routing kann jede lokale Verbindung ein Kandidat sein. Einige lokale Verbindungen müssen jedoch unter Umständen ausgeschlossen werden, wenn sie zu einem Switch führen, von dem aus das Ziel aufgrund von Verbindungs- oder Switch-Ausfällen im System nicht erreicht werden kann. Ein CSR steuert, welche Ports für das lokale Non-Minimal Path Routing in Frage kommen.
Beim globalen nicht-minimalen Routing kann im Allgemeinen jede globale Verbindung ein Kandidat sein. Darüber hinaus kann im Allgemeinen jede lokale Verbindung, die einen Switch mit betriebsbereiten globalen Verbindungen erreicht, ein Kandidat sein. Es kann jedoch sein, dass einige Verbindungen nicht berücksichtigt werden können, wenn sie zu einem Switch oder einer Gruppe führen, von der aus die Zielgruppe aufgrund von Verbindungs- oder Switch-Ausfällen innerhalb des Systems nicht erreicht werden kann. CSRs steuern, welche Ports für das globale Nicht-Minimalpfad-Routing in Frage kommen.
Wenn bei der Auswahl eines Kandidatenports für das globale nicht-minimale Routing alle Kandidatenports, globale und lokale, mit gleicher Wahrscheinlichkeit ausgewählt werden, wird bei vielen Systemkonfigurationen der globale nicht-minimale Verkehr nicht gleichmäßig auf die die Gruppe verlassenden globalen Verbindungen verteilt. Betrachten wir zum Beispiel die Situation von drei Switches, A, B und C, innerhalb einer Gruppe, bei der jeder Switch mit jedem anderen Switch durch vier lokale Verbindungen verbunden ist, und Switch A und Switch B 14 globale Verbindungen und Switch C 16 globale Verbindungen abschließen. Wenn es gleich wahrscheinlich ist, dass er zu einer dieser Verbindungen geleitet wird, dann erhält jede globale Verbindung, die von Switch B abgeschlossen wird, nur 4/14 (4 lokale Verbindungen erreichen 14 globale Verbindungen) des Verkehrs, der zu jeder globalen Verbindung geleitet wird, die von Switch A abgeschlossen wird.
Um dieser potenziellen Verzerrung bei der Verteilung des globalen nichtminimalen Verkehrs auf die globalen Verbindungen einer Gruppe entgegenzuwirken, kann bei der pseudozufälligen Auswahl der globalen nichtminimalen Portkandidaten auf die kleine Anzahl von Ports, die an der adaptiven Routing-Phase teilnehmen, eine Gewichtung auf jeden der Portkandidaten angewandt werden, so dass einige mit größerer Wahrscheinlichkeit den Auswahlprozess überstehen als andere.
Das adaptive Routing wählt zwischen diesen minimalen und nicht-minimalen Pfaden auf der Grundlage ihrer Auslastung. Der adaptiv geroutete Verkehr beginnt auf einem minimalen Pfad und wird auf einen nicht-minimalen Pfad umgeleitet, wenn die Last auf dem minimalen Pfad hoch ist (dies wird als progressives adaptives Routing bezeichnet). Solche Pfade werden als „divergent“ bezeichnet.
Ein nicht-minimaler Pfad kann am Einspeisepunkt oder am Ausgangsrouter in einer Quellgruppe gewählt werden. Eine lokale nicht-minimale Route kann innerhalb der Quellgruppe, einer Zwischengruppe oder einer Zielgruppe gewählt werden. Dragonfly-Routing-Algorithmen erlauben einen nicht-minimalen Pfad sowohl in der Zwischen-als auch in der Zielgruppe (man denke an einen Fall, in dem der gesamte an den globalen Ports eines bestimmten Switches eingehende Verkehr für die NICs eines anderen Switches in der Gruppe bestimmt ist). Im Allgemeinen ist der nicht-minimale Verkehr jedoch so gut verteilt, dass dies nicht passiert, aber ein zusätzlicher Hop in der Zielgruppe kann immer noch von Vorteil sein, wenn ein Fehler auf einer lokalen Verbindung vorliegt. Nachdem das Paket die Zwischengruppe erreicht hat, kann es entweder eine minimale Route zur Zielgruppe oder eine lokale nicht-minimale Route zu einem Switch mit einem Pfad zur Zielgruppe nehmen.
Auch diese Entscheidung wird auf der Grundlage der Auslastung getroffen. Nachdem das Paket einen Sprung innerhalb der Zwischengruppe gemacht hat, muss es die Root erkennen und einen minimalen Pfad zum Ziel nehmen. Adaptive Entscheidungen werden auf der Grundlage der Last und einer Vorliebe für bevorzugte minimale, nicht bevorzugte minimale oder nicht minimale Pfade getroffen. Ein Routing-Algorithmus, wie oben beschrieben, erhöht die Neigung zu minimalen Pfaden, je näher ein Paket an seinem Ziel ist. Dieser Algorithmus bevorzugt einen direkten Weg über die Zwischengruppe, sofern die Last gering ist.
Eingeschränktes Routing wird an anderen Punkten als der Injektion und Root-Erkennung eingesetzt, um zu verhindern, dass Pakete in die Richtung zurückfließen, aus der sie gekommen sind. In einem Switch werden Fälle, in denen ein Paket einen Hop von den Punkten der Injektion und der Root-Erkennung gemacht hat, erkannt und sichergestellt, dass ein globaler Port genommen wird. Beim lokalen Minimal-Routing kommt das Paket, nachdem es einen Hop von der Root genommen hat, an einem Switch an, der mit der Ziel-NIC verbunden ist. Beim globalen Minimal-Routing kommt das Paket nach einem Hop vom Einspeisepunkt an einem Switch mit einer globalen Verbindung an, die genommen werden muss. In der Zwischengruppe dürfen die Pakete am Einspeisepunkt einen lokalen Hop machen. Von diesem Punkt an muss das Paket einen minimalen Weg zu seinem Ziel nehmen.
Bei der Weitergabe von Informationen von Switch zu Switch ist es notwendig, sofortige Entscheidungen über den nächsten Schritt auf dem Pfad zu treffen. Die Entscheidungen werden anhand von Informationen getroffen, die aus dem lokalen Status und von benachbarten Switches übermittelt werden. Die Verwendung von Informationen aus vielen verschiedenen Quellen ermöglicht genauere/effizientere Entscheidungen. Dazu gehören auch Informationen von Nachbarn.
Frühere Systeme übermittelten Informationen über die durchschnittliche Last von Switch zu Switch. Allerdings sind detailliertere Informationen von verwandten oder benachbarten Switches hilfreicher. Im aktuellen Switch-ASIC kann eine Reihe von Werten Informationen enthalten, die den Status von Ausgangsports verwandter/benachbarter Switches anzeigen. Durch die Weitergabe dieser Werte können wesentlich bessere Routing-Entscheidungen getroffen werden. In einem Beispiel wird ein Flag von benachbarten Switches zurückgegeben, wobei das Flag ein Bit für jeden Ausgangsport hat. Bei einem Switch mit 64 Ausgängen würde beispielsweise ein 64-Bit-Flag übertragen. Dies ist viel genauer als die einfache Weitergabe eines globalen Durchschnittswerts für benachbarte Ports.
zeigt ein Beispielszenario, bei dem die durchschnittliche Last als Grundlage für die Weiterleitung von Paketen in einer Switch-Fabric verwendet wird, die aus Quell-Switch 702, Ziel-Switch 708 und zwei möglichen Zwischen-Switches 704 und 706 besteht. Wie in dargestellt, kann der Quell-Switch 702 auf der Grundlage des hier beschriebenen adaptiven Routings zwei mögliche Zwischen-Switches (704 und 706) bestimmen, über die Pakete vom Quell-Switch 702 zum Ziel-Switch 708 geleitet werden können. Wenn adaptive Routing-Entscheidungen auf der durchschnittlichen Last der Zwischen-Switches 704 und 706 basieren, kann der Zwischen-Switch 704 in diesem Beispiel einen durchschnittlichen Lastwert von zwei haben, während der Zwischen-Switch 706 einen durchschnittlichen Lastwert von drei hat. Wenn die adaptiven Routing-Entscheidungen auf dem durchschnittlichen Lastwert basieren, würde der Quell-Switch 702 wählen, den Ziel-Switch 708 über den Zwischen-Switch 704 zu erreichen (d. h. die Route oder den Pfad 710). Die Verbindung zwischen dem Zwischen-Switch 704 und dem Ziel-Switch 708 kann jedoch ausgelastet sein, was sich, wie oben erwähnt, z. B. negativ auf die Latenzzeit auswirken kann.
Gemäß einer Ausführungsform kann, wie oben beschrieben, die Auslastung der Ports berücksichtigt werden. Das heißt, wie in dargestellt, kann die Auswahl von Portkandidaten und die adaptive Routenwahl auf der Auslastung basieren. Auch hier berücksichtigt die FRF-Komponente 400 drei Kategorien von Portkandidaten, an die ein Frame weitergeleitet werden kann: bevorzugte Minimalpfad-Kandidatenports 502; nicht bevorzugte Minimalpfad-Kandidatenports 504; und Nicht-Minimalpfad-Kandidatenports 506. Je nachdem, wo sich ein Frame auf seinem Weg befindet, sind Nicht-Minimalpfad-Kandidatenports entweder globale, Nicht-Minimalpfad-Kandidatenports oder lokale Nicht-Minimalpfad-Kandidatenports.
Die Filterung kann auf die drei Kategorien von Portkandidaten angewandt werden, z. B. auf die Filterung betriebsbereiter Ports, die Filterung nutzbarer Ports und die Filterung besetzter Ports. Die hier angewandte Port-Filterung kann verwendet werden, um die Menge der gültigen Ports, die als Pfadkandidaten in Frage kommen, zu reduzieren, indem abwesende und/oder fehlerhafte und/oder besetzte Ports identifiziert und entfernt werden.
Im Beispiel von kann die Filterung besetzter Ports dazu führen, dass ein anderer Pfad für die Weiterleitung von Frame vom Quell-Switch 702 zum Ziel-Switch 708 gewählt wird. Auch hier kann das Wissen darüber, welche Ports in einem benachbarten Switch (in diesem Beispiel die Zwischen-Switches 704 und 706) besetzt sind, verwendet werden, um zu bestimmen, ob die Ports, die mit einem benachbarten Switch verbunden sind, schlechte Kandidaten für den Empfang eines Frames sind, je nachdem, ob der benachbarte Switch den Frame anschließend an einen Port weiterleiten muss, der bereits besetzt ist. Dementsprechend kann die Filterung besetzter Ports von der FRF-Komponente 400 durchgeführt werden, indem Masken für besetzte Ports verwendet werden, um stark belastete Ports von der Betrachtung als Kandidatenports auszuschließen. Die FRF-Komponente 400 verwaltet vier Masken für besetzte Ports, d. h. Ports, deren Auslastung einen softwaredefinierten Schwellenwert überschreitet: lokale Switch-Besetzte-Ports-Maske; globale Nicht-Minimal-Besetzte-Globale-Ports-Maske; globale Nicht-Minimal-Besetzte-Lokale-Ports-Maske und Fern-Switch-Besetzte-Ports-Maske. Die Informationen aus diesen Masken werden zwischen den Switches ausgetauscht, um den entfernten Switch zu füllen.
Hier kann eine lokale Switch-Besetzte-Ports-Maske sowohl auf Minimalpfad-Kandidatenports als auch auf lokale Nicht-Minimalpfad-Kandidatenports angewendet werden, z. B. auf Ausgangs-Ports von Zwischen-Switches 704 und 706. Die FRF-Komponente 400 erzeugt eine 64-Bit-Maske ls_busy_port_mask, indem sie die local_load jedes Ports mit einem softwaredefinierten Schwellenwert vergleicht. Ports, deren Auslastung höher ist als dieser Schwellenwert, werden in dieser Maske als besetzt markiert. In diesem Beispiel erfüllen oder überschreiten die an den Ziel-Switch 708 gerichteten Ausgangsports des Zwischen-Switch 704 den für die Switch-Fabric festgelegten Software-Schwellenwert. Daher zeigt die Maske ls_busy_port_mask an, dass die Verbindung vom Zwischen-Switch 704 zum Ziel-Switch 708 besetzt ist. Die Ausgangsports des Zwischen-Switches 706 zum Ziel-Switch 708 werden dagegen nicht mit der ls_busy_port_mask gekennzeichnet, da der Schwellenwert für die Auslastung nicht erreicht/überschritten wird, was bedeutet, dass die Verbindung zwischen dem Zwischen-Switch 706 und dem Ziel-Switch 708 nicht ausgelastet, sondern ruhig ist.
Basierend auf der Belegt-Maske, die anzeigt, dass die Verbindung zwischen den Zwischen-Switches 704 und 708 besetzt ist, wird der Ausgangsport des Zwischen-Switches 704, der mit einem Eingangsport des Ziel-Switches 708 verbunden ist, als schlechter Kandidat angesehen und aus der Betrachtung entfernt. Dementsprechend und im Gegensatz zum Szenario von , bei dem die Route 710 auf der Grundlage der durchschnittlichen Auslastung ausgewählt wird, wird die Route oder der Pfad 712 ausgewählt, um ein oder mehrere Frames vom Quell-Switch 702 über den Zwischen-Switch 706 und weiter zu seinem Ziel, d. h. dem Ziel-Switch 708, zu leiten. Es versteht sich von selbst, dass der ruhige Verbindungszustand zwischen dem Zwischen-Switch 706 und dem Ziel-Switch 708 die bessere Wahl ist, um Frame von der Quelle 702 weiterzuleiten, obwohl die durchschnittliche Last höher ist.
In ähnlicher Weise kann die FRF-Komponente 400, wie oben erwähnt, die empfangenen Fern-Switch-Besetzte-Ports-Masken verwenden, um die oben erwähnte Fern-SwitchBesetzte-Globale-Ports-Tabelle und die Fern-Switch-Besetzte-Lokale-Ports-Tabelle" mit Besetzte-Ports-Masken zu erzeugen, die Ports identifizieren, die mit benachbarten Switches verbunden sind, die als globale Minimalpfad-Kandidaten auf der Grundlage der Zielgruppe, zu der der Frame geroutet wird, und als lokale Nicht-Minimalpfad-Kandidaten auf der Grundlage des Ziel-Switch, zu dem der Frame geroutet wird, vermieden werden sollten. So kann die rs_busy_port_mask auch verwendet werden, um Ports zu identifizieren, die mit benachbarten Switches verbunden sind, die in Übereinstimmung mit einigen Ausführungsformen besetzt oder ruhig sein können. Im Beispiel von kann ein Eingangsport des Ziel-Switch 708 durch die darauf angewendeten rs_busy_port_masks als besetzt gelten. Solche Ports können beim Routing im Ziel-Switch auf der Grundlage des Ziel-Switch, zu dem der Frame geleitet wird, als lokale nicht-minimale Pfadkandidaten vermieden werden.
ist ein Flussdiagramm, das Beispieloperationen veranschaulicht, die durchgeführt werden können, um eine adaptive Routen- oder Pfadauswahl gemäß einer Ausführungsform der offenbarten Technologie zu bewirken. Wie oben erwähnt, kann der Switch 202 ein ASIC sein, so dass eine oder mehrere elektronische Schaltungen, die elektronische Komponenten enthalten, zur Steuerung oder Instanziierung der FRF-Komponente 400 ( vorgesehen sind, indem die offenbarten Beispieloperationen ausgeführt werden.
Bei Operation 800 wird eine Mehrzahl von Lastsignalen von einer Mehrzahl von benachbarten Switches empfangen, wobei jedes der Mehrzahl von Lastsignalen einen Satz von Werten umfasst, die eine Last an jedem der Mehrzahl von benachbarten Switches anzeigen, die das Lastsignal bereitstellen, wobei jeder Wert innerhalb des Satzes von Werten eine Anzeige für jede Verbindung der Mehrzahl von daran angeschlossenen Verbindungen bereitstellt, ob die Verbindung besetzt oder ruhig ist. Wie oben beschrieben, kann ein Switch, z. B. der Switch 202, eine Mehrzahl von Ports haben (64 Ports in einigen Ausführungsformen). Pakete können zwischen Eingangs- und Ausgangsports eines Switches zu einem anderen oder mehreren Switches (die jeweils ihre eigenen Eingangs- und Ausgangsports haben) weitergeleitet werden. Die Weiterleitung von Paketen zwischen Switches kann in Übereinstimmung mit bestimmten Merkmalen der Switches erfolgen, die die Pakete auf dem Weg von einem Quell-Switch zu einem Ziel-Switch durchlaufen können.
Zwischen dem Quell- und dem Ziel-Switch können sich ein oder mehrere Zwischen-Switches befinden. Um einen Pfad auszuwählen, werden die Ports der Switches, die das Paket durchqueren kann, gefiltert, um bestimmte Pfadkandidatenports zu identifizieren, die wünschenswerte Eigenschaften aufweisen, z. B. in Bezug darauf, wie ausgelastet sie in Bezug auf den Verkehr sind, der durch die Ports läuft. Dementsprechend wird ein adaptives Routing durchgeführt, indem auf der Grundlage der Last (ein Hinweis auf die Auslastung), die mit einem Kandidatenport verbunden ist, bestimmt wird, ob das Paket einen Pfad durchlaufen sollte, der einen Kandidatenport eines Switches, z. B. eines Zwischen-Switches, einschließt oder nicht. In einigen Ausführungsformen wird die lokale Last mit einem Schwellenwert verglichen, der durch die CSR-Konfiguration festgelegt werden kann, und Ports können ausgeschlossen werden, je nachdem, ob die lokale Last diesen Schwellenwert unter- oder überschreitet.
Bei Operation 802 wird auf der Grundlage der mehreren Lastsignale eine Ausgangsverbindung für die Weiterleitung eines empfangenen Pakets ausgewählt und das empfangene Paket über die ausgewählte Ausgangsverbindung weitergeleitet. Das heißt, dass eine Maske auf diejenigen Ports angewendet werden kann, deren lokale Last den Schwellenwert übersteigt, d. h., diese Ports werden in dieser Maske als besetzt markiert. Es versteht sich von selbst, dass in Übereinstimmung mit anderen Ausführungsformen auch andere Masken für besetzte Ports angewendet werden können, z. B. eine globale Nicht-Minimal-Besetzte-Globale-Ports-Maske, eine globale Maske für nicht minimal besetzte lokale Ports oder eine zielgruppenabhängige Maske für besetzte Ports, je nach den Umständen. Beispielsweise kann eine zielgruppenabhängige Besetzte-Ports-Maske, die aus einer globalen Besetzte-Ports-Tabelle eines entfernten Switches gewonnen wird, auf globale Minimalpfad-Kandidatenports angewendet werden. Dementsprechend kann eine zielgruppenabhängige Besetzte-Ports-Maske, die aus einer Besetzte-Lokale-Ports-Tabelle eines entfernten Switches gewonnen wird, auf lokale Kandidatenports für nicht-minimale Pfade angewendet werden, wenn ein Frame in seiner Zielgruppe geroutet wird. Die Verwendung von Auslastungsinformationen muss sich also nicht auf die Bestimmung der Ports von Zwischen-Switches beschränken. Wenn ein Port in einer Besetzte-Ports-Maske als besetzt markiert wird, kann dieser Port entfernt oder als Kandidat ausgeschlossen werden. Wie in dargestellt und oben beschrieben, kann die lastbasierte adaptive Auswahl die überlebenden Kandidatenports auf einen am wenigsten belasteten Kandidatenport eingrenzen. Ein Pfad, über den das Paket geleitet wird, kann so ausgewählt werden, dass er diesen am wenigsten ausgelasteten Port einschließt, und das Paket wird schließlich über den ausgewählten Port aus der Mehrzahl der Switch-Ports geleitet.
Es sollte beachtet werden, dass die Begriffe „optimieren“, „optimal“ und dergleichen, wie sie hier verwendet werden, so verwendet werden können, dass sie die Leistung so effektiv oder perfekt wie möglich machen oder erreichen. Wie jedoch ein Fachmann, der dieses Dokument liest, erkennen wird, kann Perfektion nicht immer erreicht werden. Dementsprechend können diese Begriffe auch bedeuten, die Leistung so gut oder effektiv wie unter den gegebenen Umständen möglich oder praktikabel zu machen oder zu erreichen, oder die Leistung besser zu machen oder zu erreichen als die, die mit anderen Einstellungen oder Parametern erreicht werden kann.
zeigt ein Blockdiagramm eines Beispiel-Computersystems 900, in dem verschiedene der hier beschriebenen Ausführungsformen implementiert werden können. Das Computersystem 900 umfasst einen Bus 902 oder einen anderen Kommunikationsmechanismus zur Übermittlung von Informationen, einen oder mehrere Hardware-Prozessoren 904, die mit dem Bus 902 zur Verarbeitung von Informationen verbunden sind. Der/die Hardware-Prozessor(en) 904 kann/können z. B. ein oder mehrere Allzweck-Mikroprozessoren sein.
Das Computersystem 900 umfasst auch einen Hauptspeicher 906, wie z. B. einen Speicher mit wahlfreiem Zugriff (RAM), einen Cache und/oder andere dynamische Speichergeräte, die mit dem Bus 902 verbunden sind, um Informationen und Anweisungen zu speichern, die vom Prozessor 904 ausgeführt werden sollen. Der Hauptspeicher 906 kann auch zum Speichern temporärer Variablen oder anderer Zwischeninformationen während der Ausführung von Anweisungen verwendet werden, die vom Prozessor 904 ausgeführt werden sollen. Wenn solche Anweisungen in Speichermedien gespeichert werden, auf die der Prozessor 904 zugreifen kann, wird das Computersystem 900 zu einer Spezialmaschine, die so angepasst ist, dass sie die in den Anweisungen angegebenen Operationen ausführt.
Das Computersystem 900 umfasst außerdem einen Festwertspeicher (ROM) 908 oder ein anderes statisches Speichergerät, das mit dem Bus 902 verbunden ist, um statische Informationen und Anweisungen für den Prozessor 904 zu speichern. Ein Speichergerät 910, wie z. B. eine Magnetplatte, eine optische Platte oder ein USB-Stick (Flash-Laufwerk) usw., ist vorgesehen und mit dem Bus 902 verbunden, um Informationen und Anweisungen zu speichern.
Das Computersystem 900 kann über den Bus 902 mit einem Display 912, z. B. einer Flüssigkristallanzeige (LCD) (oder einem Berührungsbildschirm), verbunden sein, um einem Computerbenutzer Informationen anzuzeigen. Ein Eingabegerät 914, einschließlich alphanumerischer und anderer Tasten, ist mit dem Bus 902 gekoppelt, um Informationen und Befehlsauswahlen an den Prozessor 904 zu übermitteln. Eine andere Art von Benutzereingabegerät ist die Cursorsteuerung 916, wie z. B. eine Maus, ein Trackball oder Cursorrichtungstasten zur Übermittlung von Richtungsinformationen und Befehlsauswahlen an den Prozessor 904 und zur Steuerung der Cursorbewegung auf dem Display 912. In einigen Ausführungsformen können die gleichen Richtungsinformationen und Befehlsauswahlen wie bei der Cursorsteuerung über den Empfang von Berührungen auf einem Touchscreen ohne Cursor implementiert werden.
Das Computersystem 900 kann ein Benutzerschnittstellenmodul zur Implementierung einer grafischen Benutzeroberfläche enthalten, das in einem Massenspeichergerät als ausführbare Softwarecodes gespeichert werden kann, die von dem/den Computergerät(en) ausgeführt werden. Dieses und andere Module können beispielsweise Komponenten wie Softwarekomponenten, objektorientierte Softwarekomponenten, Klassenkomponenten und Aufgabenkomponenten, Prozesse, Funktionen, Attribute, Prozeduren, Unterprogramme, Segmente von Programmcode, Treiber, Firmware, Mikrocode, Schaltkreise, Daten, Datenbanken, Datenstrukturen, Tabellen, Arrays und Variablen umfassen.
Im Allgemeinen kann sich der hier verwendete Begriff „Komponente“, „Engine“, „System“, „Datenbank“, „Datenspeicher“ und dergleichen auf eine in Hardware oder Firmware verkörperte Logik oder auf eine Sammlung von Softwareanweisungen beziehen, die möglicherweise Ein- und Ausstiegspunkte haben und in einer Programmiersprache wie z. B. Java, C oder C++ geschrieben sind. Eine Softwarekomponente kann kompiliert und zu einem ausführbaren Programm verknüpft werden, in einer dynamischen Verbindungs-Bibliothek installiert werden oder in einer interpretierten Programmiersprache wie BASIC, Perl oder Python geschrieben sein. Es ist klar, dass Softwarekomponenten von anderen Komponenten oder von sich selbst aus aufgerufen werden können und/oder als Reaktion auf erkannte Ereignisse oder Unterbrechungen aufgerufen werden können. Softwarekomponenten, die für die Ausführung auf Computergeräten konfiguriert sind, können auf einem computerlesbaren Medium, wie z. B. einer Compact Disc, einer digitalen Videodisc, einem Flash-Laufwerk, einer Magnetplatte oder einem anderen greifbaren Medium, oder als digitaler Download bereitgestellt werden (und können ursprünglich in einem komprimierten oder installierbaren Format gespeichert sein, das vor der Ausführung eine Installation, Dekomprimierung oder Entschlüsselung erfordert). Ein solcher Softwarecode kann teilweise oder vollständig in einem Speicher des ausführenden Computergeräts zur Ausführung durch das Computergerät gespeichert werden. Softwareanweisungen können in Firmware, wie z. B. einem EPROM, eingebettet sein. Darüber hinaus können die Hardwarekomponenten aus verbundenen Logikeinheiten wie Gattern und Flipflops und/oder aus programmierbaren Einheiten wie programmierbaren Gatteranordnungen oder Prozessoren bestehen.
Das Computersystem 900 kann die hierin beschriebenen Techniken unter Verwendung von kundenspezifischer festverdrahteter Logik, einem oder mehreren ASICs oder FPGAs, Firmware und/oder Programmlogik implementieren, die in Kombination mit dem Computersystem bewirkt oder programmiert, dass das Computersystem 900 eine Spezialmaschine ist. Gemäß einer Ausführungsform werden die hierin beschriebenen Techniken vom Computersystem 900 als Reaktion auf den/die Prozessor(en) 904 ausgeführt, der/die eine oder mehrere Sequenzen von einem oder mehreren Anweisungen ausführt/ausführen, die im Hauptspeicher 906 enthalten sind. Solche Anweisungen können in den Hauptspeicher 906 von einem anderen Speichermedium, wie z. B. dem Speichergerät 910, eingelesen werden. Die Ausführung der im Hauptspeicher 906 enthaltenen Anweisungssequenzen veranlasst den/die Prozessor(en) 904, die hierin beschriebenen Verfahrensschritte auszuführen. In alternativen Ausführungsformen können fest verdrahtete Schaltungen anstelle von oder in Kombination mit Softwareanweisungen verwendet werden.
Der Begriff „nichttransitorische Medien“ und ähnliche Begriffe, wie sie hier verwendet werden, beziehen sich auf alle Medien, die Daten und/oder Anweisungen speichern, die eine Maschine in einer bestimmten Weise arbeiten lassen. Solche nichttransitorischen Medien können nichtflüchtige Medien und/oder flüchtige Medien umfassen. Zu den nichtflüchtigen Medien gehören beispielsweise optische oder magnetische Festplatten, wie die Speichervorrichtung 910. Zu den flüchtigen Medien gehören dynamische Speicher, wie der Hauptspeicher 906. Zu den gängigen Formen nichtflüchtiger Medien gehören beispielsweise Disketten, flexible Platten, Festplatten, Solid-State-Laufwerke, Magnetbänder oder andere magnetische Datenspeichermedien, CD-ROMs, andere optische Datenspeichermedien, physische Medien mit Lochmustern, RAM, PROM und EPROM, FLASH-EPROM, NVRAM, andere Speicherchips oder -kassetten sowie deren vernetzte Versionen.
Nichttransitorische Medien unterscheiden sich von Übertragungsmedien, können aber in Verbindung mit ihnen verwendet werden. Übertragungsmedien sind an der Übertragung von Informationen zwischen nichttransitorischen Medien beteiligt. Zu den Übertragungsmedien gehören z. B. Koaxialkabel, Kupfer- und Glasfaserkabel, einschließlich der Drähte, aus denen der Bus 902 besteht. Übertragungsmedien können auch in Form von Schall- oder Lichtwellen auftreten, wie sie bei der Datenkommunikation über Funk und Infrarot erzeugt werden.
Das Computersystem 900 umfasst auch eine Kommunikationsschnittstelle 918, die mit dem Bus 902 verbunden ist. Die Netzwerkschnittstelle 918 stellt eine Zwei-Wege-Datenkommunikationsverbindung zu einer oder mehreren Netzwerkverbindungen her, die mit einem oder mehreren lokalen Netzwerken verbunden sind. Bei der Kommunikationsschnittstelle 918 kann es sich beispielsweise um eine ISDN-Karte (Integrated Services Digital Network), ein Kabelmodem, ein Satellitenmodem oder ein Modem handeln, um eine Datenkommunikationsverbindung zu einer entsprechenden Art von Telefonleitung herzustellen. Ein weiteres Beispiel: Die Netzwerkschnittstelle 918 kann eine LAN-Karte (Local Area Network) sein, um eine Datenkommunikationsverbindung zu einem kompatiblen LAN (oder einer WAN-Komponente für die Kommunikation mit einem WAN) herzustellen. Es können auch drahtlose Verbindungen implementiert werden. In jeder dieser Implementierungen sendet und empfängt die Netzwerkschnittstelle 918 elektrische, elektromagnetische oder optische Signale, die digitale Datenströme übertragen, die verschiedene Arten von Informationen darstellen.
Eine Netzwerkverbindung ermöglicht in der Regel die Datenkommunikation über ein oder mehrere Netzwerke zu anderen Datengeräten. So kann eine Netzwerkverbindung beispielsweise eine Verbindung über ein lokales Netzwerk zu einem Host-Computer oder zu Datengeräten eines Internetdienstanbieters (ISP) herstellen. Der ISP wiederum bietet Datenkommunikationsdienste über das weltweite Paketdatenkommunikationsnetz an, das heute gemeinhin als „Internet“ bezeichnet wird. Sowohl das lokale Netzwerk als auch das Internet verwenden elektrische, elektromagnetische oder optische Signale, die digitale Datenströme übertragen. Die Signale über die verschiedenen Netzwerke und die Signale auf der Netzwerkverbindung und über die Kommunikationsschnittstelle 918, die die digitalen Daten zum und vom Computersystem 900 übertragen, sind Beispiele für Übertragungsmedien.
Das Computersystem 900 kann über das/die Netzwerk(e), die Netzwerkverbindung und die Kommunikationsschnittstelle 918 Nachrichten senden und Daten, einschließlich Programmcode, empfangen. Im Internet-Beispiel könnte ein Server einen angeforderten Code für ein Anwendungsprogramm über das Internet, den ISP, das lokale Netzwerk und die Kommunikationsschnittstelle 918 übertragen.
Der empfangene Code kann vom Prozessor 904 bei seinem Empfang ausgeführt und/oder in der Speichervorrichtung 910 oder einem anderen nichtflüchtigen Speicher zur späteren Ausführung gespeichert werden.
Jeder der in den vorstehenden Abschnitten beschriebenen Prozesse, Methoden und Algorithmen kann in Code-Komponenten verkörpert und vollständig oder teilweise durch diese automatisiert werden, die von einem oder mehreren Computersystemen oder Computerprozessoren mit Computerhardware ausgeführt werden. Das eine oder die mehreren Computersysteme oder Computerprozessoren können auch so betrieben werden, dass sie die Ausführung der entsprechenden Vorgänge in einer „Cloud Computing“-Umgebung oder als „Software as a Service“ (SaaS) unterstützen. Die Prozesse und Algorithmen können teilweise oder vollständig in anwendungsspezifischen Schaltkreisen implementiert sein. Die verschiedenen oben beschriebenen Merkmale und Verfahren können unabhängig voneinander verwendet oder auf verschiedene Weise kombiniert werden. Verschiedene Kombinationen und Unterkombinationen sollen in den Anwendungsbereich dieser Offenbarung fallen, und bestimmte Verfahrens- oder Prozessblöcke können in einigen Implementierungen weggelassen werden. Die hier beschriebenen Methoden und Prozesse sind auch nicht auf eine bestimmte Reihenfolge beschränkt, und die damit verbundenen Blöcke oder Zustände können in anderen geeigneten Reihenfolgen, parallel oder auf andere Weise ausgeführt werden. Blöcke oder Zustände können zu den offenbarten Beispielen hinzugefügt oder aus ihnen entfernt werden. Die Ausführung bestimmter Operationen oder Prozesse kann auf Computersysteme oder Computerprozessoren verteilt werden, die sich nicht nur in einer einzigen Maschine befinden, sondern über eine Reihe von Maschinen verteilt sind.
Wie hierin verwendet, kann eine Schaltung in jeder Form von Hardware, Software oder einer Kombination davon implementiert werden. Beispielsweise können ein oder mehrere Prozessoren, Controller, ASICs, PLAs, PALs, CPLDs, FPGAs, logische Komponenten, Software-Routinen oder andere Mechanismen implementiert werden, um eine Schaltung zu bilden. Bei der Implementierung können die verschiedenen hier beschriebenen Schaltungen als diskrete Schaltungen implementiert werden, oder die beschriebenen Funktionen und Merkmale können teilweise oder insgesamt auf eine oder mehrere Schaltungen aufgeteilt werden. Auch wenn verschiedene Merkmale oder Funktionselemente einzeln als separate Schaltungen beschrieben oder beansprucht werden, können diese Merkmale und Funktionen von einer oder mehreren gemeinsamen Schaltungen gemeinsam genutzt werden, und eine solche Beschreibung soll nicht voraussetzen oder implizieren, dass separate Schaltungen erforderlich sind, um diese Merkmale oder Funktionen zu implementieren. Wenn eine Schaltung ganz oder teilweise mit Software implementiert ist, kann diese Software so implementiert werden, dass sie mit einem Computer- oder Verarbeitungssystem arbeitet, das in der Lage ist, die in Bezug darauf beschriebene Funktionalität auszuführen, wie z. B. das Computersystem 900.
Wie hierin verwendet, kann der Begriff „oder“ sowohl im einschließenden als auch im ausschließenden Sinne verstanden werden. Darüber hinaus ist die Beschreibung von Ressourcen, Vorgängen oder Strukturen im Singular nicht so zu verstehen, dass der Plural ausgeschlossen wird. Bedingte Ausdrücke, wie z. B. „kann“, „könnte“, „könnten“ oder „darf“, sollen im Allgemeinen vermitteln, dass bestimmte Ausführungsformen bestimmte Merkmale, Elemente und/oder Schritte einschließen, während andere Ausführungsformen diese nicht einschließen, es sei denn, es ist ausdrücklich etwas anderes angegeben oder im Zusammenhang mit der Verwendung anders zu verstehen.
Die in diesem Dokument verwendeten Begriffe und Ausdrücke sowie deren Abwandlungen sind, sofern nicht ausdrücklich etwas anderes angegeben ist, nicht als einschränkend, sondern als offen zu verstehen. Adjektive wie „konventionell“, „traditionell“, „normal“, „Standard“, „bekannt“ und Begriffe mit ähnlicher Bedeutung sind nicht so zu verstehen, dass sie den beschriebenen Gegenstand auf einen bestimmten Zeitraum oder auf einen zu einem bestimmten Zeitpunkt verfügbaren Gegenstand beschränken, sondern sollten so verstanden werden, dass sie konventionelle, traditionelle, normale oder Standardtechnologien umfassen, die jetzt oder zu einem beliebigen Zeitpunkt in der Zukunft verfügbar oder bekannt sein können. Das Vorhandensein erweiternder Wörter und Ausdrücke wie „eine oder mehrere“, „mindestens“, „aber nicht beschränkt auf“ oder ähnliche Ausdrücke in einigen Fällen ist nicht so zu verstehen, dass der engere Fall beabsichtigt oder erforderlich ist, wenn solche erweiternden Ausdrücke nicht vorhanden sind.

Claims

Verfahren zum Weiterleiten von Daten zwischen einer Mehrzahl von Switches (102, 104, 106, 108, 110, 202, 602, 604, 606, 702, 704, 706, 708) mit einer Mehrzahl von Verbindungen, die zwischen der Mehrzahl von Switches angeschlossen sind, wobei das Verfahren umfasst: an einem Switch, Empfangen einer Mehrzahl von Lastsignalen von einer Mehrzahl von benachbarten Switches, wobei jedes der Mehrzahl von Lastsignalen einen Satz von Werten umfasst, die eine Last an jedem der Mehrzahl von benachbarten Switches anzeigen, die das Lastsignal bereitstellen, wobei jeder Wert innerhalb des Satzes von Werten eine Anzeige für jede Verbindung der Mehrzahl von daran angeschlossenen Verbindungen bereitstellt, ob die Verbindung besetzt oder ruhig ist, wobei die Anzeige, ob die Verbindung besetzt ist, eine Fern-Switch--Besetzte-Ports-Maske umfasst, die Ports der benachbarten Switches charakterisiert, wobei eine oder mehrere der Fern-Switch-Besetzte-Port-Masken transformiert werden, um Einträge einer Fern-Switch-Besetzte-Globale-Ports-Tabelle zu bilden, und eine oder mehrere der Fern-Switch-Besetzte-Ports-Masken transformiert werden, um Einträge einer Fern-Switch-Besetzte-Lokale-Ports-Tabelle zu bilden, wobei die Fern-Switch-Besetzte-Ports-Masken von den benachbarten Switches empfangen werden; und basierend auf der Mehrzahl von Lastsignalen, Auswahl einer Ausgangsverbindung zum Routen eines empfangenen Pakets und Routen des empfangenen Pakets über die ausgewählte Ausgangsverbindung.
Verfahren nach Anspruch 1, wobei der Switch einen Quell-Switch (702) umfasst.
Verfahren nach Anspruch 1, wobei die Fern-Switch-Besetzte-Globale-Ports-Tabelle in Übereinstimmung mit Zielgruppenkennungen indiziert wird, die denen der Zielgruppen der empfangenen Pakete entsprechen.
Verfahren nach Anspruch 3, wobei eine Fabric-Routing-Funktionsinstanz des Switches in Übereinstimmung mit einem ausgeführten Routing-Algorithmus einen empfohlenen Port bestimmt, zu dem das empfangene Paket nach dem Herausfiltern von Kandidaten-Ports geroutet werden soll, basierend auf einer Bestimmung, dass die herausgefilterten Kandidaten-Ports in Übereinstimmung mit dem indizierten Eintrag in der Fern-Switch-Besetzte-Globale-Ports-Tabelle besetzt sind.
Verfahren nach Anspruch 1, bei dem die Fern-Switch-Besetzte-Lokale-Ports-Tabelle in Übereinstimmung mit Switch-Kennungen indiziert wird, die denjenigen der Ziel-Switches der empfangenen Pakete entsprechen.
Verfahren nach Anspruch 5, wobei eine Fabric-Routing-Funktionsinstanz des Switches in Übereinstimmung mit einem ausgeführten Routing-Algorithmus einen empfohlenen Port bestimmt, an den das empfangene Paket nach dem Herausfiltern von Kandidaten-Ports geroutet werden soll, basierend auf einer Bestimmung, dass die herausgefilterten Kandidaten-Ports in Übereinstimmung mit dem indizierten Eintrag in der Fern-Switch-Besetzte-Lokale-Ports-Tabelle besetzt sind.
Switch (102, 104, 106, 108, 110, 202, 602, 604, 606, 702, 704, 706, 708), der Folgendes umfasst: eine anwendungsspezifische integrierte Schaltung (ASIC) zum: Empfangen einer Mehrzahl von Lastsignalen von einer Mehrzahl von benachbarten Switches, wobei jedes der Mehrzahl von Lastsignalen einen Satz von Werten umfasst, der eine Last an jedem der Mehrzahl von benachbarten Switches anzeigt, die das Lastsignal bereitstellen, wobei jeder Wert innerhalb des Satzes von Werten eine Anzeige für jede Verbindung der Mehrzahl von daran angeschlossenen Verbindungen bereitstellt, ob die Verbindung besetzt oder ruhig ist, wobei die Anzeige, ob die Verbindung besetzt ist, eine Fern-Switch-Besetzte-Ports-Maske umfasst, die Ports der benachbarten Switches charakterisiert, wobei eine oder mehrere der Fern-Switch-Besetzte-Ports-Masken transformiert werden, um Einträge einer Fern-Switch-Besetzte-Globale-Ports-Tabelle zu bilden, und eine oder mehrere der Fern-Switch-Besetzte-Ports-Masken transformiert werden, um Einträge einer Fern-Switch-Besetzte-Lokale-Ports-Tabelle zu bilden, wobei die Fern-Switch-Besetzte-Ports-Masken aus den benachbarten Switches empfangen werden; basierend auf der empfangenen Mehrzahl von Lastsignalen, Auswählen einer Ausgangsverbindung zum Routen eines empfangenen Pakets; und Routen des Pakets über die ausgewählte Ausgangsverbindung.
Switch nach Anspruch 7, wobei die Fern-Switch-Besetzte-Globale-Ports-Tabelle in Übereinstimmung mit Zielgruppenkennungen indiziert ist, die denen der Zielgruppen der empfangenen Pakete entsprechen.
Switch nach Anspruch 8, wobei die ASIC eine Fabric-Routing-Funktionsinstanz umfasst, die in Übereinstimmung mit einem ausgeführten Routing-Algorithmus einen empfohlenen Port bestimmt, zu dem das empfangene Paket nach dem Herausfiltern von Kandidaten-Ports auf der Grundlage einer Bestimmung, dass die herausgefilterten Kandidaten-Ports in Übereinstimmung mit dem indizierten Eintrag in der Fern-Switch-Besetzte-Globale-Ports-Tabelle besetzt sind, geroutet werden soll.
Switch nach Anspruch 7, wobei die Fern-Switch-Besetzte-Lokale-Ports-Tabelle in Übereinstimmung mit Switch-Kennungen indiziert wird, die denen der Ziel-Switches der empfangenen Pakete entsprechen.
Switch nach Anspruch 10, wobei die ASIC eine Fabric-Routing-Funktionsinstanz umfasst, die in Übereinstimmung mit einem ausgeführten Routing-Algorithmus einen empfohlenen Port bestimmt, an den das empfangene Paket nach dem Herausfiltern von Kandidaten-Ports auf der Grundlage einer Bestimmung, dass die herausgefilterten Kandidaten-Ports in Übereinstimmung mit dem indizierten Eintrag in der Fern-Switch-Besetzte-Lokale-Ports-Tabelle besetzt sind, geroutet werden soll.
System (102, 104, 106, 108, 110, 202, 602, 604, 606, 702, 704, 706, 708), das Folgendes umfasst: eine Mehrzahl von Switches, die miteinander verbunden sind, um eine Switch-Fabric zu bilden; wobei ein erster Switch der Mehrzahl von Switches ein Lastsignal von benachbarten Switches der Mehrzahl von Switches empfängt, wobei jedes der Mehrzahl von Lastsignalen einen Satz von Werten umfasst, die eine Last an jedem der Mehrzahl von benachbarten Switches anzeigen, die das Lastsignal bereitstellen, wobei jeder Wert innerhalb des Satzes von Werten eine Anzeige für jede Verbindung der Mehrzahl von daran angeschlossenen Verbindungen bereitstellt, ob die Verbindung besetzt oder ruhig ist, wobei die Anzeige, ob die Verbindung besetzt ist, eine Fern-Switch-Besetzte-Ports-Maske umfasst, die Ports der benachbarten Switches charakterisiert, wobei eine oder mehrere der Fern-Switch-Besetzte-Ports-Masken transformiert werden, um Einträge einer Fern-Switch-Besetzte-Globale-Ports-Tabelle zu bilden, und eine oder mehrere der Fern-Switch-Besetzte-Ports-Masken transformiert werden, um Einträge einer Fern-Switch-Besetzte-Lokale-Ports-Tabelle zu bilden, wobei die Fern-Switch-Besetzte-Port-Masken aus den benachbarten Switches empfangen werden; und wobei der erste Switch auf der Grundlage der Mehrzahl von Lastsignalen eine Ausgangsverbindung zum Routen eines empfangenen Pakets auswählt und das empfangene Paket über die ausgewählte Ausgangsverbindung routet.
System nach Anspruch 12, wobei die Fern-Switch-Besetzte-Globale-Ports-Tabelle in Übereinstimmung mit Zielgruppenkennungen indiziert ist, die denen der Zielgruppen der empfangenen Pakete entsprechen.
System nach Anspruch 13, wobei Teilmengen der benachbarten Switches globale minimale Pfade zum Erreichen der Zielgruppen umfassen.
System nach Anspruch 13, wobei eine Fabric-Routing-Funktionsinstanz des ersten Switches in Übereinstimmung mit einem ausgeführten Routing-Algorithmus einen empfohlenen Port bestimmt, zu dem das empfangene Paket nach dem Herausfiltern von Kandidaten-Ports geleitet werden soll, basierend auf einer Bestimmung, dass die herausgefilterten Kandidaten-Ports in Übereinstimmung mit dem indizierten Eintrag in der Fern-Switch-Besetzte-Globale-Ports-Tabelle besetzt sind.
System nach Anspruch 12, wobei die Fern-Switch-Besetzte-Lokale-Ports-Tabelle in Übereinstimmung mit Switch-Kennungen indiziert ist, die denjenigen der Ziel-Switches der empfangenen Pakete entsprechen.
System nach Anspruch 16, wobei Teilmengen der benachbarten Switches lokale nicht-minimale und lokale minimale Pfade zu den Ziel-Switches umfassen.
System nach Anspruch 16, wobei eine Fabric-Routing-Funktionsinstanz des ersten Switches in Übereinstimmung mit einem ausgeführten Routing-Algorithmus einen empfohlenen Port bestimmt, zu dem das empfangene Paket nach dem Herausfiltern von Kandidaten-Ports geroutet werden soll, basierend auf einer Bestimmung, dass die herausgefilterten Kandidaten-Ports in Übereinstimmung mit dem indizierten Eintrag in der Fern-Switch-Besetzte-Lokale-Ports-Tabelle besetzt sind.