Das NVIDIA GB200 NVL72-System integriert nun das topologiebewusste Scheduling von Slurm, um KI-Workloads mit Exascale-Leistung zu bewältigen. Dieser Schritt zielt auf den wachsenden Bedarf an effizienter Ressourcenzuweisung in massiven KI-Trainingsclustern ab.
Warum Topologie für KI wichtig ist
Der Scheduler von Slurm berücksichtigt die physische Anordnung der Rechenknoten und Netzwerkverbindungen. Für ein dichtes GPU-System wie das GB200 NVL72 bedeutet dies, dass Jobs so platziert werden, dass die Kommunikationslatenz zwischen GPUs minimiert wird. Topologiebewusstes Scheduling reduziert Engpässe beim Training von Modellen, die über Hunderte oder Tausende von Beschleunigern verteilt sind. Der Ansatz hilft, Situationen zu vermeiden, in denen die GPUs eines Jobs über verschiedene Switches oder weit voneinander entfernte Knoten verstreut sind, was Datenübertragungen verzögern kann.
Exascale-Durchsatz freischalten
Durch die Kombination des Slurm-Schedulings mit der Architektur des GB200 NVL72 kann das System laut NVIDIA Exascale-Leistung erzielen – mit 10^18 Gleitkommaoperationen pro Sekunde. Diese Größenordnung ist normalerweise den größten Supercomputern vorbehalten. Für KI bedeutet dies schnellere Trainingszyklen für Modelle, die enorme Rechenleistung erfordern. Die Kombination verbessert auch die Energieeffizienz, indem mehr Arbeit auf weniger Knoten verteilt und Leerlaufzeiten reduziert werden.
NVIDIA hat keine konkreten Zeitpläne für die Einführung des GB200 NVL72 mit Slurm-Integration bekannt gegeben. Das Unternehmen wird voraussichtlich das Setup auf kommenden HPC-Konferenzen vorführen, allerdings wurden noch keine Termine bestätigt. Forscher und Cloud-Anbieter, die große KI-Jobs ausführen, werden auf Benchmarks achten, die reale Verbesserungen gegenüber bestehenden Scheduling-Methoden zeigen.



