Rack-Scale KI-Supercomputer: Von der Hardware zum Topologie-basierten Scheduling

title: "Rack-Scale KI-Supercomputer: Von der Hardware zum Topologie-basierten Scheduling" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "de" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "Unternehmens-KI" keywords:

KI-Workloads
Rack-Scale Supercomputer
NVIDIA Blackwell
NVLink
Topologie-basiertes Scheduling
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
GPU-Fabric
Ressourcenmanagement
Unternehmens-KI meta_description: "Erfahren Sie, wie NVIDIA Blackwell Supercomputer in Kombination mit Mission Control Topologie-basiertes Scheduling für KI-Workloads ermöglichen und die Leistung über NVLink- und IMEX-Domains hinweg optimieren." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "NVIDIA Grace Blackwell NVL72 Rack, das NVLink- und IMEX-Domains für Rack-Scale KI-Supercomputer illustriert" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "Was sind NVIDIA GB200 und GB300 NVL72 Systeme, und welche Rolle spielt die Blackwell-Architektur?" answer: "NVIDIA GB200 und GB300 NVL72 Systeme stellen eine neue Generation von Rack-Scale Supercomputern dar, die speziell für anspruchsvolle KI- und HPC-Workloads entwickelt wurden. Diese Systeme nutzen die bahnbrechende NVIDIA Blackwell-Architektur, die massive GPU-Fabrics mit Hochleistungsnetzwerken zu einer einzigen, eng gekoppelten Einheit integriert. Die Blackwell-Architektur wurde entwickelt, um eine beispiellose Leistung und Effizienz für Training und Inferenz zu liefern, mit fortschrittlichen NVLink-Switches, Multi-Node NVLink (MNNVL) für die GPU-übergreifende Kommunikation und IMEX-fähigen Compute-Trays, die den gemeinsamen GPU-Speicher über mehrere Nodes innerhalb des Racks ermöglichen. Dieses integrierte Design zielt darauf ab, die Einschränkungen traditioneller Server-gebundener GPU-Bereitstellungen zu überwinden und eine nahtlose, skalierbare Plattform für komplexe KI-Modelle bereitzustellen."
question: "Was ist die größte Herausforderung beim Scheduling von KI-Workloads auf diesen fortschrittlichen Rack-Scale Supercomputern?" answer: "Die Kernherausforderung liegt in der erheblichen Diskrepanz zwischen der komplexen, hierarchischen physikalischen Topologie von Rack-Scale Supercomputern und den oft simplistischen Abstraktionen, die von herkömmlichen Workload-Schedulern geboten werden. Während Systeme wie die NVIDIA GB200/GB300 NVL72 mit ausgeklügelten NVLink-Fabrics und IMEX-Domains aufwarten, nehmen Scheduler typischerweise einen flachen Pool von GPUs und Nodes wahr. Dies kann zu ineffizienter Ressourcenzuweisung, suboptimaler Leistung aufgrund schlechter Datenlokalität oder Kommunikationsengpässen und erhöhter Betriebskomplexität für Plattformbetreiber führen. Ohne Topologie-basiertes Scheduling können die inhärenten Vorteile der Rack-Scale-Integration, wie Hochleistungsverbindungen, für KI-Workloads nicht voll ausgeschöpft werden."
question: "Wie begegnet NVIDIA Mission Control den betrieblichen Komplexitäten des Rack-Scale KI-Schedulings?" answer: "NVIDIA Mission Control fungiert als entscheidende Steuerungsebene, die die Lücke zwischen der komplexen Hardware-Topologie von NVIDIA Grace Blackwell NVL72 Systemen und den Anforderungen von Workload-Management-Plattformen wie Slurm und NVIDIA Run:ai schließt. Es bietet ein natives, tiefes Verständnis der NVLink- und IMEX-Domains und übersetzt physikalische Hardware-Beziehungen in logische Bezeichner, die Scheduler interpretieren können. Durch die Zentralisierung der Ansicht von Cluster UUIDs und Clique IDs ermöglicht Mission Control eine präzise, Topologie-basierte Job-Platzierung, gewährleistet eine ordnungsgemäße Workload-Isolation und garantiert eine konsistente Leistung, indem Berechnungen mit dem optimalen zugrunde liegenden Hardware-Fabric ausgerichtet werden. Dies verwandelt die Rohinfrastruktur effektiv in eine effiziente, verwaltbare KI-Fabrik."
question: "Erläutern Sie die Konzepte von Cluster UUID und Clique ID im Kontext der NVLink-Topologie und ihre betriebliche Bedeutung." answer: "Cluster UUID und Clique ID sind System-Level-Identifikatoren, die die Position einer GPU innerhalb des NVLink-Fabrics kodieren und die komplexe Topologie für Systemsoftware und Scheduler verständlich machen. Die Cluster UUID entspricht der NVLink-Domain und zeigt an, dass Systeme und ihre GPUs zum selben physischen Rack gehören und ein gemeinsames NVLink-Fabric teilen. Für Grace Blackwell NVL72 ist diese UUID rackweit konsistent. Die Clique ID bietet eine feinere Unterscheidung und entspricht einer NVLink-Partition. GPUs, die eine Clique ID teilen, gehören zur selben logischen Partition innerhalb dieser Domain. Betrieblich beantwortet die Cluster UUID die Frage, welche GPUs sich physisch ein Rack teilen und über NVLink kommunizieren können, während die Clique ID beantwortet, welche GPUs eine NVLink-Partition teilen und für eine bestimmte Workload zusammen kommunizieren sollen, was eine feinere Ressourcenzuweisung und Leistungsoptimierung ermöglicht."
question: "Wie verbessert Slurms topology/block Plugin die Platzierung von KI-Workloads auf NVL72-Systemen?" answer: "Slurms topology/block Plugin ist unerlässlich für eine effiziente Platzierung von KI-Workloads auf NVIDIA NVL72-Systemen, indem es Slurm bewusst macht, dass nicht alle Nodes (oder GPUs) hinsichtlich Konnektivität und Leistung gleich sind. Auf Grace Blackwell NVL72-Systemen bilden Node-Blöcke mit geringerer Latenz direkt NVLink-Partitionen ab, d.h. Gruppen von GPUs, die ein Hochleistungs-NVLink-Fabric teilen. Durch die Aktivierung dieses Plugins und die Offenlegung dieser NVLink-Partitionen als 'Blöcke' erhält Slurm den notwendigen Kontext, um intelligente Platzierungsentscheidungen zu treffen. Dies stellt sicher, dass Multi-GPU-Jobs bevorzugt innerhalb einer einzigen NVLink-Partition zugewiesen werden, um die MNNVL-Leistung zu erhalten. Dies verhindert Leistungsabfälle, die auftreten könnten, wenn Jobs wahllos über verschiedene, weniger verbundene Segmente des Supercomputers verteilt würden. Es ermöglicht eine optimierte Ressourcennutzung und vorhersehbare Leistung für anspruchsvolle KI-Aufgaben."
question: "Was ist Multi-Node NVLink (MNNVL), und wie ermöglicht IMEX dies für den gemeinsamen GPU-Speicher?" answer: "Multi-Node NVLink (MNNVL) ist eine Schlüsseltechnologie, die es GPUs über verschiedene Compute-Nodes innerhalb eines Rack-Scale-Systems ermöglicht, direkt mit hoher Bandbreite und geringer Latenz zu kommunizieren, was für die Skalierung großer KI-Modelle unerlässlich ist. MNNVL ermöglicht ein Shared-Memory-Programmiermodell über diese verteilten GPUs hinweg, sodass es für Anwendungen als ein einziges, massives GPU-Fabric erscheint. IMEX (Infiniband Memory Expansion) ist die zugrunde liegende Technologie, die MNNVL ermöglicht. IMEX-fähige Compute-Trays sind darauf ausgelegt, den gemeinsamen GPU-Speicher über Nodes hinweg durch Nutzung der fortschrittlichen Netzwerktechnologie von NVIDIA zu ermöglichen. Während MNNVL das Programmiermodell für Entwickler vereinfacht, spielt Mission Control eine entscheidende Rolle im Hintergrund, um sicherzustellen, dass IMEX-Dienste korrekt bereitgestellt und mit MNNVL-Jobs synchronisiert werden, wodurch gewährleistet wird, dass die Vorteile des gemeinsamen GPU-Speichers voll ausgeschöpft werden, ohne die zugrunde liegende Komplexität dem Endbenutzer preiszugeben."
question: "Welche Hauptvorteile bietet die Implementierung von Topologie-basiertem Scheduling für KI-Workloads auf Rack-Scale Supercomputern?" answer: "Die Implementierung von Topologie-basiertem Scheduling bietet mehrere signifikante Vorteile für KI-Workloads auf Rack-Scale Supercomputern. Erstens gewährleistet es optimale Leistung, indem Jobs intelligent auf GPUs platziert werden, die über die höchsten Bandbreiten und niedrigsten Latenzverbindungen verfügen, wodurch die Kommunikations-Overheads, die bei verteilt trainierter KI anfallen, minimiert werden. Zweitens verbessert es die Ressourcennutzung, indem es die ineffiziente Verteilung von Jobs über unterschiedliche Hardware-Segmente verhindert, was zu einer vorhersehbareren Leistung und einem besseren Durchsatz führt. Drittens vereinfacht es das Management für Plattformbetreiber, indem es Hardware-Komplexitäten abstrahiert und gleichzeitig klare Isolationsgrenzen zwischen Workloads schafft, was die Systemstabilität und -sicherheit verbessert. Letztendlich verwandelt Topologie-basiertes Scheduling komplexe Hardware in eine hoch effiziente, skalierbare und verwaltbare 'KI-Fabrik', die Forschung und Entwicklung beschleunigt und gleichzeitig den Betriebsaufwand reduziert."
question: "Wie trägt NVIDIA Topograph zur automatisierten Erkennung und Planung von Supercomputer-Topologien bei?" answer: "NVIDIA Topograph ist eine entscheidende Komponente, die die Erkennung der komplexen NVLink- und Interconnect-Hierarchie innerhalb von Rack-Scale Supercomputern automatisiert. Diese automatisierte Erkennung ist unerlässlich, da die manuelle Konfiguration und Pflege detaillierter Topologieinformationen für große Systeme fehleranfällig und sehr zeitaufwendig wäre. Topograph stellt diese detaillierten Fabric-Informationen den Workload-Schedulern, einschließlich Slurm und Kubernetes (über NVIDIA DRA und ComputeDomains), sowie NVIDIA Run:ai zur Verfügung. Indem Topograph den Schedulern eine genaue und Echtzeit-Ansicht der Hardware-Topologie bietet, ermöglicht es ihnen, intelligente, automatisierte Platzierungsentscheidungen zu treffen. Dies stellt sicher, dass KI-Workloads von Anfang an Topologie-basiert geplant werden, wodurch Leistung, Ressourcenzuweisung und die gesamte Systemeffizienz optimiert werden, was für den Aufbau und Betrieb skalierbarer KI-Fabriken entscheidend ist."


# Rack-Scale KI-Supercomputer: Von der Hardware zum Topologie-basierten Scheduling

![Decorative image.](https://developer-blogs.nvidia.com/wp-content/uploads/2026/04/gtc25-tech-blog-dgx-gb300-1920x1080-1-1024x576.png)

Die Landschaft der künstlichen Intelligenz entwickelt sich rasant weiter und erfordert eine immer leistungsfähigere und effizientere Recheninfrastruktur. An der Spitze dieser Entwicklung stehen Rack-Scale Supercomputer, die darauf ausgelegt sind, die komplexesten KI- und Hochleistungsrechen-Workloads (HPC) zu beschleunigen. NVIDIAs GB200 NVL72- und GB300 NVL72-Systeme, die auf der innovativen Blackwell-Architektur basieren, stellen einen bedeutenden Fortschritt in dieser Richtung dar und verpacken immense GPU-Fabrics und Hochleistungsnetzwerke in kohärente, leistungsstarke Einheiten.

Die Bereitstellung solch anspruchsvoller Hardware stellt jedoch eine einzigartige Herausforderung dar: Wie übersetzt man diese komplexe physikalische Topologie in eine verwaltbare, leistungsfähige und zugängliche Ressource für KI-Entwickler und Forscher? Die grundlegende Diskrepanz zwischen der hierarchischen Natur von Rack-Scale-Hardware und den oft flachen Abstraktionen traditioneller Workload-Scheduler erzeugt einen Engpass. Genau hier setzt ein validierter Software-Stack wie NVIDIA Mission Control an, um die Lücke zu schließen und rohe Rechenleistung in eine nahtlose, Topologie-basierte KI-Fabrik zu verwandeln.

## Rack-Scale KI-Supercomputing der nächsten Generation mit NVIDIA Blackwell

Die NVIDIA GB200 NVL72- und GB300 NVL72-Systeme, angetrieben von der hochmodernen NVIDIA Blackwell-Architektur, sind nicht nur Ansammlungen leistungsstarker GPUs; sie sind integrierte Rack-Scale Supercomputer, die für die Zukunft der KI entwickelt wurden. Jedes System verfügt über 18 eng gekoppelte Compute-Trays, die ein massives GPU-Fabric bilden, das durch fortschrittliche NVLink-Switches verbunden ist. Diese Systeme unterstützen NVIDIA Multi-Node NVLink (MNNVL), das eine extrem schnelle Kommunikation innerhalb des Racks ermöglicht, und umfassen IMEX-fähige Compute-Trays, die den gemeinsamen GPU-Speicher über Nodes hinweg ermöglichen. Diese Architektur bietet eine beispiellose Grundlage für das Training und die Bereitstellung großer KI-Modelle und erweitert die Grenzen dessen, was in Bereichen von der wissenschaftlichen Entdeckung bis hin zu Unternehmens-KI-Anwendungen möglich ist.

Die Designphilosophie hinter diesen Blackwell-basierten Systemen konzentriert sich auf die Maximierung des Datendurchsatzes und die Minimierung der Latenz zwischen miteinander verbundenen [GPUs](/de/gpus). Dies wird durch einen dicht integrierten Hardware-Stack erreicht, bei dem jede Komponente für kollektive Leistung optimiert ist, um sicherzustellen, dass KI-Workloads effizient skalieren können, ohne Kommunikationsengpässe zu erreichen.

## Hardware-Topologie mit KI-Scheduler-Abstraktionen verbinden

Für KI-Architekten und HPC-Plattformbetreiber besteht die eigentliche Herausforderung nicht nur darin, diese fortschrittliche Hardware zu erwerben und zusammenzustellen, sondern sie als 'sichere, leistungsfähige und benutzerfreundliche' Ressource zu operationalisieren. Traditionelle Scheduler gehen oft von einem homogenen, flachen Pool von Rechenressourcen aus. Dieses Paradigma ist für Rack-Scale Supercomputer ungeeignet, bei denen das hierarchische und Topologie-sensitive Design von NVLink-Fabrics und IMEX-Domains entscheidend für die Leistung ist. Ohne eine ordnungsgemäße Integration könnten Scheduler Aufgaben versehentlich an suboptimalen Orten platzieren, was zu reduzierter Effizienz und unvorhersehbarer Leistung führt.

Dies ist die Lücke, die NVIDIA Mission Control schließen soll. Als robuste Rack-Scale-Steuerungsebene für NVIDIA Grace Blackwell NVL72-Systeme verfügt Mission Control über ein natives Verständnis der zugrunde liegenden NVIDIA NVLink- und NVIDIA IMEX-Domains. Dieses tiefe Bewusstsein ermöglicht es, sich intelligent in beliebte Workload-Management-Plattformen wie Slurm und NVIDIA Run:ai zu integrieren. Indem komplexe Hardware-Topologien in umsetzbare Scheduling-Intelligenz übersetzt werden, stellt Mission Control sicher, dass die fortschrittlichen Fähigkeiten der Blackwell-Architektur voll ausgeschöpft werden und eine ausgeklügelte Hardware-Baugruppe in eine wirklich operative KI-Fabrik verwandelt wird. Diese Fähigkeit wird sich auf die kommende NVIDIA Vera Rubin-Plattform, einschließlich NVIDIA Rubin NVL8, erstrecken und so einen konsistenten Ansatz für Hochleistungs-KI-Infrastrukturen weiter festigen.

## NVLink-Domains und -Partitionen für KI-Workloads entschlüsseln

Im Zentrum des Topologie-basierten Schedulings für Blackwell-Systeme stehen die Konzepte von NVLink-Domains und -Partitionen, die über System-Level-Identifikatoren offengelegt werden: **Cluster UUID** und **Clique ID**. Diese Identifikatoren sind entscheidend, da sie eine logische Karte des physikalischen NVLink-Fabrics bereitstellen, die es Systemsoftware und Schedulern ermöglicht, die Position und Konnektivität der GPU zu verstehen.

Die Zuordnung ist einfach, aber leistungsstark:
-   **Cluster UUID** entspricht der **NVLink-Domain**. Eine gemeinsame Cluster UUID bedeutet, dass Systeme – und ihre GPUs – derselben übergeordneten NVLink-Domain angehören und durch ein gemeinsames NVLink-Fabric verbunden sind. Für Grace Blackwell NVL72 ist diese UUID über das gesamte Rack hinweg konsistent, was auf physikalische Nähe und gemeinsame Hochbandbreitenkonnektivität hinweist.
-   **Clique ID** entspricht der **NVLink-Partition**. Die Clique ID bietet eine feinere Unterscheidung, indem sie Gruppen von GPUs identifiziert, die eine NVLink-Partition innerhalb einer größeren Domain teilen. Wenn ein Rack logisch in mehrere NVLink-Partitionen unterteilt wird, bleibt die Cluster UUID gleich, aber die Clique IDs differenzieren diese kleineren, isolierten Hochbandbreiten-Gruppen.

Diese Unterscheidung ist aus operativer Sicht entscheidend:
-   Die **Cluster UUID** beantwortet die Frage: *Welche GPUs teilen sich physikalisch ein Rack und sind in der Lage, über NVLink mit den höchsten Geschwindigkeiten zu kommunizieren?*
-   Die **Clique ID** beantwortet: *Welche GPUs teilen eine NVLink-Partition und sollen für eine bestimmte Workload oder Service-Stufe zusammen kommunizieren, um optimale Leistung für hochparallele Aufgaben zu gewährleisten?*

Diese Identifikatoren sind das Bindegewebe, das Plattformen wie Slurm, Kubernetes und NVIDIA Run:ai ermöglicht, die Job-Platzierung, Isolation und Leistungsgarantien an die tatsächliche Struktur des NVLink-Fabrics anzupassen, ohne die zugrunde liegende Hardware-Komplexität direkt den Endbenutzern preiszugeben. NVIDIA Mission Control bietet eine zentrale Ansicht dieser Identifikatoren und optimiert so die Verwaltung.

| Hardware-Konzept | Software-Identifikator | Beschreibung |
| :-------------------- | :------------------ | :----------------------------------------------------------------------------------------- |
| NVLink-Domain | Cluster UUID | Identifiziert GPUs, die sich physisch ein Rack teilen und rackweite NVLink-Kommunikation ermöglichen. |
| NVLink-Partition | Clique ID | Unterscheidet GPUs, die innerhalb einer NVLink-Domain für eine bestimmte Workload oder Service-Stufe zusammen kommunizieren sollen. |

## Topologie-basiertes KI-Scheduling mit Slurm

Für Multi-Node-Workloads, die auf Blackwell-basierten NVL72-Systemen laufen, **wird die Platzierung ebenso entscheidend wie die reine Anzahl der zugewiesenen GPUs**. Ein KI-Trainingsjob, der beispielsweise 16 GPUs benötigt, wird sich drastisch anders verhalten, wenn er willkürlich über mehrere weniger verbundene Nodes verteilt wird, als wenn er in einem einzigen Hochbandbreiten-NVLink-Fabric eingeschlossen ist. Hier erweist sich Slurms **topology/block Plugin** als unverzichtbar, da es Slurm ermöglicht, die nuancierten Konnektivitätsunterschiede zwischen Nodes zu erkennen.

Auf Grace Blackwell NVL72-Systemen entsprechen Blöcke von Nodes mit geringeren Latenzverbindungen direkt **NVLink-Partitionen** – Gruppen von GPUs, die durch ein dediziertes Hochbandbreiten-NVLink-Fabric verbunden sind. Durch die Aktivierung des topology/block Plugins und die Offenlegung dieser NVLink-Partitionen als eigenständige Blöcke erhält Slurm die kontextuelle Intelligenz, die für überlegene Scheduling-Entscheidungen erforderlich ist. Standardmäßig werden Jobs intelligent innerhalb einer einzelnen NVLink-Partition (oder eines Blocks) platziert, wodurch die kritische Multi-Node NVLink (MNNVL)-Leistung erhalten bleibt. Während größere Jobs bei Bedarf immer noch mehrere Blöcke umfassen können, macht dieser Ansatz die Leistungs-Kompromisse explizit, anstatt sie zufällig zu lassen.

In praktischer Hinsicht ermöglicht dies flexible Bereitstellungsstrategien:
-   **Ein Block/Node-Gruppe pro Rack**: Diese Konfiguration ermöglicht es Slurm Quality of Service (QoS), den Zugriff auf die gemeinsam genutzte, rackweite Partition zu verwalten, ideal für konsolidiertes Ressourcenmanagement.
-   **Mehrere Blöcke/Node-Gruppen pro Rack**: Dieser Ansatz ist perfekt, um kleinere, isolierte Hochbandbreiten-GPU-Pools anzubieten. Hier wird jeder Block/Node-Gruppe eine dedizierte Slurm-Partition zugewiesen, wodurch effektiv eine eigene Dienstebene bereitgestellt wird. Benutzer können dann eine bestimmte Slurm-Partition nutzen und ihre Jobs automatisch in der vorgesehenen NVLink-Partition platzieren, ohne die zugrunde liegenden Fabric-Komplexitäten verstehen zu müssen. Dieses fortschrittliche Ressourcenmanagement ist entscheidend für Organisationen, die ihre KI-Initiativen skalieren möchten, und stimmt mit dem übergeordneten Ziel der [KI-Skalierung für alle](/de/scaling-ai-for-everyone) überein.

## MNNVL-Workloads mit IMEX und Mission Control optimieren

Multi-Node NVIDIA CUDA-Workloads verlassen sich häufig auf MNNVL, um maximale Leistung zu erzielen, indem GPUs auf verschiedenen Compute-Trays an einem kohärenten Shared-Memory-Programmiermodell teilnehmen können. Aus der Perspektive eines Anwendungsentwicklers kann die Nutzung von MNNVL trügerisch einfach erscheinen, aber die zugrunde liegende Orchestrierung ist komplex.

Hier spielt NVIDIA Mission Control eine zentrale Rolle. Es stellt sicher, dass kritische Komponenten perfekt aufeinander abgestimmt sind, wenn MNNVL-Jobs mit Slurm ausgeführt werden. Insbesondere garantiert Mission Control, dass der IMEX-Dienst – der den gemeinsamen GPU-Speicher ermöglicht – auf genau den Compute-Trays läuft, die am MNNVL-Job teilnehmen. Es stellt auch sicher, dass die notwendigen NVSwitches korrekt konfiguriert sind, um diese Hochbandbreiten-MNNVL-Verbindungen herzustellen und aufrechtzuerhalten. Diese Koordination ist entscheidend für die Bereitstellung einer konsistenten, vorhersehbaren Leistung über das Rack hinweg. Ohne die intelligente Orchestrierung von Mission Control wäre es schwierig, die Vorteile von MNNVL und IMEX in großem Maßstab zu realisieren und zu verwalten, was NVIDIAs Engagement unterstreicht, komplette Lösungen für fortschrittliche [GPUs](/de/gpus) und deren Ökosysteme zu liefern.

## Auf dem Weg zu einer automatisierten, skalierbaren KI-Infrastruktur

Die Integration von NVIDIAs Blackwell-Architektur mit ausgeklügelten Software-Layern wie Mission Control und Topograph stellt einen bedeutenden Schritt zur Schaffung einer wirklich automatisierten und skalierbaren KI-Infrastruktur dar. NVIDIA Topograph automatisiert die Erkennung der komplexen NVLink- und Interconnect-Hierarchie und stellt diese wichtigen Informationen Schedulern wie Slurm, Kubernetes (über NVIDIA DRA und ComputeDomains) und NVIDIA Run:ai zur Verfügung. Dies eliminiert den manuellen Overhead bei der Verwaltung der Topologie und ermöglicht es Organisationen, KI-Workloads mit beispielloser Effizienz bereitzustellen und zu skalieren.

Durch die Bereitstellung eines tiefgreifenden, Echtzeit-Verständnisses der Hardware-Topologie für Scheduler stellt dieser integrierte Ansatz sicher, dass KI-Anwendungen auf den optimalen Ressourcen ausgeführt werden, wodurch Kommunikationslatenz minimiert und der Durchsatz maximiert wird. Das Ergebnis ist eine hochleistungsfähige, widerstandsfähige und einfach zu verwaltende KI-Fabrik, die in der Lage ist, die anspruchsvollsten KI-Trainings- und Inferenzaufgaben zu bewältigen. Da KI-Modelle in Komplexität und Größe weiter zunehmen, wird die Fähigkeit, Workloads auf Rack-Scale-Supercomputern effektiv zu verwalten und zu planen, von größter Bedeutung sein, um Innovationen voranzutreiben und Wettbewerbsvorteile zu sichern. Diese ganzheitliche Strategie untermauert die Zukunft der Unternehmens-KI und verwandelt rohe Rechenleistung in intelligentes, reaktionsschnelles und hocheffizientes KI-Supercomputing.

Originalquelle

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Häufig gestellte Fragen

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Bleiben Sie informiert

Erhalten Sie die neuesten KI-Nachrichten per E-Mail.