AI-supercomputere i rack-skala: Fra hardware til topologi-bevidst planlægning

Decorative image.

AI-landskabet udvikler sig hurtigt og kræver stadigt mere kraftfuld og effektiv computerinfrastruktur. I spidsen for denne udvikling står supercomputere i rack-skala, designet til at accelerere de mest komplekse AI- og high-performance computing (HPC)-arbejdsbelastninger. NVIDIAs GB200 NVL72- og GB300 NVL72-systemer, bygget på den innovative Blackwell-arkitektur, repræsenterer et betydeligt spring i denne retning, idet de pakker enorme GPU-strukturer og høj-båndbredde netværk ind i sammenhængende, kraftfulde enheder.

Implementering af så sofistikeret hardware udgør dog en unik udfordring: Hvordan oversætter man denne indviklede fysiske topologi til en håndterbar, ydedygtig og tilgængelig ressource for AI-udviklere og -forskere? Den grundlæggende uoverensstemmelse mellem den hierarkiske natur af hardware i rack-skala og de ofte flade abstraktioner af traditionelle arbejdsbelastningsplanlæggere skaber en flaskehals. Det er præcis her, en valideret softwarestak som NVIDIA Mission Control træder ind og bygger bro for at omdanne rå computerkraft til en problemfri, topologi-bevidst AI-fabrik.

Næste generations AI-supercomputing i rack-skala med NVIDIA Blackwell

NVIDIA GB200 NVL72- og GB300 NVL72-systemerne, drevet af den banebrydende NVIDIA Blackwell-arkitektur, er ikke blot samlinger af kraftfulde GPU'er; de er integrerede supercomputere i rack-skala konstrueret til fremtidens AI. Hvert system har 18 tæt koblede compute-bakker, der danner en massiv GPU-struktur forbundet af avancerede NVLink-switche. Disse systemer understøtter NVIDIA Multi-Node NVLink (MNNVL), hvilket muliggør ultrahurtig kommunikation inden for racket, og inkluderer IMEX-kompatible compute-bakker, der muliggør delt GPU-hukommelse på tværs af noder. Denne arkitektur giver et uovertruffet fundament for træning og implementering af store AI-modeller og skubber grænserne for, hvad der er muligt inden for områder lige fra videnskabelige opdagelser til virksomheds-AI-applikationer.

Designfilosofien bag disse Blackwell-baserede systemer fokuserer på at maksimere datagennemstrømning og minimere latenstid mellem sammenkoblede GPU'er. Dette opnås gennem en tæt integreret hardwarestak, hvor hver komponent er optimeret til kollektiv ydeevne, hvilket sikrer, at AI-arbejdsbelastninger kan skalere effektivt uden at støde på kommunikationsflaskehalse.

Brobygning mellem hardwaretopologi og AI-planlæggerabstraktioner

For AI-arkitekter og HPC-platformoperatører er den virkelige udfordring ikke kun at anskaffe og samle denne avancerede hardware, men snarere at operationalisere den til en 'sikker, velfungerende og brugervenlig' ressource. Traditionelle planlæggere opererer ofte under antagelsen af en homogen, flad pulje af computerressourcer. Dette paradigme er dårligt egnet til supercomputere i rack-skala, hvor det hierarkiske og topologi-følsomme design af NVLink-strukturer og IMEX-domæner er afgørende for ydeevnen. Uden korrekt integration kan planlæggere utilsigtet placere opgaver på suboptimale steder, hvilket fører til reduceret effektivitet og uforudsigelig ydeevne.

Dette er det tomrum, NVIDIA Mission Control er designet til at udfylde. Som et robust kontrolplan i rack-skala for NVIDIA Grace Blackwell NVL72-systemer besidder Mission Control en indbygget forståelse af de underliggende NVIDIA NVLink- og NVIDIA IMEX-domæner. Denne dybe bevidsthed gør det muligt intelligent at integrere med populære arbejdsbelastningsstyringsplatforme som Slurm og NVIDIA Run:ai. Ved at oversætte komplekse hardwaretopologier til handlingsbar planlægningsintelligens sikrer Mission Control, at de avancerede funktioner i Blackwell-arkitekturen udnyttes fuldt ud, og omdanner en sofistikeret hardwaresamling til en sandt operationel AI-fabrik. Denne kapacitet vil udvides til den kommende NVIDIA Vera Rubin-platform, inklusive NVIDIA Rubin NVL8, og yderligere cementere en konsekvent tilgang til højtydende AI-infrastruktur.

Afkodning af NVLink-domæner og -partitioner til AI-arbejdsbelastninger

Kernen i topologi-bevidst planlægning for Blackwell-systemer er koncepterne om NVLink-domæner og -partitioner, som eksponeres gennem systemniveauidentifikatorer: klygge-UUID og klike-ID. Disse identifikatorer er afgørende, fordi de giver et logisk kort over den fysiske NVLink-struktur, hvilket gør det muligt for systemsoftware og planlæggere at ræsonnere over GPU'ens position og forbindelse.

Mappingen er ligetil, men kraftfuld:

Klygge-UUID svarer til NVLink-domænet. En delt klygge-UUID betyder, at systemer – og deres GPU'er – tilhører det samme overordnede NVLink-domæne og er forbundet af en fælles NVLink-struktur. For Grace Blackwell NVL72 er denne UUID konsistent på tværs af hele racket, hvilket indikerer fysisk nærhed og delt høj-båndbreddeforbindelse.
Klike-ID svarer til NVLink-partitionen. Klike-ID'et tilbyder en finere sondring og identificerer grupper af GPU'er, der deler en NVLink-partition inden for et større domæne. Når et rack er logisk segmenteret i flere NVLink-partitioner, forbliver klygge-UUID'en den samme, men klike-ID'erne differentierer disse mindre, isolerede høj-båndbreddegrupper.

Denne sondring er afgørende fra et operationelt synspunkt:

Klygge-UUID'en besvarer spørgsmålet: Hvilke GPU'er deler fysisk et rack og er i stand til NVLink-kommunikation med de højeste hastigheder?
Klike-ID'et besvarer: Hvilke GPU'er deler en NVLink-partition og er beregnet til at kommunikere sammen for en given arbejdsbelastning eller servicelag, hvilket sikrer optimal ydeevne for stærkt parallelle opgaver?

Disse identifikatorer er bindevævet, der gør det muligt for platforme som Slurm, Kubernetes og NVIDIA Run:ai at tilpasse jobplacering, isolation og ydelsesgarantier med NVLink-strukturens faktiske struktur, alt sammen uden direkte at eksponere den underliggende hardwarekompleksitet for slutbrugere. NVIDIA Mission Control giver et centraliseret overblik over disse identifikatorer og strømliner administrationen.

Hardwarekoncept	Softwareidentifikator	Beskrivelse
NVLink-domæne	Klygge-UUID	Identificerer GPU'er, der fysisk deler et rack, i stand til rack-dækkende NVLink-kommunikation.
NVLink-partition	Klike-ID	Adskiller GPU'er, der er beregnet til at kommunikere sammen inden for et NVLink-domæne for en specifik arbejdsbelastning eller serviceniveau.

Topologi-bevidst AI-planlægning med Slurm

For multi-node arbejdsbelastninger, der kører på Blackwell-baserede NVL72-systemer, bliver placering lige så kritisk som det rene antal tildelte GPU'er. Et AI-træningsjob, der kræver 16 GPU'er, vil f.eks. yde markant anderledes, hvis det spredes tilfældigt over flere mindre forbundne noder sammenlignet med at være begrænset inden for en enkelt, høj-båndbredde NVLink-struktur. Det er her Slurms topologi/blok-plugin viser sig uundværligt, idet det giver Slurm mulighed for at genkende de nuancerede forskelle i forbindelse mellem noder.

På Grace Blackwell NVL72-systemer svarer blokke af noder med lavere latenstid-forbindelser direkte til NVLink-partitioner – grupper af GPU'er, der er forenet af en dedikeret, høj-båndbredde NVLink-struktur. Ved at aktivere topologi/blok-plugin'et og eksponere disse NVLink-partitioner som særskilte blokke, opnår Slurm den kontekstuelle intelligens, der er nødvendig for at træffe overlegne planlægningsbeslutninger. Som standard placeres job intelligent inden for en enkelt NVLink-partition (eller blok), hvorved den kritiske Multi-Node NVLink (MNNVL) ydeevne bevares. Mens større job stadig kan strække sig over flere blokke om nødvendigt, gør denne tilgang ydelseskompromiserne eksplicitte, snarere end tilfældige.

I praktiske termer giver dette mulighed for fleksible implementeringsstrategier:

Én blok/node-gruppe pr. rack: Denne konfiguration muliggør Slurm Quality of Service (QoS) til at administrere adgangen til den delte, rack-dækkende partition, ideel til konsolideret ressourcestyring.
Flere blokke/node-grupper pr. rack: Denne tilgang er perfekt til at tilbyde mindre, isolerede GPU-puljer med høj båndbredde. Her afbildes hver blok/node-gruppe til en dedikeret Slurm-partition, hvilket effektivt giver et særskilt servicelag. Brugere kan derefter udnytte en specifik Slurm-partition og automatisk placere deres job inden for den tilsigtede NVLink-partition uden at skulle forstå de underliggende strukturelle forviklinger. Denne avancerede ressourcestyring er afgørende for organisationer, der ønsker at skalere deres AI-initiativer, i tråd med det bredere mål om skalering af AI for alle.

Optimering af MNNVL-arbejdsbelastninger med IMEX og Mission Control

Multi-Node NVIDIA CUDA-arbejdsbelastninger er ofte afhængige af MNNVL for at opnå maksimal ydeevne, hvilket gør det muligt for GPU'er på forskellige compute-bakker at deltage i en sammenhængende programmeringsmodel med delt hukommelse. Fra en applikationsudviklers perspektiv kan brugen af MNNVL virke vildledende enkel, men den underliggende orkestrering er kompleks.

Det er her, NVIDIA Mission Control spiller en afgørende rolle. Det sikrer, at kritiske komponenter stemmer perfekt overens, når MNNVL-job køres med Slurm. Specifikt garanterer Mission Control, at IMEX-tjenesten – som faciliterer den delte GPU-hukommelse – kører på det præcise sæt af compute-bakker, der deltager i MNNVL-jobbet. Det sikrer også, at de nødvendige NVSwitches er korrekt konfigureret til at etablere og opretholde disse høj-båndbredde MNNVL-forbindelser. Denne koordinering er afgørende for at levere konsistent, forudsigelig ydeevne på tværs af racket. Uden Mission Controls intelligente orkestrering ville fordelene ved MNNVL og IMEX være udfordrende at realisere og administrere i stor skala, hvilket understreger NVIDIAs engagement i at levere komplette løsninger til avancerede GPU'er og deres økosystemer.

Mod automatiseret, skalerbar AI-infrastruktur

Integrationen af NVIDIAs Blackwell-arkitektur med sofistikerede softwarelag som Mission Control og Topograph markerer et betydeligt skridt mod at skabe en virkelig automatiseret og skalerbar AI-infrastruktur. NVIDIA Topograph automatiserer opdagelsen af den komplekse NVLink- og interkonnektionshierarki og eksponerer denne vitale information til planlæggere som Slurm, Kubernetes (gennem NVIDIA DRA og ComputeDomains) og NVIDIA Run:ai. Dette eliminerer den manuelle overbyrde ved at administrere topologi, hvilket gør det muligt for organisationer at implementere og skalere AI-arbejdsbelastninger med hidtil uset effektivitet.

Ved at give planlæggere en dyb, realtidsforståelse af hardwaretopologien sikrer denne integrerede tilgang, at AI-applikationer kører på de optimale ressourcer, hvilket minimerer kommunikationslatenstid og maksimerer gennemløb. Resultatet er en højtydende, robust og let at administrere AI-fabrik, der er i stand til at håndtere de mest krævende AI-trænings- og inferensopgaver. Efterhånden som AI-modeller fortsætter med at vokse i kompleksitet og størrelse, vil evnen til effektivt at administrere og planlægge arbejdsbelastninger på supercomputere i rack-skala være altafgørende for at drive innovation og opretholde konkurrencefordele. Denne holistiske strategi understøtter fremtiden for virksomheds-AI og omdanner rå computerkraft til intelligent, responsiv og yderst effektiv AI-supercomputing.

Original kilde

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Ofte stillede spørgsmål

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Hold dig opdateret

Få de seneste AI-nyheder i din indbakke.

Del