Statīva mēroga AI superdatori: no aparatūras līdz topoloģiski apzinātai plānošanai

Decorative image.

Mākslīgā intelekta vide strauji attīstās, pieprasot arvien jaudīgāku un efektīvāku skaitļošanas infrastruktūru. Šīs evolūcijas priekšplānā ir statīva mēroga superdatori, kas izstrādāti, lai paātrinātu vissarežģītākās AI un augstas veiktspējas skaitļošanas (HPC) darba slodzes. NVIDIA GB200 NVL72 un GB300 NVL72 sistēmas, kas veidotas uz inovatīvās Blackwell arhitektūras, ir nozīmīgs lēciens šajā virzienā, apvienojot milzīgas GPU struktūras un augstas caurlaidības tīklošanu vienotās, jaudīgās vienībās.

Tomēr šādas sarežģītas aparatūras izvietošana rada unikālu izaicinājumu: kā pārvērst šo sarežģīto fizisko topoloģiju par pārvaldāmu, veiktspējīgu un pieejamu resursu AI izstrādātājiem un pētniekiem? Būtiskā neatbilstība starp statīva mēroga aparatūras hierarhisko dabu un tradicionālo darba slodžu plānotāju bieži vien plakano abstrakciju rada šauru vietu. Tieši šeit iedarbojas validēta programmatūras pakotne, piemēram, NVIDIA Mission Control, savienojot plaisu, lai pārvērstu neapstrādātu skaitļošanas jaudu par vienotu, topoloģiski apzinātu AI rūpnīcu.

Nākamās paaudzes statīva mēroga AI superdatori ar NVIDIA Blackwell

NVIDIA GB200 NVL72 un GB300 NVL72 sistēmas, ko darbina vismodernākā NVIDIA Blackwell arhitektūra, nav tikai jaudīgu GPU kopums; tās ir integrēti, statīva mēroga superdatori, kas konstruēti AI nākotnei. Katra sistēma ietver 18 cieši savienotas skaitļošanas teknes, veidojot masīvu GPU struktūru, kas savienota ar uzlabotiem NVLink slēdžiem. Šīs sistēmas atbalsta NVIDIA Vairāku mezglu NVLink (MNNVL), atvieglojot īpaši ātru komunikāciju statīva iekšienē, un ietver IMEX spējīgas skaitļošanas teknes, kas nodrošina dalītu GPU atmiņu starp mezgliem. Šī arhitektūra nodrošina nepārspējamu pamatu liela mēroga AI modeļu apmācībai un izvietošanai, paplašinot iespēju robežas tādās jomās kā zinātniskā atklāšana un uzņēmuma AI lietojumprogrammas.

Blackwell sistēmu dizaina filozofijas centrā ir datu caurlaides maksimizēšana un latentuma samazināšana starp savstarpēji savienotām gpu. Tas tiek panākts, izmantojot blīvi integrētu aparatūras kopu, kurā katrs komponents ir optimizēts kopīgai veiktspējai, nodrošinot, ka AI darba slodzes var efektīvi mērogot bez komunikācijas vājajām vietām.

Aparatūras topoloģijas savienošana ar AI plānotāja abstrakcijām

AI arhitektiem un HPC platformu operatoriem patiesais izaicinājums nav tikai šīs uzlabotās aparatūras iegāde un montāža, bet gan tās operacionalizēšana par "drošu, veiktspējīgu un viegli lietojamu" resursu. Tradicionālie plānotāji bieži darbojas, pieņemot, ka ir homogēns, plakans skaitļošanas resursu kopums. Šī paradigma nav piemērota statīva mēroga superdatoriem, kur NVLink struktūru un IMEX domēnu hierarhiskais un topoloģiski jutīgais dizains ir kritisks veiktspējai. Bez pareizas integrācijas plānotāji var nejauši novietot uzdevumus neoptimālās vietās, kas noved pie samazinātas efektivitātes un neparedzamas veiktspējas.

Tieši šo plaisu ir paredzēts aizpildīt NVIDIA Mission Control. Kā robusta statīva mēroga vadības plakne NVIDIA Grace Blackwell NVL72 sistēmām, Mission Control piemīt dabisks izpratne par pamatā esošajiem NVIDIA NVLink un NVIDIA IMEX domēniem. Šī dziļā apzināšanās ļauj tai inteliģenti integrēties ar populārām darba slodžu pārvaldības platformām, piemēram, Slurm un NVIDIA Run:ai. Pārveidojot sarežģītās aparatūras topoloģijas par rīcības spējīgu plānošanas inteliģenci, Mission Control nodrošina, ka Blackwell arhitektūras uzlabotās iespējas tiek pilnībā izmantotas, pārveidojot sarežģītu aparatūras montāžu par patiesi funkcionējošu AI rūpnīcu. Šī spēja tiks paplašināta arī uz gaidāmo NVIDIA Vera Rubin platformu, tostarp NVIDIA Rubin NVL8, vēl vairāk nostiprinot konsekventu pieeju augstas veiktspējas AI infrastruktūrai.

NVLink domēnu un nodalījumu atšifrēšana AI darba slodzēm

Topoloģiski apzinātas plānošanas pamatā Blackwell sistēmām ir NVLink domēnu un nodalījumu jēdzieni, kas tiek atklāti, izmantojot sistēmas līmeņa identifikatorus: klastera UUID un klika ID. Šie identifikatori ir kritiski, jo tie nodrošina loģisku fiziskās NVLink struktūras karti, ļaujot sistēmas programmatūrai un plānotājiem analizēt GPU pozīciju un savienojamību.

Kartēšana ir vienkārša, bet jaudīga:

Klastera UUID atbilst NVLink domēnam. Kopīgs klastera UUID nozīmē, ka sistēmas — un to GPU — pieder vienam dominējošam NVLink domēnam un ir savienotas ar kopīgu NVLink struktūru. Grace Blackwell NVL72 gadījumā šis UUID ir konsekvents visā statīvā, norādot fizisko tuvumu un kopīgu augstas caurlaidības savienojamību.
Klika ID atbilst NVLink nodalījumam. Klika ID piedāvā smalkāku atšķirību, identificējot GPU grupas, kurām ir kopīgs NVLink nodalījums lielākā domēnā. Kad statīvs ir loģiski sadalīts vairākos NVLink nodalījumos, klastera UUID paliek nemainīgs, bet klika ID atšķir šīs mazākās, izolētās augstas caurlaidības grupas.

Šī atšķirība ir vitāli svarīga no darbības viedokļa:

Klastera UUID atbild uz jautājumu: Kuri GPU fiziski dala statīvu un spēj veikt NVLink komunikāciju ar vislielāko ātrumu?
Klika ID atbild: Kuri GPU dala NVLink nodalījumu un ir paredzēti kopīgai komunikācijai konkrētai darba slodzei vai pakalpojumu līmenim, nodrošinot optimālu veiktspēju ļoti paralēliem uzdevumiem?

Šie identifikatori ir saistvielas, kas ļauj tādām platformām kā Slurm, Kubernetes un NVIDIA Run:ai saskaņot darbu izvietošanu, izolāciju un veiktspējas garantijas ar NVLink struktūras faktisko struktūru, viss bez tiešas pamatā esošās aparatūras sarežģītības atklāšanas gala lietotājiem. NVIDIA Mission Control nodrošina centralizētu skatu uz šiem identifikatoriem, racionalizējot pārvaldību.

Aparatūras koncepcija	Programmatūras identifikators	Apraksts
NVLink domēns	Klastera UUID	Identificē GPU, kas fiziski dala statīvu, spējīgi veikt NVLink komunikāciju visā statīvā.
NVLink nodalījums	Klika ID	Atšķir GPU, kas paredzēti kopīgai komunikācijai NVLink domēnā konkrētai darba slodzei vai pakalpojumu līmenim.

Topoloģiski apzināta AI plānošana ar Slurm

Daudzmezglu darba slodzēm, kas darbojas ar Blackwell balstītām NVL72 sistēmām, izvietošana kļūst tikpat kritiska kā piešķirto GPU skaits. AI apmācības darbs, kam nepieciešami 16 GPU, piemēram, darbosies ievērojami atšķirīgi, ja tas tiks nejauši izplatīts pa vairākiem mazāk savienotiem mezgliem, salīdzinot ar izvietošanu vienā, augstas caurlaidības NVLink struktūrā. Tieši šeit Slurm topoloģijas/bloka spraudnis izrādās neaizstājams, ļaujot Slurm atpazīt niansētas savienojamības atšķirības starp mezgliem.

Grace Blackwell NVL72 sistēmās mezglu bloki ar zemākas latentuma savienojumiem tieši atbilst NVLink nodalījumiem — GPU grupām, kuras ir apvienotas ar īpašu, augstas caurlaidības NVLink struktūru. Ieslēdzot topoloģijas/bloka spraudni un atklājot šos NVLink nodalījumus kā atsevišķus blokus, Slurm iegūst kontekstuālo inteliģenci, kas nepieciešama labāku plānošanas lēmumu pieņemšanai. Pēc noklusējuma darbi tiek inteliģenti izvietoti vienā NVLink nodalījumā (vai blokā), tādējādi saglabājot kritisko Vairāku mezglu NVLink (MNNVL) veiktspēju. Lai gan lielāki darbi joprojām var aptvert vairākus blokus, ja nepieciešams, šī pieeja padara veiktspējas kompromisus skaidrus, nevis nejaušus.

Praktiski tas nodrošina elastīgas izvietošanas stratēģijas:

Viens bloks/mezglu grupa uz statīvu: Šī konfigurācija ļauj Slurm pakalpojumu kvalitātei (QoS) pārvaldīt piekļuvi kopīgam, visa statīva nodalījumam, kas ir ideāli piemērots konsolidētai resursu pārvaldībai.
Vairāki bloki/mezglu grupas uz statīvu: Šī pieeja ir ideāli piemērota mazāku, izolētu, augstas caurlaidības GPU kopumu piedāvāšanai. Šeit katrs bloks/mezglu grupa tiek kartēta uz īpašu Slurm nodalījumu, efektīvi nodrošinot atšķirīgu pakalpojumu līmeni. Lietotāji var pēc tam izmantot konkrētu Slurm nodalījumu, automātiski novietojot savus darbus paredzētajā NVLink nodalījumā, bez nepieciešamības izprast pamatā esošās struktūras sarežģītības. Šī uzlabotā resursu pārvaldība ir būtiska organizācijām, kas vēlas mērogot savas AI iniciatīvas, saskaņojoties ar plašāku mērķi — AI mērogošanu visiem.

MNNVL darba slodžu optimizēšana ar IMEX un Mission Control

Vairāku mezglu NVIDIA CUDA darba slodzes bieži paļaujas uz MNNVL, lai sasniegtu maksimālu veiktspēju, ļaujot GPU uz dažādām skaitļošanas tekņu sistēmām piedalīties vienotā, koplietojamās atmiņas programmēšanas modelī. No lietojumprogrammu izstrādātāja viedokļa MNNVL izmantošana var šķist mānīgi vienkārša, taču pamatā esošā orķestrācija ir sarežģīta.

Tieši šeit NVIDIA Mission Control spēlē galveno lomu. Tas nodrošina, ka kritiskie komponenti perfekti saskaņojas, palaižot MNNVL darbus ar Slurm. Konkrēti, Mission Control garantē, ka IMEX pakalpojums — kas atvieglo dalīto GPU atmiņu — darbojas precīzi uz to pašu skaitļošanas tekņu komplektu, kas piedalās MNNVL darbā. Tas arī nodrošina, ka nepieciešamie NVSwitch slēdži ir pareizi konfigurēti, lai izveidotu un uzturētu šos augstas caurlaidības MNNVL savienojumus. Šī koordinācija ir vitāli svarīga, lai nodrošinātu konsekventu, paredzamu veiktspēju visā statīvā. Bez Mission Control inteliģentās orķestrācijas MNNVL un IMEX priekšrocības būtu grūti realizēt un pārvaldīt lielā mērogā, izceļot NVIDIA apņemšanos nodrošināt pilnīgus risinājumus uzlabotiem gpus un to ekosistēmām.

Virzība uz automatizētu, mērogojamu AI infrastruktūru

NVIDIA Blackwell arhitektūras integrācija ar sarežģītiem programmatūras slāņiem, piemēram, Mission Control un Topograph, iezīmē nozīmīgu soli uz patiesi automatizētas un mērogojamas AI infrastruktūras izveidi. NVIDIA Topograph automatizē sarežģītās NVLink un starpsavienojumu hierarhijas atklāšanu, atklājot šo vitāli svarīgo informāciju plānotājiem, piemēram, Slurm, Kubernetes (izmantojot NVIDIA DRA un ComputeDomains) un NVIDIA Run:ai. Tas novērš manuālo režijas izmaksas, kas saistītas ar topoloģijas pārvaldību, ļaujot organizācijām izvietot un mērogot AI darba slodzes ar nepieredzētu efektivitāti.

Nodrošinot plānotājiem dziļu, reāllaika izpratni par aparatūras topoloģiju, šī integrētā pieeja nodrošina, ka AI lietojumprogrammas darbojas uz optimāliem resursiem, samazinot komunikācijas latentumu un maksimāli palielinot caurlaides spēju. Rezultātā tiek iegūta augstas veiktspējas, elastīga un viegli pārvaldāma AI rūpnīca, kas spēj apstrādāt visprasīgākos AI apmācības un secinājumu iegūšanas uzdevumus. Tā kā AI modeļi turpina pieaugt sarežģītībā un izmērā, spēja efektīvi pārvaldīt un plānot darba slodzes statīva mēroga superdatoros būs galvenais, lai virzītu inovācijas un saglabātu konkurētspējīgas priekšrocības. Šī holistiskā stratēģija ir uzņēmuma AI nākotnes pamatā, pārveidojot neapstrādātu skaitļošanas jaudu par inteliģentu, atsaucīgu un ļoti efektīvu AI superdatoru.

Sākotnējais avots

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Bieži uzdotie jautājumi

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Esiet informēti

Saņemiet jaunākās AI ziņas savā e-pastā.

Dalīties