AI superračunari u razmeri reka: Od hardvera do topološki svesnog raspoređivanja

Decorative image.

Pejzaž veštačke inteligencije se brzo razvija, zahtevajući sve moćniju i efikasniju računarsku infrastrukturu. U prvom planu ove evolucije su superračunari u razmeri reka, dizajnirani da ubrzaju najsloženija AI i HPC (high-performance computing) radna opterećenja. NVIDIA-ini GB200 NVL72 i GB300 NVL72 sistemi, izgrađeni na inovativnoj Blackwell arhitekturi, predstavljaju značajan iskorak u tom pravcu, pakujući ogromne GPU mreže i mreže visokog propusnog opsega u kohezivne, moćne jedinice.

Međutim, primena tako sofisticiranog hardvera predstavlja jedinstven izazov: kako ovu složenu fizičku topologiju prevesti u resurs koji je upravljiv, performantan i pristupačan za AI programere i istraživače? Fundamentalno neslaganje između hijerarhijske prirode hardvera u razmeri reka i često ravnih apstrakcija tradicionalnih planera radnih opterećenja stvara usko grlo. Upravo tu na scenu stupa validirani softverski stek kao što je NVIDIA Mission Control, premošćujući jaz kako bi sirovu računarsku snagu transformisao u besprekornu, topološki svesnu AI fabriku.

Sledeća generacija AI superračunarstva u razmeri reka sa NVIDIA Blackwell-om

NVIDIA GB200 NVL72 i GB300 NVL72 sistemi, pogonjeni najsavremenijom NVIDIA Blackwell arhitekturom, nisu samo kolekcije moćnih GPU-ova; oni su integrisani superračunari u razmeri reka, projektovani za budućnost AI. Svaki sistem sadrži 18 čvrsto povezanih računarskih pregrada, formirajući masivnu GPU mrežu povezanu naprednim NVLink svičevima. Ovi sistemi podržavaju NVIDIA Multi-Node NVLink (MNNVL), olakšavajući ultra-brzu komunikaciju unutar reka, i uključuju IMEX-kompatibilne računarske pregrade koje omogućavaju deljenu GPU memoriju preko čvorova. Ova arhitektura pruža neuporedivu osnovu za obuku i implementaciju velikih AI modela, pomerajući granice mogućeg u oblastima od naučnih otkrića do AI aplikacija za preduzeća.

Filozofija dizajna iza ovih sistema baziranih na Blackwell-u fokusira se na maksimiziranje protoka podataka i minimiziranje latencije između međusobno povezanih gpu-ova. To se postiže gusto integrisanim hardverskim stekom gde je svaka komponenta optimizovana za kolektivne performanse, obezbeđujući da se AI radna opterećenja mogu efikasno skalirati bez nailaženja na uska grla u komunikaciji.

Premošćivanje hardverske topologije sa AI apstrakcijama planera

Za AI arhitekte i operatere HPC platformi, pravi izazov nije samo nabavka i sastavljanje ovog naprednog hardvera, već njegovo operativno pretvaranje u 'bezbedan, performantan i jednostavan za upotrebu' resurs. Tradicionalni planeri često rade pod pretpostavkom homogenog, ravnog skupa računarskih resursa. Ova paradigma je neprikladna za superračunare u razmeri reka, gde su hijerarhijski i topološki osetljiv dizajn NVLink mreža i IMEX domena kritični za performanse. Bez odgovarajuće integracije, planeri bi mogli nehotice postaviti zadatke na suboptimalne lokacije, što bi dovelo do smanjene efikasnosti i nepredvidivih performansi.

Ovo je praznina koju NVIDIA Mission Control treba da popuni. Kao robusna kontrolna ravan u razmeri reka za NVIDIA Grace Blackwell NVL72 sisteme, Mission Control poseduje izvorno razumevanje osnovnih NVIDIA NVLink i NVIDIA IMEX domena. Ova duboka svest mu omogućava da se inteligentno integriše sa popularnim platformama za upravljanje radnim opterećenjima kao što su Slurm i NVIDIA Run:ai. Prevođenjem složenih hardverskih topologija u delotvornu inteligenciju za raspoređivanje, Mission Control obezbeđuje da se napredne mogućnosti Blackwell arhitekture u potpunosti iskoriste, transformišući sofisticiranu hardversku montažu u zaista operativnu AI fabriku. Ova sposobnost će se proširiti na nadolazeću NVIDIA Vera Rubin platformu, uključujući NVIDIA Rubin NVL8, dodatno učvršćujući dosledan pristup AI infrastrukturi visokih performansi.

Dekodiranje NVLink domena i particija za AI radna opterećenja

U srcu topološki svesnog raspoređivanja za Blackwell sisteme su koncepti NVLink domena i particija, koji su izloženi kroz sistemske identifikatore: Cluster UUID i Clique ID. Ovi identifikatori su ključni jer pružaju logičku mapu fizičke NVLink mreže, omogućavajući sistemskom softveru i planerima da razumeju poziciju i povezanost GPU-a.

Mapiranje je jednostavno, ali moćno:

Cluster UUID odgovara NVLink domenu. Deljeni Cluster UUID znači da sistemi — i njihovi GPU-ovi — pripadaju istom nadređenom NVLink domenu i povezani su zajedničkom NVLink mrežom. Za Grace Blackwell NVL72, ovaj UUID je dosledan u celom reku, ukazujući na fizičku blizinu i deljivu povezanost visokog propusnog opsega.
Clique ID odgovara NVLink particiji. Clique ID nudi finiju distinkciju, identifikujući grupe GPU-ova koje dele NVLink particiju unutar većeg domena. Kada je rek logički segmentiran u više NVLink particija, Cluster UUID ostaje isti, ali Clique ID-ovi razlikuju ove manje, izolovane grupe visokog propusnog opsega.

Ova razlika je vitalna sa operativnog stanovišta:

Cluster UUID odgovara na pitanje: Koji GPU-ovi fizički dele rek i sposobni su za NVLink komunikaciju najvećim brzinama?
Clique ID odgovara: Koji GPU-ovi dele NVLink particiju i namenjeni su da zajedno komuniciraju za dato radno opterećenje ili nivo usluge, obezbeđujući optimalne performanse za visoko paralelne zadatke?

Ovi identifikatori su vezivno tkivo, omogućavajući platformama kao što su Slurm, Kubernetes i NVIDIA Run:ai da usklade postavljanje poslova, izolaciju i garancije performansi sa stvarnom strukturom NVLink mreže, sve to bez direktnog izlaganja osnovne hardverske složenosti krajnjim korisnicima. NVIDIA Mission Control pruža centralizovani prikaz ovih identifikatora, pojednostavljujući upravljanje.

Hardverski koncept	Softverski identifikator	Opis
NVLink domen	Cluster UUID	Identifikuje GPU-ove koji fizički dele rek, sposobne za NVLink komunikaciju u celoj razmeri reka.
NVLink particija	Clique ID	Razlikuje GPU-ove namenjene za zajedničku komunikaciju unutar NVLink domena za specifično radno opterećenje ili nivo usluge.

Topološki svesno AI raspoređivanje sa Slurm-om

Za radna opterećenja sa više čvorova koja rade na NVL72 sistemima baziranim na Blackwell-u, postavljanje postaje jednako kritično kao i sam broj alociranih GPU-ova. AI trening zadatak koji zahteva 16 GPU-ova, na primer, radiće drastično drugačije ako se neuredno rasporedi po više manje povezanih čvorova u poređenju sa tim da je ograničen unutar jedne, NVLink mreže visokog propusnog opsega. Upravo tu Slurm-ov topology/block dodatak postaje nezamenljiv, omogućavajući Slurm-u da prepozna nijansirane razlike u povezanosti između čvorova.

Na Grace Blackwell NVL72 sistemima, blokovi čvorova koji sadrže veze niže latencije direktno odgovaraju NVLink particijama — grupama GPU-ova koje su ujedinjene namenskanskom NVLink mrežom visokog propusnog opsega. Omogućavanjem topology/block dodatka i izlaganjem ovih NVLink particija kao zasebnih blokova, Slurm dobija kontekstualnu inteligenciju potrebnu za donošenje superiornih odluka o raspoređivanju. Podrazumevano, poslovi se inteligentno postavljaju unutar jedne NVLink particije (ili bloka), čime se čuvaju kritične performanse Multi-Node NVLink (MNNVL). Dok veći poslovi i dalje mogu da se prostiru na više blokova ako je potrebno, ovaj pristup čini kompromise u performansama eksplicitnim, umesto slučajnim.

U praktičnom smislu, ovo omogućava fleksibilne strategije implementacije:

Jedan blok/grupa čvorova po reku: Ova konfiguracija omogućava Slurm Quality of Service (QoS) da upravlja pristupom deljenoj particiji u razmeri celog reka, idealno za konsolidovano upravljanje resursima.
Više blokova/grupa čvorova po reku: Ovaj pristup je savršen za ponudu manjih, izolovanih, GPU pulova visokog propusnog opsega. Ovde, svaki blok/grupa čvorova se mapira na namensku Slurm particiju, efikasno pružajući različit nivo usluge. Korisnici tada mogu da iskoriste specifičnu Slurm particiju, automatski postavljajući svoje poslove unutar predviđene NVLink particije bez potrebe da razumeju osnovne složenosti mreže. Ovo napredno upravljanje resursima je ključno za organizacije koje žele da skaliraju svoje AI inicijative, usklađujući se sa širim ciljem skaliranja AI za sve.

Optimizacija MNNVL radnih opterećenja sa IMEX-om i Mission Control-om

Multi-Node NVIDIA CUDA radna opterećenja često se oslanjaju na MNNVL kako bi postigla maksimalne performanse, omogućavajući GPU-ovima na različitim računarskim pregradama da učestvuju u kohezivnom modelu programiranja deljene memorije. Iz perspektive programera aplikacija, korišćenje MNNVL-a može izgledati varljivo jednostavno, ali osnovna orkestracija je složena.

Tu NVIDIA Mission Control igra ključnu ulogu. Ona obezbeđuje da se kritične komponente savršeno usklade prilikom pokretanja MNNVL poslova sa Slurm-om. Konkretno, Mission Control garantuje da IMEX servis — koji olakšava deljenu GPU memoriju — radi na tačno istom skupu računarskih pregrada koje učestvuju u MNNVL poslu. Takođe obezbeđuje da su neophodni NVSwitches ispravno konfigurisani za uspostavljanje i održavanje ovih MNNVL veza visokog propusnog opsega. Ova koordinacija je vitalna za pružanje doslednih, predvidljivih performansi u celom reku. Bez inteligentne orkestracije Mission Control-a, prednosti MNNVL-a i IMEX-a bi bilo izazovno ostvariti i upravljati na skali, naglašavajući posvećenost NVIDIA-e isporuci kompletnih rešenja za napredne gpu-ove i njihove ekosisteme.

Ka automatizovanoj, skalabilnoj AI infrastrukturi

Integracija NVIDIA Blackwell arhitekture sa sofisticiranim softverskim slojevima kao što su Mission Control i Topograph označava značajan korak ka stvaranju zaista automatizovane i skalabilne AI infrastrukture. NVIDIA Topograph automatizuje otkrivanje složene NVLink i međupovezane hijerarhije, izlažući ove vitalne informacije planerima kao što su Slurm, Kubernetes (putem NVIDIA DRA i ComputeDomains) i NVIDIA Run:ai. Ovo eliminiše ručno opterećenje upravljanja topologijom, omogućavajući organizacijama da implementiraju i skaliraju AI radna opterećenja sa neviđenom efikasnošću.

Pružajući planerima duboko, realno razumevanje hardverske topologije, ovaj integrisani pristup obezbeđuje da AI aplikacije rade na optimalnim resursima, minimizirajući latenciju komunikacije i maksimizirajući propusnost. Rezultat je visoko performantna, otporna i jednostavna za upravljanje AI fabrika sposobna da obradi najzahtevnije AI trening i zaključujuće zadatke. Kako AI modeli nastavljaju da rastu u složenosti i veličini, sposobnost efikasnog upravljanja i raspoređivanja radnih opterećenja na superračunarima u razmeri reka biće od najveće važnosti za pokretanje inovacija i održavanje konkurentske prednosti. Ova holistička strategija podržava budućnost AI-a za preduzeća, transformišući sirovu računarsku snagu u inteligentno, responzivno i visoko efikasno AI superračunarstvo.

Originalni izvor

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Često postavljana pitanja

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Будите у току

Примајте најновије AI вести на имејл.

Podeli