AI superračunala na razini stalka: od hardvera do raspoređivanja svjesnog topologije

Dekorativna slika.

Krajolik umjetne inteligencije brzo se razvija, zahtijevajući sve snažniju i učinkovitiju računalnu infrastrukturu. Na čelu ove evolucije nalaze se superračunala na razini stalka, dizajnirana za ubrzavanje najsloženijih radnih opterećenja umjetne inteligencije (AI) i računarstva visokih performansi (HPC). NVIDIA GB200 NVL72 i GB300 NVL72 sustavi, izgrađeni na inovativnoj Blackwell arhitekturi, predstavljaju značajan iskorak u tom smjeru, pakirajući goleme GPU tkanine i mrežu visoke propusnosti u kohezivne, moćne jedinice.

Međutim, implementacija tako sofisticiranog hardvera predstavlja jedinstven izazov: kako prevesti ovu zamršenu fizičku topologiju u resurs kojim se može upravljati, koji je učinkovit i dostupan AI programerima i istraživačima? Temeljni nesklad između hijerarhijske prirode hardvera na razini stalka i često ravnih apstrakcija tradicionalnih raspoređivača radnih opterećenja stvara usko grlo. Upravo tu na scenu stupa provjereni softverski stack poput NVIDIA Mission Control-a, premošćujući jaz i transformirajući sirovu računalnu snagu u besprijekornu AI tvornicu svjesnu topologije.

AI superračunarstvo sljedeće generacije na razini stalka s NVIDIA Blackwell-om

NVIDIA GB200 NVL72 i GB300 NVL72 sustavi, pogonjeni vrhunskom NVIDIA Blackwell arhitekturom, nisu samo skup moćnih GPU-ova; oni su integrirana superračunala na razini stalka, projektirana za budućnost umjetne inteligencije. Svaki sustav sadrži 18 čvrsto povezanih računalnih ladica, tvoreći masivnu GPU tkaninu povezanu naprednim NVLink preklopnicima. Ovi sustavi podržavaju NVIDIA Multi-Node NVLink (MNNVL), olakšavajući ultra-brzu komunikaciju unutar stalka, te uključuju IMEX-sposobne računalne ladice koje omogućuju dijeljenu GPU memoriju između čvorova. Ova arhitektura pruža neusporedivu osnovu za obuku i implementaciju velikih AI modela, pomičući granice mogućeg u područjima od znanstvenih otkrića do AI aplikacija za poduzeća.

Filozofija dizajna iza ovih sustava temeljenih na Blackwellu usmjerena je na maksimiziranje propusnosti podataka i minimiziranje kašnjenja između međusobno povezanih gpu-ova. To se postiže gusto integriranim hardverskim stackom gdje je svaka komponenta optimizirana za kolektivne performanse, osiguravajući da AI radna opterećenja mogu učinkovito skalirati bez nailaska na uska grla u komunikaciji.

Premošćivanje hardverske topologije s apstrakcijama AI raspoređivača

Za AI arhitekte i operatere HPC platformi, pravi izazov nije samo nabava i sastavljanje ovog naprednog hardvera, već njegovo operativno pretvaranje u 'siguran, učinkovit i jednostavan za korištenje' resurs. Tradicionalni raspoređivači često rade pod pretpostavkom homogenog, ravnog skupa računalnih resursa. Ova paradigma nije pogodna za superračunala na razini stalka, gdje su hijerarhijski i topološki osjetljiv dizajn NVLink tkanina i IMEX domena kritični za performanse. Bez odgovarajuće integracije, raspoređivači bi mogli nenamjerno postaviti zadatke na suboptimalne lokacije, što bi dovelo do smanjene učinkovitosti i nepredvidivih performansi.

To je jaz koji je NVIDIA Mission Control projektiran da popuni. Kao robusna kontrolna ravnina na razini stalka za NVIDIA Grace Blackwell NVL72 sustave, Mission Control posjeduje izvorno razumijevanje temeljnih NVIDIA NVLink i NVIDIA IMEX domena. Ova duboka svjesnost omogućuje mu inteligentnu integraciju s popularnim platformama za upravljanje radnim opterećenjima kao što su Slurm i NVIDIA Run:ai. Prevođenjem složenih hardverskih topologija u djelotvornu inteligenciju raspoređivanja, Mission Control osigurava da se napredne mogućnosti Blackwell arhitekture u potpunosti iskoriste, transformirajući sofisticirani hardverski sklop u istinski operativnu AI tvornicu. Ova sposobnost proširit će se i na nadolazeću platformu NVIDIA Vera Rubin, uključujući NVIDIA Rubin NVL8, dodatno učvršćujući dosljedan pristup visokoučinkovitoj AI infrastrukturi.

Dekodiranje NVLink domena i particija za AI radna opterećenja

U središtu raspoređivanja svjesnog topologije za Blackwell sustave su koncepti NVLink domena i particija, koji su izloženi putem sistemskih identifikatora: cluster UUID i clique ID. Ovi identifikatori su ključni jer pružaju logičku mapu fizičke NVLink tkanine, omogućujući sistemskom softveru i raspoređivačima da razumiju položaj i povezanost GPU-a.

Mapiranje je jednostavno, ali moćno:

Cluster UUID odgovara NVLink domeni. Zajednički cluster UUID označava da sustavi—i njihovi GPU-ovi—pripadaju istoj sveobuhvatnoj NVLink domeni i povezani su zajedničkom NVLink tkaninom. Za Grace Blackwell NVL72, ovaj UUID je dosljedan po cijelom stalku, ukazujući na fizičku blizinu i dijeljenu povezivost visoke propusnosti.
Clique ID odgovara NVLink particiji. Clique ID nudi finiju razliku, identificirajući skupine GPU-ova koji dijele NVLink particiju unutar veće domene. Kada je stalak logički segmentiran u više NVLink particija, cluster UUID ostaje isti, ali clique ID-ovi razlikuju ove manje, izolirane skupine visoke propusnosti.

Ova razlika je ključna s operativnog stajališta:

Cluster UUID odgovara na pitanje: Koji GPU-ovi fizički dijele stalak i sposobni su za NVLink komunikaciju najvećim brzinama?
Clique ID odgovara: Koji GPU-ovi dijele NVLink particiju i namijenjeni su za zajedničku komunikaciju za zadano radno opterećenje ili razinu usluge, osiguravajući optimalne performanse za visoko paralelne zadatke?

Ovi identifikatori su vezivno tkivo, omogućavajući platformama poput Slurm-a, Kubernetes-a i NVIDIA Run:ai-a da usklade postavljanje poslova, izolaciju i garancije performansi sa stvarnom strukturom NVLink tkanine, sve bez izravnog izlaganja temeljne hardverske složenosti krajnjim korisnicima. NVIDIA Mission Control pruža centralizirani prikaz ovih identifikatora, pojednostavljujući upravljanje.

Hardverski koncept	Softverski identifikator	Opis
NVLink domena	Cluster UUID	Identificira GPU-ove koji fizički dijele stalak, sposobne za NVLink komunikaciju na razini cijelog stalka.
NVLink particija	Clique ID	Razlikuje GPU-ove namijenjene za zajedničku komunikaciju unutar NVLink domene za specifično radno opterećenje ili razinu usluge.

AI raspoređivanje svjesno topologije sa Slurm-om

Za radna opterećenja s više čvorova koja se izvode na NVL72 sustavima temeljenim na Blackwellu, postavljanje postaje jednako kritično kao i sam broj dodijeljenih GPU-ova. Posao AI obuke koji zahtijeva 16 GPU-ova, na primjer, radit će drastično drugačije ako je nasumično raspršen po više manje povezanih čvorova u usporedbi s time da je ograničen unutar jedne NVLink tkanine visoke propusnosti. Tu se Slurmov dodatak topology/block pokazuje nezamjenjivim, omogućujući Slurmu da prepozna nijansirane razlike u povezanosti između čvorova.

Na Grace Blackwell NVL72 sustavima, blokovi čvorova s manjim kašnjenjem veze izravno odgovaraju NVLink particijama—skupinama GPU-ova koje su ujedinjene namjenskom NVLink tkaninom visoke propusnosti. Omogućavanjem dodatka topology/block i izlaganjem ovih NVLink particija kao zasebnih blokova, Slurm dobiva kontekstualnu inteligenciju potrebnu za donošenje superiornih odluka o raspoređivanju. Prema zadanim postavkama, poslovi se inteligentno postavljaju unutar jedne NVLink particije (ili bloka), čime se očuvaju kritične performanse Multi-Node NVLink (MNNVL). Dok se veći poslovi i dalje mogu protezati preko više blokova ako je potrebno, ovaj pristup čini kompromise u performansama eksplicitnim, a ne slučajnim.

U praktičnom smislu, ovo omogućuje fleksibilne strategije implementacije:

Jedan blok/grupa čvorova po stalku: Ova konfiguracija omogućuje Slurm Quality of Service (QoS) upravljanje pristupom dijeljenoj particiji na razini cijelog stalka, idealno za konsolidirano upravljanje resursima.
Više blokova/grupa čvorova po stalku: Ovaj pristup je savršen za ponudu manjih, izoliranih GPU bazena visoke propusnosti. Ovdje se svaki blok/grupa čvorova preslikava na namjensku Slurm particiju, učinkovito pružajući zasebnu razinu usluge. Korisnici tada mogu koristiti specifičnu Slurm particiju, automatski postavljajući svoje poslove unutar namjeravane NVLink particije bez potrebe za razumijevanjem temeljnih složenosti tkanine. Ovo napredno upravljanje resursima ključno je za organizacije koje žele skalirati svoje AI inicijative, usklađujući se sa širim ciljem skaliranja AI za sve.

Optimizacija MNNVL radnih opterećenja s IMEX-om i Mission Control-om

Radna opterećenja NVIDIA CUDA s više čvorova često se oslanjaju na MNNVL kako bi postigla maksimalne performanse, omogućujući GPU-ovima na različitim računalnim ladicama da sudjeluju u kohezivnom programskom modelu dijeljene memorije. Iz perspektive razvojnog inženjera aplikacija, korištenje MNNVL-a može se činiti varljivo jednostavnim, ali temeljna orkestracija je složena.

Tu NVIDIA Mission Control igra ključnu ulogu. Osigurava da se kritične komponente savršeno usklade prilikom pokretanja MNNVL poslova sa Slurm-om. Konkretno, Mission Control jamči da se IMEX usluga—koja olakšava dijeljenu GPU memoriju—izvodi na točno onom skupu računalnih ladica koje sudjeluju u MNNVL poslu. Također osigurava da su potrebni NVSwitch-evi ispravno konfigurirani za uspostavljanje i održavanje ovih MNNVL veza visoke propusnosti. Ova koordinacija je ključna za pružanje dosljednih, predvidljivih performansi po cijelom stalku. Bez inteligentne orkestracije Mission Control-a, prednosti MNNVL-a i IMEX-a bilo bi izazovno ostvariti i upravljati njima u velikom opsegu, naglašavajući predanost NVIDIA-e pružanju cjelovitih rješenja za napredne gpu-ove i njihove ekosustave.

Prema automatiziranoj, skalabilnoj AI infrastrukturi

Integracija NVIDIA-ine Blackwell arhitekture sa sofisticiranim softverskim slojevima poput Mission Control-a i Topograph-a označava značajan korak prema stvaranju istinski automatizirane i skalabilne AI infrastrukture. NVIDIA Topograph automatizira otkrivanje složene hijerarhije NVLink-a i međusobnih veza, izlažući te vitalne informacije raspoređivačima kao što su Slurm, Kubernetes (putem NVIDIA DRA i ComputeDomains) i NVIDIA Run:ai. To eliminira ručno opterećenje upravljanja topologijom, omogućujući organizacijama da implementiraju i skaliraju AI radna opterećenja s neviđenom učinkovitošću.

Pružajući raspoređivačima duboko, stvarno vrijeme razumijevanje hardverske topologije, ovaj integrirani pristup osigurava da se AI aplikacije izvode na optimalnim resursima, minimizirajući kašnjenje komunikacije i maksimizirajući propusnost. Rezultat je visoko učinkovita, otporna i jednostavna za upravljanje AI tvornica sposobna za rukovanje najzahtjevnijim zadacima AI obuke i inferencije. Kako AI modeli nastavljaju rasti u složenosti i veličini, sposobnost učinkovitog upravljanja i raspoređivanja radnih opterećenja na superračunalima na razini stalka bit će od najveće važnosti za poticanje inovacija i održavanje konkurentske prednosti. Ova holistička strategija podupire budućnost AI-a u poduzećima, transformirajući sirovu računalnu snagu u inteligentno, responzivno i visoko učinkovito AI superračunarstvo.

Izvorni izvor

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Često postavljana pitanja

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Budite u toku

Primajte najnovije AI vijesti na e-mail.

Podijeli