Supercomputere AI la scară de rack: de la hardware la planificare conștientă de topologie

Imagine decorativă.

Peisajul inteligenței artificiale evoluează rapid, cerând o infrastructură computațională din ce în ce mai puternică și mai eficientă. În avangarda acestei evoluții se află supercomputerele la scară de rack, concepute pentru a accelera cele mai complexe sarcini de lucru AI și de calcul de înaltă performanță (HPC). Sistemele NVIDIA GB200 NVL72 și GB300 NVL72, construite pe arhitectura inovatoare Blackwell, reprezintă un salt semnificativ în această direcție, împachetând rețele imense de GPU și rețele de mare lățime de bandă în unități coerente și puternice.

Cu toate acestea, implementarea unui hardware atât de sofisticat prezintă o provocare unică: cum traduceți această topologie fizică complexă într-o resursă gestionabilă, performantă și accesibilă pentru dezvoltatorii și cercetătorii AI? Discrepanța fundamentală dintre natura ierarhică a hardware-ului la scară de rack și abstracțiile adesea plate ale planificatoarelor de sarcini de lucru tradiționale creează un blocaj. Aici intervine un pachet software validat precum NVIDIA Mission Control, făcând legătura pentru a transforma puterea de calcul brută într-o fabrică AI fluidă, conștientă de topologie.

Supercalcul AI de generație următoare la scară de rack cu NVIDIA Blackwell

Sistemele NVIDIA GB200 NVL72 și GB300 NVL72, propulsate de arhitectura de ultimă generație NVIDIA Blackwell, nu sunt doar colecții de GPU-uri puternice; ele sunt supercomputere integrate, la scară de rack, proiectate pentru viitorul AI. Fiecare sistem dispune de 18 tăvi de calcul puternic cuplate, formând o rețea masivă de GPU-uri conectate prin switch-uri NVLink avansate. Aceste sisteme suportă NVIDIA Multi-Node NVLink (MNNVL), facilitând comunicarea ultra-rapidă în cadrul rack-ului, și includ tăvi de calcul compatibile IMEX care permit memoria GPU partajată între noduri. Această arhitectură oferă o bază fără precedent pentru antrenarea și implementarea modelelor AI la scară largă, împingând limitele a ceea ce este posibil în domenii variind de la descoperirea științifică la aplicațiile AI pentru întreprinderi.

Filosofia de design din spatele acestor sisteme bazate pe Blackwell se concentrează pe maximizarea debitului de date și minimizarea latenței între gpu-uri interconectate. Acest lucru este realizat printr-o stivă hardware dens integrată, unde fiecare componentă este optimizată pentru performanța colectivă, asigurând că sarcinile de lucru AI pot scala eficient fără a întâmpina blocaje de comunicare.

Conectarea topologiei hardware cu abstracțiile planificatorului AI

Pentru arhitecții AI și operatorii de platforme HPC, adevărata provocare nu este doar achiziționarea și asamblarea acestui hardware avansat, ci mai degrabă operaționalizarea acestuia într-o resursă 'sigură, performantă și ușor de utilizat'. Planificatoarele tradiționale operează adesea sub presupunerea unui grup omogen, plat, de resurse computaționale. Această paradigmă este nepotrivită pentru supercomputerele la scară de rack, unde designul ierarhic și sensibil la topologie al rețelelor NVLink și al domeniilor IMEX este critic pentru performanță. Fără o integrare adecvată, planificatoarele ar putea plasa involuntar sarcinile în locații suboptimale, ducând la o eficiență redusă și performanțe imprevizibile.

Acesta este golul pe care NVIDIA Mission Control este proiectat să îl umple. Ca un plan de control robust la scară de rack pentru sistemele NVIDIA Grace Blackwell NVL72, Mission Control posedă o înțelegere nativă a domeniilor NVIDIA NVLink și NVIDIA IMEX subiacente. Această conștientizare profundă îi permite să se integreze inteligent cu platforme populare de gestionare a sarcinilor de lucru, cum ar fi Slurm și NVIDIA Run:ai. Prin traducerea topologiilor hardware complexe în informații de planificare acționabile, Mission Control asigură că capacitățile avansate ale arhitecturii Blackwell sunt pe deplin valorificate, transformând o asamblare hardware sofisticată într-o fabrică AI cu adevărat operațională. Această capacitate se va extinde la viitoarea platformă NVIDIA Vera Rubin, inclusiv NVIDIA Rubin NVL8, consolidând și mai mult o abordare consistentă a infrastructurii AI de înaltă performanță.

Decodificarea Domeniilor și Partițiilor NVLink pentru Sarcinile de Lucru AI

În centrul planificării conștiente de topologie pentru sistemele Blackwell se află conceptele de domenii și partiții NVLink, care sunt expuse prin identificatori la nivel de sistem: UUID de cluster și ID de clică. Acești identificatori sunt cruciali deoarece oferă o hartă logică a rețelei fizice NVLink, permițând software-ului de sistem și planificatoarelor să raționeze despre poziția și conectivitatea GPU-ului.

Maparea este simplă, dar puternică:

UUID de Cluster corespunde domeniului NVLink. Un UUID de cluster partajat semnifică faptul că sistemele – și GPU-urile lor – aparțin aceluiași domeniu NVLink general și sunt conectate printr-o rețea NVLink comună. Pentru Grace Blackwell NVL72, acest UUID este consistent pe întregul rack, indicând proximitatea fizică și conectivitatea partajată de mare lățime de bandă.
ID de Clică corespunde partiției NVLink. ID-ul de clică oferă o distincție mai granulară, identificând grupuri de GPU-uri care partajează o Partiție NVLink în cadrul unui domeniu mai mare. Atunci când un rack este segmentat logic în multiple partiții NVLink, UUID-ul de cluster rămâne același, dar ID-urile de clică diferențiază aceste grupuri mai mici, izolate, cu lățime de bandă mare.

Această distincție este vitală din punct de vedere operațional:

UUID-ul de Cluster răspunde la întrebarea: Ce GPU-uri partajează fizic un rack și sunt capabile de comunicare NVLink la cele mai mari viteze?
ID-ul de Clică răspunde: Ce GPU-uri partajează o Partiție NVLink și sunt destinate să comunice împreună pentru o anumită sarcină de lucru sau un nivel de serviciu, asigurând performanțe optime pentru sarcinile puternic paralele?

Acești identificatori sunt țesutul conjunctiv, permițând platformelor precum Slurm, Kubernetes și NVIDIA Run:ai să alinieze plasarea sarcinilor, izolarea și garanțiile de performanță cu structura reală a rețelei NVLink, totul fără a expune complexitatea hardware subiacentă direct utilizatorilor finali. NVIDIA Mission Control oferă o vizualizare centralizată a acestor identificatori, simplificând gestionarea.

Concept Hardware	Identificator Software	Descriere
Domeniu NVLink	UUID de Cluster	Identifică GPU-urile care partajează fizic un rack, capabile de comunicare NVLink la nivel de rack.
Partiție NVLink	ID de Clică	Distinge GPU-urile destinate să comunice împreună într-un domeniu NVLink pentru o anumită sarcină de lucru sau un nivel de serviciu.

Planificare AI conștientă de topologie cu Slurm

Pentru sarcinile de lucru multi-nod care rulează pe sistemele NVL72 bazate pe Blackwell, plasarea devine la fel de critică precum numărul total de GPU-uri alocate. O sarcină de antrenare AI care necesită 16 GPU-uri, de exemplu, va funcționa mult diferit dacă este răspândită la întâmplare pe mai multe noduri mai puțin conectate, comparativ cu a fi încadrată într-o singură rețea NVLink de mare lățime de bandă. Aici pluginul topology/block al Slurm se dovedește indispensabil, permițând Slurm să recunoască diferențele nuanțate de conectivitate între noduri.

Pe sistemele Grace Blackwell NVL72, blocurile de noduri cu conexiuni cu latență mai mică corespund direct partițiilor NVLink – grupuri de GPU-uri care sunt unite printr-o rețea NVLink dedicată, de mare lățime de bandă. Prin activarea pluginului topology/block și expunerea acestor partiții NVLink ca blocuri distincte, Slurm obține inteligența contextuală necesară pentru a lua decizii superioare de planificare. În mod implicit, sarcinile sunt plasate inteligent într-o singură partiție NVLink (sau bloc), păstrând astfel performanța critică Multi-Node NVLink (MNNVL). Deși sarcinile mai mari pot acoperi mai multe blocuri dacă este necesar, această abordare face compromisurile de performanță explicite, mai degrabă decât accidentale.

În termeni practici, acest lucru permite strategii flexibile de implementare:

Un bloc/grup de noduri per rack: Această configurație permite Slurm Quality of Service (QoS) să gestioneze accesul la partiția partajată, la nivel de rack, ideală pentru gestionarea consolidată a resurselor.
Mai multe blocuri/grupuri de noduri per rack: Această abordare este perfectă pentru a oferi grupuri de GPU-uri mai mici, izolate, cu lățime de bandă mare. Aici, fiecare bloc/grup de noduri se mapează la o partiție Slurm dedicată, oferind efectiv un nivel de serviciu distinct. Utilizatorii pot apoi valorifica o partiție Slurm specifică, plasându-și automat sarcinile în partiția NVLink dorită fără a fi nevoie să înțeleagă complexitățile structurii subiacente. Această gestionare avansată a resurselor este crucială pentru organizațiile care doresc să își scaleze inițiativele AI, aliniindu-se cu obiectivul mai larg de scalare a AI pentru toți.

Optimizarea sarcinilor de lucru MNNVL cu IMEX și Mission Control

Sarcinile de lucru Multi-Node NVIDIA CUDA se bazează frecvent pe MNNVL pentru a atinge performanțe maxime, permițând GPU-urilor de pe diferite tăvi de calcul să participe la un model de programare coeziv, cu memorie partajată. Din perspectiva unui dezvoltator de aplicații, valorificarea MNNVL poate părea înșelător de simplă, dar orchestrarea subiacentă este complexă.

Aici NVIDIA Mission Control joacă un rol esențial. Acesta asigură că componentele critice se aliniază perfect la rularea sarcinilor MNNVL cu Slurm. Mai exact, Mission Control garantează că serviciul IMEX – care facilitează memoria GPU partajată – rulează pe setul exact de tăvi de calcul care participă la sarcina MNNVL. De asemenea, asigură că NVSwitches-urile necesare sunt configurate corect pentru a stabili și menține aceste conexiuni MNNVL de mare lățime de bandă. Această coordonare este vitală pentru a oferi performanțe consistente și predictibile pe întregul rack. Fără orchestrarea inteligentă a Mission Control, beneficiile MNNVL și IMEX ar fi dificil de realizat și gestionat la scară, subliniind angajamentul NVIDIA de a livra soluții complete pentru gpu-uri avansate și ecosistemele lor.

Spre o infrastructură AI automată, scalabilă

Integrarea arhitecturii Blackwell de la NVIDIA cu straturi software sofisticate precum Mission Control și Topograph marchează un pas semnificativ către crearea unei infrastructuri AI cu adevărat automate și scalabile. NVIDIA Topograph automatizează descoperirea ierarhiei complexe NVLink și de interconectare, expunând aceste informații vitale planificatoarelor precum Slurm, Kubernetes (prin NVIDIA DRA și ComputeDomains) și NVIDIA Run:ai. Acest lucru elimină sarcina manuală de gestionare a topologiei, permițând organizațiilor să implementeze și să scaleze sarcinile de lucru AI cu o eficiență fără precedent.

Prin oferirea planificatoarelor o înțelegere profundă, în timp real, a topologiei hardware, această abordare integrată asigură că aplicațiile AI rulează pe resursele optime, minimizând latența comunicării și maximizând debitul. Rezultatul este o fabrică AI extrem de performantă, rezistentă și ușor de gestionat, capabilă să facă față celor mai exigente sarcini de antrenare și inferență AI. Pe măsură ce modelele AI continuă să crească în complexitate și dimensiune, capacitatea de a gestiona și planifica eficient sarcinile de lucru pe supercomputere la scară de rack va fi primordială pentru a stimula inovația și a menține un avantaj competitiv. Această strategie holistică stă la baza viitorului AI pentru întreprinderi, transformând puterea de calcul brută în supercalcul AI inteligent, reactiv și extrem de eficient.

Sursa originală

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Întrebări frecvente

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Rămâi la curent

Primește ultimele știri AI în inbox-ul tău.

Distribuie