Rack-mastaabiga AI superarvutid: riistvarast topoloogiast teadliku ajastamiseni

Dekoratiivne pilt.

Tehisintellekti maastik areneb kiiresti, nõudes üha võimsamat ja tõhusamat arvutusinfrastruktuuri. Selle arengu esirinnas on rack-mastaabiga superarvutid, mis on loodud kiirendama kõige keerukamaid AI ja suure jõudlusega arvutamise (HPC) töökoormusi. NVIDIA GB200 NVL72 ja GB300 NVL72 süsteemid, mis põhinevad uuenduslikul Blackwelli arhitektuuril, esindavad olulist edasiminekut selles suunas, pakkides tohutud GPU kangad ja suure ribalaiusega võrgustiku ühtsetesse, võimsatesse üksustesse.

Sellise keeruka riistvara juurutamine esitab aga ainulaadse väljakutse: kuidas tõlkida see keeruline füüsiline topoloogia hallatavaks, jõudluseks ja ligipääsetavaks ressursiks AI arendajatele ja teadlastele? Fundamentaalne ebakõla rack-mastaabiga riistvara hierarhilise olemuse ja traditsiooniliste töökoormuse ajastajate sageli tasaste abstraktsioonide vahel loob kitsaskoha. Just siin astub mängu valideeritud tarkvarakomplekt nagu NVIDIA Mission Control, ühendades lõhe, et muuta toores arvutusvõimsus sujuvaks, topoloogiast teadlikuks AI-tehaseks.

Järgmise põlvkonna rack-mastaabiga AI superarvutid NVIDIA Blackwelliga

NVIDIA GB200 NVL72 ja GB300 NVL72 süsteemid, mida toidab tipptasemel NVIDIA Blackwelli arhitektuur, ei ole pelgalt võimsate GPU-de kogumid; need on integreeritud, rack-mastaabiga superarvutid, mis on loodud AI tuleviku jaoks. Iga süsteem sisaldab 18 tihedalt seotud arvutusplaati, mis moodustavad massiivse GPU kanga, mis on ühendatud täiustatud NVLinki lülititega. Need süsteemid toetavad NVIDIA Multi-Node NVLinki (MNNVL), hõlbustades ülikiiret suhtlust rackis, ja sisaldavad IMEX-võimelisi arvutusplaate, mis võimaldavad jagatud GPU-mälu sõlmede vahel. See arhitektuur pakub enneolematu aluse suurte AI-mudelite treenimiseks ja juurutamiseks, nihutades võimaliku piire alates teaduslikest avastustest kuni ettevõtte AI-rakendusteni.

Nende Blackwelli-põhiste süsteemide disainifilosoofia keskendub andmete läbilaskevõime maksimeerimisele ja latentsuse minimeerimisele omavahel ühendatud GPU-de vahel. See saavutatakse tihedalt integreeritud riistvarakomplekti kaudu, kus iga komponent on optimeeritud kollektiivse jõudluse jaoks, tagades, et AI töökoormused saavad tõhusalt skaleeruda, ilma et tekiks sidekitsaskohti.

Riistvara topoloogia ühendamine AI ajastaja abstraktsioonidega

AI arhitektide ja HPC platvormioperaatorite jaoks ei ole tõeline väljakutse mitte ainult selle täiustatud riistvara hankimine ja kokkupanemine, vaid pigem selle muutmine 'turvaliseks, tõhusaks ja hõlpsasti kasutatavaks' ressursiks. Traditsioonilised ajastajad toimivad sageli eeldusel, et tegemist on homogeense, tasase arvutusressursside kogumiga. See paradigma ei sobi rack-mastaabiga superarvutitele, kus NVLinki kangaste ja IMEXi domeenide hierarhiline ja topoloogiast tundlik disain on jõudluse jaoks kriitiline. Ilma korraliku integreerimiseta võivad ajastajad kogemata paigutada ülesandeid alaoptimaalsetesse kohtadesse, mis toob kaasa vähenenud tõhususe ja ettearvamatu jõudluse.

Just siin osaleb NVIDIA Mission Control. NVIDIA Grace Blackwell NVL72 süsteemide tugeva rack-mastaabiga juhtimisplatvormina omab Mission Control loomupärast arusaama aluseks olevatest NVIDIA NVLinki ja NVIDIA IMEXi domeenidest. See sügav teadlikkus võimaldab sellel arukalt integreeruda populaarsete töökoormuse haldamise platvormidega, nagu Slurm ja NVIDIA Run:ai. Tõlkides keerukad riistvara topoloogiad teostatavaks ajastamise intelligentsuseks, tagab Mission Control Blackwelli arhitektuuri täiustatud võimekuste täieliku ärakasutamise, muutes keeruka riistvara kokkupaneku tõeliselt operatiivseks AI-tehaseks. See võimekus laieneb ka eelseisvale NVIDIA Vera Rubini platvormile, sealhulgas NVIDIA Rubin NVL8-le, kinnitades veelgi järjepidevat lähenemist suure jõudlusega AI infrastruktuurile.

NVLinki domeenide ja partitsioonide dekodeerimine AI töökoormuste jaoks

Blackwelli süsteemide topoloogiast teadliku ajastamise keskmes on NVLinki domeenide ja partitsioonide kontseptsioonid, mis eksponeeritakse süsteemitasandi identifikaatorite kaudu: klastri UUID ja klastri ID. Need identifikaatorid on üliolulised, sest need pakuvad füüsilise NVLinki kanga loogilist kaarti, võimaldades süsteemitarkvaral ja ajastajatel järeldada GPU asukoha ja ühenduvuse kohta.

Vastendamine on lihtne, kuid võimas:

Klastri UUID vastab NVLinki domeenile. Jagatud klastri UUID tähistab, et süsteemid – ja nende GPU-d – kuuluvad samasse laiemasse NVLinki domeeni ja on ühendatud ühise NVLinki kangaga. Grace Blackwell NVL72 puhul on see UUID rackis ühtne, näidates füüsilist lähedust ja jagatud suure ribalaiusega ühenduvust.
Klastri ID vastab NVLinki partitsioonile. Klastri ID pakub peenemat eristust, identifitseerides GPU-de rühmi, mis jagavad NVLinki partitsiooni suuremas domeenis. Kui rack on loogiliselt segmenteeritud mitmeks NVLinki partitsiooniks, jääb klastri UUID samaks, kuid klastri ID-d eristavad neid väiksemaid, isoleeritud suure ribalaiusega rühmi.

See eristus on operatiivsest seisukohast ülioluline:

Klastri UUID vastab küsimusele: Millised GPU-d jagavad füüsiliselt racki ja on võimelised NVLinki kaudu suhtlema suurimal kiirusel?
Klastri ID vastab: Millised GPU-d jagavad NVLinki partitsiooni ja on ette nähtud koos suhtlemiseks konkreetse töökoormuse või teenusetaseme jaoks, tagades optimaalse jõudluse väga paralleelsete ülesannete puhul?

Need identifikaatorid on sidekude, mis võimaldab platvormidel nagu Slurm, Kubernetes ja NVIDIA Run:ai viia tööpaigutus, isolatsioon ja jõudluse garantiid vastavusse NVLinki kanga tegeliku struktuuriga, ilma et alusriistvara keerukust otse lõppkasutajatele eksponeeritaks. NVIDIA Mission Control pakub nende identifikaatorite tsentraliseeritud vaadet, lihtsustades haldust.

Riistvara kontseptsioon	Tarkvara identifikaator	Kirjeldus
NVLinki domeen	Klastri UUID	Identifitseerib GPU-d, mis jagavad füüsiliselt racki, suudavad rack-üleselt NVLinki kaudu suhelda.
NVLinki partitsioon	Klastri ID	Eristab GPU-d, mis on ette nähtud koos suhtlemiseks NVLinki domeenis konkreetse töökoormuse või teenusetaseme jaoks.

Topoloogiast teadlik AI ajastamine Slurmiga

Blackwelli-põhistel NVL72 süsteemidel töötavate mitme sõlme töökoormuste puhul muutub paigutus sama kriitiliseks kui eraldatud GPU-de arv. Näiteks 16 GPU-d nõudev AI treeningtöö toimib oluliselt erinevalt, kui see on juhuslikult jaotatud mitme vähem ühendatud sõlme vahel, võrreldes sellega, kui see on piiratud ühte, suure ribalaiusega NVLinki kangasse. Just siin osutub Slurmi topoloogia/ploki plugin asendamatuks, võimaldades Slurmil ära tunda sõlmede vahelisi nüansseeritud ühenduvuserinevusi.

Grace Blackwell NVL72 süsteemides vastavad madalama latentsusega ühendustega sõlmede plokid otse NVLinki partitsioonidele – GPU-de rühmadele, mis on ühendatud spetsiaalse, suure ribalaiusega NVLinki kangaga. Selle pistikprogrammi lubamise ja NVLinki partitsioonide 'plokkidena' eksponeerimise kaudu saab Slurm kontekstuaalse intelligentsuse, mis on vajalik paremate ajastamisotsuste tegemiseks. See tagab, et mitme-GPU tööd jaotatakse eelistatult ühes NVLinki partitsioonis, et säilitada MNNVL-i jõudlus, vältides jõudluse halvenemist, mis võiks tekkida, kui tööd levitataks valimatult superarvuti erinevatesse, vähem ühendatud segmentidesse. See võimaldab optimeeritud ressursside kasutamist ja prognoositavat jõudlust nõudlike AI-ülesannete jaoks.

Praktikas võimaldab see paindlikke juurutamisstrateegiaid:

Üks plokk/sõlmerühm racki kohta: See konfiguratsioon võimaldab Slurmi teenuse kvaliteedil (QoS) hallata juurdepääsu jagatud, rackiülesele partitsioonile, mis sobib ideaalselt konsolideeritud ressursside haldamiseks.
Mitu plokki/sõlmerühma racki kohta: See lähenemine sobib suurepäraselt väiksemate, isoleeritud, suure ribalaiusega GPU-kogumite pakkumiseks. Siin vastab iga plokk/sõlmerühm spetsiaalsele Slurmi partitsioonile, pakkudes sisuliselt eraldi teenusetaset. Kasutajad saavad seejärel kasutada konkreetset Slurmi partitsiooni, paigutades oma tööd automaatselt kavandatud NVLinki partitsiooni, ilma et peaksid mõistma aluseks oleva kanga keerukusi. See täiustatud ressursside haldamine on ülioluline organisatsioonidele, kes soovivad oma AI-algatusi skaleerida, mis on kooskõlas laiemate eesmärkidega AI skaleerimiseks kõigile.

MNNVL töökoormuste optimeerimine IMEXi ja Mission Controliga

Mitme sõlme NVIDIA CUDA töökoormused tuginevad sageli MNNVL-ile maksimaalse jõudluse saavutamiseks, võimaldades erinevate arvutusplaatide GPU-del osaleda ühtses, jagatud mälu programmeerimismudelis. Rakenduse arendaja seisukohast võib MNNVL-i kasutamine tunduda petlikult lihtne, kuid aluseks olev orkestratsioon on keeruline.

Just siin mängib NVIDIA Mission Control keskset rolli. See tagab, et kriitilised komponendid on Slurmiga MNNVL-tööde käitamisel täiuslikult joondatud. Täpsemalt, Mission Control garanteerib, et IMEX-teenus – mis hõlbustab jagatud GPU-mälu – töötab täpselt nendel arvutusplaatidel, mis osalevad MNNVL-töös. Samuti tagab see, et vajalikud NVSwitchid on õigesti konfigureeritud nende suure ribalaiusega MNNVL-ühenduste loomiseks ja säilitamiseks. See koordineerimine on ülioluline järjepideva ja prognoositava jõudluse tagamiseks rackis. Ilma Mission Controli intelligentse orkestratsioonita oleks MNNVL-i ja IMEXi eeliseid keeruline realiseerida ja suures ulatuses hallata, rõhutades NVIDIA pühendumust terviklahenduste pakkumisele täiustatud GPU-de ja nende ökosüsteemide jaoks.

Automatiseeritud, skaleeritava AI infrastruktuuri poole

NVIDIA Blackwelli arhitektuuri integreerimine keerukate tarkvarakihtidega nagu Mission Control ja Topograph tähistab olulist sammu tõeliselt automatiseeritud ja skaleeritava AI infrastruktuuri loomise suunas. NVIDIA Topograph automatiseerib keerulise NVLinki ja ühenduste hierarhia avastamise, eksponeerides selle olulise teabe ajastajatele nagu Slurm, Kubernetes (NVIDIA DRA ja ComputeDomainsi kaudu) ja NVIDIA Run:ai. See kõrvaldab topoloogia haldamise käsitsi kulu, võimaldades organisatsioonidel juurutada ja skaleerida AI töökoormusi enneolematu tõhususega.

Pakkudes ajastajatele sügavat ja reaalajas arusaama riistvara topoloogiast, tagab see integreeritud lähenemine, et AI-rakendused töötavad optimaalsetel ressurssidel, minimeerides side latentsust ja maksimeerides läbilaskevõimet. Tulemuseks on väga jõudlusvõimeline, vastupidav ja hõlpsasti hallatav AI-tehas, mis on võimeline toime tulema kõige nõudlikumate AI-treening- ja järeldusülesannetega. Kuna AI-mudelite keerukus ja suurus kasvavad jätkuvalt, on töökoormuste tõhus haldamise ja ajastamise võime rack-mastaabiga superarvutites innovatsiooni edendamisel ja konkurentsieelise säilitamisel ülioluline. See terviklik strateegia on ettevõtte AI tuleviku aluseks, muutes toore arvutusvõimsuse intelligentsesse, tundlikku ja ülimalt tõhusasse AI superarvutusse.

Algallikas

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Korduma kippuvad küsimused

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Püsige kursis

Saage värskeimad AI uudised oma postkasti.

Jaga