Stovo dydžio DI superkompiuteriai: nuo aparatinės įrangos iki į topologiją orientuoto planavimo

Dekoratyvinis paveikslėlis.

Dirbtinio intelekto kraštovaizdis sparčiai vystosi, reikalaujant vis galingesnės ir efektyvesnės skaičiavimo infrastruktūros. Šios evoliucijos priešakyje yra stovo dydžio superkompiuteriai, sukurti pagreitinti sudėtingiausius DI ir didelio našumo skaičiavimo (HPC) darbo krūvius. NVIDIA GB200 NVL72 ir GB300 NVL72 sistemos, sukurtos remiantis novatoriška Blackwell architektūra, žymi didelį žingsnį šia linkme, sujungdamos didžiulius GPU tinklus ir didelio pralaidumo tinklus į vientisus, galingus vienetus.

Tačiau, diegiant tokią sudėtingą aparatinę įrangą, kyla unikalus iššūkis: kaip paversti šią sudėtingą fizinę topologiją valdomu, našiu ir prieinamu ištekliu DI kūrėjams ir tyrėjams? Esminis neatitikimas tarp hierarchinės stovo dydžio aparatinės įrangos prigimties ir dažnai plokščių tradicinių darbo krūvių planuotojų abstrakcijų sukuria kliūtį. Būtent čia įsijungia patvirtintas programinės įrangos paketas, toks kaip NVIDIA Mission Control, užpildantis spragą, kad neapdorotą skaičiavimo galią paverstų vientisa, į topologiją orientuota DI gamykla.

Naujos kartos stovo dydžio DI superkompiuteriai su NVIDIA Blackwell

NVIDIA GB200 NVL72 ir GB300 NVL72 sistemos, varomos pažangia NVIDIA Blackwell architektūra, nėra tik galingų GPU rinkiniai; tai yra integruoti, stovo dydžio superkompiuteriai, sukurti DI ateičiai. Kiekviena sistema turi 18 glaudžiai sujungtų skaičiavimo dėklų, sudarančių didžiulį GPU tinklą, sujungtą pažangiais NVLink komutatoriais. Šios sistemos palaiko NVIDIA Multi-Node NVLink (MNNVL), palengvinančias itin didelio greičio komunikaciją stovo viduje, ir apima IMEX palaikančius skaičiavimo dėklus, kurie leidžia bendrinti GPU atmintį per mazgus. Ši architektūra suteikia neprilygstamą pagrindą didelio masto DI modelių mokymui ir diegimui, plečiant galimybių ribas srityse, pradedant nuo mokslinių atradimų iki įmonių DI programų.

Šių Blackwell pagrindu sukurtų sistemų projektavimo filosofija sutelkta į duomenų pralaidumo maksimizavimą ir delsos minimizavimą tarp tarpusavyje sujungtų GPU. Tai pasiekiama per tankiai integruotą aparatinės įrangos paketą, kuriame kiekvienas komponentas yra optimizuotas kolektyviniam našumui, užtikrinant, kad DI darbo krūviai galėtų efektyviai keistis masteliu be komunikacijos kliūčių.

Aparatinės įrangos topologijos sujungimas su DI planuotojo abstrakcijomis

DI architektams ir HPC platformos operatoriams tikrasis iššūkis yra ne tik įsigyti ir surinkti šią pažangią aparatinę įrangą, bet ir paversti ją 'saugia, našia ir lengvai naudojama' priemone. Tradiciniai planuotojai dažnai veikia manydami, kad yra homogeniškas, plokščias skaičiavimo išteklių telkinys. Ši paradigma netinka stovo dydžio superkompiuteriams, kur hierarchinis ir į topologiją jautrus NVLink tinklų ir IMEX domenų dizainas yra kritiškai svarbus našumui. Be tinkamos integracijos, planuotojai gali netyčia išdėstyti užduotis neoptimaliose vietose, o tai sumažins efektyvumą ir nuspėjamą našumą.

Šią spragą ir yra sukurta užpildyti NVIDIA Mission Control. Būdama tvirta stovo dydžio valdymo plokštuma NVIDIA Grace Blackwell NVL72 sistemoms, Mission Control turi natūralų pagrindinių NVIDIA NVLink ir NVIDIA IMEX domenų supratimą. Šis gilus supratimas leidžia jai protingai integruotis su populiariomis darbo krūvių valdymo platformomis, tokiomis kaip Slurm ir NVIDIA Run:ai. Paversdama sudėtingas aparatinės įrangos topologijas į veiksmingą planavimo intelektą, Mission Control užtikrina, kad pažangios Blackwell architektūros galimybės būtų visiškai išnaudotos, paverčiant sudėtingą aparatinės įrangos surinkimą į tikrą veikiančią DI gamyklą. Ši galimybė bus išplėsta ir būsimai NVIDIA Vera Rubin platformai, įskaitant NVIDIA Rubin NVL8, dar labiau sustiprinant nuoseklų požiūrį į didelio našumo DI infrastruktūrą.

NVLink domenų ir skaidinių iššifravimas DI darbo krūviams

Blackwell sistemų į topologiją orientuoto planavimo esmė yra NVLink domenų ir skaidinių sąvokos, kurios atskleidžiamos per sistemos lygio identifikatorius: klasterio UUID ir klikos ID. Šie identifikatoriai yra labai svarbūs, nes jie suteikia loginį fizinio NVLink tinklo žemėlapį, leidžiantį sistemos programinei įrangai ir planuotojams pagrįstai spręsti apie GPU poziciją ir jungiamumą.

Žemėlapio sudarymas yra paprastas, bet galingas:

Klasterio UUID atitinka NVLink domeną. Bendras klasterio UUID reiškia, kad sistemos – ir jų GPU – priklauso tam pačiam bendram NVLink domenui ir yra sujungtos bendru NVLink tinklu. Grace Blackwell NVL72 atveju, šis UUID yra nuoseklus visame stove, nurodant fizinį artumą ir bendrą didelio pralaidumo ryšį.
Klikos ID atitinka NVLink skaidinį. Klikos ID siūlo smulkesnį skirtumą, identifikuojant GPU grupes, kurios dalijasi NVLink skaidiniu didesniame domene. Kai stovas logiškai segmentuojamas į kelis NVLink skaidinius, klasterio UUID išlieka tas pats, tačiau klikos ID skiria šias mažesnes, izoliuotas didelio pralaidumo grupes.

Šis skirtumas yra gyvybiškai svarbus operaciniu požiūriu:

Klasterio UUID atsako į klausimą: Kokie GPU fiziškai dalijasi stovu ir gali bendrauti per NVLink didžiausiu greičiu?
Klikos ID atsako: Kokie GPU dalijasi NVLink skaidiniu ir yra skirti bendrauti kartu tam tikram darbo krūviui ar paslaugų lygiui, užtikrinant optimalų našumą labai lygiagrečioms užduotims?

Šie identifikatoriai yra jungiamasis audinys, leidžiantis tokioms platformoms kaip Slurm, Kubernetes ir NVIDIA Run:ai suderinti užduočių išdėstymą, izoliaciją ir našumo garantijas su tikra NVLink tinklo struktūra, visa tai neatskleidžiant pagrindinio aparatinės įrangos sudėtingumo tiesiogiai galutiniams vartotojams. NVIDIA Mission Control suteikia centralizuotą šių identifikatorių vaizdą, supaprastindama valdymą.

Aparatinės įrangos koncepcija	Programinės įrangos identifikatorius	Aprašymas
NVLink Domenas	Klasterio UUID	Identifikuoja GPU, kurie fiziškai dalijasi stovu ir gali bendrauti per visą stovą per NVLink.
NVLink Skaidinys	Klikos ID	Skiria GPU, skirtus bendrauti kartu NVLink domene konkrečiam darbo krūviui ar paslaugų lygiui.

Į topologiją orientuotas DI planavimas su Slurm

Daugių mazgų darbo krūviams, veikiantiems Blackwell pagrindu sukurtose NVL72 sistemose, išdėstymas tampa toks pat svarbus kaip ir skirtų GPU skaičius. Pavyzdžiui, DI mokymo užduotis, reikalaujanti 16 GPU, veiks visiškai skirtingai, jei bus atsitiktinai paskirstyta per kelis mažiau prijungtus mazgus, palyginti su tuo, jei ji bus apribota viename, didelio pralaidumo NVLink tinkle. Būtent čia Slurm topologijos/bloko papildinys pasirodo nepakeičiamas, leidžiantis Slurm atpažinti niuansuotus mazgų ryšio skirtumus.

Grace Blackwell NVL72 sistemose mazgų blokai su mažesnės delsos jungtimis tiesiogiai atitinka NVLink skaidinius – GPU grupes, sujungtas specializuotu, didelio pralaidumo NVLink tinklu. Įgalinus topologijos/bloko papildinį ir pateikus šiuos NVLink skaidinius kaip atskirus blokus, Slurm įgyja kontekstinę informaciją, reikalingą priimti geresnius planavimo sprendimus. Tai užtikrina, kad kelių GPU užduotys būtų pirmiausia skiriamos viename NVLink skaidinyje (arba bloke), taip išsaugant kritinį kelių mazgų NVLink (MNNVL) našumą. Nors didesnės užduotys, esant poreikiui, vis dar gali apimti kelis blokus, šis metodas aiškiai parodo našumo kompromisus, o ne atsitiktinumus.

Praktiškai tai leidžia naudoti lanksčias diegimo strategijas:

Vienas blokas/mazgų grupė viename stove: Ši konfigūracija leidžia Slurm kokybės užtikrinimo (QoS) sistemai valdyti prieigą prie bendro, viso stovo skaidinio, idealiai tinkančio konsoliduotam išteklių valdymui.
Keli blokai/mazgų grupės viename stove: Šis metodas puikiai tinka siūlant mažesnius, izoliuotus, didelio pralaidumo GPU telkinius. Čia kiekvienas blokas/mazgų grupė atitinka dedikuotą Slurm skaidinį, efektyviai teikiant atskirą paslaugų lygį. Vartotojai tada gali pasinaudoti konkrečiu Slurm skaidiniu, automatiškai nukreipdami savo užduotis į numatytą NVLink skaidinį, nereikalaujant suprasti pagrindinių tinklo subtilybių. Šis pažangus išteklių valdymas yra gyvybiškai svarbus organizacijoms, siekiančioms plėsti savo DI iniciatyvas, atitinkant platesnį tikslą – DI mastelio didinimas visiems.

MNNVL darbo krūvių optimizavimas naudojant IMEX ir Mission Control

Kelių mazgų NVIDIA CUDA darbo krūviai dažnai remiasi MNNVL, kad pasiektų maksimalų našumą, leidžiant GPU skirtinguose skaičiavimo dėkluose dalyvauti vientisame, bendros atminties programavimo modelyje. Iš programų kūrėjo perspektyvos, MNNVL naudojimas gali atrodyti apgaulingai paprastas, tačiau pagrindinis orkestravimas yra sudėtingas.

Būtent čia NVIDIA Mission Control atlieka pagrindinį vaidmenį. Ji užtikrina, kad kritiniai komponentai idealiai sutaptų, kai MNNVL užduotys vykdomos su Slurm. Konkrečiai, Mission Control garantuoja, kad IMEX paslauga – kuri palengvina bendrinamą GPU atmintį – veiktų tiksliai ant tų skaičiavimo dėklų, kurie dalyvauja MNNVL užduotyje. Ji taip pat užtikrina, kad būtini NVSwitchai būtų tinkamai sukonfigūruoti, kad būtų užmegzti ir palaikomi šie didelio pralaidumo MNNVL ryšiai. Šis koordinavimas yra gyvybiškai svarbus užtikrinant nuoseklų, nuspėjamą našumą visame stove. Be Mission Control protingo orkestravimo, MNNVL ir IMEX privalumus būtų sudėtinga realizuoti ir valdyti dideliu mastu, pabrėžiant NVIDIA įsipareigojimą teikti išsamius sprendimus pažangiems GPU ir jų ekosistemoms.

Link automatizuotos, keičiamo dydžio DI infrastruktūros

NVIDIA Blackwell architektūros integravimas su sudėtingais programinės įrangos lygmenimis, tokiais kaip Mission Control ir Topograph, žymi reikšmingą žingsnį kuriant išties automatizuotą ir keičiamo dydžio DI infrastruktūrą. NVIDIA Topograph automatizuoja sudėtingos NVLink ir jungčių hierarchijos atradimą, atskleisdamas šią gyvybiškai svarbią informaciją planuotojams, tokiems kaip Slurm, Kubernetes (per NVIDIA DRA ir ComputeDomains) ir NVIDIA Run:ai. Tai pašalina rankinį topologijos valdymo poreikį, leidžiant organizacijoms diegti ir plėsti DI darbo krūvius su precedento neturinčiu efektyvumu.

Suteikdama planuotojams gilų, realaus laiko aparatinės įrangos topologijos supratimą, ši integruota prieiga užtikrina, kad DI programos veiktų optimaliais ištekliais, minimizuodamos ryšio delsą ir maksimizuodamos pralaidumą. Rezultatas – didelio našumo, atspari ir lengvai valdoma DI gamykla, galinti atlikti sudėtingiausias DI mokymo ir išvadų užduotis. Kadangi DI modeliai ir toliau auga sudėtingumu ir dydžiu, gebėjimas efektyviai valdyti ir planuoti darbo krūvius stovo dydžio superkompiuteriuose bus svarbiausias skatinant inovacijas ir išlaikant konkurencinį pranašumą. Ši holistinė strategija yra įmonių DI ateities pagrindas, paverčianti neapdorotą skaičiavimo galią į intelektualų, reaguojantį ir labai efektyvų DI superkompiuterį.

Originalus šaltinis

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Dažniausiai užduodami klausimai

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis