Superračunalniki AI v velikosti omarice: od strojne opreme do razporejanja zavednega topologije

Decorative image.

Pokrajina umetne inteligence se hitro razvija in zahteva vedno močnejšo in učinkovitejšo računalniško infrastrukturo. V ospredju tega razvoja so superračunalniki v velikosti omarice, zasnovani za pospeševanje najkompleksnejših delovnih obremenitev AI in visoko zmogljivega računalništva (HPC). Sistemi NVIDIA GB200 NVL72 in GB300 NVL72, zgrajeni na inovativni arhitekturi Blackwell, predstavljajo pomemben korak v tej smeri, saj združujejo ogromne GPU tkanine in omrežje visoke pasovne širine v kohezivne, zmogljive enote.

Vendar pa namestitev tako sofisticirane strojne opreme predstavlja edinstven izziv: kako to zapleteno fizično topologijo prevesti v obvladljiv, zmogljiv in dostopen vir za razvijalce in raziskovalce AI? Temeljno neskladje med hierarhično naravo strojne opreme v velikosti omarice in pogosto ravninskimi abstrakcijami tradicionalnih razporejevalnikov delovnih obremenitev ustvarja ozko grlo. To je natanko tista vrzel, ki jo zapolnjuje potrjen programski sklad, kot je NVIDIA Mission Control, s premostitvijo, da se surova računska moč pretvori v brezhibno AI tovarno, zavedno topologije.

Superračunalništvo AI naslednje generacije v velikosti omarice z NVIDIA Blackwell

Sistemi NVIDIA GB200 NVL72 in GB300 NVL72, ki jih poganja najsodobnejša arhitektura NVIDIA Blackwell, niso zgolj zbirke zmogljivih GPU-jev; so integrirani superračunalniki v velikosti omarice, zasnovani za prihodnost AI. Vsak sistem vključuje 18 tesno povezanih računskih pladnjev, ki tvorijo masivno GPU tkanino, povezano z naprednimi NVLink stikali. Ti sistemi podpirajo NVIDIA Multi-Node NVLink (MNNVL), kar omogoča izjemno hitro komunikacijo znotraj omarice, in vključujejo računske pladnje, ki podpirajo IMEX in omogočajo skupni GPU pomnilnik med vozlišči. Ta arhitektura zagotavlja neprimerljivo osnovo za usposabljanje in uvajanje velikih AI modelov, s čimer premika meje mogočega na področjih, ki segajo od znanstvenih odkritij do poslovnih AI aplikacij.

Filozofija oblikovanja teh sistemov, ki temeljijo na Blackwellu, se osredotoča na maksimiziranje pretoka podatkov in minimiziranje zakasnitve med medsebojno povezanimi GPU-ji. To se doseže z gosto integriranim strojnim skladom, kjer je vsaka komponenta optimizirana za skupno zmogljivost, kar zagotavlja, da se lahko delovne obremenitve AI učinkovito skalirajo, ne da bi naletele na ozka grla v komunikaciji.

Premoščanje strojne topologije z abstrakcijami razporejevalnika AI

Za arhitekte AI in operaterje platform HPC pravi izziv ni zgolj pridobitev in sestavljanje te napredne strojne opreme, temveč njena operacionalizacija v 'varen, zmogljiv in enostaven za uporabo' vir. Tradicionalni razporejevalniki pogosto delujejo pod predpostavko homogene, enotne skupine računskih virov. Ta paradigma je neprimerna za superračunalnike v velikosti omarice, kjer so hierarhična in na topologijo občutljiva zasnova NVLink tkanin in domen IMEX ključne za zmogljivost. Brez ustrezne integracije lahko razporejevalniki nehote postavijo naloge na suboptimalne lokacije, kar vodi do zmanjšane učinkovitosti in nepredvidljive zmogljivosti.

To je vrzel, ki jo je zasnovan, da zapolni NVIDIA Mission Control. Kot robustna nadzorna ravnina v velikosti omarice za sisteme NVIDIA Grace Blackwell NVL72, Mission Control poseduje izvorno razumevanje osnovnih domen NVIDIA NVLink in NVIDIA IMEX. To poglobljeno zavedanje mu omogoča inteligentno integracijo s priljubljenimi platformami za upravljanje delovnih obremenitev, kot sta Slurm in NVIDIA Run:ai. S prevajanjem kompleksnih strojnih topologij v delovno inteligenco razporejanja, Mission Control zagotavlja, da so napredne zmogljivosti arhitekture Blackwell v celoti izkoriščene, s čimer se sofisticirana strojna montaža pretvori v resnično operativno AI tovarno. Ta zmožnost se bo razširila na prihajajočo platformo NVIDIA Vera Rubin, vključno z NVIDIA Rubin NVL8, kar bo dodatno utrdilo dosleden pristop k visoko zmogljivi AI infrastrukturi.

Dekodiranje domen in particij NVLink za delovne obremenitve AI

V središču razporejanja, zavednega topologije, za sisteme Blackwell so koncepti domen in particij NVLink, ki so izpostavljeni prek identifikatorjev na sistemski ravni: UUID skupine (cluster UUID) in ID klike (clique ID). Ti identifikatorji so ključni, ker zagotavljajo logično preslikavo fizične NVLink tkanine, kar sistemski programski opremi in razporejevalnikom omogoča sklepanje o položaju in povezljivosti GPU-ja.

Preslikava je preprosta, a zmogljiva:

UUID skupine (Cluster UUID) ustreza domeni NVLink. Skupni UUID skupine pomeni, da sistemi – in njihovi GPU-ji – pripadajo isti nadvse obsežni domeni NVLink in so povezani z skupno NVLink tkanino. Za Grace Blackwell NVL72 je ta UUID skladen po celotni omarici, kar kaže na fizično bližino in skupno povezljivost z visoko pasovno širino.
ID klike (Clique ID) ustreza NVLink particiji. ID klike ponuja natančnejšo razločitev, saj identificira skupine GPU-jev, ki si delijo NVLink particijo znotraj večje domene. Ko je omarica logično segmentirana v več NVLink particij, UUID skupine ostane enak, vendar ID-ji klike razlikujejo te manjše, izolirane skupine z visoko pasovno širino.

Ta razločitev je ključnega pomena z operativnega vidika:

UUID skupine (Cluster UUID) odgovarja na vprašanje: Kateri GPU-ji si fizično delijo omarico in so sposobni NVLink komunikacije z najvišjimi hitrostmi?
ID klike (Clique ID) odgovarja: Kateri GPU-ji si delijo NVLink particijo in so namenjeni skupni komunikaciji za določeno delovno obremenitev ali storitveni nivo, kar zagotavlja optimalno zmogljivost za visoko vzporedne naloge?

Ti identifikatorji so vezno tkivo, ki platformam, kot so Slurm, Kubernetes in NVIDIA Run:ai, omogočajo uskladitev postavitve delovnih obremenitev, izolacije in garancije zmogljivosti z dejansko strukturo NVLink tkanine, vse to brez neposrednega izpostavljanja osnovne strojne kompleksnosti končnim uporabnikom. NVIDIA Mission Control zagotavlja centraliziran pogled na te identifikatorje, s čimer poenostavlja upravljanje.

Koncept strojne opreme	Identifikator programske opreme	Opis
NVLink domena	UUID skupine (Cluster UUID)	Identificira GPU-je, ki si fizično delijo omarico, sposobni NVLink komunikacije po celotni omarici.
NVLink particija	ID klike (Clique ID)	Razlikuje GPU-je, namenjene skupni komunikaciji znotraj NVLink domene za specifično delovno obremenitev ali storitveni nivo.

Razporejanje AI, zavedno topologije, s Slurmom

Za delovne obremenitve z več vozlišči, ki se izvajajo na sistemih NVL72, ki temeljijo na Blackwellu, postane postavitev enako kritična kot zgolj število dodeljenih GPU-jev. Na primer, delovna obremenitev za usposabljanje AI, ki zahteva 16 GPU-jev, se bo bistveno drugače izvajala, če je naključno razporejena po več manj povezanih vozliščih, v primerjavi s tem, če je omejena znotraj ene same NVLink tkanine z visoko pasovno širino. Tukaj se Slurmov vtičnik za topologijo/bloke (topology/block plugin) izkaže za nepogrešljivega, saj Slurmu omogoča prepoznavanje niansiranih razlik v povezljivosti med vozlišči.

Na sistemih Grace Blackwell NVL72 bloki vozlišč z nižjo zakasnitvijo povezav neposredno ustrezajo NVLink particijam—skupinam GPU-jev, ki so združeni z namensko NVLink tkanino z visoko pasovno širino. Z omogočanjem tega vtičnika in izpostavljanjem teh NVLink particij kot ločenih blokov, Slurm pridobi kontekstualno inteligenco, potrebno za sprejemanje boljših odločitev o razporejanju. Privzeto so delovne obremenitve inteligentno postavljene znotraj ene same NVLink particije (ali bloka), s čimer se ohrani kritična zmogljivost Multi-Node NVLink (MNNVL). Medtem ko se večje delovne obremenitve po potrebi še vedno lahko razprostirajo čez več blokov, ta pristop naredi kompromise glede zmogljivosti eksplicitne, namesto naključne.

V praksi to omogoča prilagodljive strategije uvajanja:

En blok/skupina vozlišč na omarico: Ta konfiguracija omogoča Slurmu Quality of Service (QoS) upravljanje dostopa do skupne particije na ravni omarice, kar je idealno za konsolidirano upravljanje virov.
Več blokov/skupin vozlišč na omarico: Ta pristop je popoln za ponujanje manjših, izoliranih GPU bazenov z visoko pasovno širino. Tukaj se vsak blok/skupina vozlišč preslika v namensko Slurm particijo, s čimer se učinkovito zagotovi ločen nivo storitve. Uporabniki lahko nato izkoristijo specifično Slurm particijo, s čimer se njihove delovne obremenitve samodejno postavijo znotraj predvidene NVLink particije, ne da bi morali razumeti osnovne zapletenosti tkanine. To napredno upravljanje virov je ključnega pomena za organizacije, ki želijo razširiti svoje AI pobude, usklajeno s širšim ciljem skaliranja AI za vse.

Optimizacija delovnih obremenitev MNNVL z IMEX in Mission Control

NVIDIA CUDA delovne obremenitve z več vozlišči se pogosto zanašajo na MNNVL za doseganje največje zmogljivosti, kar omogoča GPU-jem na različnih računskih pladnjih sodelovanje v kohezivnem programskem modelu skupnega pomnilnika. Z vidika razvijalca aplikacij se lahko izkorišanje MNNVL zdi varljivo preprosto, vendar je osnovna orkestracija kompleksna.

Tukaj igra NVIDIA Mission Control ključno vlogo. Zagotavlja, da se kritične komponente popolnoma uskladijo pri izvajanju delovnih obremenitev MNNVL s Slurmom. Natančneje, Mission Control jamči, da storitev IMEX – ki omogoča skupni GPU pomnilnik – deluje na natančno določenem naboru računskih pladnjev, ki sodelujejo pri delovni obremenitvi MNNVL. Prav tako zagotavlja, da so potrebna NVSwitches pravilno konfigurirana za vzpostavitev in vzdrževanje teh MNNVL povezav z visoko pasovno širino. To usklajevanje je bistvenega pomena za zagotavljanje dosledne, predvidljive zmogljivosti po celotni omarici. Brez inteligentne orkestracije Mission Control bi bile koristi MNNVL in IMEX težko uresničljive in obvladljive v obsegu, kar poudarja zavezanost NVIDIE k zagotavljanju celovitih rešitev za napredne GPU-je in njihove ekosisteme.

K avtomatizirani, razširljivi infrastrukturi AI

Integracija arhitekture Blackwell podjetja NVIDIA z naprednimi programskimi sloji, kot sta Mission Control in Topograph, pomeni pomemben korak k ustvarjanju resnično avtomatizirane in razširljive infrastrukture AI. NVIDIA Topograph avtomatizira odkrivanje kompleksne hierarhije NVLink in medpovezav ter te ključne informacije izpostavi razporejevalnikom, kot so Slurm, Kubernetes (prek NVIDIA DRA in ComputeDomains) in NVIDIA Run:ai. To odpravlja ročno breme upravljanja topologije, kar organizacijam omogoča uvajanje in skaliranje delovnih obremenitev AI z neprimerljivo učinkovitostjo.

Z zagotavljanjem razporejevalnikom poglobljenega, sprotnega razumevanja strojne topologije, ta integriran pristop zagotavlja, da se AI aplikacije izvajajo na optimalnih virih, kar zmanjšuje zakasnitev komunikacije in maksimizira pretok. Rezultat je visoko zmogljiva, odporna in enostavna za upravljanje AI tovarna, sposobna obvladovanja najzahtevnejših nalog usposabljanja in sklepanja AI. Ker se AI modeli še naprej povečujejo v kompleksnosti in velikosti, bo sposobnost učinkovitega upravljanja in razporejanja delovnih obremenitev na superračunalnikih v velikosti omarice ključnega pomena za spodbujanje inovacij in ohranjanje konkurenčne prednosti. Ta celovita strategija podpira prihodnost AI v podjetjih, pretvarjajoč surovo računalniško moč v inteligentno, odzivno in visoko učinkovito AI superračunalništvo.

Izvirni vir

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Pogosta vprašanja

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Bodite na tekočem

Prejemajte najnovejše AI novice po e-pošti.

Deli