Superpočítače AI v mierke racku: Od hardvéru k plánovaniu s ohľadom na topológiu

Dekoratívny obrázok.

Krajina umelej inteligencie sa rýchlo vyvíja, čo si vyžaduje čoraz výkonnejšiu a efektívnejšiu výpočtovú infraštruktúru. V popredí tejto evolúcie stoja superpočítače v mierke racku, navrhnuté na akceleráciu najkomplexnejších úloh AI a vysokovýkonných výpočtov (HPC). Systémy NVIDIA GB200 NVL72 a GB300 NVL72, postavené na inovatívnej architektúre Blackwell, predstavujú významný skok v tomto smere, spájajúc obrovské GPU štruktúry a vysokorýchlostné sieťovanie do súdržných, výkonných jednotiek.

Nasadenie takto sofistikovaného hardvéru však predstavuje jedinečnú výzvu: ako preložiť túto zložitú fyzickú topológiu do spravovateľného, výkonného a prístupného zdroja pre vývojárov a výskumníkov AI? Základný nesúlad medzi hierarchickou povahou hardvéru v mierke racku a často plochými abstrakciami tradičných plánovačov úloh vytvára úzke miesto. Práve tu prichádza na rad overený softvérový balík ako NVIDIA Mission Control, ktorý prekonáva túto priepasť a transformuje surovú výpočtovú silu na bezproblémovú, topológia-vedomú AI továreň.

Superpočítanie AI novej generácie v mierke racku s NVIDIA Blackwell

Systémy NVIDIA GB200 NVL72 a GB300 NVL72, poháňané špičkovou architektúrou NVIDIA Blackwell, nie sú len zbierkou výkonných GPU; sú to integrované superpočítače v mierke racku, navrhnuté pre budúcnosť AI. Každý systém obsahuje 18 pevne prepojených výpočtových vaničiek, ktoré tvoria masívnu GPU štruktúru prepojenú pokročilými prepínačmi NVLink. Tieto systémy podporujú NVIDIA Multi-Node NVLink (MNNVL), čo uľahčuje ultra-vysokorýchlostnú komunikáciu v rámci racku, a zahŕňajú výpočtové vaničky s podporou IMEX, ktoré umožňujú zdieľanú pamäť GPU naprieč uzlami. Táto architektúra poskytuje bezprecedentný základ pre trénovanie a nasadenie rozsiahlych modelov AI, posúvajúc hranice možného v oblastiach od vedeckých objavov po podnikové aplikácie AI.

Filozofia dizajnu týchto systémov založených na Blackwell sa zameriava na maximalizáciu priepustnosti dát a minimalizáciu latencie medzi prepojenými GPU. To sa dosahuje prostredníctvom husto integrovanej hardvérovej vrstvy, kde je každý komponent optimalizovaný pre kolektívny výkon, čím sa zabezpečuje, že úlohy AI môžu efektívne škálovať bez narazenia na komunikačné prekážky.

Prepojenie hardvérovej topológie s abstrakciami plánovača AI

Pre architektov AI a operátorov platformy HPC nie je skutočnou výzvou len získanie a zostavenie tohto pokročilého hardvéru, ale skôr jeho operacionalizácia do 'bezpečného, výkonného a ľahko použiteľného' zdroja. Tradičné plánovače často fungujú na základe predpokladu homogénneho, plochého súboru výpočtových zdrojov. Táto paradigma je nevhodná pre superpočítače v mierke racku, kde sú hierarchický a na topológiu citlivý dizajn NVLink štruktúr a domén IMEX kritické pre výkon. Bez správnej integrácie môžu plánovače neúmyselne umiestniť úlohy na suboptimálne miesta, čo vedie k zníženej efektivite a nepredvídateľnému výkonu.

Práve túto medzeru je navrhnutá vyplniť NVIDIA Mission Control. Ako robustná riadiaca rovina v mierke racku pre systémy NVIDIA Grace Blackwell NVL72, Mission Control disponuje natívnym pochopením základných domén NVIDIA NVLink a NVIDIA IMEX. Toto hlboké povedomie mu umožňuje inteligentne sa integrovať s populárnymi platformami na správu úloh, ako sú Slurm a NVIDIA Run:ai. Prekladom komplexných hardvérových topológií do použiteľných informácií pre plánovanie, Mission Control zabezpečuje, že pokročilé možnosti architektúry Blackwell sú plne využité, transformujúc sofistikované hardvérové zostavy na skutočne funkčnú továreň na AI. Táto schopnosť sa rozšíri aj na pripravovanú platformu NVIDIA Vera Rubin, vrátane NVIDIA Rubin NVL8, čím sa ďalej upevní konzistentný prístup k vysokovýkonnej infraštruktúre AI.

Dekódovanie domén a oddielov NVLink pre úlohy AI

V centre plánovania s ohľadom na topológiu pre systémy Blackwell sú koncepty domén a oddielov NVLink, ktoré sú vystavené prostredníctvom identifikátorov na úrovni systému: UUID klastra a ID klike. Tieto identifikátory sú kľúčové, pretože poskytujú logickú mapu fyzickej NVLink štruktúry, čo umožňuje systémovému softvéru a plánovačom uvažovať o pozícii a konektivite GPU.

Mapovanie je priamočiare, no výkonné:

UUID klastra zodpovedá doméne NVLink. Zdieľané UUID klastra znamená, že systémy – a ich GPU – patria do rovnakej zastrešujúcej domény NVLink a sú prepojené spoločnou NVLink štruktúrou. Pre Grace Blackwell NVL72 je toto UUID konzistentné naprieč celým rackom, čo naznačuje fyzickú blízkosť a zdieľané vysokorýchlostné pripojenie.
ID klike zodpovedá NVLink oddielu. ID klike ponúka jemnejšie rozlíšenie, identifikujúc skupiny GPU, ktoré zdieľajú NVLink oddiel v rámci väčšej domény. Keď je rack logicky segmentovaný do viacerých NVLink oddielov, UUID klastra zostáva rovnaké, ale ID klike rozlišujú tieto menšie, izolované vysokorýchlostné skupiny.

Toto rozlíšenie je z prevádzkového hľadiska životne dôležité:

UUID klastra odpovedá na otázku: Ktoré GPU fyzicky zdieľajú rack a sú schopné komunikovať prostredníctvom NVLink najvyššími rýchlosťami?
ID klike odpovedá: Ktoré GPU zdieľajú NVLink oddiel a sú určené na spoločnú komunikáciu pre danú úlohu alebo úroveň služby, čím sa zabezpečí optimálny výkon pre vysoko paralelizované úlohy?

Tieto identifikátory sú spojivovým tkanivom, ktoré umožňuje platformám ako Slurm, Kubernetes a NVIDIA Run:ai zladiť umiestnenie úloh, izoláciu a záruky výkonu so skutočnou štruktúrou NVLink, a to všetko bez priameho vystavovania základnej hardvérovej zložitosti koncovým používateľom. NVIDIA Mission Control poskytuje centralizovaný pohľad na tieto identifikátory, čím zefektívňuje správu.

Hardvérový koncept	Softvérový identifikátor	Popis
Doména NVLink	UUID klastra	Identifikuje GPU fyzicky zdieľajúce rack, schopné komunikácie NVLink v rámci celého racku.
Oddiel NVLink	ID klike	Rozlišuje GPU určené na spoločnú komunikáciu v rámci domény NVLink pre špecifickú úlohu alebo úroveň služby.

Plánovanie AI s ohľadom na topológiu pomocou Slurm

Pre multi-uzlové úlohy bežiace na systémoch NVL72 založených na Blackwell, umiestnenie sa stáva rovnako kritickým ako samotný počet alokovaných GPU. Napríklad tréningová úloha AI vyžadujúca 16 GPU sa bude správať podstatne inak, ak sa náhodne rozloží naprieč viacerými menej prepojenými uzlami, v porovnaní s tým, ak je obmedzená v rámci jednej, vysokorýchlostnej NVLink štruktúry. Práve tu sa ukazuje nevyhnutnosť Slurmovho pluginu topology/block, ktorý umožňuje Slurm rozpoznať jemné rozdiely v konektivite medzi uzlami.

Na systémoch Grace Blackwell NVL72, bloky uzlov s nižšou latenciou priamo zodpovedajú NVLink oddielom – skupinám GPU, ktoré sú zjednotené dedikovanou, vysokorýchlostnou NVLink štruktúrou. Povolením pluginu topology/block a vystavením týchto NVLink oddielov ako samostatných blokov získava Slurm kontextovú inteligenciu potrebnú na prijímanie lepších rozhodnutí o plánovaní. Východiskovo sú úlohy inteligentne umiestnené v rámci jedného NVLink oddielu (alebo bloku), čím sa zachováva kritický výkon Multi-Node NVLink (MNNVL). Zatiaľ čo väčšie úlohy môžu v prípade potreby stále pokrývať viacero blokov, tento prístup robí kompromisy vo výkone explicitnými, a nie náhodnými.

V praxi to umožňuje flexibilné stratégie nasadenia:

Jeden blok/skupina uzlov na rack: Táto konfigurácia umožňuje Slurm Quality of Service (QoS) spravovať prístup k zdieľanému, celo-rackovému oddielu, čo je ideálne pre konsolidovanú správu zdrojov.
Viac blokov/skupín uzlov na rack: Tento prístup je ideálny pre ponuku menších, izolovaných GPU poolov s vysokou priepustnosťou. Tu sa každá skupina blokov/uzlov mapuje na dedikovaný oddiel Slurm, čím efektívne poskytuje odlišnú úroveň služby. Používatelia potom môžu využívať špecifický oddiel Slurm, automaticky umiestňujúc svoje úlohy do zamýšľaného oddielu NVLink bez toho, aby museli rozumieť základným zložitostiam štruktúry. Táto pokročilá správa zdrojov je kľúčová pre organizácie, ktoré chcú škálovať svoje AI iniciatívy, v súlade so širším cieľom škálovania AI pre každého.

Optimalizácia úloh MNNVL s IMEX a Mission Control

Multi-uzlové úlohy NVIDIA CUDA sa často spoliehajú na MNNVL, aby dosiahli maximálny výkon, čo umožňuje GPU na rôznych výpočtových vaničkách participovať v súdržnom, programovacom modeli zdieľanej pamäte. Z pohľadu vývojára aplikácií sa využitie MNNVL môže zdať klamlivo jednoduché, ale základná orchestrácia je komplexná.

Práve tu hrá kľúčovú úlohu NVIDIA Mission Control. Zabezpečuje, aby sa kritické komponenty dokonale zladili pri spúšťaní úloh MNNVL so Slurm. Konkrétne, Mission Control zaručuje, že služba IMEX – ktorá uľahčuje zdieľanú pamäť GPU – beží na presnej súprave výpočtových vaničiek, ktoré sa zúčastňujú na úlohe MNNVL. Zabezpečuje tiež, že potrebné NVSwitche sú správne nakonfigurované na vytvorenie a udržiavanie týchto vysokorýchlostných pripojení MNNVL. Táto koordinácia je životne dôležitá pre zabezpečenie konzistentného, predvídateľného výkonu naprieč rackom. Bez inteligentnej orchestrácie Mission Control by bolo výhody MNNVL a IMEX náročné realizovať a spravovať v mierke, čo zdôrazňuje záväzok spoločnosti NVIDIA dodávať kompletné riešenia pre pokročilé GPU a ich ekosystémy.

Smerom k automatizovanej, škálovateľnej AI infraštruktúre

Integrácia architektúry Blackwell spoločnosti NVIDIA so sofistikovanými softvérovými vrstvami ako Mission Control a Topograph predstavuje významný krok smerom k vytvoreniu skutočne automatizovanej a škálovateľnej AI infraštruktúry. NVIDIA Topograph automatizuje objavovanie komplexnej hierarchie NVLink a prepojení, pričom tieto životne dôležité informácie sprístupňuje plánovačom, ako sú Slurm, Kubernetes (prostredníctvom NVIDIA DRA a ComputeDomains) a NVIDIA Run:ai. Tým sa eliminuje manuálna réžia správy topológie, čo umožňuje organizáciám nasadzovať a škálovať úlohy AI s bezprecedentnou efektivitou.

Poskytnutím hlbokého, v reálnom čase zrozumiteľného hardvérového topologického prehľadu plánovačom, tento integrovaný prístup zabezpečuje, že aplikácie AI bežia na optimálnych zdrojoch, minimalizujúc komunikačnú latenciu a maximalizujúc priepustnosť. Výsledkom je vysoko výkonná, odolná a ľahko spravovateľná továreň na AI schopná zvládnuť najnáročnejšie úlohy trénovania a inferencie AI. Keďže modely AI neustále rastú v zložitosti a veľkosti, schopnosť efektívne spravovať a plánovať úlohy na superpočítačoch v mierke racku bude prvoradá pre poháňanie inovácií a udržanie konkurenčnej výhody. Táto holistická stratégia podopiera budúcnosť podnikovej AI, transformujúc surovú výpočtovú silu na inteligentné, responzívne a vysoko efektívne superpočítanie AI.

Pôvodný zdroj

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Často kladené otázky

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Buďte informovaní

Dostávajte najnovšie AI správy do schránky.

Zdieľať