Superpočítače AI v měřítku racku: Od hardwaru po plánování s ohledem na topologii

Decorative image.

Krajina umělé inteligence se rychle vyvíjí a vyžaduje stále výkonnější a efektivnější výpočetní infrastrukturu. V čele tohoto vývoje stojí superpočítače v měřítku racku, navržené k urychlení nejsložitějších pracovních zátěží AI a vysoce výkonného počítání (HPC). Systémy NVIDIA GB200 NVL72 a GB300 NVL72, postavené na inovativní architektuře Blackwell, představují významný skok tímto směrem, balící obrovské GPU sítě a vysokorychlostní síťové připojení do soudržných a výkonných jednotek.

Nasazení takto sofistikovaného hardwaru však představuje jedinečnou výzvu: jak tuto složitou fyzickou topologii převést na spravovatelný, výkonný a dostupný zdroj pro vývojáře a výzkumníky v oblasti AI? Základní nesoulad mezi hierarchickou povahou hardwaru v měřítku racku a často plochými abstrakcemi tradičních plánovačů pracovních zátěží vytváří úzké hrdlo. Přesně zde vstupuje do hry ověřený softwarový stack jako NVIDIA Mission Control, který překlenuje tuto propast a transformuje syrovou výpočetní sílu v bezproblémovou továrnu na AI s ohledem na topologii.

Superpočítače AI nové generace v měřítku racku s NVIDIA Blackwell

Systémy NVIDIA GB200 NVL72 a GB300 NVL72, poháněné špičkovou architekturou NVIDIA Blackwell, nejsou jen pouhými soubory výkonných GPU; jedná se o integrované superpočítače v měřítku racku, zkonstruované pro budoucnost AI. Každý systém obsahuje 18 pevně spojených výpočetních šuplíků, tvořících masivní GPU síť propojenou pokročilými přepínači NVLink. Tyto systémy podporují NVIDIA Multi-Node NVLink (MNNVL), což usnadňuje ultra-vysokorychlostní komunikaci v rámci racku, a zahrnují výpočetní šuplíky s podporou IMEX, které umožňují sdílenou paměť GPU napříč uzly. Tato architektura poskytuje bezkonkurenční základ pro trénování a nasazování rozsáhlých modelů AI, posouvající hranice možného v oblastech od vědeckých objevů po podnikové aplikace AI.

Filozofie návrhu těchto systémů založených na Blackwellu se zaměřuje na maximalizaci propustnosti dat a minimalizaci latence mezi propojenými gpus. Toho je dosaženo hustě integrovaným hardwarovým stackem, kde je každá komponenta optimalizována pro kolektivní výkon, což zajišťuje, že pracovní zátěže AI mohou efektivně škálovat bez dosažení komunikačních úzkých míst.

Propojení hardwarové topologie s abstrakcemi plánovače AI

Pro architekty AI a operátory platformy HPC není skutečnou výzvou pouze pořízení a sestavení tohoto pokročilého hardwaru, ale spíše jeho uvedení do provozu jako 'bezpečného, výkonného a snadno použitelného' zdroje. Tradiční plánovače často fungují za předpokladu homogenního, plochého poolu výpočetních zdrojů. Toto paradigma je nevhodné pro superpočítače v měřítku racku, kde je hierarchický a na topologii citlivý design sítí NVLink a domén IMEX kritický pro výkon. Bez správné integrace by plánovače mohly neúmyslně umístit úlohy na suboptimální místa, což by vedlo ke snížení efektivity a nepředvídatelnému výkonu.

To je mezera, kterou je navržen vyplnit NVIDIA Mission Control. Jako robustní řídicí rovina v měřítku racku pro systémy NVIDIA Grace Blackwell NVL72, Mission Control disponuje nativním porozuměním základním doménám NVIDIA NVLink a NVIDIA IMEX. Toto hluboké povědomí mu umožňuje inteligentně se integrovat s populárními platformami pro správu pracovních zátěží, jako jsou Slurm a NVIDIA Run:ai. Překladem komplexních hardwarových topologií do akceschopné plánovací inteligence, Mission Control zajišťuje, že pokročilé schopnosti architektury Blackwell jsou plně využity, transformuje sofistikovanou hardwarovou sestavu v skutečně funkční továrnu na AI. Tato schopnost se rozšíří i na nadcházející platformu NVIDIA Vera Rubin, včetně NVIDIA Rubin NVL8, což dále upevňuje konzistentní přístup k vysoce výkonné infrastruktuře AI.

Dekódování domén a oddílů NVLink pro pracovní zátěže AI

Jádrem plánování s ohledem na topologii pro systémy Blackwell jsou koncepty domén a oddílů NVLink, které jsou vystaveny prostřednictvím systémových identifikátorů: UUID clusteru a ID skupiny (clique ID). Tyto identifikátory jsou klíčové, protože poskytují logickou mapu fyzické sítě NVLink, což umožňuje systémovému softwaru a plánovačům uvažovat o pozici a konektivitě GPU.

Mapování je jednoduché, ale přesto výkonné:

UUID clusteru odpovídá doméně NVLink. Sdílené UUID clusteru znamená, že systémy – a jejich GPU – patří do stejné nadřazené domény NVLink a jsou propojeny společnou sítí NVLink. Pro Grace Blackwell NVL72 je toto UUID konzistentní napříč celým rackem, což naznačuje fyzickou blízkost a sdílené vysokorychlostní připojení.
ID skupiny (Clique ID) odpovídá oddílu NVLink. ID skupiny (clique ID) nabízí jemnější rozlišení, identifikující skupiny GPU, které sdílejí oddíl NVLink v rámci větší domény. Když je rack logicky segmentován do více oddílů NVLink, UUID clusteru zůstává stejné, ale ID skupin (clique ID) rozlišují tyto menší, izolované vysokorychlostní skupiny.

Toto rozlišení je z provozního hlediska zásadní:

UUID clusteru odpovídá na otázku: Které GPU fyzicky sdílejí rack a jsou schopny NVLink komunikace nejvyššími rychlostmi?
ID skupiny (Clique ID) odpovídá: Které GPU sdílejí oddíl NVLink a jsou určeny ke společné komunikaci pro danou pracovní zátěž nebo úroveň služby, což zajišťuje optimální výkon pro vysoce paralelní úlohy?

Tyto identifikátory jsou pojivovou tkání, která platformám jako Slurm, Kubernetes a NVIDIA Run:ai umožňuje sladit umístění úloh, izolaci a garance výkonu se skutečnou strukturou sítě NVLink, a to vše bez přímého vystavení základní hardwarové složitosti koncovým uživatelům. NVIDIA Mission Control poskytuje centralizovaný pohled na tyto identifikátory, zefektivňuje správu.

Hardwarový koncept	Softwarový identifikátor	Popis
Doména NVLink	UUID clusteru	Identifikuje GPU fyzicky sdílející rack, schopné NVLink komunikace v rámci celého racku.
Oddíl NVLink	ID skupiny (Clique ID)	Rozlišuje GPU určené ke společné komunikaci v rámci domény NVLink pro konkrétní pracovní zátěž nebo úroveň služby.

Plánování AI s ohledem na topologii pomocí Slurm

Pro víceuživatelské pracovní zátěže běžící na systémech NVL72 založených na Blackwellu se umístění stává stejně kritickým jako samotný počet alokovaných GPU. Například úloha trénování AI vyžadující 16 GPU bude fungovat drasticky odlišně, pokud bude náhodně rozložena napříč několika méně propojenými uzly, oproti tomu, když bude omezena na jedinou vysokorychlostní síť NVLink. Zde se plugin topology/block Slurmu ukazuje jako nepostradatelný, jelikož umožňuje Slurmu rozpoznat jemné rozdíly v konektivitě mezi uzly.

Na systémech Grace Blackwell NVL72 se bloky uzlů s nižší latencí přímo mapují na oddíly NVLink – skupiny GPU, které jsou sjednoceny vyhrazenou, vysokorychlostní sítí NVLink. Povolení tohoto pluginu a vystavení těchto oddílů NVLink jako 'bloků' poskytuje Slurmu kontextovou inteligenci potřebnou k provádění vynikajících rozhodnutí o plánování. Ve výchozím nastavení jsou úlohy inteligentně umísťovány v rámci jednoho oddílu NVLink (nebo bloku), čímž se zachovává kritický výkon Multi-Node NVLink (MNNVL). Zatímco větší úlohy mohou v případě potřeby překlenout více bloků, tento přístup činí kompromisy ve výkonu explicitními, nikoli náhodnými.

V praxi to umožňuje flexibilní strategie nasazení:

Jeden blok/skupina uzlů na rack: Tato konfigurace umožňuje Slurmu Quality of Service (QoS) spravovat přístup ke sdílenému oddílu v rámci celého racku, což je ideální pro konsolidovanou správu zdrojů.
Více bloků/skupin uzlů na rack: Tento přístup je ideální pro nabízení menších, izolovaných, vysokorychlostních poolů GPU. Zde se každý blok/skupina uzlů mapuje na vyhrazený oddíl Slurmu, čímž efektivně poskytuje odlišnou úroveň služby. Uživatelé pak mohou využít konkrétní oddíl Slurmu, automaticky umístit své úlohy do zamýšleného oddílu NVLink, aniž by museli rozumět složitosti základní sítě. Tato pokročilá správa zdrojů je zásadní pro organizace, které chtějí škálovat své iniciativy v oblasti AI, v souladu s širším cílem škálování AI pro všechny.

Optimalizace pracovních zátěží MNNVL pomocí IMEX a Mission Control

Pracovní zátěže Multi-Node NVIDIA CUDA často spoléhají na MNNVL pro dosažení maximálního výkonu, což umožňuje GPU na různých výpočetních šuplících podílet se na kohezivním programovacím modelu sdílené paměti. Z pohledu vývojáře aplikací se využití MNNVL může zdát klamně jednoduché, ale základní orchestrace je komplexní.

Zde hraje NVIDIA Mission Control klíčovou roli. Zajišťuje, aby se kritické komponenty dokonale sladily při spouštění úloh MNNVL se Slurmem. Konkrétně, Mission Control zaručuje, že služba IMEX – která usnadňuje sdílenou paměť GPU – běží na přesně té sadě výpočetních šuplíků, které se účastní úlohy MNNVL. Také zajišťuje, že potřebné NVSwitche jsou správně nakonfigurovány pro navázání a udržení těchto vysokorychlostních MNNVL připojení. Tato koordinace je životně důležitá pro poskytování konzistentního a předvídatelného výkonu napříč rackem. Bez inteligentní orchestrace Mission Control by bylo obtížné realizovat a spravovat výhody MNNVL a IMEX ve velkém měřítku, což podtrhuje závazek společnosti NVIDIA dodávat kompletní řešení pro pokročilé gpus a jejich ekosystémy.

Směrem k automatizované, škálovatelné infrastruktuře AI

Integrace architektury Blackwell od společnosti NVIDIA se sofistikovanými softwarovými vrstvami, jako jsou Mission Control a Topograph, představuje významný krok k vytvoření skutečně automatizované a škálovatelné infrastruktury AI. NVIDIA Topograph automatizuje zjišťování komplexní hierarchie NVLink a propojení, zpřístupňující tyto životně důležité informace plánovačům, jako jsou Slurm, Kubernetes (prostřednictvím NVIDIA DRA a ComputeDomains) a NVIDIA Run:ai. Tím se eliminuje manuální režie správy topologie, což organizacím umožňuje nasazovat a škálovat pracovní zátěže AI s nebývalou efektivitou.

Poskytnutím plánovačům hlubokého, reálného porozumění hardwarové topologii tento integrovaný přístup zajišťuje, že aplikace AI běží na optimálních zdrojích, minimalizuje latenci komunikace a maximalizuje propustnost. Výsledkem je vysoce výkonná, odolná a snadno spravovatelná továrna na AI schopná zvládnout nejnáročnější úlohy trénování a inferenci AI. Vzhledem k tomu, že modely AI nadále rostou na složitosti a velikosti, bude schopnost efektivně spravovat a plánovat pracovní zátěže na superpočítačích v měřítku racku zásadní pro řízení inovací a udržení konkurenční výhody. Tato holistická strategie je základem budoucnosti podnikové AI, transformuje syrovou výpočetní sílu v inteligentní, citlivé a vysoce efektivní superpočítače AI.

Původní zdroj

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Často kladené dotazy

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Buďte v obraze

Dostávejte nejnovější AI zprávy do schránky.

Sdílet