Superpočítače AI v měřítku racku: Od hardwaru po plánování s ohledem na topologii

Krajina umělé inteligence se rychle vyvíjí a vyžaduje stále výkonnější a efektivnější výpočetní infrastrukturu. V čele tohoto vývoje stojí superpočítače v měřítku racku, navržené k urychlení nejsložitějších pracovních zátěží AI a vysoce výkonného počítání (HPC). Systémy NVIDIA GB200 NVL72 a GB300 NVL72, postavené na inovativní architektuře Blackwell, představují významný skok tímto směrem, balící obrovské GPU sítě a vysokorychlostní síťové připojení do soudržných a výkonných jednotek.
Nasazení takto sofistikovaného hardwaru však představuje jedinečnou výzvu: jak tuto složitou fyzickou topologii převést na spravovatelný, výkonný a dostupný zdroj pro vývojáře a výzkumníky v oblasti AI? Základní nesoulad mezi hierarchickou povahou hardwaru v měřítku racku a často plochými abstrakcemi tradičních plánovačů pracovních zátěží vytváří úzké hrdlo. Přesně zde vstupuje do hry ověřený softwarový stack jako NVIDIA Mission Control, který překlenuje tuto propast a transformuje syrovou výpočetní sílu v bezproblémovou továrnu na AI s ohledem na topologii.
Superpočítače AI nové generace v měřítku racku s NVIDIA Blackwell
Systémy NVIDIA GB200 NVL72 a GB300 NVL72, poháněné špičkovou architekturou NVIDIA Blackwell, nejsou jen pouhými soubory výkonných GPU; jedná se o integrované superpočítače v měřítku racku, zkonstruované pro budoucnost AI. Každý systém obsahuje 18 pevně spojených výpočetních šuplíků, tvořících masivní GPU síť propojenou pokročilými přepínači NVLink. Tyto systémy podporují NVIDIA Multi-Node NVLink (MNNVL), což usnadňuje ultra-vysokorychlostní komunikaci v rámci racku, a zahrnují výpočetní šuplíky s podporou IMEX, které umožňují sdílenou paměť GPU napříč uzly. Tato architektura poskytuje bezkonkurenční základ pro trénování a nasazování rozsáhlých modelů AI, posouvající hranice možného v oblastech od vědeckých objevů po podnikové aplikace AI.
Filozofie návrhu těchto systémů založených na Blackwellu se zaměřuje na maximalizaci propustnosti dat a minimalizaci latence mezi propojenými gpus. Toho je dosaženo hustě integrovaným hardwarovým stackem, kde je každá komponenta optimalizována pro kolektivní výkon, což zajišťuje, že pracovní zátěže AI mohou efektivně škálovat bez dosažení komunikačních úzkých míst.
Propojení hardwarové topologie s abstrakcemi plánovače AI
Pro architekty AI a operátory platformy HPC není skutečnou výzvou pouze pořízení a sestavení tohoto pokročilého hardwaru, ale spíše jeho uvedení do provozu jako 'bezpečného, výkonného a snadno použitelného' zdroje. Tradiční plánovače často fungují za předpokladu homogenního, plochého poolu výpočetních zdrojů. Toto paradigma je nevhodné pro superpočítače v měřítku racku, kde je hierarchický a na topologii citlivý design sítí NVLink a domén IMEX kritický pro výkon. Bez správné integrace by plánovače mohly neúmyslně umístit úlohy na suboptimální místa, což by vedlo ke snížení efektivity a nepředvídatelnému výkonu.
To je mezera, kterou je navržen vyplnit NVIDIA Mission Control. Jako robustní řídicí rovina v měřítku racku pro systémy NVIDIA Grace Blackwell NVL72, Mission Control disponuje nativním porozuměním základním doménám NVIDIA NVLink a NVIDIA IMEX. Toto hluboké povědomí mu umožňuje inteligentně se integrovat s populárními platformami pro správu pracovních zátěží, jako jsou Slurm a NVIDIA Run:ai. Překladem komplexních hardwarových topologií do akceschopné plánovací inteligence, Mission Control zajišťuje, že pokročilé schopnosti architektury Blackwell jsou plně využity, transformuje sofistikovanou hardwarovou sestavu v skutečně funkční továrnu na AI. Tato schopnost se rozšíří i na nadcházející platformu NVIDIA Vera Rubin, včetně NVIDIA Rubin NVL8, což dále upevňuje konzistentní přístup k vysoce výkonné infrastruktuře AI.
Dekódování domén a oddílů NVLink pro pracovní zátěže AI
Jádrem plánování s ohledem na topologii pro systémy Blackwell jsou koncepty domén a oddílů NVLink, které jsou vystaveny prostřednictvím systémových identifikátorů: UUID clusteru a ID skupiny (clique ID). Tyto identifikátory jsou klíčové, protože poskytují logickou mapu fyzické sítě NVLink, což umožňuje systémovému softwaru a plánovačům uvažovat o pozici a konektivitě GPU.
Mapování je jednoduché, ale přesto výkonné:
- UUID clusteru odpovídá doméně NVLink. Sdílené UUID clusteru znamená, že systémy – a jejich GPU – patří do stejné nadřazené domény NVLink a jsou propojeny společnou sítí NVLink. Pro Grace Blackwell NVL72 je toto UUID konzistentní napříč celým rackem, což naznačuje fyzickou blízkost a sdílené vysokorychlostní připojení.
- ID skupiny (Clique ID) odpovídá oddílu NVLink. ID skupiny (clique ID) nabízí jemnější rozlišení, identifikující skupiny GPU, které sdílejí oddíl NVLink v rámci větší domény. Když je rack logicky segmentován do více oddílů NVLink, UUID clusteru zůstává stejné, ale ID skupin (clique ID) rozlišují tyto menší, izolované vysokorychlostní skupiny.
Toto rozlišení je z provozního hlediska zásadní:
- UUID clusteru odpovídá na otázku: Které GPU fyzicky sdílejí rack a jsou schopny NVLink komunikace nejvyššími rychlostmi?
- ID skupiny (Clique ID) odpovídá: Které GPU sdílejí oddíl NVLink a jsou určeny ke společné komunikaci pro danou pracovní zátěž nebo úroveň služby, což zajišťuje optimální výkon pro vysoce paralelní úlohy?
Tyto identifikátory jsou pojivovou tkání, která platformám jako Slurm, Kubernetes a NVIDIA Run:ai umožňuje sladit umístění úloh, izolaci a garance výkonu se skutečnou strukturou sítě NVLink, a to vše bez přímého vystavení základní hardwarové složitosti koncovým uživatelům. NVIDIA Mission Control poskytuje centralizovaný pohled na tyto identifikátory, zefektivňuje správu.
| Hardwarový koncept | Softwarový identifikátor | Popis |
|---|---|---|
| Doména NVLink | UUID clusteru | Identifikuje GPU fyzicky sdílející rack, schopné NVLink komunikace v rámci celého racku. |
| Oddíl NVLink | ID skupiny (Clique ID) | Rozlišuje GPU určené ke společné komunikaci v rámci domény NVLink pro konkrétní pracovní zátěž nebo úroveň služby. |
Plánování AI s ohledem na topologii pomocí Slurm
Pro víceuživatelské pracovní zátěže běžící na systémech NVL72 založených na Blackwellu se umístění stává stejně kritickým jako samotný počet alokovaných GPU. Například úloha trénování AI vyžadující 16 GPU bude fungovat drasticky odlišně, pokud bude náhodně rozložena napříč několika méně propojenými uzly, oproti tomu, když bude omezena na jedinou vysokorychlostní síť NVLink. Zde se plugin topology/block Slurmu ukazuje jako nepostradatelný, jelikož umožňuje Slurmu rozpoznat jemné rozdíly v konektivitě mezi uzly.
Na systémech Grace Blackwell NVL72 se bloky uzlů s nižší latencí přímo mapují na oddíly NVLink – skupiny GPU, které jsou sjednoceny vyhrazenou, vysokorychlostní sítí NVLink. Povolení tohoto pluginu a vystavení těchto oddílů NVLink jako 'bloků' poskytuje Slurmu kontextovou inteligenci potřebnou k provádění vynikajících rozhodnutí o plánování. Ve výchozím nastavení jsou úlohy inteligentně umísťovány v rámci jednoho oddílu NVLink (nebo bloku), čímž se zachovává kritický výkon Multi-Node NVLink (MNNVL). Zatímco větší úlohy mohou v případě potřeby překlenout více bloků, tento přístup činí kompromisy ve výkonu explicitními, nikoli náhodnými.
V praxi to umožňuje flexibilní strategie nasazení:
- Jeden blok/skupina uzlů na rack: Tato konfigurace umožňuje Slurmu Quality of Service (QoS) spravovat přístup ke sdílenému oddílu v rámci celého racku, což je ideální pro konsolidovanou správu zdrojů.
- Více bloků/skupin uzlů na rack: Tento přístup je ideální pro nabízení menších, izolovaných, vysokorychlostních poolů GPU. Zde se každý blok/skupina uzlů mapuje na vyhrazený oddíl Slurmu, čímž efektivně poskytuje odlišnou úroveň služby. Uživatelé pak mohou využít konkrétní oddíl Slurmu, automaticky umístit své úlohy do zamýšleného oddílu NVLink, aniž by museli rozumět složitosti základní sítě. Tato pokročilá správa zdrojů je zásadní pro organizace, které chtějí škálovat své iniciativy v oblasti AI, v souladu s širším cílem škálování AI pro všechny.
Optimalizace pracovních zátěží MNNVL pomocí IMEX a Mission Control
Pracovní zátěže Multi-Node NVIDIA CUDA často spoléhají na MNNVL pro dosažení maximálního výkonu, což umožňuje GPU na různých výpočetních šuplících podílet se na kohezivním programovacím modelu sdílené paměti. Z pohledu vývojáře aplikací se využití MNNVL může zdát klamně jednoduché, ale základní orchestrace je komplexní.
Zde hraje NVIDIA Mission Control klíčovou roli. Zajišťuje, aby se kritické komponenty dokonale sladily při spouštění úloh MNNVL se Slurmem. Konkrétně, Mission Control zaručuje, že služba IMEX – která usnadňuje sdílenou paměť GPU – běží na přesně té sadě výpočetních šuplíků, které se účastní úlohy MNNVL. Také zajišťuje, že potřebné NVSwitche jsou správně nakonfigurovány pro navázání a udržení těchto vysokorychlostních MNNVL připojení. Tato koordinace je životně důležitá pro poskytování konzistentního a předvídatelného výkonu napříč rackem. Bez inteligentní orchestrace Mission Control by bylo obtížné realizovat a spravovat výhody MNNVL a IMEX ve velkém měřítku, což podtrhuje závazek společnosti NVIDIA dodávat kompletní řešení pro pokročilé gpus a jejich ekosystémy.
Směrem k automatizované, škálovatelné infrastruktuře AI
Integrace architektury Blackwell od společnosti NVIDIA se sofistikovanými softwarovými vrstvami, jako jsou Mission Control a Topograph, představuje významný krok k vytvoření skutečně automatizované a škálovatelné infrastruktury AI. NVIDIA Topograph automatizuje zjišťování komplexní hierarchie NVLink a propojení, zpřístupňující tyto životně důležité informace plánovačům, jako jsou Slurm, Kubernetes (prostřednictvím NVIDIA DRA a ComputeDomains) a NVIDIA Run:ai. Tím se eliminuje manuální režie správy topologie, což organizacím umožňuje nasazovat a škálovat pracovní zátěže AI s nebývalou efektivitou.
Poskytnutím plánovačům hlubokého, reálného porozumění hardwarové topologii tento integrovaný přístup zajišťuje, že aplikace AI běží na optimálních zdrojích, minimalizuje latenci komunikace a maximalizuje propustnost. Výsledkem je vysoce výkonná, odolná a snadno spravovatelná továrna na AI schopná zvládnout nejnáročnější úlohy trénování a inferenci AI. Vzhledem k tomu, že modely AI nadále rostou na složitosti a velikosti, bude schopnost efektivně spravovat a plánovat pracovní zátěže na superpočítačích v měřítku racku zásadní pro řízení inovací a udržení konkurenční výhody. Tato holistická strategie je základem budoucnosti podnikové AI, transformuje syrovou výpočetní sílu v inteligentní, citlivé a vysoce efektivní superpočítače AI.
Často kladené dotazy
What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?
What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?
How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?
Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.
How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?
What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?
What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?
How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?
Buďte v obraze
Dostávejte nejnovější AI zprávy do schránky.
