Superpočítače AI v mierke racku: Od hardvéru k plánovaniu s ohľadom na topológiu

Krajina umelej inteligencie sa rýchlo vyvíja, čo si vyžaduje čoraz výkonnejšiu a efektívnejšiu výpočtovú infraštruktúru. V popredí tejto evolúcie stoja superpočítače v mierke racku, navrhnuté na akceleráciu najkomplexnejších úloh AI a vysokovýkonných výpočtov (HPC). Systémy NVIDIA GB200 NVL72 a GB300 NVL72, postavené na inovatívnej architektúre Blackwell, predstavujú významný skok v tomto smere, spájajúc obrovské GPU štruktúry a vysokorýchlostné sieťovanie do súdržných, výkonných jednotiek.
Nasadenie takto sofistikovaného hardvéru však predstavuje jedinečnú výzvu: ako preložiť túto zložitú fyzickú topológiu do spravovateľného, výkonného a prístupného zdroja pre vývojárov a výskumníkov AI? Základný nesúlad medzi hierarchickou povahou hardvéru v mierke racku a často plochými abstrakciami tradičných plánovačov úloh vytvára úzke miesto. Práve tu prichádza na rad overený softvérový balík ako NVIDIA Mission Control, ktorý prekonáva túto priepasť a transformuje surovú výpočtovú silu na bezproblémovú, topológia-vedomú AI továreň.
Superpočítanie AI novej generácie v mierke racku s NVIDIA Blackwell
Systémy NVIDIA GB200 NVL72 a GB300 NVL72, poháňané špičkovou architektúrou NVIDIA Blackwell, nie sú len zbierkou výkonných GPU; sú to integrované superpočítače v mierke racku, navrhnuté pre budúcnosť AI. Každý systém obsahuje 18 pevne prepojených výpočtových vaničiek, ktoré tvoria masívnu GPU štruktúru prepojenú pokročilými prepínačmi NVLink. Tieto systémy podporujú NVIDIA Multi-Node NVLink (MNNVL), čo uľahčuje ultra-vysokorýchlostnú komunikáciu v rámci racku, a zahŕňajú výpočtové vaničky s podporou IMEX, ktoré umožňujú zdieľanú pamäť GPU naprieč uzlami. Táto architektúra poskytuje bezprecedentný základ pre trénovanie a nasadenie rozsiahlych modelov AI, posúvajúc hranice možného v oblastiach od vedeckých objavov po podnikové aplikácie AI.
Filozofia dizajnu týchto systémov založených na Blackwell sa zameriava na maximalizáciu priepustnosti dát a minimalizáciu latencie medzi prepojenými GPU. To sa dosahuje prostredníctvom husto integrovanej hardvérovej vrstvy, kde je každý komponent optimalizovaný pre kolektívny výkon, čím sa zabezpečuje, že úlohy AI môžu efektívne škálovať bez narazenia na komunikačné prekážky.
Prepojenie hardvérovej topológie s abstrakciami plánovača AI
Pre architektov AI a operátorov platformy HPC nie je skutočnou výzvou len získanie a zostavenie tohto pokročilého hardvéru, ale skôr jeho operacionalizácia do 'bezpečného, výkonného a ľahko použiteľného' zdroja. Tradičné plánovače často fungujú na základe predpokladu homogénneho, plochého súboru výpočtových zdrojov. Táto paradigma je nevhodná pre superpočítače v mierke racku, kde sú hierarchický a na topológiu citlivý dizajn NVLink štruktúr a domén IMEX kritické pre výkon. Bez správnej integrácie môžu plánovače neúmyselne umiestniť úlohy na suboptimálne miesta, čo vedie k zníženej efektivite a nepredvídateľnému výkonu.
Práve túto medzeru je navrhnutá vyplniť NVIDIA Mission Control. Ako robustná riadiaca rovina v mierke racku pre systémy NVIDIA Grace Blackwell NVL72, Mission Control disponuje natívnym pochopením základných domén NVIDIA NVLink a NVIDIA IMEX. Toto hlboké povedomie mu umožňuje inteligentne sa integrovať s populárnymi platformami na správu úloh, ako sú Slurm a NVIDIA Run:ai. Prekladom komplexných hardvérových topológií do použiteľných informácií pre plánovanie, Mission Control zabezpečuje, že pokročilé možnosti architektúry Blackwell sú plne využité, transformujúc sofistikované hardvérové zostavy na skutočne funkčnú továreň na AI. Táto schopnosť sa rozšíri aj na pripravovanú platformu NVIDIA Vera Rubin, vrátane NVIDIA Rubin NVL8, čím sa ďalej upevní konzistentný prístup k vysokovýkonnej infraštruktúre AI.
Dekódovanie domén a oddielov NVLink pre úlohy AI
V centre plánovania s ohľadom na topológiu pre systémy Blackwell sú koncepty domén a oddielov NVLink, ktoré sú vystavené prostredníctvom identifikátorov na úrovni systému: UUID klastra a ID klike. Tieto identifikátory sú kľúčové, pretože poskytujú logickú mapu fyzickej NVLink štruktúry, čo umožňuje systémovému softvéru a plánovačom uvažovať o pozícii a konektivite GPU.
Mapovanie je priamočiare, no výkonné:
- UUID klastra zodpovedá doméne NVLink. Zdieľané UUID klastra znamená, že systémy – a ich GPU – patria do rovnakej zastrešujúcej domény NVLink a sú prepojené spoločnou NVLink štruktúrou. Pre Grace Blackwell NVL72 je toto UUID konzistentné naprieč celým rackom, čo naznačuje fyzickú blízkosť a zdieľané vysokorýchlostné pripojenie.
- ID klike zodpovedá NVLink oddielu. ID klike ponúka jemnejšie rozlíšenie, identifikujúc skupiny GPU, ktoré zdieľajú NVLink oddiel v rámci väčšej domény. Keď je rack logicky segmentovaný do viacerých NVLink oddielov, UUID klastra zostáva rovnaké, ale ID klike rozlišujú tieto menšie, izolované vysokorýchlostné skupiny.
Toto rozlíšenie je z prevádzkového hľadiska životne dôležité:
- UUID klastra odpovedá na otázku: Ktoré GPU fyzicky zdieľajú rack a sú schopné komunikovať prostredníctvom NVLink najvyššími rýchlosťami?
- ID klike odpovedá: Ktoré GPU zdieľajú NVLink oddiel a sú určené na spoločnú komunikáciu pre danú úlohu alebo úroveň služby, čím sa zabezpečí optimálny výkon pre vysoko paralelizované úlohy?
Tieto identifikátory sú spojivovým tkanivom, ktoré umožňuje platformám ako Slurm, Kubernetes a NVIDIA Run:ai zladiť umiestnenie úloh, izoláciu a záruky výkonu so skutočnou štruktúrou NVLink, a to všetko bez priameho vystavovania základnej hardvérovej zložitosti koncovým používateľom. NVIDIA Mission Control poskytuje centralizovaný pohľad na tieto identifikátory, čím zefektívňuje správu.
| Hardvérový koncept | Softvérový identifikátor | Popis |
|---|---|---|
| Doména NVLink | UUID klastra | Identifikuje GPU fyzicky zdieľajúce rack, schopné komunikácie NVLink v rámci celého racku. |
| Oddiel NVLink | ID klike | Rozlišuje GPU určené na spoločnú komunikáciu v rámci domény NVLink pre špecifickú úlohu alebo úroveň služby. |
Plánovanie AI s ohľadom na topológiu pomocou Slurm
Pre multi-uzlové úlohy bežiace na systémoch NVL72 založených na Blackwell, umiestnenie sa stáva rovnako kritickým ako samotný počet alokovaných GPU. Napríklad tréningová úloha AI vyžadujúca 16 GPU sa bude správať podstatne inak, ak sa náhodne rozloží naprieč viacerými menej prepojenými uzlami, v porovnaní s tým, ak je obmedzená v rámci jednej, vysokorýchlostnej NVLink štruktúry. Práve tu sa ukazuje nevyhnutnosť Slurmovho pluginu topology/block, ktorý umožňuje Slurm rozpoznať jemné rozdiely v konektivite medzi uzlami.
Na systémoch Grace Blackwell NVL72, bloky uzlov s nižšou latenciou priamo zodpovedajú NVLink oddielom – skupinám GPU, ktoré sú zjednotené dedikovanou, vysokorýchlostnou NVLink štruktúrou. Povolením pluginu topology/block a vystavením týchto NVLink oddielov ako samostatných blokov získava Slurm kontextovú inteligenciu potrebnú na prijímanie lepších rozhodnutí o plánovaní. Východiskovo sú úlohy inteligentne umiestnené v rámci jedného NVLink oddielu (alebo bloku), čím sa zachováva kritický výkon Multi-Node NVLink (MNNVL). Zatiaľ čo väčšie úlohy môžu v prípade potreby stále pokrývať viacero blokov, tento prístup robí kompromisy vo výkone explicitnými, a nie náhodnými.
V praxi to umožňuje flexibilné stratégie nasadenia:
- Jeden blok/skupina uzlov na rack: Táto konfigurácia umožňuje Slurm Quality of Service (QoS) spravovať prístup k zdieľanému, celo-rackovému oddielu, čo je ideálne pre konsolidovanú správu zdrojov.
- Viac blokov/skupín uzlov na rack: Tento prístup je ideálny pre ponuku menších, izolovaných GPU poolov s vysokou priepustnosťou. Tu sa každá skupina blokov/uzlov mapuje na dedikovaný oddiel Slurm, čím efektívne poskytuje odlišnú úroveň služby. Používatelia potom môžu využívať špecifický oddiel Slurm, automaticky umiestňujúc svoje úlohy do zamýšľaného oddielu NVLink bez toho, aby museli rozumieť základným zložitostiam štruktúry. Táto pokročilá správa zdrojov je kľúčová pre organizácie, ktoré chcú škálovať svoje AI iniciatívy, v súlade so širším cieľom škálovania AI pre každého.
Optimalizácia úloh MNNVL s IMEX a Mission Control
Multi-uzlové úlohy NVIDIA CUDA sa často spoliehajú na MNNVL, aby dosiahli maximálny výkon, čo umožňuje GPU na rôznych výpočtových vaničkách participovať v súdržnom, programovacom modeli zdieľanej pamäte. Z pohľadu vývojára aplikácií sa využitie MNNVL môže zdať klamlivo jednoduché, ale základná orchestrácia je komplexná.
Práve tu hrá kľúčovú úlohu NVIDIA Mission Control. Zabezpečuje, aby sa kritické komponenty dokonale zladili pri spúšťaní úloh MNNVL so Slurm. Konkrétne, Mission Control zaručuje, že služba IMEX – ktorá uľahčuje zdieľanú pamäť GPU – beží na presnej súprave výpočtových vaničiek, ktoré sa zúčastňujú na úlohe MNNVL. Zabezpečuje tiež, že potrebné NVSwitche sú správne nakonfigurované na vytvorenie a udržiavanie týchto vysokorýchlostných pripojení MNNVL. Táto koordinácia je životne dôležitá pre zabezpečenie konzistentného, predvídateľného výkonu naprieč rackom. Bez inteligentnej orchestrácie Mission Control by bolo výhody MNNVL a IMEX náročné realizovať a spravovať v mierke, čo zdôrazňuje záväzok spoločnosti NVIDIA dodávať kompletné riešenia pre pokročilé GPU a ich ekosystémy.
Smerom k automatizovanej, škálovateľnej AI infraštruktúre
Integrácia architektúry Blackwell spoločnosti NVIDIA so sofistikovanými softvérovými vrstvami ako Mission Control a Topograph predstavuje významný krok smerom k vytvoreniu skutočne automatizovanej a škálovateľnej AI infraštruktúry. NVIDIA Topograph automatizuje objavovanie komplexnej hierarchie NVLink a prepojení, pričom tieto životne dôležité informácie sprístupňuje plánovačom, ako sú Slurm, Kubernetes (prostredníctvom NVIDIA DRA a ComputeDomains) a NVIDIA Run:ai. Tým sa eliminuje manuálna réžia správy topológie, čo umožňuje organizáciám nasadzovať a škálovať úlohy AI s bezprecedentnou efektivitou.
Poskytnutím hlbokého, v reálnom čase zrozumiteľného hardvérového topologického prehľadu plánovačom, tento integrovaný prístup zabezpečuje, že aplikácie AI bežia na optimálnych zdrojoch, minimalizujúc komunikačnú latenciu a maximalizujúc priepustnosť. Výsledkom je vysoko výkonná, odolná a ľahko spravovateľná továreň na AI schopná zvládnuť najnáročnejšie úlohy trénovania a inferencie AI. Keďže modely AI neustále rastú v zložitosti a veľkosti, schopnosť efektívne spravovať a plánovať úlohy na superpočítačoch v mierke racku bude prvoradá pre poháňanie inovácií a udržanie konkurenčnej výhody. Táto holistická stratégia podopiera budúcnosť podnikovej AI, transformujúc surovú výpočtovú silu na inteligentné, responzívne a vysoko efektívne superpočítanie AI.
Často kladené otázky
What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?
What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?
How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?
Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.
How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?
What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?
What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?
How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?
Buďte informovaní
Dostávajte najnovšie AI správy do schránky.
