Rakkie-skaal KI-superrekenaars: Van Hardeware tot Topologie-bewuste Skedulering

title: "Rakkie-skaal KI-superrekenaars: Van Hardeware tot Topologie-bewuste Skedulering" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "af" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "Ondernemings-KI" keywords:

KI-werkladings
rakkie-skaal superrekenaars
NVIDIA Blackwell
NVLink
topologie-bewuste skedulering
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
GPU-fabrieke
hulpbronbestuur
ondernemings-KI meta_description: "Ontrafel hoe NVIDIA Blackwell superrekenaars, gekombineer met Mission Control, topologie-bewuste skedulering vir KI-werkladings moontlik maak, en sodoende werkverrigting oor NVLink- en IMEX-domeine optimaliseer." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "NVIDIA Grace Blackwell NVL72-rak wat NVLink- en IMEX-domeine vir rakkie-skaal KI-superrekenaars illustreer" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "Wat is NVIDIA GB200- en GB300 NVL72-stelsels, en watter rol speel die Blackwell-argitektuur?" answer: "NVIDIA GB200- en GB300 NVL72-stelsels verteenwoordig 'n nuwe generasie rakkie-skaal superrekenaars wat spesifiek ontwerp is vir veeleisende KI- en HPC-werkladings. Hierdie stelsels benut die baanbrekende NVIDIA Blackwell-argitektuur, wat massiewe GPU-fabrieke met hoëbandbreedte-netwerke integreer in 'n enkele, nou gekoppelde eenheid. Die Blackwell-argitektuur is ontwerp om ongekende werkverrigting en doeltreffendheid vir opleiding en afleiding te lewer, met gevorderde NVLink-skakelaars, Multi-Node NVLink (MNNVL) vir inter-GPU-kommunikasie, en IMEX-geskikte rekenaarbakke wat gedeelde GPU-geheue oor veelvuldige nodusse binne die rak fasiliteer. Hierdie geïntegreerde ontwerp is daarop gemik om die beperkinge van tradisionele bediener-gebonde GPU-ontplooiings te oorkom, en bied 'n naatlose, skaalbare platform vir komplekse KI-modelle."
question: "Wat is die primêre uitdaging in die skedulering van KI-werkladings op hierdie gevorderde rakkie-skaal superrekenaars?" answer: "Die kernuitdaging lê in die beduidende wanverhouding tussen die ingewikkelde, hiërargiese fisiese topologie van rakkie-skaal superrekenaars en die dikwels simplistiese abstraksies wat deur konvensionele werklaai-skeduleerders aangebied word. Terwyl stelsels soos die NVIDIA GB200/GB300 NVL72 spog met gesofistikeerde NVLink-fabrieke en IMEX-domeine, beskou skeduleerders tipies 'n plat poel GPU's en nodusse. Dit kan lei tot ondoeltreffende hulpbrontoewysing, suboptimale werkverrigting as gevolg van swak data-lokaliteit of kommunikasieknelpunte, en verhoogde operasionele kompleksiteit vir platformoperateurs. Sonder topologie-bewuste skedulering kan die inherente voordele van rakkie-skaal-integrasie, soos hoëbandbreedte-interkonneksies, nie ten volle benut word vir KI-werkladings nie."
question: "Hoe pak NVIDIA Mission Control die operasionele kompleksiteite van rakkie-skaal KI-skedulering aan?" answer: "NVIDIA Mission Control dien as 'n deurslaggewende beheerlaag wat die gaping oorbrug tussen die komplekse hardeware-topologie van NVIDIA Grace Blackwell NVL72-stelsels en die behoeftes van werklaai-bestuurplatforms soos Slurm en NVIDIA Run:ai. Dit bied 'n inheemse, diep begrip van NVLink- en IMEX-domeine, en vertaal fisiese hardeware-verhoudings in logiese identifiseerders wat skeduleerders kan interpreteer. Deur die siening van kluster-UUID's en kliek-ID's te sentraliseer, stel Mission Control presiese, topologie-bewuste taakplasing moontlik, verseker dit behoorlike werklaai-isolasie, en waarborg dit konsekwente werkverrigting deur berekeninge in lyn te bring met die optimale onderliggende hardeware-fabriek. Dit transformeer effektief rou infrastruktuur in 'n doeltreffende, bestuurde KI-fabriek."
question: "Verduidelik die konsepte van kluster-UUID en kliek-ID in die konteks van NVLink-topologie en hul operasionele betekenis." answer: "Kluster-UUID en kliek-ID is stelselvlak-identifiseerders wat 'n GPU se posisie binne die NVLink-fabriek enkodeer, wat die komplekse topologie verstaanbaar maak vir stelselsagteware en skeduleerders. Die kluster-UUID stem ooreen met die NVLink-domein, wat aandui dat stelsels en hul GPU's aan dieselfde fisiese rak behoort en 'n gemeenskaplike NVLink-fabriek deel. Vir Grace Blackwell NVL72 is hierdie UUID konsekwent oor die hele rak. Die kliek-ID bied 'n fyner onderskeid, wat ooreenstem met 'n NVLink-partisie. GPU's wat 'n kliek-ID deel, behoort aan dieselfde logiese partisie binne daardie domein. Operasioneel beantwoord die kluster-UUID watter GPU's fisies 'n rak deel en via NVLink kan kommunikeer, terwyl die kliek-ID beantwoord watter GPU's 'n NVLink-partisie deel en bedoel is om saam te kommunikeer vir 'n spesifieke werklaai, wat fyner hulpbrontoewysing en prestasie-optimering moontlik maak."
question: "Hoe verbeter Slurm se topologie/blok-inprop KI-werkladingsplasing op NVL72-stelsels?" answer: "Slurm se topologie/blok-inprop is noodsaaklik vir doeltreffende KI-werkladingsplasing op NVIDIA NVL72-stelsels deur Slurm bewus te maak dat nie alle nodusse (of GPU's) gelyk is in terme van konnektiwiteit en werkverrigting nie. Op Grace Blackwell NVL72-stelsels pas blokke nodusse met laer-latensie-verbindings direk by NVLink-partisies, wat groepe GPU's is wat 'n hoëbandbreedte-NVLink-fabriek deel. Deur hierdie inprop te aktiveer en NVLink-partisies as 'blokke' bloot te stel, kry Slurm die nodige konteks om intelligente plasingbesluite te neem. Dit verseker dat multi-GPU-take verkieslik binne 'n enkele NVLink-partisie toegewys word om MNNVL-werkverrigting te handhaaf, en voorkom werkverrigtingverswakking wat kan voorkom as take onoordeelkundig oor verskillende, minder-gekoppelde segmente van die superrekenaar versprei word. Dit maak voorsiening vir geoptimaliseerde hulpbronbenutting en voorspelbare werkverrigting vir veeleisende KI-take."
question: "Wat is Multi-Node NVLink (MNNVL), en hoe fasiliteer IMEX dit vir gedeelde GPU-geheue?" answer: "Multi-Node NVLink (MNNVL) is 'n sleuteltegnologie wat GPU's oor verskillende rekenaarnodusse binne 'n rakkie-skaal stelsel toelaat om direk met hoë bandbreedte en lae latensie te kommunikeer, noodsaaklik vir die skaal van groot KI-modelle. MNNVL maak 'n gedeelde-geheue-programmeringsmodel oor hierdie verspreide GPU's moontlik, wat dit vir toepassings laat lyk as 'n enkele, massiewe GPU-fabriek. IMEX (Infiniband Memory Expansion) is die onderliggende tegnologie wat MNNVL fasiliteer. IMEX-geskikte rekenaarbakke is ontwerp om gedeelde GPU-geheue oor nodusse moontlik te maak deur NVIDIA se gevorderde netwerk te benut. Terwyl MNNVL die programmeringsmodel vir ontwikkelaars vereenvoudig, speel Mission Control 'n deurslaggewende rol agter die skerms om te verseker dat IMEX-dienste korrek voorsien en gesinkroniseer word met MNNVL-take, wat waarborg dat die voordele van gedeelde GPU-geheue ten volle benut word sonder om die onderliggende kompleksiteite aan die eindgebruiker bloot te stel."
question: "Wat is die sleutelvoordele van die implementering van topologie-bewuste skedulering vir KI-werkladings op rakkie-skaal superrekenaars?" answer: "Die implementering van topologie-bewuste skedulering bied verskeie beduidende voordele vir KI-werkladings op rakkie-skaal superrekenaars. Eerstens, dit verseker optimale werkverrigting deur take intelligent te plaas op GPU's wat die hoogste bandbreedte en laagste latensie-verbindings het, wat kommunikasie-oorhoofse koste wat inherent is aan verspreide KI-opleiding, minimaliseer. Tweedens, dit verbeter hulpbronbenutting deur die ondoeltreffende verspreiding van take oor disparate hardeware-segmente te voorkom, wat lei tot meer voorspelbare werkverrigting en beter deurvoer. Derdens, dit vereenvoudig bestuur vir platformoperateurs deur hardeware-kompleksiteite te abstraheer terwyl dit duidelike isolasie-grense tussen werkladings bied, wat stelselstabiliteit en -sekuriteit verbeter. Uiteindelik transformeer topologie-bewuste skedulering komplekse hardeware in 'n hoogs doeltreffende, skaalbare en bestuurde 'KI-fabriek', wat navorsing en ontwikkeling versnel terwyl operasionele las verminder word."
question: "Hoe dra NVIDIA Topograph by tot die outomatiese ontdekking en skedulering van superrekenaar-topologieë?" answer: "NVIDIA Topograph is 'n kritiese komponent wat die ontdekking van die ingewikkelde NVLink- en interkonneksie-hiërargie binne rakkie-skaal superrekenaars outomatiseer. Hierdie outomatiese ontdekking is noodsaaklik omdat die handmatige konfigurasie en instandhouding van gedetailleerde topologie-inligting vir grootskaalse stelsels foutgevoelig en hoogs tydrowend sou wees. Topograph stel hierdie gedetailleerde fabriek-inligting bloot aan werklaai-skeduleerders, insluitend Slurm en Kubernetes (deur NVIDIA DRA en ComputeDomains), sowel as NVIDIA Run:ai. Deur skeduleerders te voorsien van 'n akkurate en intydse siening van die hardeware-topologie, stel Topograph hulle in staat om intelligente, outomatiese plasingbesluite te neem. Dit verseker dat KI-werkladings van die begin af op 'n topologie-bewuste manier geskeduleer word, wat werkverrigting, hulpbrontoewysing en algehele stelseldoeltreffendheid optimaliseer, wat deurslaggewend is vir die bou en bedryf van skaalbare KI-fabrieke."


# Rakkie-skaal KI-superrekenaars: Van Hardeware tot Topologie-bewuste Skedulering

![Dekoratiewe beeld.](https://developer-blogs.nvidia.com/wp-content/uploads/2026/04/gtc25-tech-blog-dgx-gb300-1920x1080-1-1024x576.png)

Die landskap van kunsmatige intelligensie ontwikkel vinnig en vereis al hoe kragtiger en doeltreffender rekenaarinfrastruktuur. Voorop hierdie evolusie is rakkie-skaal superrekenaars, ontwerp om die mees komplekse KI- en hoëwerkverrigting-rekenaar (HPC)-werkladings te versnel. NVIDIA se GB200 NVL72- en GB300 NVL72-stelsels, gebou op die innoverende Blackwell-argitektuur, verteenwoordig 'n beduidende sprong in hierdie rigting, deur massiewe GPU-fabrieke en hoëbandbreedte-netwerke in samehangende, kragtige eenhede te verpak.

Die ontplooiing van sulke gesofistikeerde hardeware bied egter 'n unieke uitdaging: hoe vertaal jy hierdie ingewikkelde fisiese topologie in 'n bestuurde, presterende en toeganklike hulpbron vir KI-ontwikkelaars en -navorsers? Die fundamentele wanverhouding tussen die hiërargiese aard van rakkie-skaal hardeware en die dikwels plat abstraksies van tradisionele werklaai-skeduleerders skep 'n knelpunt. Dit is presies waar 'n gevalideerde sagtewarestapel soos NVIDIA Mission Control intree, wat die gaping oorbrug om rou rekenaarkrag te transformeer in 'n naatlose, topologie-bewuste KI-fabriek.

## Volgende-Generasie Rakkie-skaal KI-superrekenaar met NVIDIA Blackwell

Die NVIDIA GB200 NVL72- en GB300 NVL72-stelsels, aangedryf deur die voorpunt NVIDIA Blackwell-argitektuur, is nie bloot versamelings kragtige GPU's nie; dit is geïntegreerde, rakkie-skaal superrekenaars wat vir die toekoms van KI ontwerp is. Elke stelsel beskik oor 18 nou gekoppelde rekenaarbakke, wat 'n massiewe GPU-fabriek vorm wat deur gevorderde NVLink-skakelaars verbind word. Hierdie stelsels ondersteun NVIDIA Multi-Node NVLink (MNNVL), wat ultrahoëspoedkommunikasie binne die rak fasiliteer, en sluit IMEX-geskikte rekenaarbakke in wat gedeelde GPU-geheue oor nodusse moontlik maak. Hierdie argitektuur bied 'n ongeëwenaarde grondslag vir die opleiding en ontplooiing van grootskaalse KI-modelle, wat die grense verskuif van wat moontlik is op gebiede wat wissel van wetenskaplike ontdekking tot ondernemings-KI-toepassings.

Die ontwerpsfilosofie agter hierdie Blackwell-gebaseerde stelsels fokus op die maksimalisering van data-deurvoer en die minimalisering van latensie tussen intergekoppelde [gpu's](/af/gpus). Dit word bereik deur 'n dig geïntegreerde hardewarestapel waar elke komponent geoptimaliseer is vir kollektiewe werkverrigting, wat verseker dat KI-werkladings doeltreffend kan skaal sonder om kommunikasieknelpunte te tref.

## Oorbrugging van Hardewaretopologie met KI-skeduleerderabstraksies

Vir KI-argitekte en HPC-platformoperateurs is die werklike uitdaging nie net die verkryging en samestelling van hierdie gevorderde hardeware nie, maar eerder die operasionele maak daarvan tot 'n 'veilige, presterende en maklik-om-te-gebruik' hulpbron. Tradisionele skeduleerders werk dikwels onder die aanname van 'n homogene, plat poel rekenaarhulpbronne. Hierdie paradigma is swak geskik vir rakkie-skaal superrekenaars, waar die hiërargiese en topologie-sensitiewe ontwerp van NVLink-fabrieke en IMEX-domeine krities is vir werkverrigting. Sonder behoorlike integrasie kan skeduleerders take onbedoeld op suboptimale plekke plaas, wat lei tot verminderde doeltreffendheid en onvoorspelbare werkverrigting.

Dit is die gaping wat NVIDIA Mission Control ontwerp is om te vul. As 'n robuuste rakkie-skaal beheervlak vir NVIDIA Grace Blackwell NVL72-stelsels, beskik Mission Control oor 'n inheemse begrip van die onderliggende NVIDIA NVLink- en NVIDIA IMEX-domeine. Hierdie diep bewustheid stel dit in staat om intelligent te integreer met gewilde werklaai-bestuurplatforms soos Slurm en NVIDIA Run:ai. Deur komplekse hardeware-topologieë te vertaal in uitvoerbare skeduleringsintelligensie, verseker Mission Control dat die gevorderde vermoëns van die Blackwell-argitektuur ten volle benut word, wat 'n gesofistikeerde hardeware-samestelling in 'n werklik operasionele KI-fabriek omskep. Hierdie vermoë sal uitgebrei word na die komende NVIDIA Vera Rubin-platform, insluitend NVIDIA Rubin NVL8, wat 'n konsekwente benadering tot hoëwerkverrigting-KI-infrastruktuur verder bevestig.

## Dekodering van NVLink-domeine en -partisies vir KI-werkladings

In die hart van topologie-bewuste skedulering vir Blackwell-stelsels is die konsepte van NVLink-domeine en -partisies, wat blootgestel word deur stelselvlak-identifiseerders: **kluster-UUID** en **kliek-ID**. Hierdie identifiseerders is deurslaggewend omdat dit 'n logiese kaart van die fisiese NVLink-fabriek verskaf, wat stelselsagteware en skeduleerders in staat stel om oor die GPU se posisie en konnektiwiteit te redeneer.

Die kartering is eenvoudig dog kragtig:
-   **Kluster-UUID** stem ooreen met die **NVLink-domein**. 'n Gedeelde kluster-UUID beteken dat stelsels—en hul GPU's—aan dieselfde oorkoepelende NVLink-domein behoort en deur 'n gemeenskaplike NVLink-fabriek verbind word. Vir Grace Blackwell NVL72 is hierdie UUID konsekwent oor die hele rak, wat fisiese nabyheid en gedeelde hoëbandbreedte-konnektiwiteit aandui.
-   **Kliek-ID** stem ooreen met die **NVLink-partisie**. Die kliek-ID bied 'n fyner onderskeid, wat groepe GPU's identifiseer wat 'n NVLink-partisie binne 'n groter domein deel. Wanneer 'n rak logies gesegmenteer word in veelvuldige NVLink-partisies, bly die kluster-UUID dieselfde, maar die kliek-ID's onderskei hierdie kleiner, geïsoleerde hoëbandbreedte-groepe.

Hierdie onderskeid is van kardinale belang vanuit 'n operasionele oogpunt:
-   Die **Kluster-UUID** beantwoord die vraag: *Watter GPU's deel fisies 'n rak en is in staat tot NVLink-kommunikasie teen die hoogste snelhede?*
-   Die **Kliek-ID** beantwoord: *Watter GPU's deel 'n NVLink-partisie en is bedoel om saam te kommunikeer vir 'n gegewe werklaai of diensvlak, wat optimale werkverrigting vir hoogs parallelle take verseker?*

Hierdie identifiseerders is die verbindingsweefsel wat platforms soos Slurm, Kubernetes en NVIDIA Run:ai in staat stel om taakplasing, isolasie en werkverrigtingwaarborge in lyn te bring met die werklike struktuur van die NVLink-fabriek, alles sonder om die onderliggende hardeware-kompleksiteit direk aan eindgebruikers bloot te stel. NVIDIA Mission Control bied 'n gesentraliseerde siening van hierdie identifiseerders, wat bestuur stroomlyn.

| Hardewarekonsep      | Sagteware-identifiseerder | Beskrywing                                                                                |
| :-------------------- | :------------------ | :----------------------------------------------------------------------------------------- |
| NVLink-domein         | Kluster-UUID        | Identifiseer GPU's wat fisies 'n rak deel, in staat tot rak-wye NVLink-kommunikasie.      |
| NVLink-partisie      | Kliek-ID           | Onderskei GPU's wat bedoel is om saam te kommunikeer binne 'n NVLink-domein vir 'n spesifieke werklaai of diensvlak. |

## Topologie-bewuste KI-skedulering met Slurm

Vir multi-nodus werkladings wat op Blackwell-gebaseerde NVL72-stelsels loop, word **plasing net so krities soos die blote telling van toegewysde GPU's**. 'n KI-opleidingstaak wat byvoorbeeld 16 GPU's benodig, sal aansienlik anders presteer as dit willekeurig oor veelvuldige minder-gekoppelde nodusse versprei word in vergelyking met om dit binne 'n enkele, hoëbandbreedte NVLink-fabriek te beperk. Dit is waar Slurm se **topologie/blok-inprop** onontbeerlik blyk te wees, wat Slurm toelaat om die genuanseerde konnektiwiteitsverskille tussen nodusse te herken.

Op Grace Blackwell NVL72-stelsels stem blokke nodusse met laer-latensie-verbindings direk ooreen met **NVLink-partisies**—groepe GPU's wat verenig is deur 'n toegewyde, hoëbandbreedte NVLink-fabriek. Deur die topologie/blok-inprop te aktiveer en hierdie NVLink-partisies as afsonderlike blokke bloot te stel, verkry Slurm die kontekstuele intelligensie wat nodig is om beter skeduleringsbesluite te neem. By verstek word take intelligent binne 'n enkele NVLink-partisie (of blok) geplaas, waardeur die kritieke Multi-Node NVLink (MNNVL) werkverrigting behou word. Hoewel groter take steeds verskeie blokke kan oorspan indien nodig, maak hierdie benadering die werkverrigtingafwegings eksplisiet, eerder as toevallig.

In praktiese terme maak dit buigsame ontplooiingstrategieë moontlik:
-   **Een blok/nodusgroep per rak**: Hierdie konfigurasie stel Slurm Quality of Service (QoS) in staat om toegang tot die gedeelde, rak-wye partisie te bestuur, ideaal vir gekonsolideerde hulpbronbestuur.
-   **Veelvuldige blokke/nodusgroepe per rak**: Hierdie benadering is perfek om kleiner, geïsoleerde, hoëbandbreedte GPU-poele te bied. Hier pas elke blok/nodusgroep by 'n toegewyde Slurm-partisie, wat effektief 'n afsonderlike diensvlak verskaf. Gebruikers kan dan 'n spesifieke Slurm-partisie benut, en hul take outomaties binne die bedoelde NVLink-partisie laat land sonder om die onderliggende fabriekskompleksiteite te hoef te verstaan. Hierdie gevorderde hulpbronbestuur is deurslaggewend vir organisasies wat hul KI-inisiatiewe wil skaal, en stem ooreen met die breër doelwit van [die skaal van KI vir almal](/af/scaling-ai-for-everyone).

## Optimalisering van MNNVL-werkladings met IMEX en Mission Control

Multi-Node NVIDIA CUDA-werkladings maak gereeld staat op MNNVL om maksimum werkverrigting te behaal, wat GPU's op verskillende rekenaarbakke in staat stel om deel te neem aan 'n samehangende, gedeelde-geheue programmeringsmodel. Vanuit 'n toepassingsontwikkelaar se oogpunt kan die benutting van MNNVL bedrieglik eenvoudig lyk, maar die onderliggende orkestrasie is kompleks.

Dit is waar NVIDIA Mission Control 'n deurslaggewende rol speel. Dit verseker dat kritieke komponente perfek in lyn is wanneer MNNVL-take met Slurm uitgevoer word. Spesifiek waarborg Mission Control dat die IMEX-diens—wat die gedeelde GPU-geheue fasiliteer—loop op die *presiese* stel rekenaarbakke wat aan die MNNVL-taak deelneem. Dit verseker ook dat die nodige NVSwitches korrek gekonfigureer is om hierdie hoëbandbreedte MNNVL-verbindings tot stand te bring en in stand te hou. Hierdie koördinasie is noodsaaklik vir die verskaffing van konsekwente, voorspelbare werkverrigting oor die rak. Sonder Mission Control se intelligente orkestrasie sou die voordele van MNNVL en IMEX uitdagend wees om op skaal te verwesenlik en te bestuur, wat NVIDIA se toewyding beklemtoon om volledige oplossings vir gevorderde [gpu's](/af/gpus) en hul ekosisteme te lewer.

## Na Outomatiese, Skaalbare KI-infrastruktuur

Die integrasie van NVIDIA se Blackwell-argitektuur met gesofistikeerde sagtewarelae soos Mission Control en Topograph merk 'n beduidende stap aan na die skepping van werklik outomatiese en skaalbare KI-infrastruktuur. NVIDIA Topograph outomatiseer die ontdekking van die komplekse NVLink- en interkonneksie-hiërargie, en stel hierdie noodsaaklike inligting bloot aan skeduleerders soos Slurm, Kubernetes (deur NVIDIA DRA en ComputeDomains), en NVIDIA Run:ai. Dit skakel die handmatige oorhoofse bestuur van topologie uit, wat organisasies in staat stel om KI-werkladings met ongekende doeltreffendheid te ontplooi en te skaal.

Deur skeduleerders te voorsien van 'n diep, intydse begrip van die hardeware-topologie, verseker hierdie geïntegreerde benadering dat KI-toepassings op die optimale hulpbronne loop, wat kommunikasielatensie minimaliseer en deurvoer maksimeer. Die resultaat is 'n hoogs presterende, veerkragtige en maklik-om-te-bestuur KI-fabriek wat die mees veeleisende KI-opleidings- en afleidingstake kan hanteer. Namate KI-modelle aanhou groei in kompleksiteit en grootte, sal die vermoë om werkladings op rakkie-skaal superrekenaars doeltreffend te bestuur en te skeduleer van kardinale belang wees vir die dryf van innovasie en die handhawing van mededingende voordeel. Hierdie holistiese strategie ondersteun die toekoms van ondernemings-KI, en transformeer rou rekenaarkrag in intelligente, responsiewe en hoogs doeltreffende KI-superrekenaars.

Oorspronklike bron

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Gereelde Vrae

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Bly op hoogte

Kry die nuutste KI-nuus in jou inkassie.

Deel