Rack-méretű AI szuperkomputerek: Hardvertől a topológia-érzékeny ütemezésig

Dekoratív kép.

A mesterséges intelligencia világa rohamosan fejlődik, és egyre erősebb és hatékonyabb számítástechnikai infrastruktúrát igényel. Ennek az evolúciónak az élvonalában állnak a rack-méretű szuperkomputerek, amelyeket a legkomplexebb AI és nagyteljesítményű számítástechnikai (HPC) feladatok felgyorsítására terveztek. Az NVIDIA GB200 NVL72 és GB300 NVL72 rendszerei, amelyek az innovatív Blackwell architektúrára épülnek, jelentős előrelépést jelentenek ebben az irányban, hatalmas GPU hálózatokat és nagy sávszélességű hálózatokat integrálva egységes, erőteljes egységekbe.

Azonban az ilyen kifinomult hardver telepítése egyedülálló kihívást jelent: hogyan lehet ezt a bonyolult fizikai topológiát kezelhető, nagy teljesítményű és hozzáférhető erőforrássá alakítani az AI fejlesztők és kutatók számára? A rack-méretű hardver hierarchikus jellege és a hagyományos számítási feladat ütemezők gyakran lapos absztrakciói közötti alapvető eltérés szűk keresztmetszetet hoz létre. Pontosan ezen a ponton lép be egy validált szoftveres stack, mint például az NVIDIA Mission Control, áthidalva a szakadékot a nyers számítási teljesítmény zökkenőmentes, topológia-érzékeny AI gyárrá alakításában.

Következő generációs rack-méretű AI szuperkomputing az NVIDIA Blackwell-lel

Az NVIDIA GB200 NVL72 és GB300 NVL72 rendszerek, amelyeket a legmodernebb NVIDIA Blackwell architektúra hajt, nem csupán erős GPU-k gyűjteményei; integrált, rack-méretű szuperkomputerek, amelyeket az AI jövőjére terveztek. Minden rendszer 18 szorosan összekapcsolt számítási tálcával rendelkezik, amelyek hatalmas GPU hálózatot alkotnak fejlett NVLink kapcsolókkal összekötve. Ezek a rendszerek támogatják az NVIDIA Multi-Node NVLink (MNNVL) technológiát, amely ultra-nagy sebességű kommunikációt tesz lehetővé a racken belül, és IMEX-képes számítási tálcákat is tartalmaznak, amelyek megosztott GPU memóriát tesznek lehetővé a node-ok között. Ez az architektúra páratlan alapot biztosít nagyméretű AI modellek tréningjéhez és telepítéséhez, feszegetve a lehetőségek határait a tudományos felfedezésektől a vállalati AI alkalmazásokig.

E Blackwell-alapú rendszerek tervezési filozófiája az adatáteresztő képesség maximalizálására és az összekapcsolt GPU-k közötti késleltetés minimalizálására összpontosít. Ez egy sűrűn integrált hardveres stack segítségével valósul meg, ahol minden komponens a kollektív teljesítmény optimalizálására szolgál, biztosítva, hogy az AI feladatok hatékonyan skálázhatók legyenek kommunikációs szűk keresztmetszetek nélkül.

Hardver topológia és AI ütemező absztrakciók áthidalása

Az AI architektusok és HPC platform operátorok számára az igazi kihívás nem csupán e fejlett hardver beszerzése és összeszerelése, hanem annak "biztonságos, nagy teljesítményű és könnyen használható" erőforrássá alakítása. A hagyományos ütemezők gyakran egy homogén, lapos számítási erőforráskészlet feltételezésével működnek. Ez a paradigma rosszul illeszkedik a rack-méretű szuperkomputerekhez, ahol az NVLink hálózatok és IMEX tartományok hierarchikus és topológia-érzékeny kialakítása kritikus a teljesítmény szempontjából. Megfelelő integráció nélkül az ütemezők véletlenül szuboptimális helyekre helyezhetik a feladatokat, ami csökkent hatékonysághoz és kiszámíthatatlan teljesítményhez vezet.

Ezt a hiányosságot hivatott kitölteni az NVIDIA Mission Control. Az NVIDIA Grace Blackwell NVL72 rendszerek robusztus rack-méretű vezérlősíkként a Mission Control natív módon érti az alapul szolgáló NVIDIA NVLink és NVIDIA IMEX tartományokat. Ez a mélyreható ismeret lehetővé teszi számára, hogy intelligensen integrálódjon olyan népszerű számítási feladat-kezelő platformokkal, mint a Slurm és az NVIDIA Run:ai. A komplex hardver topológiák értelmezhető ütemezési intelligenciává fordításával a Mission Control biztosítja, hogy a Blackwell architektúra fejlett képességei teljes mértékben kihasználásra kerüljenek, egy kifinomult hardveres összeállítást valóban működőképes AI gyárrá alakítva. Ez a képesség kiterjed a közelgő NVIDIA Vera Rubin platformra, beleértve az NVIDIA Rubin NVL8-at is, tovább erősítve a nagy teljesítményű AI infrastruktúra következetes megközelítését.

NVLink tartományok és partíciók dekódolása AI számítási feladatokhoz

A Blackwell rendszerek topológia-érzékeny ütemezésének középpontjában az NVLink tartományok és partíciók koncepciói állnak, amelyek rendszerszintű azonosítókon keresztül kerülnek felfedésre: fürt UUID és klikk azonosító. Ezek az azonosítók kulcsfontosságúak, mert logikai térképet biztosítanak a fizikai NVLink hálózatról, lehetővé téve a rendszerszoftver és az ütemezők számára, hogy a GPU pozíciójáról és csatlakozásáról gondolkodjanak.

A leképezés egyszerű, de erőteljes:

A fürt UUID az NVLink tartománynak felel meg. A megosztott fürt UUID azt jelenti, hogy a rendszerek – és GPU-ik – ugyanahhoz az átfogó NVLink tartományhoz tartoznak, és közös NVLink hálózattal vannak összekötve. A Grace Blackwell NVL72 esetében ez az UUID konzisztens az egész rackben, jelezve a fizikai közelséget és a megosztott nagy sávszélességű kapcsolatot.
A klikk azonosító az NVLink partíciónak felel meg. A klikk azonosító finomabb megkülönböztetést kínál, azonosítva azon GPU-csoportokat, amelyek egy NVLink partíciót osztanak meg egy nagyobb tartományon belül. Amikor egy rack több NVLink partícióra van logikailag szegmentálva, a fürt UUID ugyanaz marad, de a klikk azonosítók különböztetik meg ezeket a kisebb, izolált, nagy sávszélességű csoportokat.

Ez a különbségtétel működési szempontból létfontosságú:

A fürt UUID arra a kérdésre ad választ: Mely GPU-k osztanak meg fizikailag egy rack-et, és képesek NVLink kommunikációra a legmagasabb sebességgel?
A klikk azonosító arra a kérdésre ad választ: Mely GPU-k osztanak meg egy NVLink partíciót, és melyeknek kell együtt kommunikálniuk egy adott számítási feladat vagy szolgáltatási szint érdekében, biztosítva az optimális teljesítményt a nagymértékben párhuzamos feladatokhoz?

Ezek az azonosítók képezik a kapcsolódó szövetet, lehetővé téve az olyan platformok számára, mint a Slurm, a Kubernetes és az NVIDIA Run:ai, hogy a feladatok elhelyezését, izolációját és teljesítménygaranciáit az NVLink hálózat tényleges struktúrájával összehangolják, mindezt anélkül, hogy az alapul szolgáló hardver komplexitását közvetlenül a végfelhasználók elé tárnák. Az NVIDIA Mission Control központosított nézetet biztosít ezekről az azonosítókról, egyszerűsítve a kezelést.

Hardver koncepció	Szoftver azonosító	Leírás
NVLink tartomány	Fürt UUID	Azonosítja azokat a GPU-kat, amelyek fizikailag megosztanak egy rack-et, és rack-szintű NVLink kommunikációra képesek.
NVLink partíció	Klikk azonosító	Megkülönbözteti azokat a GPU-kat, amelyek egy NVLink tartományon belül egy adott számítási feladathoz vagy szolgáltatási szinthez szánva vannak, hogy együtt kommunikáljanak.

Topológia-érzékeny AI ütemezés Slurm-mal

A Blackwell-alapú NVL72 rendszereken futó többnode-os feladatok esetében az elhelyezés ugyanolyan kritikus, mint az allokált GPU-k száma. Egy 16 GPU-t igénylő AI tréningfeladat például egészen másképp fog teljesíteni, ha véletlenszerűen több, kevésbé összekapcsolt node között oszlik el, mint ha egyetlen, nagy sávszélességű NVLink hálózaton belül marad. Itt válik nélkülözhetetlenné a Slurm topology/block pluginja, amely lehetővé teszi a Slurm számára, hogy felismerje a node-ok közötti árnyalt csatlakozási különbségeket.

A Grace Blackwell NVL72 rendszereken az alacsonyabb késleltetésű csatlakozásokkal rendelkező node-blokkok közvetlenül az NVLink partícióknak felelnek meg – olyan GPU-csoportoknak, amelyeket egy dedikált, nagy sávszélességű NVLink hálózat egyesít. A topology/block plugin engedélyezésével és ezeknek az NVLink partícióknak különálló blokkokként való megjelenítésével a Slurm megszerzi a szükséges kontextuális intelligenciát a kiváló ütemezési döntések meghozatalához. Alapértelmezés szerint a feladatokat intelligensen egyetlen NVLink partíción (vagy blokkon) belül helyezik el, ezáltal megőrizve a kritikus Multi-Node NVLink (MNNVL) teljesítményt. Bár nagyobb feladatok szükség esetén több blokkra is kiterjedhetnek, ez a megközelítés explicitté teszi a teljesítmény kompromisszumokat, ahelyett, hogy azok véletlenszerűen alakulnának.

Gyakorlati szempontból ez rugalmas telepítési stratégiákat tesz lehetővé:

Egy blokk/node csoport rackenként: Ez a konfiguráció lehetővé teszi a Slurm Quality of Service (QoS) számára, hogy kezelje a megosztott, rack-szintű partícióhoz való hozzáférést, ideális a konszolidált erőforrás-kezeléshez.
Több blokk/node csoport rackenként: Ez a megközelítés tökéletes kisebb, izolált, nagy sávszélességű GPU-készletek kínálatára. Itt minden blokk/node csoport egy dedikált Slurm partícióhoz térképeződik le, hatékonyan biztosítva egy külön szolgáltatási szintet. A felhasználók ezután kihasználhatnak egy specifikus Slurm partíciót, automatikusan a kívánt NVLink partícióba helyezve a feladataikat anélkül, hogy meg kellene érteniük az alapul szolgáló hálózati bonyodalmakat. Ez a fejlett erőforrás-menedzsment kulcsfontosságú azon szervezetek számára, amelyek AI kezdeményezéseiket skálázni kívánják, összhangban az AI méretezése mindenki számára szélesebb körű céljával.

MNNVL számítási feladatok optimalizálása IMEX és Mission Control segítségével

A többnode-os NVIDIA CUDA számítási feladatok gyakran az MNNVL-re támaszkodnak a maximális teljesítmény eléréséhez, lehetővé téve, hogy a különböző számítási tálcákon lévő GPU-k részt vegyenek egy összefüggő, megosztott memória programozási modellben. Az alkalmazásfejlesztő szemszögéből az MNNVL kihasználása megtévesztően egyszerűnek tűnhet, de a mögöttes szervezés összetett.

Itt játszik kulcsszerepet az NVIDIA Mission Control. Biztosítja, hogy a kritikus komponensek tökéletesen illeszkedjenek az MNNVL feladatok Slurm-mal történő futtatásakor. Pontosabban, a Mission Control garantálja, hogy az IMEX szolgáltatás – amely a megosztott GPU memóriát biztosítja – pontosan az MNNVL feladatban részt vevő számítási tálcákon fusson. Azt is biztosítja, hogy a szükséges NVSwitches-ek helyesen legyenek konfigurálva e nagy sávszélességű MNNVL kapcsolatok létrehozásához és fenntartásához. Ez a koordináció létfontosságú a konzisztens, kiszámítható teljesítmény biztosításához a rackben. A Mission Control intelligens vezénylése nélkül az MNNVL és az IMEX előnyeit nehéz lenne megvalósítani és skálázhatóan kezelni, ami kiemeli az NVIDIA elkötelezettségét a fejlett GPU-k és azok ökoszisztémái számára nyújtott teljes körű megoldások iránt.

Az automatizált, skálázható AI infrastruktúra felé

Az NVIDIA Blackwell architektúra és az olyan kifinomult szoftverrétegek, mint a Mission Control és a Topograph integrációja jelentős lépést jelent a valóban automatizált és skálázható AI infrastruktúra létrehozása felé. Az NVIDIA Topograph automatizálja az összetett NVLink és összeköttetési hierarchia felfedezését, elérhetővé téve ezt a létfontosságú információt az ütemezők, például a Slurm, a Kubernetes (az NVIDIA DRA és ComputeDomains-en keresztül), valamint az NVIDIA Run:ai számára. Ez kiküszöböli a topológia manuális kezelésének többletköltségét, lehetővé téve a szervezetek számára, hogy példátlan hatékonysággal telepítsék és skálázzák az AI számítási feladatokat.

Azáltal, hogy az ütemezőknek mélyreható, valós idejű ismeretet biztosít a hardver topológiáról, ez az integrált megközelítés garantálja, hogy az AI alkalmazások az optimális erőforrásokon fussanak, minimalizálva a kommunikációs késleltetést és maximalizálva az átviteli sebességet. Az eredmény egy nagy teljesítményű, rugalmas és könnyen kezelhető AI gyár, amely képes kezelni a legigényesebb AI tréning- és inferencia feladatokat. Mivel az AI modellek komplexitása és mérete folyamatosan növekszik, a számítási feladatok hatékony kezelésének és ütemezésének képessége a rack-méretű szuperkomputereken kulcsfontosságú lesz az innováció ösztönzéséhez és a versenyelőny fenntartásához. Ez a holisztikus stratégia alapozza meg a vállalati AI jövőjét, a nyers számítási teljesítményt intelligens, érzékeny és rendkívül hatékony AI szuperkomputinggá alakítva.

Eredeti forrás

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Gyakran ismételt kérdések

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Maradjon naprakész

Kapja meg a legfrissebb AI híreket e-mailben.

Megosztás