Mga Supercomputer ng AI na Rack-Scale: Mula Hardware hanggang Topology-Aware Scheduling

Decorative image.

Mabilis na nagbabago ang tanawin ng artificial intelligence, na nangangailangan ng lalong mas malakas at mahusay na computational infrastructure. Nasa unahan ng ebolusyong ito ang mga supercomputer na rack-scale, na idinisenyo upang pabilisin ang pinakakumplikadong workload ng AI at high-performance computing (HPC). Ang mga sistema ng NVIDIA GB200 NVL72 at GB300 NVL72, na binuo sa makabagong arkitektura ng Blackwell, ay kumakatawan sa isang malaking paglukso sa direksyong ito, na nagbabalot ng napakalaking fabric ng GPU at high-bandwidth networking sa magkakaugnay, makapangyarihang unit.

Gayunpaman, ang pag-deploy ng naturang sopistikadong hardware ay nagdudulot ng isang natatanging hamon: paano mo isasalin ang masalimuot na pisikal na topology na ito sa isang mapamahalaan, mahusay, at naa-access na resource para sa mga developer at mananaliksik ng AI? Ang pangunahing pagkakaiba sa pagitan ng hierarchical na kalikasan ng rack-scale hardware at ang madalas na flat abstractions ng tradisyonal na workload scheduler ay lumilikha ng isang bottleneck. Dito mismo pumapasok ang isang validated software stack tulad ng NVIDIA Mission Control, na nag-uugnay sa agwat upang baguhin ang raw computational power sa isang walang putol, topology-aware na AI factory.

Susunod na Henerasyong Rack-Scale AI Supercomputing gamit ang NVIDIA Blackwell

Ang mga sistema ng NVIDIA GB200 NVL72 at GB300 NVL72, na pinapagana ng makabagong arkitektura ng NVIDIA Blackwell, ay hindi lamang koleksyon ng mga makapangyarihang GPU; ang mga ito ay integrated, rack-scale na supercomputer na idinisenyo para sa kinabukasan ng AI. Ang bawat sistema ay nagtatampok ng 18 mahigpit na magkakaugnay na compute tray, na bumubuo ng isang napakalaking fabric ng GPU na konektado ng advanced na NVLink switches. Sinusuportahan ng mga sistemang ito ang NVIDIA Multi-Node NVLink (MNNVL), na nagpapadali sa ultra-high-speed communication sa loob ng rack, at may kasamang IMEX-capable compute trays na nagpapagana ng shared GPU memory sa mga node. Ang arkitekturang ito ay nagbibigay ng walang kapantay na pundasyon para sa pagsasanay at pag-deploy ng malalaking modelo ng AI, na nagtutulak sa mga hangganan ng kung ano ang posible sa mga larangan mula sa scientific discovery hanggang sa enterprise AI applications.

Ang pilosopiya ng disenyo sa likod ng mga sistemang batay sa Blackwell na ito ay nakatuon sa pag-maximize ng data throughput at pag-minimize ng latency sa pagitan ng mga magkakaugnay na gpus. Nakamit ito sa pamamagitan ng isang densely integrated hardware stack kung saan ang bawat bahagi ay na-optimize para sa kolektibong performance, tinitiyak na ang mga workload ng AI ay maaaring mag-scale nang mahusay nang hindi tumatama sa mga bottleneck ng komunikasyon.

Pag-uugnay ng Hardware Topology sa AI Scheduler Abstractions

Para sa mga arkitekto ng AI at operator ng platform ng HPC, ang tunay na hamon ay hindi lamang ang pagkuha at pag-assemble ng advanced na hardware na ito, kundi ang pagiging operational nito sa isang 'ligtas, mahusay, at madaling gamitin' na resource. Ang tradisyonal na scheduler ay madalas na gumagana sa ilalim ng pagpapalagay ng isang homogeneous, flat pool ng computational resources. Ang paradigm na ito ay hindi angkop para sa mga supercomputer na rack-scale, kung saan ang hierarchical at topology-sensitive na disenyo ng NVLink fabrics at IMEX domains ay kritikal para sa performance. Kung walang tamang integrasyon, maaaring hindi sinasadyang ilagay ng mga scheduler ang mga gawain sa mga suboptimal na lokasyon, na humahantong sa pinababang kahusayan at hindi mahulaan na performance.

Ito ang puwang na idinisenyo ng NVIDIA Mission Control upang punan. Bilang isang matatag na rack-scale control plane para sa mga sistema ng NVIDIA Grace Blackwell NVL72, ang Mission Control ay nagtataglay ng native na pag-unawa sa pinagbabatayan na mga domain ng NVIDIA NVLink at NVIDIA IMEX. Ang malalim na kamalayan na ito ay nagbibigay-daan dito na matalinong makipag-ugnayan sa mga sikat na platform ng pamamahala ng workload tulad ng Slurm at NVIDIA Run:ai. Sa pamamagitan ng pagsasalin ng kumplikadong hardware topologies sa actionable scheduling intelligence, tinitiyak ng Mission Control na ang mga advanced na kakayahan ng arkitektura ng Blackwell ay ganap na nagagamit, na binabago ang isang sopistikadong pagtitipon ng hardware sa isang tunay na operational na AI factory. Ang kakayahang ito ay lalawig sa paparating na platform ng NVIDIA Vera Rubin, kabilang ang NVIDIA Rubin NVL8, na lalong nagpapatibay ng isang pare-parehong diskarte sa high-performance AI infrastructure.

Pag-decode ng NVLink Domains at Partitions para sa mga Workload ng AI

Sa puso ng topology-aware scheduling para sa mga sistema ng Blackwell ay ang mga konsepto ng NVLink domains at partitions, na inilalantad sa pamamagitan ng mga identifier sa antas ng sistema: cluster UUID at clique ID. Ang mga identifier na ito ay mahalaga dahil nagbibigay sila ng lohikal na mapa ng pisikal na NVLink fabric, na nagpapahintulot sa system software at mga scheduler na mangatuwiran tungkol sa posisyon at konektibidad ng GPU.

Ang pagmamapa ay simple ngunit makapangyarihan:

Cluster UUID ay tumutugma sa NVLink domain. Ang isang shared cluster UUID ay nagpapahiwatig na ang mga sistema—at ang kanilang mga GPU—ay nabibilang sa parehong pangkalahatang NVLink domain at konektado ng isang karaniwang NVLink fabric. Para sa Grace Blackwell NVL72, ang UUID na ito ay pare-pareho sa buong rack, na nagpapahiwatig ng pisikal na kalapitan at shared high-bandwidth connectivity.
Clique ID ay tumutugma sa NVLink partition. Nag-aalok ang clique ID ng mas pinong pagkakaiba, na nagtutukoy ng mga grupo ng mga GPU na nagbabahagi ng isang NVLink Partition sa loob ng isang mas malaking domain. Kapag ang isang rack ay lohikal na na-segment sa maraming NVLink partitions, nananatiling pareho ang cluster UUID, ngunit ang mga clique ID ang nagpapakilala sa mas maliliit, nakahiwalay na high-bandwidth groups na ito.

Ang pagkakaiba na ito ay mahalaga mula sa operational standpoint:

Sinasagot ng Cluster UUID ang tanong: Aling mga GPU ang pisikal na nagbabahagi ng isang rack at may kakayahang NVLink communication sa pinakamabilis na bilis?
Sinasagot ng Clique ID ang tanong: Aling mga GPU ang nagbabahagi ng isang NVLink Partition at nilalayon na makipag-ugnayan nang magkasama para sa isang partikular na workload o service tier, na tinitiyak ang optimal na performance para sa mga highly parallel na gawain?

Ang mga identifier na ito ang connective tissue, na nagbibigay-daan sa mga platform tulad ng Slurm, Kubernetes, at NVIDIA Run:ai na i-align ang paglalagay ng trabaho, paghihiwalay, at mga garantiya sa performance sa aktwal na istruktura ng NVLink fabric, lahat nang hindi inilalantad ang pinagbabatayan na kumplikado ng hardware nang direkta sa mga end-user. Nagbibigay ang NVIDIA Mission Control ng isang sentralisadong view ng mga identifier na ito, na pinapasimple ang pamamahala.

Konsepto ng Hardware	Identifier ng Software	Deskripsyon
NVLink Domain	Cluster UUID	Nagpapakilala sa mga GPU na pisikal na nagbabahagi ng isang rack, na may kakayahan para sa NVLink communication sa buong rack.
NVLink Partition	Clique ID	Nagpapakilala sa mga GPU na nilalayon na makipag-ugnayan nang magkasama sa loob ng isang NVLink domain para sa isang tiyak na workload o service tier.

Topology-Aware AI Scheduling gamit ang Slurm

Para sa mga multi-node na workload na tumatakbo sa mga sistemang NVL72 na batay sa Blackwell, ang paglalagay ay nagiging kasing kritikal ng bilang ng mga GPU na inilaan. Ang isang AI training job na nangangailangan ng 16 GPU, halimbawa, ay gaganap nang ibang-iba kung ikakalat nang pabaya sa maraming hindi gaanong konektadong node kumpara sa pagiging nakakulong sa loob ng isang solong, high-bandwidth na NVLink fabric. Dito nagiging kailangan ang topology/block plugin ng Slurm, na nagpapahintulot sa Slurm na makilala ang mga pinong pagkakaiba sa konektibidad sa pagitan ng mga node.

Sa mga sistema ng Grace Blackwell NVL72, ang mga block ng node na may lower-latency connections ay direktang tumutugma sa NVLink partitions—mga grupo ng mga GPU na pinag-isa ng isang dedikado, high-bandwidth na NVLink fabric. Sa pamamagitan ng pagpapagana ng topology/block plugin at paglalantad ng mga NVLink partition na ito bilang magkahiwalay na block, nakukuha ng Slurm ang kontekstwal na intelligence na kinakailangan upang makagawa ng mahusay na desisyon sa pag-iskedyul. Bilang default, ang mga trabaho ay matalinong inilalagay sa loob ng isang solong NVLink partition (o block), kaya pinapanatili ang kritikal na performance ng Multi-Node NVLink (MNNVL). Bagaman ang mas malalaking trabaho ay maaari pa ring sumaklaw sa maraming block kung kinakailangan, ang diskarte na ito ay nagpapakita ng mga performance tradeoff, sa halip na aksidente.

Sa praktikal na termino, ito ay nagbibigay-daan para sa flexible na diskarte sa deployment:

Isang block/node group bawat rack: Ang configuration na ito ay nagbibigay-daan sa Slurm Quality of Service (QoS) na pamahalaan ang pag-access sa shared, rack-wide na partition, na ideal para sa pinagsamang pamamahala ng resource.
Maraming block/node group bawat rack: Ang diskarte na ito ay perpekto para sa pag-aalok ng mas maliliit, nakahiwalay, high-bandwidth na GPU pool. Dito, ang bawat block/node group ay nakamapa sa isang dedikadong Slurm partition, na epektibong nagbibigay ng isang natatanging service tier. Maaari pagkatapos gamitin ng mga user ang isang partikular na Slurm partition, awtomatikong inilalapag ang kanilang mga trabaho sa loob ng nilalayon na NVLink partition nang hindi kinakailangang maunawaan ang pinagbabatayan na pagiging kumplikado ng fabric. Ang advanced na pamamahala ng resource na ito ay mahalaga para sa mga organisasyon na naghahanap upang i-scale ang kanilang mga inisyatiba ng AI, na nakahanay sa mas malawak na layunin ng pag-scale ng AI para sa lahat.

Pag-o-optimize ng MNNVL Workloads gamit ang IMEX at Mission Control

Ang mga workload ng Multi-Node NVIDIA CUDA ay madalas na umaasa sa MNNVL upang makamit ang pinakamataas na performance, na nagpapahintulot sa mga GPU sa iba't ibang compute tray na lumahok sa isang magkakaugnay, shared-memory programming model. Mula sa pananaw ng isang application developer, ang paggamit ng MNNVL ay maaaring mukhang mapanlinlang na simple, ngunit ang pinagbabatayan na orkestrasyon ay kumplikado.

Dito gumaganap ng mahalagang papel ang NVIDIA Mission Control. Tinitiyak nito na ang mga kritikal na bahagi ay ganap na nakahanay kapag nagpapatakbo ng mga trabaho ng MNNVL gamit ang Slurm. Sa partikular, ginagarantiyahan ng Mission Control na ang serbisyo ng IMEX—na nagpapadali sa shared GPU memory—ay tumatakbo sa eksaktong hanay ng mga compute tray na lumalahok sa trabaho ng MNNVL. Tinitiyak din nito na ang kinakailangang NVSwitches ay tama na na-configure upang maitatag at mapanatili ang mga high-bandwidth na koneksyon ng MNNVL. Ang koordinasyon na ito ay mahalaga para sa pagbibigay ng pare-pareho, predictable na performance sa buong rack. Kung walang matalinong orkestrasyon ng Mission Control, ang mga benepisyo ng MNNVL at IMEX ay magiging mahirap matanto at pamahalaan sa scale, na nagpapahiwatig ng pangako ng NVIDIA sa paghahatid ng kumpletong solusyon para sa advanced na gpus at ang kanilang mga ecosystem.

Patungo sa Automated, Scalable AI Infrastructure

Ang integrasyon ng arkitektura ng Blackwell ng NVIDIA sa mga sopistikadong software layer tulad ng Mission Control at Topograph ay nagmamarka ng isang malaking hakbang patungo sa paglikha ng tunay na automated at scalable na AI infrastructure. Ang NVIDIA Topograph ay nag-a-automate ng pagtuklas ng kumplikadong NVLink at interconnect hierarchy, na inilalantad ang mahalagang impormasyon na ito sa mga scheduler tulad ng Slurm, Kubernetes (sa pamamagitan ng NVIDIA DRA at ComputeDomains), at NVIDIA Run:ai. Inaalis nito ang manu-manong overhead ng pamamahala ng topology, na nagpapahintulot sa mga organisasyon na mag-deploy at mag-scale ng mga workload ng AI nang may walang kapantay na kahusayan.

Sa pamamagitan ng pagbibigay sa mga scheduler ng malalim, real-time na pag-unawa sa hardware topology, tinitiyak ng integrated approach na ito na ang mga application ng AI ay tumatakbo sa optimal na resources, pinapaliit ang communication latency at pinapataas ang throughput. Ang resulta ay isang lubos na mahusay, matatag, at madaling pamahalaan na AI factory na may kakayahang hawakan ang pinakamahirap na AI training at inference tasks. Habang patuloy na lumalaki ang mga modelo ng AI sa kumplikado at laki, ang kakayahang epektibong pamahalaan at i-iskedyul ang mga workload sa mga supercomputer na rack-scale ay magiging pinakamahalaga para sa pagtulak ng inobasyon at pagpapanatili ng competitive advantage. Ang holistic na diskarte na ito ang sumusuporta sa hinaharap ng AI para sa negosyo, na binabago ang raw computational power sa matalino, tumutugon, at lubos na mahusay na AI supercomputing.

Orihinal na pinagmulan

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Mga Karaniwang Tanong

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Manatiling Updated

Kunin ang pinakabagong AI news sa iyong inbox.

I-share