Superordinadors d'IA a escala de rack: del maquinari a la planificació sensible a la topologia

Imatge decorativa.

El panorama de la intel·ligència artificial està evolucionant ràpidament, exigint una infraestructura computacional cada vegada més potent i eficient. Al capdavant d'aquesta evolució hi ha els superordinadors a escala de rack, dissenyats per accelerar les càrregues de treball d'IA i de computació d'alt rendiment (HPC) més complexes. Els sistemes GB200 NVL72 i GB300 NVL72 de NVIDIA, basats en la innovadora arquitectura Blackwell, representen un salt significatiu en aquesta direcció, empaquetant teixits massius de GPU i xarxes d'ample de banda elevat en unitats cohesionades i potents.

No obstant això, desplegar un maquinari tan sofisticat presenta un repte únic: com es tradueix aquesta intricada topologia física en un recurs gestionable, d'alt rendiment i accessible per als desenvolupadors i investigadors d'IA? El desajustament fonamental entre la naturalesa jeràrquica del maquinari a escala de rack i les abstraccions sovint planes dels planificadors de càrregues de treball tradicionals crea un coll d'ampolla. Aquí és precisament on intervé un pila de programari validat com NVIDIA Mission Control, que salva la bretxa per transformar la potència computacional bruta en una fàbrica d'IA fluida i sensible a la topologia.

Supercomputació d'IA de nova generació a escala de rack amb NVIDIA Blackwell

Els sistemes NVIDIA GB200 NVL72 i GB300 NVL72, impulsats per l'arquitectura d'avantguarda NVIDIA Blackwell, no són simplement col·leccions de GPU potents; són superordinadors a escala de rack integrats, dissenyats per al futur de la IA. Cada sistema inclou 18 safates de càlcul fortament acoblades, formant un massiu teixit de GPU connectat per commutadors NVLink avançats. Aquests sistemes admeten NVIDIA Multi-Node NVLink (MNNVL), que facilita la comunicació d'ultra-alta velocitat dins del rack, i inclouen safates de càlcul amb capacitat IMEX que permeten la memòria GPU compartida entre nodes. Aquesta arquitectura proporciona una base inigualable per entrenar i desplegar models d'IA a gran escala, superant els límits del que és possible en camps que van des del descobriment científic fins a les aplicacions d'IA empresarial.

La filosofia de disseny darrere d'aquests sistemes basats en Blackwell se centra a maximitzar el rendiment de dades i minimitzar la latència entre les gpu interconnectades. Això s'aconsegueix mitjançant una pila de maquinari densament integrada on cada component està optimitzat per al rendiment col·lectiu, assegurant que les càrregues de treball d'IA puguin escalar de manera eficient sense topar amb colls d'ampolla de comunicació.

Unint la topologia de maquinari amb les abstraccions del planificador d'IA

Per als arquitectes d'IA i els operadors de plataformes HPC, el veritable repte no és només adquirir i muntar aquest maquinari avançat, sinó més aviat posar-lo en funcionament com un recurs 'segur, d'alt rendiment i fàcil d'utilitzar'. Els planificadors tradicionals sovint operen sota la suposició d'un conjunt homogeni i pla de recursos computacionals. Aquest paradigma és poc adequat per als superordinadors a escala de rack, on el disseny jeràrquic i sensible a la topologia dels teixits NVLink i els dominis IMEX són crítics per al rendiment. Sense una integració adequada, els planificadors podrien ubicar tasques inadvertidament en ubicacions subòptimes, cosa que comportaria una eficiència reduïda i un rendiment impredictible.

Aquesta és la bretxa que NVIDIA Mission Control està dissenyat per omplir. Com a robust pla de control a escala de rack per als sistemes NVIDIA Grace Blackwell NVL72, Mission Control posseeix una comprensió nativa dels dominis NVIDIA NVLink i NVIDIA IMEX subjacents. Aquesta profunda consciència li permet integrar-se intel·ligentment amb plataformes de gestió de càrregues de treball populars com Slurm i NVIDIA Run:ai. En traduir complexes topologies de maquinari en intel·ligència de planificació accionable, Mission Control assegura que les capacitats avançades de l'arquitectura Blackwell s'aprofiteu plenament, transformant un sofisticat conjunt de maquinari en una fàbrica d'IA veritablement operativa. Aquesta capacitat s'estendrà a la propera plataforma NVIDIA Vera Rubin, inclòs NVIDIA Rubin NVL8, consolidant encara més un enfocament coherent per a la infraestructura d'IA d'alt rendiment.

Descodificant dominis i particions NVLink per a càrregues de treball d'IA

Al cor de la planificació sensible a la topologia per als sistemes Blackwell hi ha els conceptes de dominis i particions NVLink, que s'exposen mitjançant identificadors a nivell de sistema: UUID del clúster i ID de clic. Aquests identificadors són crucials perquè proporcionen un mapa lògic del teixit físic de NVLink, permetent que el programari del sistema i els planificadors raonin sobre la posició i la connectivitat de la GPU.

El mapatge és senzill però potent:

El UUID del clúster correspon al domini NVLink. Un UUID del clúster compartit significa que els sistemes —i les seves GPU— pertanyen al mateix domini NVLink general i estan connectats per un teixit NVLink comú. Per a Grace Blackwell NVL72, aquest UUID és consistent en tot el rack, indicant proximitat física i connectivitat d'ample de banda elevat compartida.
L'ID de clic correspon a la partició NVLink. L'ID de clic ofereix una distinció més fina, identificant grups de GPU que comparteixen una partició NVLink dins d'un domini més gran. Quan un rack es segmenta lògicament en diverses particions NVLink, el UUID del clúster roman el mateix, però els IDs de clic diferencien aquests grups més petits i aïllats d'ample de banda elevat.

Aquesta distinció és vital des d'un punt de vista operatiu:

El UUID del clúster respon a la pregunta: Quines GPU comparteixen físicament un rack i són capaces de comunicar-se mitjançant NVLink a les màximes velocitats?
L'ID de clic respon a la pregunta: Quines GPU comparteixen una partició NVLink i estan destinades a comunicar-se juntes per a una càrrega de treball o nivell de servei determinat, assegurant un rendiment òptim per a tasques altament paral·leles?

Aquests identificadors són el teixit connectiu que permet a plataformes com Slurm, Kubernetes i NVIDIA Run:ai alinear la ubicació del treball, l'aïllament i les garanties de rendiment amb l'estructura real del teixit NVLink, tot sense exposar la complexitat del maquinari subjacent directament als usuaris finals. NVIDIA Mission Control proporciona una vista centralitzada d'aquests identificadors, simplificant la gestió.

Concepte de maquinari	Identificador de programari	Descripció
Domini NVLink	UUID del clúster	Identifica les GPU que comparteixen físicament un rack, capaços de comunicació NVLink a tot el rack.
Partició NVLink	ID de clic	Distingeix les GPU destinades a comunicar-se juntes dins d'un domini NVLink per a una càrrega de treball o nivell de servei específic.

Planificació d'IA sensible a la topologia amb Slurm

Per a les càrregues de treball multinode que s'executen en sistemes NVL72 basats en Blackwell, la ubicació esdevé tan crítica com el nombre de GPU assignades. Un treball d'entrenament d'IA que requereix 16 GPU, per exemple, tindrà un rendiment molt diferent si es distribueix de manera aleatòria per múltiples nodes menys connectats en comparació amb si es confina dins d'un únic teixit NVLink d'ample de banda elevat. Aquí és on el connector de topologia/bloc de Slurm resulta indispensable, permetent a Slurm reconèixer les diferències de connectivitat matisades entre nodes.

En els sistemes Grace Blackwell NVL72, els blocs de nodes que presenten connexions de baixa latència es corresponen directament amb les particions NVLink, que són grups de GPU que estan units per un teixit NVLink dedicat d'ample de banda elevat. En habilitar aquest connector de topologia/bloc i exposar aquestes particions NVLink com a blocs distints, Slurm obté la intel·ligència contextual necessària per prendre decisions de planificació superiors. Per defecte, els treballs es col·loquen de manera intel·ligent dins d'una única partició NVLink (o bloc), preservant així el rendiment crític de Multi-Node NVLink (MNNVL). Tot i que els treballs més grans encara poden estendre's per diversos blocs si és necessari, aquest enfocament fa que els compromisos de rendiment siguin explícits, en lloc de ser accidentals.

En termes pràctics, això permet estratègies de desplegament flexibles:

Un bloc/grup de nodes per rack: Aquesta configuració permet a la Qualitat de Servei (QoS) de Slurm gestionar l'accés a la partició compartida de tot el rack, ideal per a la gestió consolidada de recursos.
Diversos blocs/grup de nodes per rack: Aquest enfocament és perfecte per oferir conjunts de GPU més petits, aïllats i d'ample de banda elevat. Aquí, cada bloc/grup de nodes es mapeja a una partició Slurm dedicada, proporcionant efectivament un nivell de servei diferent. Els usuaris poden llavors aprofitar una partició Slurm específica, aterrant automàticament els seus treballs dins de la partició NVLink desitjada sense necessitat d'entendre les complexitats del teixit subjacent. Aquesta gestió avançada de recursos és crucial per a les organitzacions que busquen escalar les seves iniciatives d'IA, alineant-se amb l'objectiu més ampli de escalar la IA per a tothom.

Optimització de càrregues de treball MNNVL amb IMEX i Mission Control

Les càrregues de treball CUDA de NVIDIA multinode sovint depenen de MNNVL per assolir el màxim rendiment, permetent que les GPU de diferents safates de càlcul participin en un model de programació de memòria compartida cohesionat. Des de la perspectiva d'un desenvolupador d'aplicacions, l'aprofitament de MNNVL pot semblar enganyosament simple, però l'orquestració subjacent és complexa.

Aquí és on NVIDIA Mission Control juga un paper fonamental. Assegura que els components crítics s'alineen perfectament en executar treballs MNNVL amb Slurm. Específicament, Mission Control garanteix que el servei IMEX —que facilita la memòria GPU compartida— s'executi en el conjunt exacte de safates de càlcul que participen en el treball MNNVL. També assegura que els NVSwitches necessaris estiguin configurats correctament per establir i mantenir aquestes connexions MNNVL d'ample de banda elevat. Aquesta coordinació és vital per proporcionar un rendiment consistent i previsible en tot el rack. Sense l'orquestració intel·ligent de Mission Control, els beneficis de MNNVL i IMEX serien difícils de realitzar i gestionar a escala, destacant el compromís de NVIDIA amb l'entrega de solucions completes per a gpu avançades i els seus ecosistemes.

Cap a una infraestructura d'IA automatitzada i escalable

La integració de l'arquitectura Blackwell de NVIDIA amb capes de programari sofisticades com Mission Control i Topograph marca un pas significatiu cap a la creació d'una infraestructura d'IA veritablement automatitzada i escalable. NVIDIA Topograph automatitza el descobriment de la complexa jerarquia d'interconnexió i NVLink, exposant aquesta informació vital a planificadors com Slurm, Kubernetes (a través de NVIDIA DRA i ComputeDomains) i NVIDIA Run:ai. Això elimina la sobrecàrrega manual de gestionar la topologia, permetent a les organitzacions desplegar i escalar càrregues de treball d'IA amb una eficiència sense precedents.

En proporcionar als planificadors una comprensió profunda i en temps real de la topologia del maquinari, aquest enfocament integrat garanteix que les aplicacions d'IA s'executin en els recursos òptims, minimitzant la latència de comunicació i maximitzant el rendiment. El resultat és una fàbrica d'IA d'alt rendiment, resilient i fàcil de gestionar, capaç de gestionar les tasques d'entrenament i inferència d'IA més exigents. A mesura que els models d'IA continuen creixent en complexitat i mida, la capacitat de gestionar i planificar eficaçment les càrregues de treball en superordinadors a escala de rack serà fonamental per impulsar la innovació i mantenir l'avantatge competitiu. Aquesta estratègia holística sustenta el futur de l'IA empresarial, transformant la potència computacional bruta en supercomputació d'IA intel·ligent, sensible i altament eficient.

Font original

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Preguntes freqüents

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.