Supercomputer AI su Scala Rack: Dall'Hardware alla Programmazione Consapevole della Topologia

Decorative image.

Il panorama dell'intelligenza artificiale è in rapida evoluzione, richiedendo un'infrastruttura computazionale sempre più potente ed efficiente. In prima linea in questa evoluzione ci sono i supercomputer su scala rack, progettati per accelerare i carichi di lavoro AI e di calcolo ad alte prestazioni (HPC) più complessi. I sistemi NVIDIA GB200 NVL72 e GB300 NVL72, basati sull'innovativa architettura Blackwell, rappresentano un significativo passo avanti in questa direzione, racchiudendo immense architetture GPU e networking ad alta larghezza di banda in unità coese e potenti.

Tuttavia, l'implementazione di un hardware così sofisticato presenta una sfida unica: come tradurre questa intricata topologia fisica in una risorsa gestibile, performante e accessibile per sviluppatori e ricercatori AI? La discrepanza fondamentale tra la natura gerarchica dell'hardware su scala rack e le astrazioni spesso piatte degli scheduler di carichi di lavoro tradizionali crea un collo di bottiglia. È proprio qui che interviene uno stack software validato come NVIDIA Mission Control, colmando il divario per trasformare la potenza computazionale grezza in una fabbrica AI fluida e consapevole della topologia.

Supercomputing AI su Scala Rack di Nuova Generazione con NVIDIA Blackwell

I sistemi NVIDIA GB200 NVL72 e GB300 NVL72, alimentati dall'architettura all'avanguardia NVIDIA Blackwell, non sono semplicemente collezioni di potenti GPU; sono supercomputer integrati su scala rack ingegnerizzati per il futuro dell'AI. Ogni sistema è dotato di 18 tray di calcolo strettamente accoppiati, formando una massiccia struttura GPU collegata da switch NVLink avanzati. Questi sistemi supportano NVIDIA Multi-Node NVLink (MNNVL), facilitando la comunicazione ad altissima velocità all'interno del rack, e includono tray di calcolo abilitati per IMEX che consentono la memoria GPU condivisa tra i nodi. Questa architettura fornisce una base ineguagliabile per l'addestramento e la distribuzione di modelli AI su larga scala, spingendo i confini di ciò che è possibile in campi che vanno dalla scoperta scientifica alle applicazioni AI aziendali.

La filosofia di progettazione alla base di questi sistemi basati su Blackwell si concentra sulla massimizzazione del throughput dei dati e sulla minimizzazione della latenza tra le GPU interconnesse. Ciò si ottiene attraverso uno stack hardware densamente integrato in cui ogni componente è ottimizzato per le prestazioni collettive, garantendo che i carichi di lavoro AI possano scalare in modo efficiente senza incontrare colli di bottiglia nella comunicazione.

Collegare la Topologia Hardware con le Astrazioni dello Scheduler AI

Per gli architetti AI e gli operatori di piattaforme HPC, la vera sfida non è solo acquisire e assemblare questo hardware avanzato, ma piuttosto renderlo operativo in una risorsa 'sicura, performante e facile da usare'. Gli scheduler tradizionali spesso operano partendo dal presupposto di un pool omogeneo e piatto di risorse computazionali. Questo paradigma è poco adatto per i supercomputer su scala rack, dove il design gerarchico e sensibile alla topologia delle architetture NVLink e dei domini IMEX è fondamentale per le prestazioni. Senza un'adeguata integrazione, gli scheduler potrebbero inavvertitamente posizionare i task in posizioni sub-ottimali, portando a una ridotta efficienza e a prestazioni imprevedibili.

Questo è il divario che NVIDIA Mission Control è progettato per colmare. Come robusto piano di controllo su scala rack per i sistemi NVIDIA Grace Blackwell NVL72, Mission Control possiede una comprensione nativa dei sottostanti domini NVIDIA NVLink e NVIDIA IMEX. Questa profonda consapevolezza gli consente di integrarsi intelligentemente con piattaforme di gestione dei carichi di lavoro popolari come Slurm e NVIDIA Run:ai. Traducendo le complesse topologie hardware in intelligenza di scheduling azionabile, Mission Control assicura che le capacità avanzate dell'architettura Blackwell siano pienamente sfruttate, trasformando un sofisticato assemblaggio hardware in una fabbrica AI veramente operativa. Questa capacità si estenderà alla prossima piattaforma NVIDIA Vera Rubin, inclusa NVIDIA Rubin NVL8, consolidando ulteriormente un approccio coerente all'infrastruttura AI ad alte prestazioni.

Decodifica dei Domini e delle Partizioni NVLink per i Carichi di Lavoro AI

Al centro della programmazione consapevole della topologia per i sistemi Blackwell ci sono i concetti di domini e partizioni NVLink, che sono esposti tramite identificatori a livello di sistema: UUID del cluster e ID del clique. Questi identificatori sono cruciali perché forniscono una mappa logica dell'architettura fisica NVLink, consentendo al software di sistema e agli scheduler di ragionare sulla posizione e la connettività della GPU.

La mappatura è semplice ma potente:

L'UUID del cluster corrisponde al dominio NVLink. Un UUID del cluster condiviso significa che i sistemi — e le loro GPU — appartengono allo stesso dominio NVLink complessivo e sono collegati da una comune architettura NVLink. Per Grace Blackwell NVL72, questo UUID è consistente in tutto il rack, indicando prossimità fisica e connettività condivisa ad alta larghezza di banda.
L'ID del clique corrisponde alla partizione NVLink. L'ID del clique offre una distinzione più fine, identificando gruppi di GPU che condividono una Partizione NVLink all'interno di un dominio più ampio. Quando un rack è logicamente segmentato in più partizioni NVLink, l'UUID del cluster rimane lo stesso, ma gli ID del clique differenziano questi gruppi più piccoli, isolati e ad alta larghezza di banda.

Questa distinzione è vitale dal punto di vista operativo:

L'UUID del cluster risponde alla domanda: Quali GPU condividono fisicamente un rack e sono in grado di comunicare via NVLink alle massime velocità?
L**'ID del clique** risponde: Quali GPU condividono una Partizione NVLink e sono destinate a comunicare insieme per un dato carico di lavoro o livello di servizio, garantendo prestazioni ottimali per task altamente paralleli?

Questi identificatori sono il tessuto connettivo, che consente a piattaforme come Slurm, Kubernetes e NVIDIA Run:ai di allineare il posizionamento dei job, l'isolamento e le garanzie di prestazioni con la struttura effettiva dell'architettura NVLink, il tutto senza esporre direttamente la complessità hardware sottostante agli utenti finali. NVIDIA Mission Control fornisce una visione centralizzata di questi identificatori, semplificando la gestione.

Concetto Hardware	Identificatore Software	Descrizione
Dominio NVLink	Cluster UUID	Identifica le GPU che condividono fisicamente un rack, in grado di comunicare via NVLink a livello di rack.
Partizione NVLink	Clique ID	Distingue le GPU destinate a comunicare insieme all'interno di un dominio NVLink per un carico di lavoro o un livello di servizio specifico.

Programmazione AI Consapevole della Topologia con Slurm

Per i carichi di lavoro multi-nodo in esecuzione su sistemi NVL72 basati su Blackwell, il posizionamento diventa cruciale quanto il numero effettivo di GPU allocate. Un job di training AI che richiede 16 GPU, ad esempio, avrà prestazioni molto diverse se distribuito in modo casuale su più nodi meno connessi rispetto a essere confinato all'interno di una singola architettura NVLink ad alta larghezza di banda. È qui che il plugin topology/block di Slurm si dimostra indispensabile, consentendo a Slurm di riconoscere le sfumate differenze di connettività tra i nodi.

Sui sistemi Grace Blackwell NVL72, i blocchi di nodi con connessioni a bassa latenza corrispondono direttamente alle partizioni NVLink — gruppi di GPU uniti da un'architettura NVLink dedicata e ad alta larghezza di banda. Abilitando il plugin topology/block ed esponendo queste partizioni NVLink come blocchi distinti, Slurm acquisisce l'intelligenza contestuale necessaria per prendere decisioni di scheduling superiori. Per impostazione predefinita, i job vengono posizionati intelligentemente all'interno di una singola partizione NVLink (o blocco), preservando così le prestazioni critiche del Multi-Node NVLink (MNNVL). Sebbene i job più grandi possano comunque estendersi su più blocchi se necessario, questo approccio rende i compromessi prestazionali espliciti, anziché accidentali.

In termini pratici, ciò consente strategie di deployment flessibili:

Un blocco/gruppo di nodi per rack: Questa configurazione consente a Slurm Quality of Service (QoS) di gestire l'accesso alla partizione condivisa a livello di rack, ideale per la gestione consolidata delle risorse.
Più blocchi/gruppi di nodi per rack: Questo approccio è perfetto per offrire pool di GPU più piccoli, isolati e ad alta larghezza di banda. Qui, ogni blocco/gruppo di nodi mappa a una partizione Slurm dedicata, fornendo di fatto un livello di servizio distinto. Gli utenti possono quindi sfruttare una specifica partizione Slurm, posizionando automaticamente i loro job all'interno della partizione NVLink desiderata senza dover comprendere le intricate dettagli dell'architettura sottostante. Questa gestione avanzata delle risorse è cruciale per le organizzazioni che desiderano scalare le loro iniziative AI, allineandosi all'obiettivo più ampio di scalare l'AI per tutti.

Ottimizzazione dei Carichi di Lavoro MNNVL con IMEX e Mission Control

I carichi di lavoro NVIDIA CUDA multi-nodo si basano frequentemente su MNNVL per ottenere le massime prestazioni, consentendo alle GPU su diversi tray di calcolo di partecipare a un modello di programmazione a memoria condivisa coeso. Dal punto di vista di uno sviluppatore di applicazioni, l'utilizzo di MNNVL può apparire ingannevolmente semplice, ma l'orchestrazione sottostante è complessa.

È qui che NVIDIA Mission Control gioca un ruolo fondamentale. Assicura che i componenti critici si allineino perfettamente quando si eseguono job MNNVL con Slurm. Nello specifico, Mission Control garantisce che il servizio IMEX — che facilita la memoria GPU condivisa — venga eseguito sull'esatto set di tray di calcolo che partecipano al job MNNVL. Assicura inoltre che gli NVSwitch necessari siano correttamente configurati per stabilire e mantenere queste connessioni MNNVL ad alta larghezza di banda. Questa coordinazione è vitale per fornire prestazioni coerenti e prevedibili in tutto il rack. Senza l'orchestrazione intelligente di Mission Control, i benefici di MNNVL e IMEX sarebbero difficili da realizzare e gestire su larga scala, evidenziando l'impegno di NVIDIA nel fornire soluzioni complete per le GPU avanzate e i loro ecosistemi.

Verso un'Infrastruttura AI Automatizzata e Scalabile

L'integrazione dell'architettura Blackwell di NVIDIA con sofisticati livelli software come Mission Control e Topograph segna un passo significativo verso la creazione di un'infrastruttura AI veramente automatizzata e scalabile. NVIDIA Topograph automatizza la scoperta della complessa gerarchia NVLink e di interconnessione, esponendo queste informazioni vitali a scheduler come Slurm, Kubernetes (tramite NVIDIA DRA e ComputeDomains) e NVIDIA Run:ai. Ciò elimina l'overhead manuale della gestione della topologia, consentendo alle organizzazioni di implementare e scalare i carichi di lavoro AI con un'efficienza senza precedenti.

Fornendo agli scheduler una comprensione profonda e in tempo reale della topologia hardware, questo approccio integrato assicura che le applicazioni AI vengano eseguite sulle risorse ottimali, minimizzando la latenza di comunicazione e massimizzando il throughput. Il risultato è una fabbrica AI altamente performante, resiliente e facile da gestire, in grado di gestire i task di training e inferenza AI più esigenti. Poiché i modelli AI continuano a crescere in complessità e dimensioni, la capacità di gestire e programmare efficacemente i carichi di lavoro sui supercomputer su scala rack sarà fondamentale per guidare l'innovazione e mantenere un vantaggio competitivo. Questa strategia olistica sostiene il futuro dell'AI aziendale, trasformando la potenza computazionale grezza in un supercomputing AI intelligente, reattivo e altamente efficiente.

Fonte originale

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Domande Frequenti

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Resta aggiornato

Ricevi le ultime notizie sull'IA nella tua casella.