Supercalculateurs d'IA à l'échelle du rack : du matériel à l'ordonnancement conscient de la topologie

title: "Supercalculateurs d'IA à l'échelle du rack : du matériel à l'ordonnancement conscient de la topologie" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "fr" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "IA d'entreprise" keywords:

Charges de travail d'IA
supercalculateurs à l'échelle du rack
NVIDIA Blackwell
NVLink
ordonnancement conscient de la topologie
Slurm
NVIDIA Mission Control
NVLink multi-nœuds (MNNVL)
IMEX
fabrics de GPU
gestion des ressources
IA d'entreprise meta_description: "Découvrez comment les supercalculateurs NVIDIA Blackwell, combinés à Mission Control, permettent un ordonnancement conscient de la topologie pour les charges de travail d'IA, optimisant les performances sur les domaines NVLink et IMEX." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "Rack NVIDIA Grace Blackwell NVL72 illustrant les domaines NVLink et IMEX pour les supercalculateurs d'IA à l'échelle du rack" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "Que sont les systèmes NVIDIA GB200 et GB300 NVL72, et quel rôle joue l'architecture Blackwell ?" answer: "Les systèmes NVIDIA GB200 et GB300 NVL72 représentent une nouvelle génération de supercalculateurs à l'échelle du rack spécifiquement conçus pour les charges de travail d'IA et HPC exigeantes. Ces systèmes exploitent l'architecture révolutionnaire NVIDIA Blackwell, qui intègre des fabrics massives de GPU avec une mise en réseau à large bande passante dans une seule unité étroitement couplée. L'architecture Blackwell est conçue pour offrir des performances et une efficacité sans précédent pour l'entraînement et l'inférence, intégrant des commutateurs NVLink avancés, le Multi-Node NVLink (MNNVL) pour la communication inter-GPU, et des plateaux de calcul compatibles IMEX qui facilitent la mémoire GPU partagée entre plusieurs nœuds au sein du rack. Cette conception intégrée vise à surmonter les limitations des déploiements de GPU traditionnels liés aux serveurs, offrant une plateforme transparente et évolutive pour les modèles d'IA complexes."
question: "Quel est le principal défi de l'ordonnancement des charges de travail d'IA sur ces supercalculateurs avancés à l'échelle du rack ?" answer: "Le défi principal réside dans la discordance significative entre la topologie physique complexe et hiérarchique des supercalculateurs à l'échelle du rack et les abstractions souvent simplistes présentées par les ordonnanceurs de charges de travail conventionnels. Alors que des systèmes comme les NVIDIA GB200/GB300 NVL72 se vantent de fabrics NVLink sophistiquées et de domaines IMEX, les ordonnanceurs perçoivent généralement un pool plat de GPU et de nœuds. Cela peut entraîner une allocation inefficace des ressources, des performances sous-optimales dues à une mauvaise localité des données ou à des goulots d'étranglement de communication, et une complexité opérationnelle accrue pour les opérateurs de plateforme. Sans un ordonnancement conscient de la topologie, les avantages inhérents à l'intégration à l'échelle du rack, tels que les interconnexions à large bande passante, ne peuvent pas être pleinement exploités pour les charges de travail d'IA."
question: "Comment NVIDIA Mission Control aborde-t-il les complexités opérationnelles de l'ordonnancement d'IA à l'échelle du rack ?" answer: "NVIDIA Mission Control agit comme un plan de contrôle crucial qui comble le fossé entre la topologie matérielle complexe des systèmes NVIDIA Grace Blackwell NVL72 et les besoins des plateformes de gestion de charges de travail comme Slurm et NVIDIA Run:ai. Il offre une compréhension native et approfondie des domaines NVLink et IMEX, traduisant les relations matérielles physiques en identifiants logiques que les ordonnanceurs peuvent interpréter. En centralisant la vue des UUID de cluster et des ID de clique, Mission Control permet un placement précis et conscient de la topologie des tâches, assure une isolation appropriée des charges de travail et garantit des performances constantes en alignant les calculs avec la fabric matérielle sous-jacente optimale. Cela transforme efficacement l'infrastructure brute en une 'usine d'IA' efficace et gérable."
question: "Expliquez les concepts de Cluster UUID et de Clique ID dans le contexte de la topologie NVLink et leur importance opérationnelle." answer: "Le Cluster UUID et le Clique ID sont des identifiants au niveau du système qui encodent la position d'un GPU au sein de la fabric NVLink, rendant la topologie complexe compréhensible pour le logiciel système et les ordonnanceurs. Le Cluster UUID correspond au domaine NVLink, indiquant que les systèmes et leurs GPU appartiennent au même rack physique et partagent une fabric NVLink commune. Pour Grace Blackwell NVL72, cet UUID est cohérent sur l'ensemble du rack. Le Clique ID offre une distinction plus fine, correspondant à une Partition NVLink. Les GPU partageant un Clique ID appartiennent à la même partition logique au sein de ce domaine. Opérationnellement, le Cluster UUID répond à la question 'Quels GPU partagent physiquement un rack et peuvent communiquer via NVLink ?', tandis que le Clique ID répond à 'Quels GPU partagent une Partition NVLink et sont destinés à communiquer ensemble pour une charge de travail spécifique ?', permettant une allocation de ressources plus fine et une optimisation des performances."
question: "Comment le plugin topology/block de Slurm améliore-t-il le placement des charges de travail d'IA sur les systèmes NVL72 ?" answer: "Le plugin topology/block de Slurm est essentiel pour un placement efficace des charges de travail d'IA sur les systèmes NVIDIA NVL72 en faisant prendre conscience à Slurm que tous les nœuds (ou GPU) ne sont pas égaux en termes de connectivité et de performances. Sur les systèmes Grace Blackwell NVL72, les blocs de nœuds avec des connexions à faible latence correspondent directement aux partitions NVLink, qui sont des groupes de GPU partageant une fabric NVLink à large bande passante. En activant ce plugin et en exposant ces partitions NVLink comme des 'blocs', Slurm obtient le contexte nécessaire pour prendre des décisions de placement intelligentes. Cela garantit que les tâches multi-GPU sont allouées de préférence au sein d'une seule partition NVLink pour préserver les performances MNNVL, évitant la dégradation des performances qui pourrait survenir si les tâches étaient réparties de manière indiscriminée sur différents segments moins connectés du supercalculateur. Cela permet une utilisation optimisée des ressources et des performances prévisibles pour les tâches d'IA exigeantes."
question: "Qu'est-ce que le Multi-Node NVLink (MNNVL), et comment l'IMEX le facilite-t-il pour la mémoire GPU partagée ?" answer: "Le Multi-Node NVLink (MNNVL) est une technologie clé qui permet aux GPU de différents nœuds de calcul au sein d'un système à l'échelle du rack de communiquer directement avec une bande passante élevée et une faible latence, essentielle pour la mise à l'échelle de grands modèles d'IA. Le MNNVL permet un modèle de programmation à mémoire partagée sur ces GPU distribués, le faisant apparaître aux applications comme une seule fabric GPU massive. IMEX (Infiniband Memory Expansion) est la technologie sous-jacente qui facilite le MNNVL. Les plateaux de calcul compatibles IMEX sont conçus pour permettre la mémoire GPU partagée entre les nœuds en tirant parti du réseau avancé de NVIDIA. Alors que le MNNVL simplifie le modèle de programmation pour les développeurs, Mission Control joue un rôle crucial en coulisses pour garantir que les services IMEX sont correctement provisionnés et synchronisés avec les tâches MNNVL, garantissant que les avantages de la mémoire GPU partagée sont pleinement réalisés sans exposer les complexités sous-jacentes à l'utilisateur final."
question: "Quels sont les principaux avantages de la mise en œuvre d'un ordonnancement conscient de la topologie pour les charges de travail d'IA sur les supercalculateurs à l'échelle du rack ?" answer: "La mise en œuvre d'un ordonnancement conscient de la topologie offre plusieurs avantages significatifs pour les charges de travail d'IA sur les supercalculateurs à l'échelle du rack. Premièrement, elle assure une performance optimale en plaçant intelligemment les tâches sur les GPU qui ont les connexions à plus large bande passante et à plus faible latence, minimisant les surcharges de communication inhérentes à l'entraînement d'IA distribué. Deuxièmement, elle améliore l'utilisation des ressources en empêchant la dispersion inefficace des tâches sur des segments matériels disparates, conduisant à des performances plus prévisibles et à un meilleur débit. Troisièmement, elle simplifie la gestion pour les opérateurs de plateforme en abstraisant les complexités matérielles tout en fournissant des limites d'isolation claires entre les charges de travail, améliorant la stabilité et la sécurité du système. En fin de compte, l'ordonnancement conscient de la topologie transforme le matériel complexe en une 'usine d'IA' hautement efficace, évolutive et gérable, accélérant la recherche et le développement tout en réduisant la charge opérationnelle."
question: "Comment NVIDIA Topograph contribue-t-il à la découverte automatisée et à l'ordonnancement des topologies de supercalculateurs ?" answer: "NVIDIA Topograph est un composant essentiel qui automatise la découverte de la hiérarchie complexe NVLink et d'interconnexion au sein des supercalculateurs à l'échelle du rack. Cette découverte automatisée est essentielle car la configuration et la maintenance manuelles d'informations de topologie détaillées pour des systèmes à grande échelle seraient sujettes aux erreurs et extrêmement chronophages. Topograph expose ces informations détaillées sur la fabric aux ordonnanceurs de charges de travail, y compris Slurm et Kubernetes (via NVIDIA DRA et ComputeDomains), ainsi qu'à NVIDIA Run:ai. En fournissant aux ordonnanceurs une vue précise et en temps réel de la topologie matérielle, Topograph leur permet de prendre des décisions de placement intelligentes et automatisées. Cela garantit que les charges de travail d'IA sont ordonnancées de manière consciente de la topologie dès le départ, optimisant les performances, l'allocation des ressources et l'efficacité globale du système, ce qui est crucial pour construire et exploiter des usines d'IA évolutives."


# Supercalculateurs d'IA à l'échelle du rack : du matériel à l'ordonnancement conscient de la topologie

![Decorative image.](https://developer-blogs.nvidia.com/wp-content/uploads/2026/04/gtc25-tech-blog-dgx-gb300-1920x1080-1-1024x576.png)

Le paysage de l'intelligence artificielle évolue rapidement, exigeant une infrastructure de calcul toujours plus puissante et efficace. À l'avant-garde de cette évolution se trouvent les supercalculateurs à l'échelle du rack, conçus pour accélérer les charges de travail d'IA et de calcul haute performance (HPC) les plus complexes. Les systèmes GB200 NVL72 et GB300 NVL72 de NVIDIA, basés sur l'architecture innovante Blackwell, représentent un bond significatif dans cette direction, regroupant d'immenses fabrics de GPU et un réseau à large bande passante en unités cohérentes et puissantes.

Cependant, le déploiement d'un matériel aussi sophistiqué présente un défi unique : comment traduire cette topologie physique complexe en une ressource gérable, performante et accessible pour les développeurs et chercheurs en IA ? La discordance fondamentale entre la nature hiérarchique du matériel à l'échelle du rack et les abstractions souvent plates des ordonnanceurs de charges de travail traditionnels crée un goulot d'étranglement. C'est précisément là qu'une pile logicielle validée comme NVIDIA Mission Control intervient, comblant le fossé pour transformer la puissance de calcul brute en une usine d'IA transparente et consciente de la topologie.

## Supercalculateurs d'IA à l'échelle du rack de nouvelle génération avec NVIDIA Blackwell

Les systèmes NVIDIA GB200 NVL72 et GB300 NVL72, alimentés par l'architecture de pointe NVIDIA Blackwell, ne sont pas de simples collections de GPU puissants ; ce sont des supercalculateurs intégrés à l'échelle du rack, conçus pour l'avenir de l'IA. Chaque système comprend 18 plateaux de calcul étroitement couplés, formant une fabric GPU massive connectée par des commutateurs NVLink avancés. Ces systèmes prennent en charge le NVIDIA Multi-Node NVLink (MNNVL), facilitant une communication ultra-rapide au sein du rack, et incluent des plateaux de calcul compatibles IMEX qui permettent la mémoire GPU partagée entre les nœuds. Cette architecture fournit une base inégalée pour l'entraînement et le déploiement de modèles d'IA à grande échelle, repoussant les limites de ce qui est possible dans des domaines allant de la découverte scientifique aux applications d'IA d'entreprise.

La philosophie de conception derrière ces systèmes basés sur Blackwell se concentre sur la maximisation du débit de données et la minimisation de la latence entre les [GPUs](/fr/gpus) interconnectés. Ceci est réalisé grâce à une pile matérielle densément intégrée où chaque composant est optimisé pour une performance collective, garantissant que les charges de travail d'IA peuvent s'adapter efficacement sans rencontrer de goulots d'étranglement de communication.

## Rapprocher la topologie matérielle des abstractions d'ordonnancement d'IA

Pour les architectes d'IA et les opérateurs de plateformes HPC, le véritable défi n'est pas seulement d'acquérir et d'assembler ce matériel avancé, mais plutôt de le rendre opérationnel en une ressource 'sûre, performante et facile à utiliser'. Les ordonnanceurs traditionnels partent souvent du principe qu'il existe un pool homogène et plat de ressources de calcul. Ce paradigme est mal adapté aux supercalculateurs à l'échelle du rack, où la conception hiérarchique et sensible à la topologie des fabrics NVLink et des domaines IMEX est essentielle pour les performances. Sans une intégration appropriée, les ordonnanceurs pourraient involontairement placer des tâches à des emplacements sous-optimaux, ce qui réduirait l'efficacité et rendrait les performances imprévisibles.

C'est cette lacune que NVIDIA Mission Control est conçu pour combler. En tant que plan de contrôle robuste à l'échelle du rack pour les systèmes NVIDIA Grace Blackwell NVL72, Mission Control possède une compréhension native des domaines NVIDIA NVLink et NVIDIA IMEX sous-jacents. Cette connaissance approfondie lui permet de s'intégrer intelligemment aux plateformes de gestion de charges de travail populaires telles que Slurm et NVIDIA Run:ai. En traduisant les topologies matérielles complexes en intelligence d'ordonnancement exploitable, Mission Control garantit que les capacités avancées de l'architecture Blackwell sont pleinement exploitées, transformant un assemblage matériel sophistiqué en une véritable usine d'IA opérationnelle. Cette capacité s'étendra à la prochaine plateforme NVIDIA Vera Rubin, y compris le NVIDIA Rubin NVL8, consolidant ainsi une approche cohérente de l'infrastructure d'IA haute performance.

## Décoder les domaines et partitions NVLink pour les charges de travail d'IA

Au cœur de l'ordonnancement conscient de la topologie pour les systèmes Blackwell se trouvent les concepts de domaines et de partitions NVLink, qui sont exposés via des identifiants au niveau du système : **Cluster UUID** et **Clique ID**. Ces identifiants sont cruciaux car ils fournissent une carte logique de la fabric physique NVLink, permettant au logiciel système et aux ordonnanceurs de raisonner sur la position et la connectivité du GPU.

Le mappage est simple mais puissant :
- Le **Cluster UUID** correspond au **domaine NVLink**. Un Cluster UUID partagé signifie que les systèmes — et leurs GPU — appartiennent au même domaine NVLink global et sont connectés par une fabric NVLink commune. Pour Grace Blackwell NVL72, cet UUID est cohérent sur l'ensemble du rack, indiquant la proximité physique et la connectivité partagée à large bande passante.
- Le **Clique ID** correspond à la **partition NVLink**. Le Clique ID offre une distinction plus fine, identifiant les groupes de GPU qui partagent une Partition NVLink au sein d'un domaine plus grand. Lorsqu'un rack est logiquement segmenté en plusieurs partitions NVLink, le Cluster UUID reste le même, mais les Clique IDs différencient ces groupes isolés et plus petits à large bande passante.

Cette distinction est vitale d'un point de vue opérationnel :
- Le **Cluster UUID** répond à la question : *Quels GPU partagent physiquement un rack et sont capables de communiquer via NVLink aux vitesses les plus élevées ?*
- Le **Clique ID** répond à la question : *Quels GPU partagent une Partition NVLink et sont destinés à communiquer ensemble pour une charge de travail ou un niveau de service donné, assurant une performance optimale pour les tâches hautement parallèles ?*

Ces identifiants sont le tissu conjonctif, permettant aux plateformes comme Slurm, Kubernetes et NVIDIA Run:ai d'aligner le placement des tâches, l'isolation et les garanties de performance avec la structure réelle de la fabric NVLink, le tout sans exposer la complexité matérielle sous-jacente directement aux utilisateurs finaux. NVIDIA Mission Control offre une vue centralisée de ces identifiants, simplifiant la gestion.

| Concept Matériel    | Identifiant Logiciel | Description                                                                                                   |
| :------------------ | :------------------- | :------------------------------------------------------------------------------------------------------------ |
| Domaine NVLink      | Cluster UUID         | Identifie les GPU partageant physiquement un rack, capables de communication NVLink à l'échelle du rack.       |
| Partition NVLink    | Clique ID            | Distingue les GPU destinés à communiquer ensemble au sein d'un domaine NVLink pour une charge de travail ou un niveau de service spécifique. |

## Ordonnancement d'IA conscient de la topologie avec Slurm

Pour les charges de travail multi-nœuds exécutées sur des systèmes NVL72 basés sur Blackwell, le **placement devient aussi critique que le nombre de GPU alloués**. Une tâche d'entraînement d'IA nécessitant 16 GPU, par exemple, fonctionnera très différemment si elle est répartie de manière aléatoire sur plusieurs nœuds moins connectés plutôt que si elle est confinée à une seule fabric NVLink à large bande passante. C'est là que le **plugin topology/block** de Slurm s'avère indispensable, permettant à Slurm de reconnaître les différences subtiles de connectivité entre les nœuds.

Sur les systèmes Grace Blackwell NVL72, les blocs de nœuds présentant des connexions à latence plus faible correspondent directement aux **partitions NVLink** — des groupes de GPU unis par une fabric NVLink dédiée à large bande passante. En activant le plugin topology/block et en exposant ces partitions NVLink comme des blocs distincts, Slurm acquiert l'intelligence contextuelle nécessaire pour prendre de meilleures décisions d'ordonnancement. Par défaut, les tâches sont intelligemment placées au sein d'une seule partition NVLink (ou bloc), préservant ainsi la performance critique du Multi-Node NVLink (MNNVL). Bien que des tâches plus importantes puissent toujours s'étendre sur plusieurs blocs si nécessaire, cette approche rend les compromis de performance explicites, plutôt qu'accidentels.

En pratique, cela permet des stratégies de déploiement flexibles :
- **Un bloc/groupe de nœuds par rack** : Cette configuration permet à Slurm Quality of Service (QoS) de gérer l'accès à la partition partagée à l'échelle du rack, idéale pour une gestion consolidée des ressources.
- **Plusieurs blocs/groupes de nœuds par rack** : Cette approche est parfaite pour offrir des pools de GPU plus petits, isolés et à large bande passante. Ici, chaque bloc/groupe de nœuds correspond à une partition Slurm dédiée, fournissant efficacement un niveau de service distinct. Les utilisateurs peuvent alors utiliser une partition Slurm spécifique, plaçant automatiquement leurs tâches dans la partition NVLink prévue sans avoir besoin de comprendre les subtilités de la fabric sous-jacente. Cette gestion avancée des ressources est cruciale pour les organisations cherchant à [faire évoluer l'IA pour tous](/fr/scaling-ai-for-everyone), s'alignant sur l'objectif plus large de faire évoluer l'IA.

## Optimisation des charges de travail MNNVL avec IMEX et Mission Control

Les charges de travail CUDA multi-nœuds de NVIDIA s'appuient fréquemment sur le MNNVL pour atteindre des performances maximales, permettant aux GPU sur différents plateaux de calcul de participer à un modèle de programmation à mémoire partagée cohérent. Du point de vue d'un développeur d'applications, l'utilisation du MNNVL peut sembler trompeusement simple, mais l'orchestration sous-jacente est complexe.

C'est là que NVIDIA Mission Control joue un rôle central. Il garantit que les composants critiques s'alignent parfaitement lors de l'exécution de tâches MNNVL avec Slurm. Plus précisément, Mission Control garantit que le service IMEX — qui facilite la mémoire GPU partagée — s'exécute sur l'ensemble *exact* des plateaux de calcul participant à la tâche MNNVL. Il s'assure également que les NVSwitches nécessaires sont correctement configurés pour établir et maintenir ces connexions MNNVL à large bande passante. Cette coordination est vitale pour fournir des performances cohérentes et prévisibles sur l'ensemble du rack. Sans l'orchestration intelligente de Mission Control, les avantages du MNNVL et d'IMEX seraient difficiles à réaliser et à gérer à l'échelle, soulignant l'engagement de NVIDIA à fournir des solutions complètes pour les [GPUs](/fr/gpus) avancés et leurs écosystèmes.

## Vers une infrastructure d'IA automatisée et évolutive

L'intégration de l'architecture Blackwell de NVIDIA avec des couches logicielles sophistiquées comme Mission Control et Topograph marque une étape significative vers la création d'une infrastructure d'IA véritablement automatisée et évolutive. NVIDIA Topograph automatise la découverte de la hiérarchie complexe NVLink et d'interconnexion, exposant ces informations vitales aux ordonnanceurs tels que Slurm, Kubernetes (via NVIDIA DRA et ComputeDomains) et NVIDIA Run:ai. Cela élimine la surcharge manuelle de gestion de la topologie, permettant aux organisations de déployer et de faire évoluer les charges de travail d'IA avec une efficacité sans précédent.

En fournissant aux ordonnanceurs une compréhension approfondie et en temps réel de la topologie matérielle, cette approche intégrée garantit que les applications d'IA s'exécutent sur les ressources optimales, minimisant la latence de communication et maximisant le débit. Le résultat est une usine d'IA hautement performante, résiliente et facile à gérer, capable de gérer les tâches d'entraînement et d'inférence d'IA les plus exigeantes. À mesure que les modèles d'IA continuent de croître en complexité et en taille, la capacité à gérer et à ordonnancer efficacement les charges de travail sur les supercalculateurs à l'échelle du rack sera primordiale pour stimuler l'innovation et maintenir un avantage concurrentiel. Cette stratégie holistique sous-tend l'avenir de l'IA d'entreprise, transformant la puissance de calcul brute en un supercalculateur d'IA intelligent, réactif et hautement efficace.

Source originale

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Questions Fréquentes

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Restez informé

Recevez les dernières actualités IA dans votre boîte mail.