Superordenadores de IA a escala de rack: del hardware a la programación consciente de la topología

Decorative image.

El panorama de la inteligencia artificial está evolucionando rápidamente, exigiendo una infraestructura computacional cada vez más potente y eficiente. A la vanguardia de esta evolución se encuentran los superordenadores a escala de rack, diseñados para acelerar las cargas de trabajo de IA y computación de alto rendimiento (HPC) más complejas. Los sistemas GB200 NVL72 y GB300 NVL72 de NVIDIA, construidos sobre la innovadora arquitectura Blackwell, representan un avance significativo en esta dirección, empaquetando inmensos tejidos de GPU y redes de alto ancho de banda en unidades cohesivas y potentes.

Sin embargo, desplegar un hardware tan sofisticado presenta un desafío único: ¿cómo se traduce esta intrincada topología física en un recurso manejable, de alto rendimiento y accesible para desarrolladores e investigadores de IA? La disparidad fundamental entre la naturaleza jerárquica del hardware a escala de rack y las abstracciones a menudo planas de los programadores de cargas de trabajo tradicionales crea un cuello de botella. Aquí es precisamente donde entra en juego una pila de software validada como NVIDIA Mission Control, que tiende un puente para transformar la potencia computacional bruta en una fábrica de IA fluida y consciente de la topología.

Supercomputación de IA de próxima generación a escala de rack con NVIDIA Blackwell

Los sistemas NVIDIA GB200 NVL72 y GB300 NVL72, impulsados por la arquitectura de vanguardia NVIDIA Blackwell, no son meramente colecciones de potentes GPU; son superordenadores integrados a escala de rack diseñados para el futuro de la IA. Cada sistema cuenta con 18 bandejas de cómputo estrechamente acopladas, formando un masivo tejido de GPU conectado por conmutadores NVLink avanzados. Estos sistemas soportan NVIDIA Multi-Node NVLink (MNNVL), facilitando la comunicación de ultra alta velocidad dentro del rack, e incluyen bandejas de cómputo compatibles con IMEX que permiten la memoria GPU compartida entre nodos. Esta arquitectura proporciona una base inigualable para entrenar y desplegar modelos de IA a gran escala, empujando los límites de lo posible en campos que van desde el descubrimiento científico hasta las aplicaciones de IA empresarial.

La filosofía de diseño detrás de estos sistemas basados en Blackwell se centra en maximizar el rendimiento de datos y minimizar la latencia entre GPU interconectadas. Esto se logra a través de una pila de hardware densamente integrada donde cada componente está optimizado para un rendimiento colectivo, asegurando que las cargas de trabajo de IA puedan escalar eficientemente sin encontrar cuellos de botella en la comunicación.

Uniendo la topología de hardware con las abstracciones del programador de IA

Para los arquitectos de IA y los operadores de plataformas HPC, el verdadero desafío no es solo adquirir y ensamblar este hardware avanzado, sino más bien operacionalizarlo en un recurso 'seguro, de alto rendimiento y fácil de usar'. Los programadores tradicionales a menudo operan bajo la suposición de un grupo homogéneo y plano de recursos computacionales. Este paradigma es inadecuado para los superordenadores a escala de rack, donde el diseño jerárquico y sensible a la topología de los tejidos NVLink y los dominios IMEX son críticos para el rendimiento. Sin una integración adecuada, los programadores podrían colocar tareas inadvertidamente en ubicaciones subóptimas, lo que llevaría a una eficiencia reducida y un rendimiento impredecible.

Esta es la brecha que NVIDIA Mission Control está diseñado para llenar. Como un robusto plano de control a escala de rack para los sistemas NVIDIA Grace Blackwell NVL72, Mission Control posee una comprensión nativa de los dominios subyacentes NVIDIA NVLink y NVIDIA IMEX. Esta profunda conciencia le permite integrarse inteligentemente con plataformas populares de gestión de cargas de trabajo como Slurm y NVIDIA Run:ai. Al traducir complejas topologías de hardware en inteligencia de programación accionable, Mission Control asegura que las capacidades avanzadas de la arquitectura Blackwell se aprovechen al máximo, transformando un sofisticado ensamblaje de hardware en una fábrica de IA verdaderamente operativa. Esta capacidad se extenderá a la próxima plataforma NVIDIA Vera Rubin, incluyendo NVIDIA Rubin NVL8, consolidando aún más un enfoque consistente para la infraestructura de IA de alto rendimiento.

Decodificando los dominios y particiones NVLink para cargas de trabajo de IA

En el centro de la programación consciente de la topología para los sistemas Blackwell se encuentran los conceptos de dominios y particiones NVLink, que se exponen a través de identificadores a nivel de sistema: UUID de clúster e ID de clique. Estos identificadores son cruciales porque proporcionan un mapa lógico del tejido físico NVLink, permitiendo al software del sistema y a los programadores razonar sobre la posición y conectividad de la GPU.

El mapeo es sencillo pero potente:

UUID de clúster corresponde al dominio NVLink. Un UUID de clúster compartido significa que los sistemas —y sus GPU— pertenecen al mismo dominio NVLink general y están conectados por un tejido NVLink común. Para Grace Blackwell NVL72, este UUID es consistente en todo el rack, indicando proximidad física y conectividad compartida de alto ancho de banda.
ID de clique corresponde a la partición NVLink. El ID de clique ofrece una distinción más granular, identificando grupos de GPU que comparten una partición NVLink dentro de un dominio más grande. Cuando un rack se segmenta lógicamente en múltiples particiones NVLink, el UUID de clúster permanece igual, pero los ID de clique diferencian estos grupos más pequeños, aislados y de alto ancho de banda.

Esta distinción es vital desde un punto de vista operativo:

El UUID de clúster responde a la pregunta: ¿Qué GPU comparten físicamente un rack y son capaces de comunicarse a través de NVLink a las velocidades más altas?
El ID de clique responde: ¿Qué GPU comparten una partición NVLink y están destinadas a comunicarse juntas para una carga de trabajo o nivel de servicio determinado, asegurando un rendimiento óptimo para tareas altamente paralelas?

Estos identificadores son el tejido conectivo, lo que permite a plataformas como Slurm, Kubernetes y NVIDIA Run:ai alinear la colocación de trabajos, el aislamiento y las garantías de rendimiento con la estructura real del tejido NVLink, todo ello sin exponer la complejidad subyacente del hardware directamente a los usuarios finales. NVIDIA Mission Control proporciona una vista centralizada de estos identificadores, agilizando la gestión.

Concepto de hardware	Identificador de software	Descripción
Dominio NVLink	UUID de clúster	Identifica las GPU que comparten físicamente un rack, capaces de comunicación NVLink en todo el rack.
Partición NVLink	ID de clique	Distingue las GPU destinadas a comunicarse juntas dentro de un dominio NVLink para una carga de trabajo o nivel de servicio específico.

Programación de IA consciente de la topología con Slurm

Para cargas de trabajo de varios nodos que se ejecutan en sistemas NVL72 basados en Blackwell, la colocación se vuelve tan crítica como el número total de GPU asignadas. Un trabajo de entrenamiento de IA que requiere 16 GPU, por ejemplo, tendrá un rendimiento muy diferente si se distribuye al azar entre varios nodos menos conectados en comparación con estar confinado dentro de un único tejido NVLink de alto ancho de banda. Aquí es donde el complemento topology/block de Slurm resulta indispensable, permitiendo a Slurm reconocer las sutiles diferencias de conectividad entre los nodos.

En los sistemas Grace Blackwell NVL72, los bloques de nodos con conexiones de menor latencia corresponden directamente a particiones NVLink —grupos de GPU que están unidos por un tejido NVLink dedicado y de alto ancho de banda. Al habilitar el complemento topology/block y exponer estas particiones NVLink como bloques distintos, Slurm obtiene la inteligencia contextual necesaria para tomar decisiones de programación superiores. Por defecto, los trabajos se colocan inteligentemente dentro de una única partición NVLink (o bloque), preservando así el rendimiento crítico de Multi-Node NVLink (MNNVL). Si bien los trabajos más grandes aún pueden abarcar varios bloques si es necesario, este enfoque hace que las compensaciones de rendimiento sean explícitas, en lugar de accidentales.

En términos prácticos, esto permite estrategias de despliegue flexibles:

Un bloque/grupo de nodos por rack: Esta configuración permite a Slurm Quality of Service (QoS) gestionar el acceso a la partición compartida en todo el rack, ideal para la gestión consolidada de recursos.
Múltiples bloques/grupos de nodos por rack: Este enfoque es perfecto para ofrecer grupos de GPU más pequeños, aislados y de alto ancho de banda. Aquí, cada bloque/grupo de nodos se mapea a una partición Slurm dedicada, proporcionando efectivamente un nivel de servicio distinto. Los usuarios pueden entonces aprovechar una partición Slurm específica, asignando automáticamente sus trabajos dentro de la partición NVLink deseada sin necesidad de comprender las complejidades subyacentes del tejido. Esta gestión avanzada de recursos es crucial para las organizaciones que buscan escalar sus iniciativas de IA, alineándose con el objetivo más amplio de escalar la IA para todos.

Optimizando cargas de trabajo MNNVL con IMEX y Mission Control

Las cargas de trabajo CUDA de NVIDIA Multi-Nodo frecuentemente dependen de MNNVL para lograr el máximo rendimiento, permitiendo que las GPU en diferentes bandejas de cómputo participen en un modelo de programación cohesivo de memoria compartida. Desde la perspectiva de un desarrollador de aplicaciones, aprovechar MNNVL puede parecer engañosamente simple, pero la orquestación subyacente es compleja.

Aquí es donde NVIDIA Mission Control juega un papel fundamental. Asegura que los componentes críticos se alineen perfectamente al ejecutar trabajos MNNVL con Slurm. Específicamente, Mission Control garantiza que el servicio IMEX —que facilita la memoria GPU compartida— se ejecute en el conjunto exacto de bandejas de cómputo que participan en el trabajo MNNVL. También asegura que los NVSwitches necesarios estén configurados correctamente para establecer y mantener estas conexiones MNNVL de alto ancho de banda. Esta coordinación es vital para proporcionar un rendimiento consistente y predecible en todo el rack. Sin la orquestación inteligente de Mission Control, los beneficios de MNNVL e IMEX serían difíciles de lograr y gestionar a escala, destacando el compromiso de NVIDIA de ofrecer soluciones completas para GPU avanzadas y sus ecosistemas.

Hacia una infraestructura de IA automatizada y escalable

La integración de la arquitectura Blackwell de NVIDIA con capas de software sofisticadas como Mission Control y Topograph marca un paso significativo hacia la creación de una infraestructura de IA verdaderamente automatizada y escalable. NVIDIA Topograph automatiza el descubrimiento de la compleja jerarquía de NVLink e interconexión, exponiendo esta información vital a programadores como Slurm, Kubernetes (a través de NVIDIA DRA y ComputeDomains) y NVIDIA Run:ai. Esto elimina la sobrecarga manual de gestionar la topología, permitiendo a las organizaciones desplegar y escalar cargas de trabajo de IA con una eficiencia sin precedentes.

Al proporcionar a los programadores una comprensión profunda y en tiempo real de la topología del hardware, este enfoque integrado asegura que las aplicaciones de IA se ejecuten en los recursos óptimos, minimizando la latencia de comunicación y maximizando el rendimiento. El resultado es una fábrica de IA de alto rendimiento, resiliente y fácil de gestionar, capaz de manejar las tareas de entrenamiento e inferencia de IA más exigentes. A medida que los modelos de IA sigan creciendo en complejidad y tamaño, la capacidad de gestionar y programar eficazmente las cargas de trabajo en superordenadores a escala de rack será primordial para impulsar la innovación y mantener una ventaja competitiva. Esta estrategia holística sustenta el futuro de la IA empresarial, transformando la potencia computacional bruta en supercomputación de IA inteligente, receptiva y altamente eficiente.

Fuente original

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Preguntas Frecuentes

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Mantente Actualizado

Recibe las últimas noticias de IA en tu correo.