Supercomputadores de IA em Escala de Rack: Do Hardware ao Agendamento Ciente da Topologia

Decorative image.

A paisagem da inteligência artificial está evoluindo rapidamente, exigindo infraestruturas computacionais cada vez mais poderosas e eficientes. Na vanguarda dessa evolução estão os supercomputadores em escala de rack, projetados para acelerar as cargas de trabalho mais complexas de IA e computação de alto desempenho (HPC). Os sistemas NVIDIA GB200 NVL72 e GB300 NVL72, construídos sobre a inovadora arquitetura Blackwell, representam um salto significativo nessa direção, empacotando vastas estruturas de GPU e rede de alta largura de banda em unidades coesas e poderosas.

No entanto, implantar hardware tão sofisticado apresenta um desafio único: como traduzir essa intrincada topologia física em um recurso gerenciável, performático e acessível para desenvolvedores e pesquisadores de IA? A incompatibilidade fundamental entre a natureza hierárquica do hardware em escala de rack e as abstrações frequentemente planas dos agendadores de carga de trabalho tradicionais cria um gargalo. É precisamente aqui que uma pilha de software validada como o NVIDIA Mission Control entra em ação, preenchendo a lacuna para transformar o poder computacional bruto em uma fábrica de IA contínua e ciente da topologia.

Supercomputação de IA de Próxima Geração em Escala de Rack com NVIDIA Blackwell

Os sistemas NVIDIA GB200 NVL72 e GB300 NVL72, alimentados pela arquitetura de ponta NVIDIA Blackwell, não são meramente coleções de GPUs poderosas; são supercomputadores integrados em escala de rack projetados para o futuro da IA. Cada sistema apresenta 18 bandejas de computação firmemente acopladas, formando uma vasta estrutura de GPU conectada por switches NVLink avançados. Esses sistemas suportam NVIDIA NVLink Multi-Nó (MNNVL), facilitando a comunicação de ultra-alta velocidade dentro do rack, e incluem bandejas de computação com capacidade IMEX que permitem memória compartilhada de GPU entre nós. Esta arquitetura fornece uma base incomparável para treinar e implantar modelos de IA em larga escala, expandindo os limites do que é possível em campos que vão desde a descoberta científica até aplicativos de IA empresarial.

A filosofia de design por trás desses sistemas baseados em Blackwell foca em maximizar o throughput de dados e minimizar a latência entre GPUs interconectadas. Isso é alcançado através de uma pilha de hardware densamente integrada, onde cada componente é otimizado para desempenho coletivo, garantindo que as cargas de trabalho de IA possam escalar de forma eficiente sem atingir gargalos de comunicação.

Preenchendo a Lacuna entre a Topologia de Hardware e as Abstrações do Agendador de IA

Para arquitetos de IA e operadores de plataforma HPC, o verdadeiro desafio não é apenas adquirir e montar esse hardware avançado, mas sim operacionalizá-lo em um recurso 'seguro, performático e fácil de usar'. Os agendadores tradicionais frequentemente operam sob a premissa de um pool homogêneo e plano de recursos computacionais. Esse paradigma é inadequado para supercomputadores em escala de rack, onde o design hierárquico e sensível à topologia das estruturas NVLink e domínios IMEX são críticos para o desempenho. Sem a integração adequada, os agendadores podem inadvertidamente colocar tarefas em locais subótimos, levando a uma eficiência reduzida e desempenho imprevisível.

Essa é a lacuna que o NVIDIA Mission Control é projetado para preencher. Como um plano de controle robusto em escala de rack para sistemas NVIDIA Grace Blackwell NVL72, o Mission Control possui uma compreensão nativa dos domínios NVIDIA NVLink e NVIDIA IMEX subjacentes. Essa profunda consciência permite que ele se integre inteligentemente com plataformas populares de gerenciamento de carga de trabalho, como Slurm e NVIDIA Run:ai. Ao traduzir topologias de hardware complexas em inteligência de agendamento acionável, o Mission Control garante que as capacidades avançadas da arquitetura Blackwell sejam totalmente aproveitadas, transformando uma montagem de hardware sofisticada em uma fábrica de IA verdadeiramente operacional. Essa capacidade se estenderá à próxima plataforma NVIDIA Vera Rubin, incluindo NVIDIA Rubin NVL8, solidificando ainda mais uma abordagem consistente para a infraestrutura de IA de alto desempenho.

Decodificando Domínios e Partições NVLink para Cargas de Trabalho de IA

No centro do agendamento ciente da topologia para sistemas Blackwell estão os conceitos de domínios e partições NVLink, que são expostos através de identificadores de nível de sistema: UUID de cluster e ID de clique. Esses identificadores são cruciais porque fornecem um mapa lógico da estrutura física NVLink, permitindo que o software do sistema e os agendadores raciocinem sobre a posição e conectividade da GPU.

O mapeamento é direto, mas poderoso:

UUID de Cluster corresponde ao domínio NVLink. Um UUID de cluster compartilhado significa que os sistemas — e suas GPUs — pertencem ao mesmo domínio NVLink abrangente e estão conectados por uma estrutura NVLink comum. Para o Grace Blackwell NVL72, este UUID é consistente em todo o rack, indicando proximidade física e conectividade compartilhada de alta largura de banda.
ID de Clique corresponde à partição NVLink. O ID de clique oferece uma distinção mais granular, identificando grupos de GPUs que compartilham uma Partição NVLink dentro de um domínio maior. Quando um rack é logicamente segmentado em várias partições NVLink, o UUID de cluster permanece o mesmo, mas os IDs de clique diferenciam esses grupos menores e isolados de alta largura de banda.

Essa distinção é vital do ponto de vista operacional:

O UUID de Cluster responde à pergunta: Quais GPUs compartilham fisicamente um rack e são capazes de comunicação NVLink nas velocidades mais altas?
O ID de Clique responde: Quais GPUs compartilham uma Partição NVLink e são destinadas a se comunicar juntas para uma dada carga de trabalho ou nível de serviço, garantindo desempenho ideal para tarefas altamente paralelas?

Esses identificadores são o tecido conectivo, permitindo que plataformas como Slurm, Kubernetes e NVIDIA Run:ai alinhem o posicionamento de trabalhos, o isolamento e as garantias de desempenho com a estrutura real da estrutura NVLink, tudo sem expor a complexidade do hardware subjacente diretamente aos usuários finais. O NVIDIA Mission Control fornece uma visão centralizada desses identificadores, simplificando o gerenciamento.

Conceito de Hardware	Identificador de Software	Descrição
Domínio NVLink	UUID de Cluster	Identifica GPUs que compartilham fisicamente um rack, capazes de comunicação NVLink em todo o rack.
Partição NVLink	ID de Clique	Distingue GPUs destinadas a se comunicar juntas dentro de um domínio NVLink para uma carga de trabalho ou nível de serviço específico.

Agendamento de IA Ciente da Topologia com Slurm

Para cargas de trabalho multi-nó em execução em sistemas NVL72 baseados em Blackwell, o posicionamento torna-se tão crítico quanto a contagem de GPUs alocadas. Um trabalho de treinamento de IA que requer 16 GPUs, por exemplo, terá um desempenho vastamente diferente se espalhado de forma aleatória por vários nós menos conectados em comparação com estar confinado dentro de uma única estrutura NVLink de alta largura de banda. É aqui que o plug-in topology/block do Slurm se mostra indispensável, permitindo que o Slurm reconheça as diferenças sutis de conectividade entre os nós.

Em sistemas Grace Blackwell NVL72, blocos de nós com conexões de menor latência correspondem diretamente às partições NVLink — grupos de GPUs que são unidas por uma estrutura NVLink dedicada e de alta largura de banda. Ao habilitar o plug-in topology/block e expor essas partições NVLink como blocos distintos, o Slurm ganha a inteligência contextual necessária para tomar decisões de agendamento superiores. Por padrão, os trabalhos são inteligentemente posicionados dentro de uma única partição NVLink (ou bloco), preservando assim o desempenho crítico do NVLink Multi-Nó (MNNVL). Embora trabalhos maiores ainda possam abranger múltiplos blocos, se necessário, esta abordagem torna os trade-offs de desempenho explícitos, em vez de acidentais.

Em termos práticos, isso permite estratégias de implantação flexíveis:

Um bloco/grupo de nós por rack: Esta configuração permite que o QoS (Quality of Service) do Slurm gerencie o acesso à partição compartilhada em todo o rack, ideal para gerenciamento consolidado de recursos.
Múltiplos blocos/grupos de nós por rack: Esta abordagem é perfeita para oferecer pools menores, isolados e de alta largura de banda de GPU. Aqui, cada bloco/grupo de nós mapeia para uma partição Slurm dedicada, efetivamente fornecendo um nível de serviço distinto. Os usuários podem então aproveitar uma partição Slurm específica, posicionando automaticamente seus trabalhos dentro da partição NVLink pretendida, sem a necessidade de entender as intrincadas particularidades da estrutura subjacente. Este gerenciamento avançado de recursos é crucial para organizações que buscam escalar suas iniciativas de IA, alinhando-se com o objetivo mais amplo de escalar a IA para todos.

Otimizando Cargas de Trabalho MNNVL com IMEX e Mission Control

Cargas de trabalho NVIDIA CUDA Multi-Nó frequentemente dependem do MNNVL para alcançar o desempenho máximo, permitindo que GPUs em diferentes bandejas de computação participem de um modelo de programação de memória compartilhada coeso. Do ponto de vista de um desenvolvedor de aplicativos, aproveitar o MNNVL pode parecer enganosamente simples, mas a orquestração subjacente é complexa.

É aqui que o NVIDIA Mission Control desempenha um papel fundamental. Ele garante que os componentes críticos se alinhem perfeitamente ao executar trabalhos MNNVL com Slurm. Especificamente, o Mission Control garante que o serviço IMEX — que facilita a memória compartilhada da GPU — seja executado no exato conjunto de bandejas de computação que participam do trabalho MNNVL. Ele também garante que os NVSwitches necessários sejam configurados corretamente para estabelecer e manter essas conexões MNNVL de alta largura de banda. Essa coordenação é vital para fornecer desempenho consistente e previsível em todo o rack. Sem a orquestração inteligente do Mission Control, os benefícios do MNNVL e do IMEX seriam desafiadores de realizar e gerenciar em escala, destacando o compromisso da NVIDIA em entregar soluções completas para GPUs avançadas e seus ecossistemas.

Rumo à Infraestrutura de IA Automatizada e Escalável

A integração da arquitetura Blackwell da NVIDIA com camadas de software sofisticadas como Mission Control e Topograph marca um passo significativo em direção à criação de uma infraestrutura de IA verdadeiramente automatizada e escalável. O NVIDIA Topograph automatiza a descoberta da complexa hierarquia de NVLink e interconexão, expondo essas informações vitais a agendadores como Slurm, Kubernetes (através de NVIDIA DRA e ComputeDomains) e NVIDIA Run:ai. Isso elimina a sobrecarga manual de gerenciar a topologia, permitindo que as organizações implantem e escalem cargas de trabalho de IA com eficiência sem precedentes.

Ao fornecer aos agendadores uma compreensão profunda e em tempo real da topologia de hardware, essa abordagem integrada garante que os aplicativos de IA sejam executados nos recursos ideais, minimizando a latência de comunicação e maximizando o throughput. O resultado é uma fábrica de IA altamente performática, resiliente e fácil de gerenciar, capaz de lidar com as tarefas mais exigentes de treinamento e inferência de IA. À medida que os modelos de IA continuam a crescer em complexidade e tamanho, a capacidade de gerenciar e agendar cargas de trabalho de forma eficaz em supercomputadores em escala de rack será de suma importância para impulsionar a inovação e manter a vantagem competitiva. Essa estratégia holística sustenta o futuro da IA empresarial, transformando o poder computacional bruto em supercomputação de IA inteligente, responsiva e altamente eficiente.

Fonte original

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Perguntas Frequentes

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Fique Atualizado

Receba as últimas novidades de IA no seu e-mail.