Шино-масштабні суперкомп'ютери для ШІ: від апаратного забезпечення до планування з урахуванням топології

Decorative image.

Ландшафт штучного інтелекту стрімко розвивається, вимагаючи дедалі потужнішої та ефективнішої обчислювальної інфраструктури. На передовій цієї еволюції знаходяться шино-масштабні суперкомп'ютери, розроблені для прискорення найскладніших робочих навантажень ШІ та високопродуктивних обчислень (HPC). Системи NVIDIA GB200 NVL72 та GB300 NVL72, побудовані на інноваційній архітектурі Blackwell, представляють значний крок у цьому напрямку, об'єднуючи величезні GPU-фабрики та високошвидкісні мережі в цілісні, потужні блоки.

Однак розгортання такого складного апаратного забезпечення ставить унікальне завдання: як перетворити цю складну фізичну топологію на керований, продуктивний та доступний ресурс для розробників та дослідників ШІ? Фундаментальна невідповідність між ієрархічною природою шино-масштабного обладнання та часто плоскими абстракціями традиційних планувальників робочих навантажень створює вузьке місце. Саме тут вступає в дію перевірений програмний стек, такий як NVIDIA Mission Control, долаючи цю прогалину та перетворюючи 'сиру' обчислювальну потужність на безшовну, з урахуванням топології, фабрику ШІ.

Суперкомп'ютери ШІ нового покоління на рівні стійки з NVIDIA Blackwell

Системи NVIDIA GB200 NVL72 та GB300 NVL72, що працюють на передовій архітектурі NVIDIA Blackwell, є не просто набором потужних GPU; це інтегровані шино-масштабні суперкомп'ютери, розроблені для майбутнього ШІ. Кожна система має 18 тісно пов'язаних обчислювальних лотків, що утворюють масивну GPU-фабрику, з'єднану передовими комутаторами NVLink. Ці системи підтримують NVIDIA Multi-Node NVLink (MNNVL), що полегшує надвисокошвидкісну комунікацію в межах стійки, і включають обчислювальні лотки з підтримкою IMEX, які забезпечують спільну пам'ять GPU між вузлами. Ця архітектура забезпечує безпрецедентну основу для навчання та розгортання великомасштабних моделей ШІ, розширюючи межі можливого в галузях від наукових відкриттів до корпоративних програм ШІ.

Філософія дизайну цих систем на базі Blackwell зосереджена на максимізації пропускної здатності даних та мінімізації затримки між взаємопов'язаними GPU. Це досягається завдяки щільно інтегрованому апаратному стеку, де кожен компонент оптимізований для колективної продуктивності, забезпечуючи ефективне масштабування робочих навантажень ШІ без зіткнення з вузькими місцями комунікації.

З'єднання апаратної топології з абстракціями планувальника ШІ

Для архітекторів ШІ та операторів платформ HPC справжнє завдання полягає не просто в придбанні та складанні цього передового обладнання, а в його перетворенні на «безпечний, продуктивний та простий у використанні» ресурс. Традиційні планувальники часто працюють, виходячи з припущення про однорідний, плоский пул обчислювальних ресурсів. Ця парадигма погано підходить для шино-масштабних суперкомп'ютерів, де ієрархічна та чутлива до топології конструкція NVLink-фабрик та доменів IMEX є критично важливою для продуктивності. Без належної інтеграції планувальники можуть ненавмисно розміщувати завдання в субоптимальних місцях, що призведе до зниження ефективності та непередбачуваної продуктивності.

Саме цю прогалину покликаний заповнити NVIDIA Mission Control. Як надійна площина управління на рівні стійки для систем NVIDIA Grace Blackwell NVL72, Mission Control володіє «рідним» розумінням базових доменів NVIDIA NVLink та NVIDIA IMEX. Це глибоке усвідомлення дозволяє йому інтелектуально інтегруватися з популярними платформами управління робочими навантаженнями, такими як Slurm та NVIDIA Run:ai. Перетворюючи складні апаратні топології на дієздатну інтелектуальну інформацію для планування, Mission Control забезпечує повне використання передових можливостей архітектури Blackwell, перетворюючи складну апаратну збірку на дійсно функціональну фабрику ШІ. Ця можливість буде розширена до майбутньої платформи NVIDIA Vera Rubin, включаючи NVIDIA Rubin NVL8, що ще більше закріпить послідовний підхід до високопродуктивної інфраструктури ШІ.

Декодування доменів та розділів NVLink для робочих навантажень ШІ

В основі планування з урахуванням топології для систем Blackwell лежать концепції доменів та розділів NVLink, які виявляються через системні ідентифікатори: cluster UUID та clique ID. Ці ідентифікатори є ключовими, оскільки вони надають логічну карту фізичної NVLink-фабрики, дозволяючи системному програмному забезпеченню та планувальникам розмірковувати про положення та зв'язок GPU.

Відображення є простим, але потужним:

Cluster UUID відповідає домену NVLink. Спільний Cluster UUID означає, що системи — та їхні GPU — належать до одного загального домену NVLink та з'єднані спільною NVLink-фабрикою. Для Grace Blackwell NVL72 цей UUID є послідовним для всієї стійки, вказуючи на фізичну близькість та спільне високошвидкісне підключення.
Clique ID відповідає розділу NVLink Partition. Clique ID пропонує більш точне розрізнення, ідентифікуючи групи GPU, які спільно використовують розділ NVLink Partition в межах більшого домену. Коли стійка логічно сегментована на кілька розділів NVLink Partition, Cluster UUID залишається тим самим, але Clique ID розрізняють ці менші, ізольовані високошвидкісні групи.

Ця відмінність є життєво важливою з експлуатаційної точки зору:

Cluster UUID відповідає на питання: Які GPU фізично спільно використовують стійку та здатні до NVLink-комунікації на найвищих швидкостях?
Clique ID відповідає: Які GPU спільно використовують розділ NVLink Partition та призначені для спільної комунікації для заданого робочого навантаження або рівня обслуговування, забезпечуючи оптимальну продуктивність для високопаралельних завдань?

Ці ідентифікатори є сполучною ланкою, що дозволяє таким платформам, як Slurm, Kubernetes та NVIDIA Run:ai, узгоджувати розміщення завдань, ізоляцію та гарантії продуктивності з фактичною структурою NVLink-фабрики, не розкриваючи базову складність апаратного забезпечення безпосередньо кінцевим користувачам. NVIDIA Mission Control надає централізований огляд цих ідентифікаторів, спрощуючи управління.

Апаратна концепція	Програмний ідентифікатор	Опис
Домен NVLink	Cluster UUID	Ідентифікує GPU, що фізично спільно використовують стійку, здатні до NVLink-комунікації в межах всієї стійки.
Розділ NVLink Partition	Clique ID	Розрізняє GPU, призначені для спільної комунікації в межах домену NVLink для конкретного робочого навантаження або рівня обслуговування.

Планування ШІ з урахуванням топології за допомогою Slurm

Для багатоузлових робочих навантажень, що працюють на системах NVL72 на базі Blackwell, розміщення стає таким же критичним, як і проста кількість виділених GPU. Наприклад, завдання навчання ШІ, що вимагає 16 GPU, працюватиме значно по-різному, якщо воно хаотично розподілене по кількох менш пов'язаних вузлах, порівняно з тим, якщо воно обмежене однією високошвидкісною NVLink-фабрикою. Саме тут плагін Slurm topology/block виявляється незамінним, дозволяючи Slurm розпізнавати тонкі відмінності у зв'язності між вузлами.

На системах Grace Blackwell NVL72 блоки вузлів з низькозатримковими з'єднаннями безпосередньо відповідають розділам NVLink Partition — групам GPU, об'єднаних виділеною, високошвидкісною NVLink-фабрикою. Увімкнувши плагін topology/block та виставляючи ці розділи NVLink Partition як окремі блоки, Slurm отримує контекстну інформацію, необхідну для прийняття кращих рішень щодо планування. За замовчуванням завдання інтелектуально розміщуються в межах одного розділу NVLink Partition (або блоку), таким чином зберігаючи критично важливу продуктивність Multi-Node NVLink (MNNVL). Хоча більші завдання все ще можуть охоплювати кілька блоків за необхідності, цей підхід робить компроміси в продуктивності явними, а не випадковими.

На практиці це дозволяє використовувати гнучкі стратегії розгортання:

Один блок/група вузлів на стійку: Ця конфігурація дозволяє Slurm Quality of Service (QoS) керувати доступом до спільного розділу в межах всієї стійки, ідеально підходить для консолідованого управління ресурсами.
Кілька блоків/груп вузлів на стійку: Цей підхід ідеально підходить для надання менших, ізольованих пулів GPU з високою пропускною здатністю. Тут кожен блок/група вузлів відображається на виділений розділ Slurm, ефективно забезпечуючи окремий рівень обслуговування. Користувачі можуть потім використовувати певний розділ Slurm, автоматично розміщуючи свої завдання в передбачуваному розділі NVLink без необхідності розуміти тонкощі базової фабрики. Це розширене управління ресурсами є вирішальним для організацій, які прагнуть масштабувати свої ініціативи ШІ, узгоджуючись з ширшою метою масштабування ШІ для всіх.

Оптимізація робочих навантажень MNNVL за допомогою IMEX та Mission Control

Робочі навантаження Multi-Node NVIDIA CUDA часто покладаються на MNNVL для досягнення максимальної продуктивності, дозволяючи GPU на різних обчислювальних лотках брати участь у цілісній програмній моделі спільної пам'яті. З точки зору розробника додатків, використання MNNVL може здатися оманливо простим, але базова оркестрація є складною.

Саме тут NVIDIA Mission Control відіграє ключову роль. Він забезпечує ідеальне узгодження критично важливих компонентів під час виконання завдань MNNVL за допомогою Slurm. Зокрема, Mission Control гарантує, що сервіс IMEX — який полегшує спільну пам'ять GPU — працює на точному наборі обчислювальних лотків, що беруть участь у завданні MNNVL. Він також забезпечує правильне налаштування необхідних NVSwitches для встановлення та підтримки цих високошвидкісних з'єднань MNNVL. Ця координація є життєво важливою для забезпечення стабільної, передбачуваної продуктивності по всій стійці. Без інтелектуальної оркестрації Mission Control, переваги MNNVL та IMEX було б складно реалізувати та керувати ними в масштабі, що підкреслює прихильність NVIDIA до надання комплексних рішень для передових GPU та їхніх екосистем.

До автоматизованої, масштабованої інфраструктури ШІ

Інтеграція архітектури Blackwell від NVIDIA зі складними програмними рівнями, такими як Mission Control та Topograph, знаменує собою значний крок до створення дійсно автоматизованої та масштабованої інфраструктури ШІ. NVIDIA Topograph автоматизує виявлення складної ієрархії NVLink та взаємоз'єднань, надаючи цю життєво важливу інформацію планувальникам, таким як Slurm, Kubernetes (через NVIDIA DRA та ComputeDomains), а також NVIDIA Run:ai. Це усуває ручні накладні витрати на управління топологією, дозволяючи організаціям розгортати та масштабувати робочі навантаження ШІ з безпрецедентною ефективністю.

Надаючи планувальникам глибоке розуміння апаратної топології в реальному часі, цей інтегрований підхід забезпечує роботу додатків ШІ на оптимальних ресурсах, мінімізуючи затримки комунікації та максимізуючи пропускну здатність. Результатом є високопродуктивна, стійка та проста в управлінні фабрика ШІ, здатна обробляти найвимогливіші завдання навчання та інференції ШІ. Оскільки моделі ШІ продовжують зростати в складності та розмірі, здатність ефективно управляти та планувати робочі навантаження на шино-масштабних суперкомп'ютерах буде мати першочергове значення для стимулювання інновацій та збереження конкурентних переваг. Ця цілісна стратегія лежить в основі майбутнього корпоративного ШІ, перетворюючи «сиру» обчислювальну потужність на інтелектуальні, чуйні та високоефективні суперкомп'ютери ШІ.

Першоджерело

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Поширені запитання

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Будьте в курсі

Отримуйте найсвіжіші новини ШІ на пошту.

Поділитися