Шино-масштабні суперкомп'ютери для ШІ: від апаратного забезпечення до планування з урахуванням топології

Ландшафт штучного інтелекту стрімко розвивається, вимагаючи дедалі потужнішої та ефективнішої обчислювальної інфраструктури. На передовій цієї еволюції знаходяться шино-масштабні суперкомп'ютери, розроблені для прискорення найскладніших робочих навантажень ШІ та високопродуктивних обчислень (HPC). Системи NVIDIA GB200 NVL72 та GB300 NVL72, побудовані на інноваційній архітектурі Blackwell, представляють значний крок у цьому напрямку, об'єднуючи величезні GPU-фабрики та високошвидкісні мережі в цілісні, потужні блоки.
Однак розгортання такого складного апаратного забезпечення ставить унікальне завдання: як перетворити цю складну фізичну топологію на керований, продуктивний та доступний ресурс для розробників та дослідників ШІ? Фундаментальна невідповідність між ієрархічною природою шино-масштабного обладнання та часто плоскими абстракціями традиційних планувальників робочих навантажень створює вузьке місце. Саме тут вступає в дію перевірений програмний стек, такий як NVIDIA Mission Control, долаючи цю прогалину та перетворюючи 'сиру' обчислювальну потужність на безшовну, з урахуванням топології, фабрику ШІ.
Суперкомп'ютери ШІ нового покоління на рівні стійки з NVIDIA Blackwell
Системи NVIDIA GB200 NVL72 та GB300 NVL72, що працюють на передовій архітектурі NVIDIA Blackwell, є не просто набором потужних GPU; це інтегровані шино-масштабні суперкомп'ютери, розроблені для майбутнього ШІ. Кожна система має 18 тісно пов'язаних обчислювальних лотків, що утворюють масивну GPU-фабрику, з'єднану передовими комутаторами NVLink. Ці системи підтримують NVIDIA Multi-Node NVLink (MNNVL), що полегшує надвисокошвидкісну комунікацію в межах стійки, і включають обчислювальні лотки з підтримкою IMEX, які забезпечують спільну пам'ять GPU між вузлами. Ця архітектура забезпечує безпрецедентну основу для навчання та розгортання великомасштабних моделей ШІ, розширюючи межі можливого в галузях від наукових відкриттів до корпоративних програм ШІ.
Філософія дизайну цих систем на базі Blackwell зосереджена на максимізації пропускної здатності даних та мінімізації затримки між взаємопов'язаними GPU. Це досягається завдяки щільно інтегрованому апаратному стеку, де кожен компонент оптимізований для колективної продуктивності, забезпечуючи ефективне масштабування робочих навантажень ШІ без зіткнення з вузькими місцями комунікації.
З'єднання апаратної топології з абстракціями планувальника ШІ
Для архітекторів ШІ та операторів платформ HPC справжнє завдання полягає не просто в придбанні та складанні цього передового обладнання, а в його перетворенні на «безпечний, продуктивний та простий у використанні» ресурс. Традиційні планувальники часто працюють, виходячи з припущення про однорідний, плоский пул обчислювальних ресурсів. Ця парадигма погано підходить для шино-масштабних суперкомп'ютерів, де ієрархічна та чутлива до топології конструкція NVLink-фабрик та доменів IMEX є критично важливою для продуктивності. Без належної інтеграції планувальники можуть ненавмисно розміщувати завдання в субоптимальних місцях, що призведе до зниження ефективності та непередбачуваної продуктивності.
Саме цю прогалину покликаний заповнити NVIDIA Mission Control. Як надійна площина управління на рівні стійки для систем NVIDIA Grace Blackwell NVL72, Mission Control володіє «рідним» розумінням базових доменів NVIDIA NVLink та NVIDIA IMEX. Це глибоке усвідомлення дозволяє йому інтелектуально інтегруватися з популярними платформами управління робочими навантаженнями, такими як Slurm та NVIDIA Run:ai. Перетворюючи складні апаратні топології на дієздатну інтелектуальну інформацію для планування, Mission Control забезпечує повне використання передових можливостей архітектури Blackwell, перетворюючи складну апаратну збірку на дійсно функціональну фабрику ШІ. Ця можливість буде розширена до майбутньої платформи NVIDIA Vera Rubin, включаючи NVIDIA Rubin NVL8, що ще більше закріпить послідовний підхід до високопродуктивної інфраструктури ШІ.
Декодування доменів та розділів NVLink для робочих навантажень ШІ
В основі планування з урахуванням топології для систем Blackwell лежать концепції доменів та розділів NVLink, які виявляються через системні ідентифікатори: cluster UUID та clique ID. Ці ідентифікатори є ключовими, оскільки вони надають логічну карту фізичної NVLink-фабрики, дозволяючи системному програмному забезпеченню та планувальникам розмірковувати про положення та зв'язок GPU.
Відображення є простим, але потужним:
- Cluster UUID відповідає домену NVLink. Спільний Cluster UUID означає, що системи — та їхні GPU — належать до одного загального домену NVLink та з'єднані спільною NVLink-фабрикою. Для Grace Blackwell NVL72 цей UUID є послідовним для всієї стійки, вказуючи на фізичну близькість та спільне високошвидкісне підключення.
- Clique ID відповідає розділу NVLink Partition. Clique ID пропонує більш точне розрізнення, ідентифікуючи групи GPU, які спільно використовують розділ NVLink Partition в межах більшого домену. Коли стійка логічно сегментована на кілька розділів NVLink Partition, Cluster UUID залишається тим самим, але Clique ID розрізняють ці менші, ізольовані високошвидкісні групи.
Ця відмінність є життєво важливою з експлуатаційної точки зору:
- Cluster UUID відповідає на питання: Які GPU фізично спільно використовують стійку та здатні до NVLink-комунікації на найвищих швидкостях?
- Clique ID відповідає: Які GPU спільно використовують розділ NVLink Partition та призначені для спільної комунікації для заданого робочого навантаження або рівня обслуговування, забезпечуючи оптимальну продуктивність для високопаралельних завдань?
Ці ідентифікатори є сполучною ланкою, що дозволяє таким платформам, як Slurm, Kubernetes та NVIDIA Run:ai, узгоджувати розміщення завдань, ізоляцію та гарантії продуктивності з фактичною структурою NVLink-фабрики, не розкриваючи базову складність апаратного забезпечення безпосередньо кінцевим користувачам. NVIDIA Mission Control надає централізований огляд цих ідентифікаторів, спрощуючи управління.
| Апаратна концепція | Програмний ідентифікатор | Опис |
|---|---|---|
| Домен NVLink | Cluster UUID | Ідентифікує GPU, що фізично спільно використовують стійку, здатні до NVLink-комунікації в межах всієї стійки. |
| Розділ NVLink Partition | Clique ID | Розрізняє GPU, призначені для спільної комунікації в межах домену NVLink для конкретного робочого навантаження або рівня обслуговування. |
Планування ШІ з урахуванням топології за допомогою Slurm
Для багатоузлових робочих навантажень, що працюють на системах NVL72 на базі Blackwell, розміщення стає таким же критичним, як і проста кількість виділених GPU. Наприклад, завдання навчання ШІ, що вимагає 16 GPU, працюватиме значно по-різному, якщо воно хаотично розподілене по кількох менш пов'язаних вузлах, порівняно з тим, якщо воно обмежене однією високошвидкісною NVLink-фабрикою. Саме тут плагін Slurm topology/block виявляється незамінним, дозволяючи Slurm розпізнавати тонкі відмінності у зв'язності між вузлами.
На системах Grace Blackwell NVL72 блоки вузлів з низькозатримковими з'єднаннями безпосередньо відповідають розділам NVLink Partition — групам GPU, об'єднаних виділеною, високошвидкісною NVLink-фабрикою. Увімкнувши плагін topology/block та виставляючи ці розділи NVLink Partition як окремі блоки, Slurm отримує контекстну інформацію, необхідну для прийняття кращих рішень щодо планування. За замовчуванням завдання інтелектуально розміщуються в межах одного розділу NVLink Partition (або блоку), таким чином зберігаючи критично важливу продуктивність Multi-Node NVLink (MNNVL). Хоча більші завдання все ще можуть охоплювати кілька блоків за необхідності, цей підхід робить компроміси в продуктивності явними, а не випадковими.
На практиці це дозволяє використовувати гнучкі стратегії розгортання:
- Один блок/група вузлів на стійку: Ця конфігурація дозволяє Slurm Quality of Service (QoS) керувати доступом до спільного розділу в межах всієї стійки, ідеально підходить для консолідованого управління ресурсами.
- Кілька блоків/груп вузлів на стійку: Цей підхід ідеально підходить для надання менших, ізольованих пулів GPU з високою пропускною здатністю. Тут кожен блок/група вузлів відображається на виділений розділ Slurm, ефективно забезпечуючи окремий рівень обслуговування. Користувачі можуть потім використовувати певний розділ Slurm, автоматично розміщуючи свої завдання в передбачуваному розділі NVLink без необхідності розуміти тонкощі базової фабрики. Це розширене управління ресурсами є вирішальним для організацій, які прагнуть масштабувати свої ініціативи ШІ, узгоджуючись з ширшою метою масштабування ШІ для всіх.
Оптимізація робочих навантажень MNNVL за допомогою IMEX та Mission Control
Робочі навантаження Multi-Node NVIDIA CUDA часто покладаються на MNNVL для досягнення максимальної продуктивності, дозволяючи GPU на різних обчислювальних лотках брати участь у цілісній програмній моделі спільної пам'яті. З точки зору розробника додатків, використання MNNVL може здатися оманливо простим, але базова оркестрація є складною.
Саме тут NVIDIA Mission Control відіграє ключову роль. Він забезпечує ідеальне узгодження критично важливих компонентів під час виконання завдань MNNVL за допомогою Slurm. Зокрема, Mission Control гарантує, що сервіс IMEX — який полегшує спільну пам'ять GPU — працює на точному наборі обчислювальних лотків, що беруть участь у завданні MNNVL. Він також забезпечує правильне налаштування необхідних NVSwitches для встановлення та підтримки цих високошвидкісних з'єднань MNNVL. Ця координація є життєво важливою для забезпечення стабільної, передбачуваної продуктивності по всій стійці. Без інтелектуальної оркестрації Mission Control, переваги MNNVL та IMEX було б складно реалізувати та керувати ними в масштабі, що підкреслює прихильність NVIDIA до надання комплексних рішень для передових GPU та їхніх екосистем.
До автоматизованої, масштабованої інфраструктури ШІ
Інтеграція архітектури Blackwell від NVIDIA зі складними програмними рівнями, такими як Mission Control та Topograph, знаменує собою значний крок до створення дійсно автоматизованої та масштабованої інфраструктури ШІ. NVIDIA Topograph автоматизує виявлення складної ієрархії NVLink та взаємоз'єднань, надаючи цю життєво важливу інформацію планувальникам, таким як Slurm, Kubernetes (через NVIDIA DRA та ComputeDomains), а також NVIDIA Run:ai. Це усуває ручні накладні витрати на управління топологією, дозволяючи організаціям розгортати та масштабувати робочі навантаження ШІ з безпрецедентною ефективністю.
Надаючи планувальникам глибоке розуміння апаратної топології в реальному часі, цей інтегрований підхід забезпечує роботу додатків ШІ на оптимальних ресурсах, мінімізуючи затримки комунікації та максимізуючи пропускну здатність. Результатом є високопродуктивна, стійка та проста в управлінні фабрика ШІ, здатна обробляти найвимогливіші завдання навчання та інференції ШІ. Оскільки моделі ШІ продовжують зростати в складності та розмірі, здатність ефективно управляти та планувати робочі навантаження на шино-масштабних суперкомп'ютерах буде мати першочергове значення для стимулювання інновацій та збереження конкурентних переваг. Ця цілісна стратегія лежить в основі майбутнього корпоративного ШІ, перетворюючи «сиру» обчислювальну потужність на інтелектуальні, чуйні та високоефективні суперкомп'ютери ШІ.
Поширені запитання
What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?
What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?
How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?
Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.
How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?
What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?
What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?
How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?
Будьте в курсі
Отримуйте найсвіжіші новини ШІ на пошту.
