Стойковые суперкомпьютеры для ИИ: от оборудования до топологически-ориентированного планирования

title: "Стойковые суперкомпьютеры для ИИ: от оборудования до топологически-ориентированного планирования" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "ru" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "Корпоративный ИИ" keywords:

рабочие нагрузки ИИ
стоечные суперкомпьютеры
NVIDIA Blackwell
NVLink
топологически-ориентированное планирование
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
GPU-фабрики
управление ресурсами
корпоративный ИИ meta_description: "Узнайте, как суперкомпьютеры NVIDIA Blackwell в сочетании с Mission Control обеспечивают топологически-ориентированное планирование рабочих нагрузок ИИ, оптимизируя производительность в доменах NVLink и IMEX." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "Стойка NVIDIA Grace Blackwell NVL72, иллюстрирующая домены NVLink и IMEX для стоечных суперкомпьютеров ИИ" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "Что представляют собой системы NVIDIA GB200 и GB300 NVL72, и какую роль играет архитектура Blackwell?" answer: "Системы NVIDIA GB200 и GB300 NVL72 представляют собой новое поколение стоечных суперкомпьютеров, специально разработанных для требовательных рабочих нагрузок ИИ и высокопроизводительных вычислений (HPC). Эти системы используют революционную архитектуру NVIDIA Blackwell, которая интегрирует массивные GPU-фабрики с высокоскоростной сетью в единый, тесно связанный блок. Архитектура Blackwell разработана для обеспечения беспрецедентной производительности и эффективности для обучения и инференса, предлагая передовые коммутаторы NVLink, Multi-Node NVLink (MNNVL) для межграфической связи и вычислительные лотки с поддержкой IMEX, которые облегчают совместное использование памяти GPU между несколькими узлами в стойке. Этот интегрированный дизайн направлен на преодоление ограничений традиционных серверных GPU-развертываний, предоставляя бесшовную, масштабируемую платформу для сложных моделей ИИ."
question: "В чем заключается основная проблема при планировании рабочих нагрузок ИИ на этих передовых стоечных суперкомпьютерах?" answer: "Основная проблема заключается в значительном несоответствии между сложной, иерархической физической топологией стоечных суперкомпьютеров и часто упрощенными абстракциями, представляемыми обычными планировщиками рабочих нагрузок. В то время как системы, такие как NVIDIA GB200/GB300 NVL72, обладают сложными NVLink-фабриками и IMEX-доменами, планировщики обычно воспринимают плоский пул GPU и узлов. Это может привести к неэффективному распределению ресурсов, субоптимальной производительности из-за плохой локальности данных или узких мест в связи, а также к увеличению операционной сложности для операторов платформы. Без топологически-ориентированного планирования присущие преимущества интеграции на уровне стойки, такие как высокоскоростные соединения, не могут быть полностью использованы для рабочих нагрузок ИИ."
question: "Как NVIDIA Mission Control решает операционные сложности планирования ИИ на уровне стойки?" answer: "NVIDIA Mission Control выступает в качестве важнейшей плоскости управления, которая устраняет разрыв между сложной аппаратной топологией систем NVIDIA Grace Blackwell NVL72 и потребностями платформ управления рабочими нагрузками, таких как Slurm и NVIDIA Run:ai. Он обеспечивает нативное, глубокое понимание доменов NVLink и IMEX, переводя физические аппаратные отношения в логические идентификаторы, которые планировщики могут интерпретировать. Централизуя представление UUID кластера и ID клики, Mission Control обеспечивает точное, топологически-ориентированное размещение заданий, гарантирует надлежащую изоляцию рабочих нагрузок и обеспечивает стабильную производительность за счет согласования вычислений с оптимальной базовой аппаратной фабрикой. Это эффективно преобразует необработанную инфраструктуру в эффективную, управляемую фабрику ИИ."
question: "Объясните концепции Cluster UUID и Clique ID в контексте топологии NVLink и их операционное значение." answer: "Cluster UUID и Clique ID — это системные идентификаторы, которые кодируют позицию GPU в NVLink-фабрике, делая сложную топологию понятной для системного программного обеспечения и планировщиков. Cluster UUID соответствует домену NVLink, указывая, что системы и их GPU принадлежат к одной и той же физической стойке и используют общую NVLink-фабрику. Для Grace Blackwell NVL72 этот UUID одинаков для всей стойки. Clique ID обеспечивает более тонкое различие, соответствуя разделу NVLink. GPU, имеющие общий Clique ID, принадлежат к одному и тому же логическому разделу в этом домене. С операционной точки зрения, Cluster UUID отвечает на вопрос, какие GPU физически находятся в одной стойке и могут обмениваться данными через NVLink, в то время как Clique ID отвечает на вопрос, какие GPU используют общий раздел NVLink и предназначены для совместной связи для конкретной рабочей нагрузки, что позволяет более детально распределять ресурсы и оптимизировать производительность."
question: "Как плагин topology/block в Slurm улучшает размещение рабочих нагрузок ИИ на системах NVL72?" answer: "Плагин Slurm topology/block необходим для эффективного размещения рабочих нагрузок ИИ на системах NVIDIA NVL72, поскольку он позволяет Slurm осознавать, что не все узлы (или GPU) равны с точки зрения связности и производительности. На системах Grace Blackwell NVL72 блоки узлов с соединениями с меньшей задержкой напрямую сопоставляются с разделами NVLink — группами GPU, использующими высокоскоростную NVLink-фабрику. Включив этот плагин и представив разделы NVLink как 'блоки', Slurm получает необходимый контекст для принятия интеллектуальных решений о размещении. Это гарантирует, что задания, использующие несколько GPU, преимущественно распределяются в рамках одного раздела NVLink для сохранения производительности MNNVL, предотвращая деградацию производительности, которая могла бы произойти, если бы задания были произвольно распределены по различным, менее связанным сегментам суперкомпьютера. Это позволяет оптимизировать использование ресурсов и обеспечить предсказуемую производительность для требовательных задач ИИ."
question: "Что такое Multi-Node NVLink (MNNVL), и как IMEX облегчает его использование для общей памяти GPU?" answer: "Multi-Node NVLink (MNNVL) — это ключевая технология, которая позволяет GPU на разных вычислительных узлах в рамках стоечной системы напрямую обмениваться данными с высокой пропускной способностью и низкой задержкой, что необходимо для масштабирования больших моделей ИИ. MNNVL обеспечивает модель программирования с общей памятью для этих распределенных GPU, заставляя приложения воспринимать их как единую, массивную GPU-фабрику. IMEX (Infiniband Memory Expansion) — это базовая технология, которая облегчает MNNVL. Вычислительные лотки с поддержкой IMEX разработаны для обеспечения общей памяти GPU между узлами за счет использования передовых сетевых технологий NVIDIA. В то время как MNNVL упрощает модель программирования для разработчиков, Mission Control играет решающую роль в фоновом режиме, обеспечивая правильное предоставление услуг IMEX и их синхронизацию с заданиями MNNVL, гарантируя полное использование преимуществ общей памяти GPU без раскрытия базовых сложностей конечному пользователю."
question: "Каковы ключевые преимущества внедрения топологически-ориентированного планирования для рабочих нагрузок ИИ на стоечных суперкомпьютерах?" answer: "Внедрение топологически-ориентированного планирования предлагает несколько значительных преимуществ для рабочих нагрузок ИИ на стоечных суперкомпьютерах. Во-первых, оно обеспечивает оптимальную производительность за счет интеллектуального размещения заданий на GPU, которые имеют самые высокоскоростные соединения с минимальной задержкой, минимизируя накладные расходы на связь, присущие распределенному обучению ИИ. Во-вторых, оно повышает использование ресурсов, предотвращая неэффективное распределение заданий по разрозненным аппаратным сегментам, что приводит к более предсказуемой производительности и лучшей пропускной способности. В-третьих, оно упрощает управление для операторов платформы, абстрагируя сложности оборудования и обеспечивая четкие границы изоляции между рабочими нагрузками, улучшая стабильность и безопасность системы. В конечном итоге, топологически-ориентированное планирование преобразует сложное оборудование в высокоэффективную, масштабируемую и управляемую 'фабрику ИИ', ускоряя исследования и разработки при одновременном снижении операционной нагрузки."
question: "Как NVIDIA Topograph способствует автоматическому обнаружению и планированию топологий суперкомпьютеров?" answer: "NVIDIA Topograph является критически важным компонентом, который автоматизирует обнаружение сложной иерархии NVLink и межсоединений в стоечных суперкомпьютерах. Это автоматическое обнаружение необходимо, потому что ручная настройка и поддержание подробной информации о топологии для крупномасштабных систем были бы подвержены ошибкам и очень трудоемки. Topograph предоставляет эту подробную информацию о фабрике планировщикам рабочих нагрузок, включая Slurm и Kubernetes (через NVIDIA DRA и ComputeDomains), а также NVIDIA Run:ai. Предоставляя планировщикам точное и актуальное представление об аппаратной топологии, Topograph позволяет им принимать интеллектуальные, автоматизированные решения о размещении. Это гарантирует, что рабочие нагрузки ИИ планируются с учетом топологии с самого начала, оптимизируя производительность, распределение ресурсов и общую эффективность системы, что крайне важно для создания и эксплуатации масштабируемых фабрик ИИ."


# Стойковые суперкомпьютеры для ИИ: от оборудования до топологически-ориентированного планирования

![Decorative image.](https://developer-blogs.nvidia.com/wp-content/uploads/2026/04/gtc25-tech-blog-dgx-gb300-1920x1080-1-1024x576.png)

Ландшафт искусственного интеллекта быстро меняется, требуя все более мощной и эффективной вычислительной инфраструктуры. На переднем крае этой эволюции находятся стоечные суперкомпьютеры, разработанные для ускорения самых сложных рабочих нагрузок ИИ и высокопроизводительных вычислений (HPC). Системы NVIDIA GB200 NVL72 и GB300 NVL72, построенные на инновационной архитектуре Blackwell, представляют собой значительный шаг в этом направлении, объединяя огромные GPU-фабрики и высокоскоростную сеть в единые, мощные блоки.

Однако развертывание такого сложного оборудования представляет собой уникальную проблему: как перевести эту сложную физическую топологию в управляемый, производительный и доступный ресурс для разработчиков и исследователей ИИ? Фундаментальное несоответствие между иерархической природой стоечного оборудования и часто плоскими абстракциями традиционных планировщиков рабочих нагрузок создает узкое место. Именно здесь вступает в игру проверенный программный стек, такой как NVIDIA Mission Control, преодолевающий этот разрыв и преобразующий необработанную вычислительную мощность в бесшовную, топологически-ориентированную фабрику ИИ.

## Суперкомпьютеры ИИ нового поколения на базе NVIDIA Blackwell

Системы NVIDIA GB200 NVL72 и GB300 NVL72, работающие на передовой архитектуре NVIDIA Blackwell, — это не просто наборы мощных GPU; это интегрированные стоечные суперкомпьютеры, разработанные для будущего ИИ. Каждая система включает 18 тесно связанных вычислительных лотков, образующих массивную GPU-фабрику, соединенную с помощью передовых коммутаторов NVLink. Эти системы поддерживают NVIDIA Multi-Node NVLink (MNNVL), облегчающий сверхбыструю связь внутри стойки, и включают вычислительные лотки с поддержкой IMEX, которые обеспечивают совместное использование памяти GPU между узлами. Эта архитектура предоставляет беспрецедентную основу для обучения и развертывания крупномасштабных моделей ИИ, расширяя границы возможного в таких областях, как научные открытия и корпоративные ИИ-приложения.

Философия дизайна этих систем на базе Blackwell сосредоточена на максимальном увеличении пропускной способности данных и минимизации задержки между взаимосвязанными GPU. Это достигается за счет плотно интегрированного аппаратного стека, где каждый компонент оптимизирован для коллективной производительности, гарантируя эффективное масштабирование рабочих нагрузок ИИ без возникновения узких мест в связи.

## Сопряжение аппаратной топологии с абстракциями планировщика ИИ

Для ИИ-архитекторов и операторов HPC-платформ настоящая проблема заключается не только в приобретении и сборке этого передового оборудования, но и в его превращении в 'безопасный, производительный и простой в использовании' ресурс. Традиционные планировщики часто исходят из предположения о гомогенном, плоском пуле вычислительных ресурсов. Эта парадигма плохо подходит для стоечных суперкомпьютеров, где иерархический и чувствительный к топологии дизайн NVLink-фабрик и IMEX-доменов критически важен для производительности. Без надлежащей интеграции планировщики могут непреднамеренно размещать задачи в неоптимальных местах, что приводит к снижению эффективности и непредсказуемой производительности.

Именно этот пробел призван заполнить NVIDIA Mission Control. Являясь надежной плоскостью управления на уровне стойки для систем NVIDIA Grace Blackwell NVL72, Mission Control обладает нативным пониманием базовых доменов NVIDIA NVLink и NVIDIA IMEX. Эта глубокая осведомленность позволяет ему интеллектуально интегрироваться с популярными платформами управления рабочими нагрузками, такими как Slurm и NVIDIA Run:ai. Переводя сложные аппаратные топологии в действенную информацию для планирования, Mission Control гарантирует полное использование передовых возможностей архитектуры Blackwell, превращая сложную аппаратную сборку в по-настоящему функционирующую фабрику ИИ. Эта возможность будет распространена и на будущую платформу NVIDIA Vera Rubin, включая NVIDIA Rubin NVL8, что еще больше закрепит последовательный подход к высокопроизводительной инфраструктуре ИИ.

## Декодирование доменов и разделов NVLink для рабочих нагрузок ИИ

В основе топологически-ориентированного планирования для систем Blackwell лежат концепции доменов и разделов NVLink, которые отображаются через системные идентификаторы: **Cluster UUID** и **Clique ID**. Эти идентификаторы имеют решающее значение, поскольку они предоставляют логическую карту физической NVLink-фабрики, позволяя системному программному обеспечению и планировщикам анализировать положение и связность GPU.

Сопоставление простое, но мощное:
-   **Cluster UUID** соответствует **домену NVLink**. Общий Cluster UUID означает, что системы — и их GPU — принадлежат к одному общему домену NVLink и соединены общей NVLink-фабрикой. Для Grace Blackwell NVL72 этот UUID одинаков для всей стойки, что указывает на физическую близость и общую высокоскоростную связь.
-   **Clique ID** соответствует **разделу NVLink**. Clique ID предлагает более тонкое различие, идентифицируя группы GPU, которые совместно используют раздел NVLink в рамках более крупного домена. Когда стойка логически сегментирована на несколько разделов NVLink, Cluster UUID остается тем же, но Clique ID различают эти меньшие, изолированные высокоскоростные группы.

Это различие жизненно важно с операционной точки зрения:
-   **Cluster UUID** отвечает на вопрос: *Какие GPU физически находятся в одной стойке и способны обмениваться данными через NVLink на самых высоких скоростях?*
-   **Clique ID** отвечает: *Какие GPU совместно используют раздел NVLink и предназначены для совместной связи для данной рабочей нагрузки или уровня обслуживания, обеспечивая оптимальную производительность для высокопараллельных задач?*

Эти идентификаторы являются связующим звеном, позволяющим платформам, таким как Slurm, Kubernetes и NVIDIA Run:ai, согласовывать размещение заданий, изоляцию и гарантии производительности с фактической структурой NVLink-фабрики, при этом не раскрывая базовую сложность оборудования конечным пользователям. NVIDIA Mission Control предоставляет централизованное представление этих идентификаторов, упрощая управление.

| Аппаратная концепция | Программный идентификатор | Описание |
| :-------------------- | :------------------ | :----------------------------------------------------------------------------------------- |
| Домен NVLink         | Cluster UUID        | Идентифицирует GPU, физически находящиеся в одной стойке, способные к NVLink-связи в пределах всей стойки. |
| Раздел NVLink      | Clique ID           | Различает GPU, предназначенные для совместной связи в домене NVLink для конкретной рабочей нагрузки или уровня обслуживания. |

## Топологически-ориентированное планирование ИИ с помощью Slurm

Для многоузловых рабочих нагрузок, выполняемых на системах NVL72 на базе Blackwell, **размещение становится таким же критически важным, как и общее количество выделенных GPU**. Задача обучения ИИ, требующая 16 GPU, например, будет работать совершенно по-разному, если она будет беспорядочно распределена по нескольким менее связанным узлам по сравнению с ее размещением в рамках одной высокоскоростной NVLink-фабрики. Именно здесь плагин **topology/block** Slurm оказывается незаменимым, позволяя Slurm распознавать тонкие различия в связности между узлами.

На системах Grace Blackwell NVL72 блоки узлов с соединениями с более низкой задержкой напрямую соответствуют **разделам NVLink** — группам GPU, объединенных выделенной высокоскоростной NVLink-фабрикой. Включив плагин topology/block и представив эти разделы NVLink как отдельные блоки, Slurm получает контекстуальный интеллект, необходимый для принятия превосходных решений о планировании. По умолчанию задания интеллектуально размещаются в рамках одного раздела NVLink (или блока), тем самым сохраняя критически важную производительность Multi-Node NVLink (MNNVL). Хотя более крупные задания при необходимости могут охватывать несколько блоков, этот подход делает компромиссы в производительности явными, а не случайными.

На практике это позволяет использовать гибкие стратегии развертывания:
-   **Один блок/группа узлов на стойку**: Эта конфигурация позволяет Slurm Quality of Service (QoS) управлять доступом к общей, общестоечной области, что идеально подходит для консолидированного управления ресурсами.
-   **Несколько блоков/групп узлов на стойку**: Этот подход идеально подходит для предоставления меньших, изолированных, высокоскоростных пулов GPU. Здесь каждый блок/группа узлов сопоставляется с выделенным разделом Slurm, фактически предоставляя отдельный уровень обслуживания. Пользователи могут затем использовать конкретный раздел Slurm, автоматически размещая свои задания в пределах предполагаемого раздела NVLink без необходимости понимать сложности базовой фабрики. Это расширенное управление ресурсами крайне важно для организаций, стремящихся масштабировать свои ИИ-инициативы, что соответствует более широкой цели [масштабирования ИИ для всех](/ru/scaling-ai-for-everyone).

## Оптимизация рабочих нагрузок MNNVL с помощью IMEX и Mission Control

Рабочие нагрузки Multi-Node NVIDIA CUDA часто используют MNNVL для достижения максимальной производительности, позволяя GPU на разных вычислительных лотках участвовать в единой программной модели с общей памятью. С точки зрения разработчика приложений использование MNNVL может показаться обманчиво простым, но базовая оркестровка сложна.

Именно здесь NVIDIA Mission Control играет ключевую роль. Он гарантирует, что критически важные компоненты идеально согласованы при выполнении заданий MNNVL с помощью Slurm. В частности, Mission Control гарантирует, что служба IMEX — которая обеспечивает совместное использование памяти GPU — работает на *точном* наборе вычислительных лотков, участвующих в задании MNNVL. Он также гарантирует, что необходимые NVSwitches правильно настроены для установления и поддержания этих высокоскоростных соединений MNNVL. Эта координация жизненно важна для обеспечения стабильной, предсказуемой производительности по всей стойке. Без интеллектуальной оркестровки Mission Control преимущества MNNVL и IMEX было бы сложно реализовать и масштабировать, что подчеркивает приверженность NVIDIA предоставлению комплексных решений для передовых [GPU](/ru/gpus) и их экосистем.

## К автоматизированной, масштабируемой инфраструктуре ИИ

Интеграция архитектуры NVIDIA Blackwell со сложными программными слоями, такими как Mission Control и Topograph, знаменует собой значительный шаг к созданию по-настоящему автоматизированной и масштабируемой инфраструктуры ИИ. NVIDIA Topograph автоматизирует обнаружение сложной иерархии NVLink и межсоединений, предоставляя эту жизненно важную информацию планировщикам, таким как Slurm, Kubernetes (через NVIDIA DRA и ComputeDomains) и NVIDIA Run:ai. Это устраняет ручные накладные расходы на управление топологией, позволяя организациям развертывать и масштабировать рабочие нагрузки ИИ с беспрецедентной эффективностью.

Предоставляя планировщикам глубокое, актуальное понимание аппаратной топологии, этот интегрированный подход гарантирует, что ИИ-приложения работают на оптимальных ресурсах, минимизируя задержку связи и максимизируя пропускную способность. Результатом является высокопроизводительная, отказоустойчивая и простая в управлении фабрика ИИ, способная справляться с самыми требовательными задачами обучения и инференса ИИ. Поскольку модели ИИ продолжают расти в сложности и размере, способность эффективно управлять и планировать рабочие нагрузки на стоечных суперкомпьютерах будет иметь первостепенное значение для стимулирования инноваций и поддержания конкурентных преимуществ. Эта целостная стратегия лежит в основе будущего корпоративного ИИ, преобразуя необработанную вычислительную мощность в интеллектуальные, отзывчивые и высокоэффективные суперкомпьютеры ИИ.

Первоисточник

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Часто задаваемые вопросы

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Будьте в курсе

Получайте последние новости ИИ на почту.