AI суперкомпјутери на ниво на рек: од хардвер до распоредување свесно за топологија

Decorative image.

Пејзажот на вештачката интелигенција брзо се развива, барајќи сè помоќна и поефикасна компјутерска инфраструктура. На чело на оваа еволуција се суперкомпјутерите на ниво на рек, дизајнирани да ги забрзаат најсложените AI и HPC (високо-перформансно пресметување) работни оптоварувања. Системите NVIDIA GB200 NVL72 и GB300 NVL72, изградени врз иновативната Blackwell архитектура, претставуваат значаен скок во оваа насока, пакувајќи огромни GPU мрежи и мрежно поврзување со висок пропусен опсег во кохезивни, моќни единици.

Меѓутоа, распоредувањето на таков софистициран хардвер претставува уникатен предизвик: како ја преведувате оваа сложена физичка топологија во ресурс што е управуван, перформативен и достапен за AI развивачите и истражувачите? Фундаменталното несогласување помеѓу хиерархиската природа на хардверот на ниво на рек и често рамните апстракции на традиционалните распоредувачи на работни оптоварувања создава тесно грло. Токму тука влегува во игра валидиран софтверски стек како NVIDIA Mission Control, премостувајќи го јазот за да ја трансформира суровата компјутерска моќ во беспрекорна AI фабрика свесна за топологија.

AI суперкомпјутери од следната генерација на ниво на рек со NVIDIA Blackwell

Системите NVIDIA GB200 NVL72 и GB300 NVL72, напојувани од врвната NVIDIA Blackwell архитектура, не се само збирки од моќни GPU-а; тие се интегрирани суперкомпјутери на ниво на рек дизајнирани за иднината на вештачката интелигенција. Секој систем располага со 18 тесно поврзани компјутерски фиоки, формирајќи масивна GPU мрежа поврзана со напредни NVLink прекинувачи. Овие системи поддржуваат NVIDIA Multi-Node NVLink (MNNVL), олеснувајќи ултра-високо брза комуникација во рамките на рекот, и вклучуваат компјутерски фиоки со IMEX способности кои овозможуваат споделена GPU меморија помеѓу јазлите. Оваа архитектура обезбедува неспоредлива основа за тренирање и распоредување на големи AI модели, поместувајќи ги границите на она што е можно во области кои се движат од научно откритие до AI апликации за претпријатија.

Филозофијата на дизајнот зад овие системи базирани на Blackwell се фокусира на максимизирање на протокот на податоци и минимизирање на латентноста помеѓу меѓусебно поврзаните gpus. Ова се постигнува преку густо интегриран хардверски стек каде секоја компонента е оптимизирана за колективни перформанси, осигурувајќи дека AI работните оптоварувања можат ефикасно да се скалираат без да наидат на тесни грла во комуникацијата.

Премостување на хардверската топологија со апстракциите на AI распоредувачот

За AI архитектите и операторите на HPC платформи, вистинскиот предизвик не е само стекнување и составување на овој напреден хардвер, туку негово операционализирање во 'безбеден, перформативен и лесен за употреба' ресурс. Традиционалните распоредувачи често работат под претпоставка за хомогена, рамна група на компјутерски ресурси. Оваа парадигма е несоодветна за суперкомпјутери на ниво на рек, каде што хиерархискиот и топологија-чувствителен дизајн на NVLink мрежите и IMEX домените се клучни за перформансите. Без соодветна интеграција, распоредувачите може ненамерно да постават задачи на субоптимални локации, што ќе доведе до намалена ефикасност и непредвидливи перформанси.

Ова е јазот што NVIDIA Mission Control е дизајниран да го пополни. Како робустен контролен слој на ниво на рек за системите NVIDIA Grace Blackwell NVL72, Mission Control поседува изворно разбирање на основните NVIDIA NVLink и NVIDIA IMEX домени. Оваа длабока свест му овозможува интелигентно да се интегрира со популарни платформи за управување со работни оптоварувања како Slurm и NVIDIA Run:ai. Со преведување на сложените хардверски топологии во употреблива интелигенција за распоредување, Mission Control гарантира дека напредните способности на Blackwell архитектурата се целосно искористени, трансформирајќи го софистицираното хардверско склопување во вистински оперативна AI фабрика. Оваа способност ќе се прошири на претстојната платформа NVIDIA Vera Rubin, вклучувајќи го NVIDIA Rubin NVL8, дополнително зацврстувајќи го конзистентниот пристап кон високо-перформансна AI инфраструктура.

Дешифрирање на NVLink домени и партиции за AI работни оптоварувања

Во срцето на распоредувањето свесно за топологија за Blackwell системите се концептите на NVLink домени и партиции, кои се изложени преку системски идентификатори: cluster UUID и clique ID. Овие идентификатори се клучни бидејќи обезбедуваат логичка мапа на физичката NVLink мрежа, овозможувајќи му на системскиот софтвер и распоредувачите да резонираат за позицијата и поврзаноста на GPU-то.

Мапирањето е едноставно, но моќно:

Cluster UUID одговара на NVLink доменот. Заеднички Cluster UUID значи дека системите — и нивните GPU-а — припаѓаат на истиот надреден NVLink домен и се поврзани со заедничка NVLink мрежа. За Grace Blackwell NVL72, овој UUID е конзистентен низ целиот рек, што укажува на физичка близина и заедничка поврзаност со висок пропусен опсег.
Clique ID одговара на NVLink партицијата. Clique ID нуди попрецизна дистинкција, идентификувајќи групи на GPU кои делат NVLink партиција во рамките на поголем домен. Кога рекот е логички сегментиран на повеќе NVLink партиции, Cluster UUID останува ист, но Clique ID-ата ги разликуваат овие помали, изолирани групи со висок пропусен опсег.

Оваа дистинкција е витална од оперативна гледна точка:

Cluster UUID одговара на прашањето: Кои GPU физички делат рек и се способни за NVLink комуникација со најголеми брзини?
Clique ID одговара на прашањето: Кои GPU делат NVLink партиција и се наменети да комуницираат заедно за дадено работно оптоварување или ниво на услуга, осигурувајќи оптимални перформанси за високо паралелни задачи?

Овие идентификатори се сврзното ткиво, овозможувајќи им на платформите како Slurm, Kubernetes и NVIDIA Run:ai да го усогласат распоредувањето на работните места, изолацијата и гаранциите за перформанси со вистинската структура на NVLink мрежата, сè без директно изложување на основните хардверски сложености на крајните корисници. NVIDIA Mission Control обезбедува централизиран преглед на овие идентификатори, поедноставувајќи го управувањето.

Хардверски концепт	Софтверски идентификатор	Опис
NVLink домен	Cluster UUID	Идентификува GPU кои физички делат рек, способни за комуникација со NVLink низ целиот рек.
NVLink партиција	Clique ID	Разликува GPU наменети за заедничка комуникација во рамките на NVLink домен за одредено работно оптоварување или ниво на услуга.

AI распоредување свесно за топологија со Slurm

За работни оптоварувања со повеќе јазли што работат на NVL72 системи базирани на Blackwell, поставувањето станува исто толку критично колку и самиот број на алоцирани GPU-а. Работна задача за тренирање на AI која бара 16 GPU-а, на пример, ќе функционира драстично различно ако е расфрлана случајно низ повеќе помалку поврзани јазли во споредба со тоа да е ограничена во една, високопропусна NVLink мрежа. Ова е местото каде што приклучокот topology/block на Slurm се покажува како неопходен, овозможувајќи му на Slurm да ги препознае нијансираните разлики во поврзувањето помеѓу јазлите.

На системите Grace Blackwell NVL72, блоковите од јазли со поврзувања со помала латентност директно кореспондираат со NVLink партициите — групи на GPU кои се обединети со посветена NVLink мрежа со висок пропусен опсег. Со овозможување на приклучокот topology/block и изложување на овие NVLink партиции како посебни блокови, Slurm добива контекстуална интелигенција потребна за донесување супериорни одлуки за распоредување. По дифолт, работните места се интелигентно поставени во една NVLink партиција (или блок), со што се зачувуваат критичните перформанси на Multi-Node NVLink (MNNVL). Додека поголемите работни места сè уште можат да опфатат повеќе блокови доколку е потребно, овој пристап ги прави компромисите за перформанси експлицитни, а не случајни.

Во практична смисла, ова овозможува флексибилни стратегии за распоредување:

Еден блок/група јазли по рек: Оваа конфигурација овозможува Slurm Quality of Service (QoS) да управува со пристапот до споделената партиција на ниво на рек, идеална за консолидирано управување со ресурси.
Повеќе блокови/групи јазли по рек: Овој пристап е совршен за нудење помали, изолирани, GPU базени со висок пропусен опсег. Тука, секој блок/група јазли се мапира на посветена Slurm партиција, ефективно обезбедувајќи посебно ниво на услуга. Корисниците потоа можат да користат одредена Slurm партиција, автоматски поставувајќи ги нивните работни места во наменетата NVLink партиција без потреба да ги разбираат основните сложености на мрежата. Ова напредно управување со ресурси е клучно за организациите кои сакаат да ги скалираат своите AI иницијативи, усогласувајќи се со пошироката цел на скалирање на AI за сите.

Оптимизирање на MNNVL работни оптоварувања со IMEX и Mission Control

Работните оптоварувања со Multi-Node NVIDIA CUDA често се потпираат на MNNVL за да постигнат максимални перформанси, овозможувајќи им на GPU-ата на различни компјутерски фиоки да учествуваат во кохезивен програмски модел со споделена меморија. Од гледна точка на развивач на апликации, искористувањето на MNNVL може да изгледа измамнички едноставно, но основната оркестрација е сложена.

Ова е местото каде што NVIDIA Mission Control игра клучна улога. Тој гарантира дека критичните компоненти се совршено усогласени при извршување на MNNVL работни места со Slurm. Поточно, Mission Control гарантира дека IMEX услугата – која ја олеснува споделената GPU меморија – работи на точниот сет на компјутерски фиоки кои учествуваат во MNNVL работното место. Исто така, обезбедува дека потребните NVSwitches се правилно конфигурирани за да се воспостават и одржат овие MNNVL врски со висок пропусен опсег. Оваа координација е витална за обезбедување конзистентни, предвидливи перформанси низ рекот. Без интелигентната оркестрација на Mission Control, придобивките од MNNVL и IMEX би биле предизвик да се реализираат и управуваат во обем, истакнувајќи ја посветеноста на NVIDIA за испорачување целосни решенија за напредни gpus и нивните екосистеми.

Кон автоматизирана, скалабилна AI инфраструктура

Интеграцијата на архитектурата NVIDIA Blackwell со софистицирани софтверски слоеви како Mission Control и Topograph означува значаен чекор кон создавање вистински автоматизирана и скалабилна AI инфраструктура. NVIDIA Topograph го автоматизира откривањето на сложената NVLink и хиерархијата на интерконекција, изложувајќи ги овие витални информации на распоредувачите како Slurm, Kubernetes (преку NVIDIA DRA и ComputeDomains) и NVIDIA Run:ai. Ова ја елиминира потребата за рачно управување со топологијата, овозможувајќи им на организациите да распоредуваат и скалираат AI работни оптоварувања со невидена ефикасност.

Со обезбедување на распоредувачите со длабоко разбирање на хардверската топологија во реално време, овој интегриран пристап гарантира дека AI апликациите работат на оптимални ресурси, минимизирајќи ја латентноста на комуникацијата и максимизирајќи го протокот. Резултатот е високо перформативна, отпорна и лесна за управување AI фабрика способна да се справи со најбарачките AI задачи за тренирање и инференција. Како што AI моделите продолжуваат да растат во сложеност и големина, способноста ефикасно да се управуваат и распоредуваат работните оптоварувања на суперкомпјутери на ниво на рек ќе биде најважна за поттикнување на иновациите и одржување на конкурентска предност. Оваа холистичка стратегија ја поддржува иднината на AI за претпријатија, трансформирајќи ја суровата компјутерска моќ во интелигентно, одговорно и многу ефикасно AI суперкомпјутери.

Оригинален извор

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Често поставувани прашања

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Бидете информирани

Добивајте ги најновите AI вести на е-пошта.

Сподели