Superkomputery AI w skali szafy serwerowej: Od sprzętu do harmonogramowania uwzględniającego topologię

Obraz dekoracyjny.

Krajobraz sztucznej inteligencji szybko ewoluuje, wymagając coraz potężniejszej i wydajniejszej infrastruktury obliczeniowej. Na czele tej ewolucji stoją superkomputery w skali szafy serwerowej, zaprojektowane do przyspieszania najbardziej złożonych obciążeń AI i obliczeń wysokowydajnych (HPC). Systemy NVIDIA GB200 NVL72 i GB300 NVL72, zbudowane na innowacyjnej architekturze Blackwell, stanowią znaczący krok w tym kierunku, łącząc ogromne struktury GPU i sieci o wysokiej przepustowości w spójne, potężne jednostki.

Jednak wdrożenie tak zaawansowanego sprzętu stwarza unikalne wyzwanie: jak przetłumaczyć tę skomplikowaną topologię fizyczną na zasób, który jest łatwy w zarządzaniu, wydajny i dostępny dla deweloperów oraz badaczy AI? Fundamentalna niezgodność między hierarchiczną naturą sprzętu w skali szafy serwerowej a często płaskimi abstrakcjami tradycyjnych harmonogramów obciążeń tworzy wąskie gardło. To właśnie w tym miejscu wkracza zweryfikowany stos oprogramowania, taki jak NVIDIA Mission Control, wypełniając lukę i przekształcając surową moc obliczeniową w płynną, uwzględniającą topologię fabrykę AI.

Superkomputery AI nowej generacji w skali szafy serwerowej z NVIDIA Blackwell

Systemy NVIDIA GB200 NVL72 i GB300 NVL72, napędzane przez najnowocześniejszą architekturę NVIDIA Blackwell, to nie tylko zbiory potężnych GPU; to zintegrowane superkomputery w skali szafy serwerowej, zaprojektowane z myślą o przyszłości AI. Każdy system zawiera 18 ściśle połączonych tacek obliczeniowych, tworzących potężną strukturę GPU połączoną zaawansowanymi przełącznikami NVLink. Systemy te obsługują NVIDIA Multi-Node NVLink (MNNVL), ułatwiając ultraszybką komunikację wewnątrz szafy, oraz zawierają tacki obliczeniowe obsługujące IMEX, które umożliwiają współdzielenie pamięci GPU między węzłami. Ta architektura stanowi niezrównaną podstawę do szkolenia i wdrażania modeli AI na dużą skalę, przesuwając granice możliwości w dziedzinach od odkryć naukowych po aplikacje AI dla przedsiębiorstw.

Filozofia projektowania tych systemów opartych na Blackwell koncentruje się na maksymalizacji przepustowości danych i minimalizacji opóźnień między połączonymi gpus. Osiąga się to dzięki gęsto zintegrowanemu stosowi sprzętowemu, gdzie każdy komponent jest zoptymalizowany pod kątem wspólnej wydajności, zapewniając, że obciążenia AI mogą efektywnie skalować się bez napotykania wąskich gardeł komunikacyjnych.

Łączenie topologii sprzętowej z abstrakcjami harmonogramów AI

Dla architektów AI i operatorów platform HPC, prawdziwym wyzwaniem nie jest tylko pozyskanie i złożenie tego zaawansowanego sprzętu, ale raczej wprowadzenie go do użytku jako 'bezpieczny, wydajny i łatwy w użyciu' zasób. Tradycyjne harmonogramy często działają w oparciu o założenie jednorodnej, płaskiej puli zasobów obliczeniowych. Ten paradygmat jest nieodpowiedni dla superkomputerów w skali szafy serwerowej, gdzie hierarchiczny i wrażliwy na topologię projekt struktur NVLink i domen IMEX ma kluczowe znaczenie dla wydajności. Bez odpowiedniej integracji, harmonogramy mogą nieumyślnie umieszczać zadania w nieoptymalnych lokalizacjach, co prowadzi do zmniejszenia efektywności i nieprzewidywalnej wydajności.

Tę lukę ma wypełnić NVIDIA Mission Control. Jako solidna płaszczyzna sterowania w skali szafy serwerowej dla systemów NVIDIA Grace Blackwell NVL72, Mission Control posiada natywne zrozumienie bazowych domen NVIDIA NVLink i NVIDIA IMEX. Ta głęboka świadomość pozwala jej inteligentnie integrować się z popularnymi platformami do zarządzania obciążeniami, takimi jak Slurm i NVIDIA Run:ai. Tłumacząc złożone topologie sprzętowe na użyteczne informacje dla harmonogramowania, Mission Control zapewnia pełne wykorzystanie zaawansowanych możliwości architektury Blackwell, przekształcając zaawansowany zestaw sprzętu w prawdziwie operacyjną fabrykę AI. Ta zdolność zostanie rozszerzona na nadchodzącą platformę NVIDIA Vera Rubin, włączając NVIDIA Rubin NVL8, co dodatkowo umocni spójne podejście do wysokowydajnej infrastruktury AI.

Dekodowanie domen i partycji NVLink dla obciążeń AI

W centrum harmonogramowania uwzględniającego topologię dla systemów Blackwell leżą koncepcje domen i partycji NVLink, które są udostępniane poprzez identyfikatory na poziomie systemu: UUID klastra i ID kliki. Te identyfikatory są kluczowe, ponieważ dostarczają logicznej mapy fizycznej struktury NVLink, pozwalając oprogramowaniu systemowemu i harmonogramom na wnioskowanie o pozycji i łączności GPU.

Mapowanie jest proste, ale potężne:

UUID klastra odpowiada domenie NVLink. Wspólny UUID klastra oznacza, że systemy — i ich GPU — należą do tej samej nadrzędnej domeny NVLink i są połączone wspólną strukturą NVLink. Dla Grace Blackwell NVL72 ten UUID jest spójny w całej szafie serwerowej, wskazując na fizyczną bliskość i współdzieloną łączność o wysokiej przepustowości.
ID kliki odpowiada partycji NVLink. ID kliki oferuje dokładniejsze rozróżnienie, identyfikując grupy GPU, które współdzielą partycję NVLink w większej domenie. Gdy szafa serwerowa jest logicznie segmentowana na wiele partycji NVLink, UUID klastra pozostaje taki sam, ale ID klik różnicują te mniejsze, izolowane grupy o wysokiej przepustowości.

To rozróżnienie jest kluczowe z operacyjnego punktu widzenia:

UUID klastra odpowiada na pytanie: Które GPU fizycznie współdzielą szafę serwerową i są zdolne do komunikacji NVLink z najwyższymi prędkościami?
ID kliki odpowiada na pytanie: Które GPU współdzielą partycję NVLink i są przeznaczone do wspólnej komunikacji dla danego obciążenia lub warstwy usług, zapewniając optymalną wydajność dla zadań wysoce równoległych?

Te identyfikatory stanowią tkankę łączną, umożliwiającą platformom takim jak Slurm, Kubernetes i NVIDIA Run:ai dopasowanie rozmieszczania zadań, izolacji i gwarancji wydajności do rzeczywistej struktury NVLink, a wszystko to bez bezpośredniego ujawniania złożoności sprzętu użytkownikom końcowym. NVIDIA Mission Control zapewnia scentralizowany widok tych identyfikatorów, usprawniając zarządzanie.

Koncepcja sprzętowa	Identyfikator oprogramowania	Opis
Domena NVLink	UUID klastra	Identyfikuje GPU fizycznie współdzielące szafę serwerową, zdolne do komunikacji NVLink w skali całej szafy.
Partycja NVLink	ID kliki	Rozróżnia GPU przeznaczone do wspólnej komunikacji w domenie NVLink dla konkretnego obciążenia lub warstwy usług.

Harmonogramowanie AI uwzględniające topologię ze Slurm

Dla obciążeń wielowęzłowych działających na systemach NVL72 opartych na Blackwell, rozmieszczenie staje się równie krytyczne, jak sama liczba alokowanych GPU. Zadanie szkoleniowe AI wymagające 16 GPU, na przykład, będzie działać zupełnie inaczej, jeśli zostanie chaotycznie rozłożone na wiele słabiej połączonych węzłów, w porównaniu do umieszczenia go w jednej, wysoko-przepustowej strukturze NVLink. To właśnie w tym miejscu niezastąpiona okazuje się wtyczka Slurm topology/block, pozwalająca Slurm rozpoznać subtelne różnice w łączności między węzłami.

W systemach Grace Blackwell NVL72, bloki węzłów z połączeniami o niższym opóźnieniu bezpośrednio odpowiadają partycjom NVLink — grupom GPU, które są połączone dedykowaną, wysoko-przepustową strukturą NVLink. Uruchomienie wtyczki topology/block i udostępnienie tych partycji NVLink jako odrębnych bloków sprawia, że Slurm zyskuje kontekstową inteligencję potrzebną do podejmowania lepszych decyzji harmonogramowania. Domyślnie, zadania są inteligentnie umieszczane w jednej partycji NVLink (lub bloku), zachowując w ten sposób krytyczną wydajność Multi-Node NVLink (MNNVL). Chociaż większe zadania mogą nadal obejmować wiele bloków, jeśli to konieczne, takie podejście czyni kompromisy wydajnościowe jawnymi, a nie przypadkowymi.

W praktyce, umożliwia to elastyczne strategie wdrożenia:

Jeden blok/grupa węzłów na szafę serwerową: Ta konfiguracja umożliwia Slurm Quality of Service (QoS) zarządzanie dostępem do współdzielonej partycji w skali całej szafy, co jest idealne do skonsolidowanego zarządzania zasobami.
Wiele bloków/grup węzłów na szafę serwerową: To podejście jest idealne do oferowania mniejszych, izolowanych pul GPU o wysokiej przepustowości. W tym przypadku każdy blok/grupa węzłów mapuje się na dedykowaną partycję Slurm, efektywnie dostarczając odrębną warstwę usług. Użytkownicy mogą wtedy wykorzystać konkretną partycję Slurm, automatycznie umieszczając swoje zadania w zamierzonej partycji NVLink bez potrzeby rozumienia złożoności bazowej struktury. To zaawansowane zarządzanie zasobami jest kluczowe dla organizacji dążących do skalowania swoich inicjatyw AI, zgodnie z szerszym celem skalowania AI dla wszystkich.

Optymalizacja obciążeń MNNVL z IMEX i Mission Control

Obciążenia Multi-Node NVIDIA CUDA często polegają na MNNVL w celu osiągnięcia maksymalnej wydajności, umożliwiając GPU na różnych tackach obliczeniowych uczestnictwo w spójnym modelu programowania ze współdzieloną pamięcią. Z perspektywy dewelopera aplikacji, wykorzystanie MNNVL może wydawać się zwodniczo proste, ale podstawowa orkiestracja jest złożona.

W tym miejscu NVIDIA Mission Control odgrywa kluczową rolę. Zapewnia ona idealne dopasowanie kluczowych komponentów podczas uruchamiania zadań MNNVL ze Slurm. Konkretnie, Mission Control gwarantuje, że usługa IMEX — która ułatwia współdzielenie pamięci GPU — działa na dokładnie tym samym zestawie tacek obliczeniowych uczestniczących w zadaniu MNNVL. Zapewnia również, że niezbędne NVSwitches są poprawnie skonfigurowane do nawiązywania i utrzymywania tych połączeń MNNVL o wysokiej przepustowości. Ta koordynacja jest kluczowa dla zapewnienia spójnej, przewidywalnej wydajności w całej szafie serwerowej. Bez inteligentnej orkiestracji Mission Control, korzyści z MNNVL i IMEX byłyby trudne do zrealizowania i zarządzania na dużą skalę, co podkreśla zaangażowanie NVIDIA w dostarczanie kompletnych rozwiązań dla zaawansowanych gpus i ich ekosystemów.

W kierunku zautomatyzowanej, skalowalnej infrastruktury AI

Integracja architektury Blackwell firmy NVIDIA z zaawansowanymi warstwami oprogramowania, takimi jak Mission Control i Topograph, stanowi znaczący krok w kierunku stworzenia prawdziwie zautomatyzowanej i skalowalnej infrastruktury AI. NVIDIA Topograph automatyzuje wykrywanie złożonej hierarchii NVLink i połączeń wewnętrznych, udostępniając te kluczowe informacje harmonogramom, takim jak Slurm, Kubernetes (poprzez NVIDIA DRA i ComputeDomains) oraz NVIDIA Run:ai. Eliminuje to ręczne zarządzanie topologią, umożliwiając organizacjom wdrażanie i skalowanie obciążeń AI z niespotykaną wydajnością.

Dzięki zapewnieniu harmonogramom głębokiego, bieżącego zrozumienia topologii sprzętowej, to zintegrowane podejście zapewnia, że aplikacje AI działają na optymalnych zasobach, minimalizując opóźnienia komunikacyjne i maksymalizując przepustowość. Rezultatem jest wysoce wydajna, odporna i łatwa w zarządzaniu fabryka AI, zdolna do obsługi najbardziej wymagających zadań szkolenia i wnioskowania AI. Ponieważ modele AI nadal rosną w złożoności i rozmiarze, zdolność do efektywnego zarządzania i harmonogramowania obciążeń na superkomputerach w skali szafy serwerowej będzie kluczowa dla napędzania innowacji i utrzymania przewagi konkurencyjnej. Ta holistyczna strategia stanowi podstawę przyszłości AI dla przedsiębiorstw, przekształcając surową moc obliczeniową w inteligentne, responsywne i wysoce efektywne superkomputery AI.

Źródło oryginalne

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Często zadawane pytania

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij