Rək-ölçülü Süni İntellekt Superkompüterləri: Aparat Təminatından Topologiyaya Həssas Cədvəlləşdirməyə

Dekorativ şəkil.

Süni intellekt sahəsi sürətlə inkişaf edir, getdikcə daha güclü və səmərəli hesablama infrastrukturu tələb edir. Bu təkamülün ön sırasında ən mürəkkəb Süni İntellekt və yüksək performanslı hesablama (HPC) iş yüklərini sürətləndirmək üçün nəzərdə tutulmuş rək-ölçülü superkompüterlər dayanır. NVIDIA-nın GB200 NVL72 və GB300 NVL72 sistemləri, innovativ Blackwell arxitekturası üzərində qurulmuş, böyük GPU arxitekturalarını və yüksək bant genişlikli şəbəkələri vahid, güclü modullara qablaşdıraraq bu istiqamətdə əhəmiyyətli bir sıçrayışı təmsil edir.

Lakin, belə mürəkkəb aparat təminatının tətbiqi unikal bir çətinlik yaradır: bu mürəkkəb fiziki topologiyanı Süni İntellekt tərtibatçıları və tədqiqatçıları üçün idarə oluna bilən, yüksək performanslı və əlçatan bir resursa necə çevirmək olar? Rək-ölçülü aparat təminatının iyerarxik təbiəti ilə ənənəvi iş yükü cədvəlləyicilərinin tez-tez sadə abstraksiyaları arasındakı əsas uyğunsuzluq bir tıxac yaradır. Məhz burada NVIDIA Mission Control kimi təsdiqlənmiş proqram təminatı toplusu, xam hesablama gücünü qüsursuz, topologiyaya həssas Süni İntellekt fabrikinə çevirmək üçün boşluğu doldurur.

NVIDIA Blackwell ilə Növbəti Nəsil Rək-ölçülü Süni İntellekt Superhesablama

Ən müasir NVIDIA Blackwell arxitekturası ilə təchiz edilmiş NVIDIA GB200 NVL72 və GB300 NVL72 sistemləri sadəcə güclü GPU kolleksiyaları deyil; onlar Süni İntellektin gələcəyi üçün hazırlanmış inteqrasiya olunmuş, rək-ölçülü superkompüterlərdir. Hər sistem, qabaqcıl NVLink açarları ilə birləşdirilmiş nəhəng bir GPU arxitekturası təşkil edən 18 sıx bağlı hesablama tepsisinə malikdir. Bu sistemlər, rək daxilində ultra yüksək sürətli rabitəni asanlaşdıran NVIDIA Çoxdüyünlü NVLink (MNNVL) dəstəkləyir və düyünlər arasında paylaşılan GPU yaddaşını təmin edən IMEX-ə uyğun hesablama tepsilərini ehtiva edir. Bu arxitektura, elmi kəşflərdən korporativ Süni İntellekt tətbiqlərinə qədər müxtəlif sahələrdə mümkün olanın sərhədlərini genişləndirərək, genişmiqyaslı Süni İntellekt modellərinin təlimi və tətbiqi üçün misilsiz bir təməl təmin edir.

Bu Blackwell əsaslı sistemlərin arxasındakı dizayn fəlsəfəsi, bir-birinə bağlı GPU-lar arasında məlumat ötürülmə sürətini maksimallaşdırmağa və gecikməni minimuma endirməyə yönəlmişdir. Bu, hər bir komponentin kollektiv performans üçün optimallaşdırıldığı sıx inteqrasiya olunmuş aparat təminatı vasitəsilə əldə edilir, beləliklə Süni İntellekt iş yüklərinin rabitə tıxaclarına rast gəlmədən səmərəli şəkildə genişlənə bilməsi təmin edilir.

Aparat Topologiyası ilə Süni İntellekt Cədvəlləyici Abstraksiyalarının Birləşdirilməsi

Süni İntellekt memarları və HPC platforma operatorları üçün əsas çətinlik sadəcə bu qabaqcıl aparat təminatını əldə etmək və yığmaq deyil, onu 'təhlükəsiz, yüksək performanslı və istifadəsi asan' bir resurs halına gətirməkdir. Ənənəvi cədvəlləyicilər adətən homogen, düz hesablama resursları hovuzu fərziyyəsi altında işləyirlər. Bu paradiqma, NVLink arxitekturalarının və IMEX domenlərinin iyerarxik və topologiyaya həssas dizaynının performans üçün kritik olduğu rək-ölçülü superkompüterlər üçün uyğun deyil. Düzgün inteqrasiya olmadan, cədvəlləyicilər bilmədən tapşırıqları optimal olmayan yerlərə yerləşdirə bilər ki, bu da səmərəliliyin azalmasına və proqnozlaşdırılmayan performansa səbəb olar.

Məhz bu boşluğu doldurmaq üçün NVIDIA Mission Control hazırlanmışdır. NVIDIA Grace Blackwell NVL72 sistemləri üçün möhkəm bir rək-ölçülü idarəetmə təyyarəsi kimi, Mission Control əsas NVIDIA NVLink və NVIDIA IMEX domenləri haqqında daxili anlayışa malikdir. Bu dərin məlumatlılıq ona Slurm və NVIDIA Run:ai kimi populyar iş yükü idarəetmə platformaları ilə ağıllı şəkildə inteqrasiya etməyə imkan verir. Mürəkkəb aparat topologiyalarını fəaliyyətə keçirilə bilən cədvəlləşdirmə intellektinə çevirərək, Mission Control Blackwell arxitekturasının qabaqcıl imkanlarının tam şəkildə istifadə olunmasını təmin edir, mürəkkəb bir aparat montajını həqiqətən işlək bir Süni İntellekt fabrikinə çevirir. Bu imkan, qarşıdan gələn NVIDIA Vera Rubin platformasına, o cümlədən NVIDIA Rubin NVL8-ə qədər uzanacaq, yüksək performanslı Süni İntellekt infrastrukturu üçün ardıcıl bir yanaşmanı daha da möhkəmləndirəcəkdir.

Süni İntellekt İş Yükləri üçün NVLink Domenlərini və Partisiyalarını Dekodasiya Etmək

Blackwell sistemləri üçün topologiyaya həssas cədvəlləşdirmənin mərkəzində NVLink domenləri və partisiyaları anlayışları dayanır ki, bunlar sistem səviyyəli identifikasiyaedicilər vasitəsilə ortaya qoyulur: klaster UUID və klik ID. Bu identifikasiyaedicilər çox vacibdir, çünki onlar fiziki NVLink arxitekturasının məntiqi xəritəsini təmin edərək, sistem proqram təminatına və cədvəlləyicilərə GPU-nun mövqeyi və əlaqəsi haqqında mühakimə yürütməyə imkan verir.

Xəritələmə sadə, lakin güclüdür:

Klaster UUID NVLink domenə uyğundur. Paylaşılan bir klaster UUID, sistemlərin —və onların GPU-larının— eyni ümumi NVLink domenə aid olduğunu və ümumi bir NVLink arxitekturası ilə bağlı olduğunu göstərir. Grace Blackwell NVL72 üçün bu UUID bütün rəkdə ardıcıldır, fiziki yaxınlığı və paylaşılan yüksək bant genişlikli əlaqəni göstərir.
Klik ID NVLink partisiyasına uyğundur. Klik ID daha incə bir fərq təklif edir, daha böyük bir domen daxilində NVLink Partisiyasını paylaşan GPU qruplarını müəyyən edir. Bir rək məntiqi olaraq birdən çox NVLink partisiyasına bölündükdə, klaster UUID eyni qalır, lakin klik ID-ləri bu daha kiçik, təcrid olunmuş yüksək bant genişlikli qrupları fərqləndirir.

Bu fərq əməliyyat baxımından həyati əhəmiyyət kəsb edir:

Klaster UUID suala cavab verir: Hansı GPU-lar fiziki olaraq bir rək paylaşır və ən yüksək sürətlə NVLink rabitəsinə qadirdirlər?
Klik ID cavab verir: Hansı GPU-lar NVLink Partisiyasını paylaşır və müəyyən bir iş yükü və ya xidmət səviyyəsi üçün birlikdə əlaqə qurmaq niyyətindədirlər, yüksək paralel tapşırıqlar üçün optimal performansı təmin edirlər?

Bu identifikasiyaedicilər Slurm, Kubernetes və NVIDIA Run:ai kimi platformaların iş yerləşdirməsini, izolyasiyasını və performans zəmanətlərini NVLink arxitekturasının faktiki strukturu ilə uyğunlaşdırmasına imkan verən birləşdirici toxumadır, bütün bunları əsas aparat mürəkkəbliyini birbaşa son istifadəçilərə açmadan edir. NVIDIA Mission Control bu identifikasiyaedicilərin mərkəzləşdirilmiş görünüşünü təmin edərək idarəetməni asanlaşdırır.

Aparat Konsepti	Proqram İdentifikasiyaedici	Təsvir
NVLink Domeni	Klaster UUID	Rək-boyu NVLink rabitəsinə qadir olan, fiziki olaraq bir rək paylaşan GPU-ları müəyyən edir.
NVLink Partisiyası	Klik ID	Müəyyən bir iş yükü və ya xidmət səviyyəsi üçün NVLink domen daxilində birlikdə əlaqə qurmaq niyyətində olan GPU-ları fərqləndirir.

Slurm ilə Topologiyaya Həssas Süni İntellekt Cədvəlləşdirməsi

Blackwell əsaslı NVL72 sistemlərində işləyən çoxdüyünlü iş yükləri üçün, yerləşdirmə ayrılmış GPU-ların sayının özü qədər kritikdir. Məsələn, 16 GPU tələb edən bir Süni İntellekt təlim işi, əgər bir tək, yüksək bant genişlikli NVLink arxitekturası daxilində məhdudlaşdırılsa, bir neçə daha az bağlı düyün arasında xaotik şəkildə yayıldığı haldan xeyli fərqli performans göstərəcəkdir. Məhz burada Slurm-un topologiya/blok plagiati əvəzsizdir, Slurm-a düyünlər arasındakı incə əlaqə fərqlərini tanımağa imkan verir.

Grace Blackwell NVL72 sistemlərində, daha aşağı gecikməli əlaqələrə malik düyün blokları, ayrılmış, yüksək bant genişlikli NVLink arxitekturası ilə birləşdirilmiş GPU qrupları olan NVLink partisiyalarına birbaşa uyğun gəlir. Topologiya/blok plagiatını aktivləşdirərək və bu NVLink partisiyalarını ayrı bloklar kimi təqdim edərək, Slurm üstün cədvəlləşdirmə qərarları vermək üçün lazım olan kontekstual intellekti əldə edir. Varsayılan olaraq, işlər ağıllı şəkildə tək bir NVLink partisiyasında (və ya blokda) yerləşdirilir, beləliklə kritik Çoxdüyünlü NVLink (MNNVL) performansı qorunur. Lazım gələrsə daha böyük işlər hələ də birdən çox bloku əhatə edə bilsə də, bu yanaşma performans mübadilələrini təsadüfi deyil, aşkar edir.

Praktiki cəhətdən bu, çevik yerləşdirmə strategiyalarına imkan verir:

Rək başına bir blok/düyün qrupu: Bu konfiqurasiya Slurm Xidmət Keyfiyyətinə (QoS) paylaşılan, rək-boyu partisiyaya çıxışı idarə etməyə imkan verir, konsolidasiya edilmiş resurs idarəetməsi üçün idealdır.
Rək başına birdən çox blok/düyün qrupu: Bu yanaşma daha kiçik, təcrid olunmuş, yüksək bant genişlikli GPU hovuzları təklif etmək üçün mükəmməldir. Burada hər bir blok/düyün qrupu ayrılmış bir Slurm partisiyasına uyğun gəlir, effektiv şəkildə fərqli bir xidmət səviyyəsi təmin edir. İstifadəçilər daha sonra müəyyən bir Slurm partisiyasından istifadə edə bilər, əsas arxitekturanın mürəkkəbliklərini başa düşmədən işlərini avtomatik olaraq nəzərdə tutulan NVLink partisiyasına yerləşdirirlər. Bu qabaqcıl resurs idarəetməsi, Süni İntellekt təşəbbüslərini genişləndirmək istəyən təşkilatlar üçün vacibdir, Süni İntellekti hər kəs üçün genişləndirmək kimi daha geniş məqsədlə uyğunlaşır.

IMEX və Mission Control ilə MNNVL İş Yüklərini Optimallaşdırmaq

Çoxdüyünlü NVIDIA CUDA iş yükləri tez-tez maksimal performans əldə etmək üçün MNNVL-ə etibar edir, müxtəlif hesablama tepsilərindəki GPU-lara vahid, paylaşılan yaddaşlı proqramlaşdırma modelində iştirak etməyə imkan verir. Tətbiq tərtibatçısının baxış bucağından, MNNVL-dən istifadə aldadıcı dərəcədə sadə görünə bilər, lakin əsas orkestrasiya mürəkkəbdir.

Məhz burada NVIDIA Mission Control mühüm rol oynayır. O, MNNVL işlərini Slurm ilə işlədərkən kritik komponentlərin mükəmməl uyğunlaşmasını təmin edir. Xüsusilə, Mission Control IMEX xidmətinin —paylaşılan GPU yaddaşını asanlaşdıran— MNNVL işində iştirak edən hesablama tepsilərinin dəqiq dəstində işləməsini təmin edir. Həmçinin, bu yüksək bant genişlikli MNNVL bağlantılarını qurmaq və saxlamaq üçün zəruri NVSwitch-lərin düzgün konfiqurasiya edilməsini təmin edir. Bu koordinasiya, rək boyunca ardıcıl, proqnozlaşdırıla bilən performans təmin etmək üçün həyati əhəmiyyət kəsb edir. Mission Control-un ağıllı orkestrasiyası olmadan, MNNVL və IMEX-in faydalarını geniş miqyasda reallaşdırmaq və idarə etmək çətin olardı, bu da NVIDIA-nın qabaqcıl GPU-lar və onların ekosistemləri üçün tam həllər təqdim etməyə sadiqliyini vurğulayır.

Avtomatlaşdırılmış, Genişlənə Bilən Süni İntellekt İnfrastrukturuna Doğru

NVIDIA-nın Blackwell arxitekturasının Mission Control və Topograph kimi mürəkkəb proqram təminatı qatları ilə inteqrasiyası, həqiqətən avtomatlaşdırılmış və genişlənə bilən Süni İntellekt infrastrukturu yaratmağa doğru əhəmiyyətli bir addımdır. NVIDIA Topograph, mürəkkəb NVLink və interkonnekt iyerarxiyasının aşkarlanmasını avtomatlaşdırır, bu həyati məlumatı Slurm, Kubernetes (NVIDIA DRA və ComputeDomains vasitəsilə) və NVIDIA Run:ai kimi cədvəlləyicilərə təqdim edir. Bu, topologiyanın idarə edilməsinin əl ilə görülən yükünü aradan qaldırır, təşkilatlara Süni İntellekt iş yüklərini misilsiz səmərəliliklə yerləşdirməyə və genişləndirməyə imkan verir.

Cədvəlləyicilərə aparat topologiyasının dərin, real vaxt anlayışını təmin etməklə, bu inteqrasiya olunmuş yanaşma Süni İntellekt tətbiqlərinin optimal resurslar üzərində işləməsini təmin edir, rabitə gecikməsini minimuma endirir və ötürücülüyü maksimallaşdırır. Nəticə, ən tələbkar Süni İntellekt təlimi və nəticə çıxarma tapşırıqlarını idarə edə bilən, yüksək performanslı, dayanıqlı və asan idarə olunan bir Süni İntellekt fabrikinin olmasıdır. Süni İntellekt modelləri mürəkkəblikdə və ölçüdə böyüməyə davam etdikcə, iş yüklərini rək-ölçülü superkompüterlərdə effektiv şəkildə idarə etmək və cədvəlləşdirmək innovasiyaları sürətləndirmək və rəqabət üstünlüyünü qorumaq üçün əsas rol oynayacaq. Bu vahid strategiya, korporativ Süni İntellektin gələcəyinin əsasını təşkil edir, xam hesablama gücünü ağıllı, həssas və yüksək səmərəli Süni İntellekt superhesablamasına çevirir.

Orijinal mənbə

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Tez-tez Verilən Suallar

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Xəbərdar olun

Ən son AI xəbərlərini e-poçtunuza alın.

Paylaş