Superkomputer AI Skala-Rak: Daripada Perkakasan kepada Penjadualan Sedar Topologi

Decorative image.

Landskap kecerdasan buatan berkembang pesat, menuntut infrastruktur pengkomputeran yang semakin berkuasa dan cekap. Di barisan hadapan evolusi ini adalah superkomputer skala-rak, direka untuk mempercepatkan beban kerja AI dan pengkomputeran berprestasi tinggi (HPC) yang paling kompleks. Sistem NVIDIA GB200 NVL72 dan GB300 NVL72, dibina berdasarkan seni bina Blackwell yang inovatif, mewakili satu lonjakan besar dalam arah ini, menggabungkan fabrik GPU yang besar dan rangkaian jalur lebar tinggi ke dalam unit yang padu dan berkuasa.

Walau bagaimanapun, penggunaan perkakasan yang canggih ini menimbulkan cabaran unik: bagaimana anda menterjemahkan topologi fizikal yang rumit ini kepada sumber yang boleh diurus, berprestasi tinggi, dan mudah diakses untuk pembangun dan penyelidik AI? Ketidakpadanan asas antara sifat hierarki perkakasan skala-rak dan abstraksi yang sering rata bagi penjadual beban kerja tradisional mencipta kesesakan. Di sinilah tumpuan kepada timbunan perisian yang disahkan seperti NVIDIA Mission Control melangkah masuk, merapatkan jurang untuk mengubah kuasa pengkomputeran mentah menjadi kilang AI yang lancar dan sedar topologi.

Superkomputer AI Skala-Rak Generasi Seterusnya dengan NVIDIA Blackwell

Sistem NVIDIA GB200 NVL72 dan GB300 NVL72, yang dikuasakan oleh seni bina NVIDIA Blackwell yang canggih, bukan sekadar koleksi GPU yang berkuasa; ia adalah superkomputer skala-rak yang bersepadu dan direka untuk masa depan AI. Setiap sistem menampilkan 18 dulang pengkomputeran yang terangkai rapat, membentuk fabrik GPU yang besar yang disambungkan oleh suis NVLink canggih. Sistem ini menyokong NVIDIA Multi-Node NVLink (MNNVL), memudahkan komunikasi berkelajuan ultra tinggi dalam rak, dan termasuk dulang pengkomputeran yang mampu IMEX yang membolehkan memori GPU dikongsi merentasi nod. Seni bina ini menyediakan asas yang tiada tandingan untuk melatih dan menyebarkan model AI berskala besar, menolak batasan apa yang mungkin dalam bidang daripada penemuan saintifik hingga aplikasi AI perusahaan.

Falsafah reka bentuk di sebalik sistem berasaskan Blackwell ini memberi tumpuan kepada memaksimumkan daya pemprosesan data dan meminimumkan latensi antara gpus yang saling bersambung. Ini dicapai melalui timbunan perkakasan yang bersepadu padat di mana setiap komponen dioptimumkan untuk prestasi kolektif, memastikan bahawa beban kerja AI dapat diskala dengan cekap tanpa menghadapi kesesakan komunikasi.

Merapatkan Topologi Perkakasan dengan Abstraksi Penjadual AI

Bagi arkitek AI dan operator platform HPC, cabaran sebenar bukan hanya mendapatkan dan memasang perkakasan canggih ini, tetapi lebih kepada mengoperasikannya menjadi sumber yang 'selamat, berprestasi tinggi, dan mudah digunakan'. Penjadual tradisional sering beroperasi dengan anggapan kumpulan sumber pengkomputeran yang homogen dan rata. Paradigma ini tidak sesuai untuk superkomputer skala-rak, di mana reka bentuk hierarki dan sensitif topologi fabrik NVLink dan domain IMEX adalah kritikal untuk prestasi. Tanpa integrasi yang betul, penjadual mungkin secara tidak sengaja menempatkan tugas di lokasi yang tidak optimum, menyebabkan kecekapan berkurangan dan prestasi yang tidak dapat diramalkan.

Jurang inilah yang direka oleh NVIDIA Mission Control untuk dipenuhi. Sebagai satah kawalan skala-rak yang teguh untuk sistem NVIDIA Grace Blackwell NVL72, Mission Control memiliki pemahaman asli tentang domain NVLink dan NVIDIA IMEX yang mendasari. Kesedaran mendalam ini membolehkannya berintegrasi secara bijak dengan platform pengurusan beban kerja popular seperti Slurm dan NVIDIA Run:ai. Dengan menterjemahkan topologi perkakasan yang kompleks kepada kecerdasan penjadualan yang boleh diambil tindakan, Mission Control memastikan bahawa keupayaan canggih seni bina Blackwell dimanfaatkan sepenuhnya, mengubah pemasangan perkakasan yang canggih menjadi kilang AI yang benar-benar beroperasi. Keupayaan ini akan diperluaskan kepada platform NVIDIA Vera Rubin yang akan datang, termasuk NVIDIA Rubin NVL8, mengukuhkan lagi pendekatan yang konsisten terhadap infrastruktur AI berprestasi tinggi.

Mentafsir Domain dan Pemisahan NVLink untuk Beban Kerja AI

Inti penjadualan sedar topologi untuk sistem Blackwell adalah konsep domain dan pemisahan NVLink, yang didedahkan melalui pengecam peringkat sistem: UUID kluster dan ID klic. Pengecam ini penting kerana ia menyediakan peta logik fabrik NVLink fizikal, membolehkan perisian sistem dan penjadual untuk memahami kedudukan dan kesalinghubungan GPU.

Pemetaan ini adalah mudah tetapi berkuasa:

UUID Kluster sepadan dengan domain NVLink. UUID kluster yang dikongsi menandakan bahawa sistem—dan GPU mereka—tergolong dalam domain NVLink menyeluruh yang sama dan disambungkan oleh fabrik NVLink yang sama. Untuk Grace Blackwell NVL72, UUID ini konsisten di seluruh rak, menunjukkan kedekatan fizikal dan kesalinghubungan jalur lebar tinggi yang dikongsi.
ID Klic sepadan dengan pemisahan NVLink. ID klic menawarkan perbezaan yang lebih halus, mengenal pasti kumpulan GPU yang berkongsi Pemisahan NVLink dalam domain yang lebih besar. Apabila rak dibahagikan secara logik kepada beberapa pemisahan NVLink, UUID kluster kekal sama, tetapi ID klic membezakan kumpulan jalur lebar tinggi yang lebih kecil dan terasing ini.

Perbezaan ini adalah penting dari sudut operasi:

UUID Kluster menjawab soalan: GPU manakah yang secara fizikal berkongsi rak dan mampu berkomunikasi NVLink pada kelajuan tertinggi?
ID Klic menjawab: GPU manakah yang berkongsi Pemisahan NVLink dan bertujuan untuk berkomunikasi bersama untuk beban kerja atau peringkat perkhidmatan tertentu, memastikan prestasi optimum untuk tugas yang sangat selari?

Pengecam ini adalah penghubung, membolehkan platform seperti Slurm, Kubernetes, dan NVIDIA Run:ai menyelaraskan penempatan tugas, pengasingan, dan jaminan prestasi dengan struktur sebenar fabrik NVLink, semuanya tanpa mendedahkan kerumitan perkakasan yang mendasari secara langsung kepada pengguna akhir. NVIDIA Mission Control menyediakan pandangan terpusat pengecam ini, melancarkan pengurusan.

Konsep Perkakasan	Pengecam Perisian	Keterangan
Domain NVLink	UUID Kluster	Mengenal pasti GPU yang secara fizikal berkongsi rak, mampu komunikasi NVLink seluruh rak.
Pemisahan NVLink	ID Klic	Membezakan GPU yang bertujuan untuk berkomunikasi bersama dalam domain NVLink untuk beban kerja atau peringkat perkhidmatan tertentu.

Penjadualan AI Sedar Topologi dengan Slurm

Untuk beban kerja berbilang nod yang berjalan pada sistem NVL72 berasaskan Blackwell, penempatan menjadi sama kritikalnya dengan jumlah GPU yang diperuntukkan. Tugas latihan AI yang memerlukan 16 GPU, contohnya, akan berprestasi jauh berbeza jika disebarkan secara sembarangan merentasi beberapa nod yang kurang bersambung berbanding jika ia terkurung dalam satu fabrik NVLink jalur lebar tinggi. Di sinilah pemalam topologi/blok Slurm terbukti sangat diperlukan, membolehkan Slurm mengenali perbezaan kesalinghubungan yang nuansa antara nod.

Pada sistem Grace Blackwell NVL72, blok nod yang menampilkan sambungan latensi rendah secara langsung sepadan dengan pemisahan NVLink—kumpulan GPU yang disatukan oleh fabrik NVLink jalur lebar tinggi yang khusus. Dengan mendayakan pemalam topologi/blok dan mendedahkan pemisahan NVLink ini sebagai blok yang berasingan, Slurm memperoleh kecerdasan kontekstual yang diperlukan untuk membuat keputusan penjadualan yang unggul. Secara lalai, tugas diletakkan secara bijak dalam satu pemisahan NVLink (atau blok), dengan itu mengekalkan prestasi Multi-Node NVLink (MNNVL) yang kritikal. Walaupun tugas yang lebih besar masih boleh merangkumi beberapa blok jika perlu, pendekatan ini menjadikan pertukaran prestasi eksplisit, dan bukannya tidak sengaja.

Dalam istilah praktikal, ini membolehkan strategi penggunaan yang fleksibel:

Satu blok/kumpulan nod setiap rak: Konfigurasi ini membolehkan Slurm Quality of Service (QoS) mengurus akses kepada pemisahan seluruh rak yang dikongsi, ideal untuk pengurusan sumber yang disatukan.
Beberapa blok/kumpulan nod setiap rak: Pendekatan ini sesuai untuk menawarkan kumpulan GPU jalur lebar tinggi yang lebih kecil, terasing. Di sini, setiap blok/kumpulan nod memetakan kepada pemisahan Slurm yang khusus, secara efektif menyediakan peringkat perkhidmatan yang berbeza. Pengguna kemudian boleh memanfaatkan pemisahan Slurm yang spesifik, secara automatik menempatkan tugas mereka dalam pemisahan NVLink yang dimaksudkan tanpa perlu memahami kerumitan fabrik yang mendasari. Pengurusan sumber canggih ini penting untuk organisasi yang ingin menskalakan inisiatif AI mereka, selaras dengan matlamat yang lebih luas untuk menskalakan AI untuk semua orang.

Mengoptimumkan Beban Kerja MNNVL dengan IMEX dan Mission Control

Beban kerja Multi-Node NVIDIA CUDA sering bergantung pada MNNVL untuk mencapai prestasi maksimum, membolehkan GPU pada dulang pengkomputeran yang berbeza untuk mengambil bahagian dalam model pengaturcaraan memori dikongsi yang padu. Dari perspektif pembangun aplikasi, memanfaatkan MNNVL mungkin kelihatan mudah, tetapi orkestrasi asasnya adalah kompleks.

Di sinilah NVIDIA Mission Control memainkan peranan penting. Ia memastikan bahawa komponen kritikal sejajar dengan sempurna apabila menjalankan tugas MNNVL dengan Slurm. Secara khusus, Mission Control menjamin bahawa perkhidmatan IMEX—yang memfasilitasi memori GPU yang dikongsi—berjalan pada set dulang pengkomputeran yang tepat yang mengambil bahagian dalam tugas MNNVL. Ia juga memastikan bahawa NVSwitches yang diperlukan dikonfigurasikan dengan betul untuk mewujudkan dan mengekalkan sambungan MNNVL jalur lebar tinggi ini. Penyelarasan ini penting untuk menyediakan prestasi yang konsisten dan boleh diramal di seluruh rak. Tanpa orkestrasi bijak Mission Control, manfaat MNNVL dan IMEX akan mencabar untuk direalisasikan dan diurus pada skala, menonjolkan komitmen NVIDIA untuk menyampaikan penyelesaian lengkap untuk gpus canggih dan ekosistemnya.

Ke Arah Infrastruktur AI Automatik dan Berskala

Integrasi seni bina Blackwell NVIDIA dengan lapisan perisian canggih seperti Mission Control dan Topograph menandakan langkah penting ke arah mewujudkan infrastruktur AI yang benar-benar automatik dan berskala. NVIDIA Topograph mengautomasikan penemuan hierarki NVLink dan interkoneksi yang kompleks, mendedahkan maklumat penting ini kepada penjadual seperti Slurm, Kubernetes (melalui NVIDIA DRA dan ComputeDomains), dan NVIDIA Run:ai. Ini menghapuskan overhed manual mengurus topologi, membolehkan organisasi menggunakan dan menskalakan beban kerja AI dengan kecekapan yang belum pernah terjadi sebelumnya.

Dengan menyediakan penjadual dengan pemahaman mendalam dan masa nyata tentang topologi perkakasan, pendekatan bersepadu ini memastikan bahawa aplikasi AI berjalan pada sumber yang optimum, meminimumkan latensi komunikasi dan memaksimumkan daya pemprosesan. Hasilnya adalah kilang AI yang berprestasi tinggi, berdaya tahan, dan mudah diurus yang mampu mengendalikan tugas latihan dan inferens AI yang paling mencabar. Memandangkan model AI terus berkembang dalam kerumitan dan saiz, keupayaan untuk mengurus dan menjadualkan beban kerja dengan berkesan pada superkomputer skala-rak akan menjadi yang paling penting untuk memacu inovasi dan mengekalkan kelebihan daya saing. Strategi holistik ini menyokong masa depan AI perusahaan, mengubah kuasa pengkomputeran mentah menjadi superkomputer AI yang pintar, responsif, dan sangat cekap.

Sumber asal

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Soalan Lazim

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Kekal Dikemas Kini

Dapatkan berita AI terkini dalam peti masuk anda.

Kongsi