Superkomputer AI Skala-Rak: Dari Perangkat Keras hingga Penjadwalan Sadar Topologi

Gambar dekoratif.

Lanskap kecerdasan buatan berkembang pesat, menuntut infrastruktur komputasi yang semakin kuat dan efisien. Di garis depan evolusi ini adalah superkomputer skala-rak, yang dirancang untuk mempercepat beban kerja AI dan komputasi kinerja tinggi (HPC) yang paling kompleks. Sistem NVIDIA GB200 NVL72 dan GB300 NVL72, yang dibangun di atas arsitektur Blackwell yang inovatif, merupakan lompatan signifikan ke arah ini, mengemas fabrics GPU yang besar dan jaringan bandwidth tinggi menjadi unit yang kohesif dan kuat.

Namun, menerapkan perangkat keras yang canggih tersebut menghadirkan tantangan unik: bagaimana Anda menerjemahkan topologi fisik yang rumit ini menjadi sumber daya yang dapat dikelola, berkinerja tinggi, dan dapat diakses untuk pengembang dan peneliti AI? Ketidakcocokan mendasar antara sifat hierarkis perangkat keras skala-rak dan abstraksi yang seringkali datar dari penjadwal beban kerja tradisional menciptakan kemacetan. Di sinilah tumpukan perangkat lunak tervalidasi seperti NVIDIA Mission Control berperan, menjembatani kesenjangan untuk mengubah daya komputasi mentah menjadi 'pabrik AI' yang mulus dan sadar topologi.

Superkomputasi AI Skala-Rak Generasi Berikutnya dengan NVIDIA Blackwell

Sistem NVIDIA GB200 NVL72 dan GB300 NVL72, ditenagai oleh arsitektur NVIDIA Blackwell yang mutakhir, bukan hanya kumpulan GPU yang kuat; mereka adalah superkomputer skala-rak terintegrasi yang direkayasa untuk masa depan AI. Setiap sistem memiliki 18 baki komputasi yang terhubung erat, membentuk fabrics GPU masif yang terhubung oleh switch NVLink canggih. Sistem ini mendukung NVIDIA Multi-Node NVLink (MNNVL), memfasilitasi komunikasi kecepatan ultra-tinggi di dalam rak, dan menyertakan baki komputasi yang mendukung IMEX yang memungkinkan memori GPU bersama di seluruh node. Arsitektur ini menyediakan fondasi yang tak tertandingi untuk melatih dan menyebarkan model AI skala besar, mendorong batas-batas kemungkinan di berbagai bidang mulai dari penemuan ilmiah hingga aplikasi AI perusahaan.

Filosofi desain di balik sistem berbasis Blackwell ini berfokus pada memaksimalkan throughput data dan meminimalkan latensi antara gpu yang saling terhubung. Ini dicapai melalui tumpukan perangkat keras yang terintegrasi secara padat di mana setiap komponen dioptimalkan untuk kinerja kolektif, memastikan bahwa beban kerja AI dapat berskala secara efisien tanpa mengalami kemacetan komunikasi.

Menjembatani Topologi Perangkat Keras dengan Abstraksi Penjadwal AI

Bagi arsitek AI dan operator platform HPC, tantangan sebenarnya bukan hanya mendapatkan dan merakit perangkat keras canggih ini, melainkan mengoperasikannya menjadi sumber daya yang 'aman, berkinerja tinggi, dan mudah digunakan'. Penjadwal tradisional sering beroperasi dengan asumsi kumpulan sumber daya komputasi yang homogen dan datar. Paradigma ini tidak cocok untuk superkomputer skala-rak, di mana desain hierarkis dan sensitif topologi dari fabrics NVLink dan domain IMEX sangat penting untuk kinerja. Tanpa integrasi yang tepat, penjadwal mungkin secara tidak sengaja menempatkan tugas di lokasi yang sub-optimal, menyebabkan efisiensi berkurang dan kinerja tidak dapat diprediksi.

Inilah celah yang direkayasa oleh NVIDIA Mission Control untuk diisi. Sebagai bidang kontrol skala-rak yang tangguh untuk sistem NVIDIA Grace Blackwell NVL72, Mission Control memiliki pemahaman asli tentang domain NVIDIA NVLink dan NVIDIA IMEX yang mendasarinya. Kesadaran mendalam ini memungkinkannya untuk berintegrasi secara cerdas dengan platform manajemen beban kerja populer seperti Slurm dan NVIDIA Run:ai. Dengan menerjemahkan topologi perangkat keras yang kompleks menjadi intelijen penjadwalan yang dapat ditindaklanjuti, Mission Control memastikan bahwa kemampuan canggih arsitektur Blackwell sepenuhnya dimanfaatkan, mengubah rakitan perangkat keras yang canggih menjadi 'pabrik AI' yang benar-benar operasional. Kemampuan ini akan meluas ke platform NVIDIA Vera Rubin yang akan datang, termasuk NVIDIA Rubin NVL8, lebih lanjut mengukuhkan pendekatan yang konsisten terhadap infrastruktur AI berkinerja tinggi.

Menguraikan Domain dan Partisi NVLink untuk Beban Kerja AI

Inti dari penjadwalan sadar topologi untuk sistem Blackwell adalah konsep domain dan partisi NVLink, yang diekspos melalui pengenal tingkat sistem: UUID kluster dan ID klika. Pengenal ini sangat penting karena menyediakan peta logis dari fabrics NVLink fisik, memungkinkan perangkat lunak sistem dan penjadwal untuk memahami posisi dan konektivitas GPU.

Pemetaan ini sederhana namun kuat:

UUID Kluster sesuai dengan domain NVLink. UUID kluster yang dibagikan menunjukkan bahwa sistem—dan GPU-nya—termasuk dalam domain NVLink yang lebih besar yang sama dan terhubung oleh fabrics NVLink yang umum. Untuk Grace Blackwell NVL72, UUID ini konsisten di seluruh rak, menunjukkan kedekatan fisik dan konektivitas bandwidth tinggi bersama.
ID Klika sesuai dengan partisi NVLink. ID klika menawarkan perbedaan yang lebih terperinci, mengidentifikasi kelompok GPU yang berbagi Partisi NVLink dalam domain yang lebih besar. Ketika sebuah rak secara logis tersegmentasi menjadi beberapa partisi NVLink, UUID kluster tetap sama, tetapi ID klika membedakan kelompok bandwidth tinggi yang lebih kecil dan terisolasi ini.

Perbedaan ini sangat penting dari sudut pandang operasional:

UUID Kluster menjawab pertanyaan: GPU mana yang secara fisik berbagi rak dan mampu berkomunikasi NVLink dengan kecepatan tertinggi?
ID Klika menjawab: GPU mana yang berbagi Partisi NVLink dan dimaksudkan untuk berkomunikasi bersama untuk beban kerja atau tingkat layanan tertentu, memastikan kinerja optimal untuk tugas-tugas yang sangat paralel?

Pengenal ini adalah jaringan penghubung, memungkinkan platform seperti Slurm, Kubernetes, dan NVIDIA Run:ai untuk menyelaraskan penempatan pekerjaan, isolasi, dan jaminan kinerja dengan struktur fabrics NVLink yang sebenarnya, semuanya tanpa mengekspos kompleksitas perangkat keras yang mendasari secara langsung kepada pengguna akhir. NVIDIA Mission Control menyediakan tampilan terpusat dari pengenal ini, menyederhanakan manajemen.

Konsep Perangkat Keras	Pengenal Perangkat Lunak	Deskripsi
Domain NVLink	UUID Kluster	Mengidentifikasi GPU yang secara fisik berbagi rak, mampu berkomunikasi NVLink di seluruh rak.
Partisi NVLink	ID Klika	Membedakan GPU yang dimaksudkan untuk berkomunikasi bersama dalam domain NVLink untuk beban kerja atau tingkat layanan tertentu.

Penjadwalan AI Sadar Topologi dengan Slurm

Untuk beban kerja multi-node yang berjalan pada sistem NVL72 berbasis Blackwell, penempatan menjadi sama pentingnya dengan jumlah GPU yang dialokasikan. Misalnya, pekerjaan pelatihan AI yang membutuhkan 16 GPU akan berkinerja sangat berbeda jika tersebar secara sembarangan di beberapa node yang kurang terhubung dibandingkan jika terbatas dalam satu fabrics NVLink bandwidth tinggi. Di sinilah plugin topology/block Slurm terbukti sangat diperlukan, memungkinkan Slurm untuk mengenali perbedaan konektivitas yang bernuansa antara node.

Pada sistem Grace Blackwell NVL72, blok node dengan koneksi latensi rendah secara langsung sesuai dengan partisi NVLink—kelompok GPU yang disatukan oleh fabrics NVLink khusus bandwidth tinggi. Dengan mengaktifkan plugin topology/block dan mengekspos partisi NVLink ini sebagai 'blok', Slurm memperoleh intelijen kontekstual yang diperlukan untuk membuat keputusan penjadwalan yang unggul. Secara default, pekerjaan ditempatkan secara cerdas dalam satu partisi NVLink (atau blok), sehingga mempertahankan kinerja Multi-Node NVLink (MNNVL) yang penting. Meskipun pekerjaan yang lebih besar masih dapat mencakup beberapa blok jika diperlukan, pendekatan ini membuat pertukaran kinerja menjadi eksplisit, bukan kebetulan.

Dalam praktiknya, ini memungkinkan strategi deployment yang fleksibel:

Satu blok/grup node per rak: Konfigurasi ini memungkinkan Slurm Quality of Service (QoS) untuk mengelola akses ke partisi bersama di seluruh rak, ideal untuk manajemen sumber daya terkonsolidasi.
Beberapa blok/grup node per rak: Pendekatan ini sempurna untuk menawarkan kumpulan GPU bandwidth tinggi yang lebih kecil, terisolasi. Di sini, setiap blok/grup node memetakan ke partisi Slurm khusus, secara efektif menyediakan tingkat layanan yang berbeda. Pengguna kemudian dapat memanfaatkan partisi Slurm tertentu, secara otomatis menempatkan pekerjaan mereka dalam partisi NVLink yang dimaksudkan tanpa perlu memahami kerumitan fabrics yang mendasarinya. Manajemen sumber daya canggih ini sangat penting bagi organisasi yang ingin menskalakan inisiatif AI mereka, selaras dengan tujuan yang lebih luas untuk menskalakan AI untuk semua orang.

Mengoptimalkan Beban Kerja MNNVL dengan IMEX dan Mission Control

Beban kerja Multi-Node NVIDIA CUDA sering kali mengandalkan MNNVL untuk mencapai kinerja maksimum, memungkinkan GPU pada baki komputasi yang berbeda untuk berpartisipasi dalam model pemrograman memori bersama yang kohesif. Dari perspektif pengembang aplikasi, memanfaatkan MNNVL bisa terkesan sederhana, tetapi orkestrasinya rumit.

Di sinilah NVIDIA Mission Control memainkan peran penting. Ini memastikan bahwa komponen-komponen penting selaras sempurna saat menjalankan pekerjaan MNNVL dengan Slurm. Secara khusus, Mission Control menjamin bahwa layanan IMEX—yang memfasilitasi memori GPU bersama—berjalan pada kumpulan baki komputasi yang tepat yang berpartisipasi dalam pekerjaan MNNVL. Ini juga memastikan bahwa NVSwitch yang diperlukan dikonfigurasi dengan benar untuk membangun dan memelihara koneksi MNNVL bandwidth tinggi ini. Koordinasi ini sangat penting untuk memberikan kinerja yang konsisten dan dapat diprediksi di seluruh rak. Tanpa orkestrasi cerdas Mission Control, manfaat MNNVL dan IMEX akan sulit diwujudkan dan dikelola dalam skala besar, menyoroti komitmen NVIDIA untuk memberikan solusi lengkap untuk gpu canggih dan ekosistemnya.

Menuju Infrastruktur AI yang Otomatis dan Skalabel

Integrasi arsitektur Blackwell NVIDIA dengan lapisan perangkat lunak canggih seperti Mission Control dan Topograph menandai langkah signifikan menuju penciptaan infrastruktur AI yang benar-benar otomatis dan skalabel. NVIDIA Topograph mengotomatiskan penemuan hierarki NVLink dan interkoneksi yang kompleks, mengekspos informasi vital ini ke penjadwal seperti Slurm, Kubernetes (melalui NVIDIA DRA dan ComputeDomains), dan NVIDIA Run:ai. Ini menghilangkan overhead manual dalam mengelola topologi, memungkinkan organisasi untuk menerapkan dan menskalakan beban kerja AI dengan efisiensi yang belum pernah terjadi sebelumnya.

Dengan memberikan penjadwal pemahaman yang mendalam dan real-time tentang topologi perangkat keras, pendekatan terintegrasi ini memastikan bahwa aplikasi AI berjalan pada sumber daya yang optimal, meminimalkan latensi komunikasi, dan memaksimalkan throughput. Hasilnya adalah 'pabrik AI' yang berkinerja tinggi, resilien, dan mudah dikelola yang mampu menangani tugas pelatihan dan inferensi AI yang paling menuntut. Seiring model AI terus tumbuh dalam kompleksitas dan ukuran, kemampuan untuk secara efektif mengelola dan menjadwalkan beban kerja pada superkomputer skala-rak akan menjadi sangat penting untuk mendorong inovasi dan mempertahankan keunggulan kompetitif. Strategi holistik ini mendasari masa depan AI perusahaan, mengubah daya komputasi mentah menjadi superkomputasi AI yang cerdas, responsif, dan sangat efisien.

Sumber asli

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Pertanyaan yang Sering Diajukan

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.