Rack-Ölçekli Yapay Zeka Süper Bilgisayarları: Donanımdan Topolojiye Duyarlı Planlamaya

Decorative image.

Yapay zeka ortamı hızla gelişmekte olup, her zamankinden daha güçlü ve verimli hesaplama altyapısı gerektirmektedir. Bu evrimin ön saflarında, en karmaşık yapay zeka ve yüksek performanslı hesaplama (HPC) iş yüklerini hızlandırmak için tasarlanmış rack-ölçekli süper bilgisayarlar yer almaktadır. Yenilikçi Blackwell mimarisi üzerine inşa edilen NVIDIA'nın GB200 NVL72 ve GB300 NVL72 sistemleri, devasa GPU dokularını ve yüksek bant genişliğine sahip ağları birbiriyle uyumlu, güçlü birimler halinde paketleyerek bu yönde önemli bir adım temsil etmektedir.

Ancak, bu kadar sofistike donanımı dağıtmak benzersiz bir zorluk teşkil etmektedir: bu karmaşık fiziksel topolojiyi yapay zeka geliştiricileri ve araştırmacıları için yönetilebilir, yüksek performanslı ve erişilebilir bir kaynağa nasıl dönüştürürsünüz? Rack-ölçekli donanımın hiyerarşik yapısı ile geleneksel iş yükü planlayıcılarının genellikle düz soyutlamaları arasındaki temel uyumsuzluk bir darboğaz oluşturur. İşte tam da burada, NVIDIA Mission Control gibi doğrulanmış bir yazılım yığını devreye girerek, ham hesaplama gücünü sorunsuz, topolojiye duyarlı bir yapay zeka fabrikasına dönüştürmek için aradaki boşluğu kapatır.

NVIDIA Blackwell ile Yeni Nesil Rack-Ölçekli Yapay Zeka Süper Bilgisayarları

En son teknoloji NVIDIA Blackwell mimarisiyle güçlendirilmiş NVIDIA GB200 NVL72 ve GB300 NVL72 sistemleri, sadece güçlü GPU koleksiyonları değil; yapay zekanın geleceği için tasarlanmış entegre, rack-ölçekli süper bilgisayarlardır. Her sistem, gelişmiş NVLink anahtarlarıyla birbirine bağlanan devasa bir GPU dokusu oluşturan 18 sıkıca bağlı işlem tepsisine sahiptir. Bu sistemler, rack içinde ultra yüksek hızlı iletişimi kolaylaştıran NVIDIA Multi-Node NVLink (MNNVL)'i destekler ve düğümler arasında paylaşılan GPU belleğini sağlayan IMEX özellikli işlem tepsilerini içerir. Bu mimari, büyük ölçekli yapay zeka modellerini eğitmek ve dağıtmak için eşsiz bir temel sağlayarak bilimsel keşiften kurumsal yapay zeka uygulamalarına kadar çeşitli alanlarda mümkün olanın sınırlarını zorlamaktadır.

Bu Blackwell tabanlı sistemlerin tasarım felsefesi, birbirine bağlı GPU'lar arasındaki veri akışını maksimize etmeye ve gecikmeyi minimize etmeye odaklanır. Bu, her bileşenin toplu performans için optimize edildiği yoğun bir şekilde entegre donanım yığını aracılığıyla başarılır ve yapay zeka iş yüklerinin iletişim darboğazlarına takılmadan verimli bir şekilde ölçeklenmesini sağlar.

Donanım Topolojisini Yapay Zeka Planlayıcı Soyutlamalarıyla Köprüleme

Yapay zeka mimarları ve HPC platform operatörleri için asıl zorluk, bu gelişmiş donanımı edinmek ve bir araya getirmek değil, onu 'güvenli, yüksek performanslı ve kullanımı kolay' bir kaynağa dönüştürmektir. Geleneksel planlayıcılar genellikle homojen, düz bir hesaplama kaynakları havuzu varsayımı altında çalışır. Bu paradigma, NVLink dokularının ve IMEX alanlarının hiyerarşik ve topolojiye duyarlı tasarımının performans için kritik olduğu rack-ölçekli süper bilgisayarlar için uygun değildir. Doğru entegrasyon olmadan, planlayıcılar görevleri istemeden suboptimal konumlara yerleştirebilir, bu da verimliliğin azalmasına ve öngörülemeyen performansa yol açabilir.

İşte NVIDIA Mission Control'ün doldurmak için tasarlandığı boşluk burasıdır. NVIDIA Grace Blackwell NVL72 sistemleri için sağlam bir rack-ölçekli kontrol düzlemi olarak Mission Control, temel NVIDIA NVLink ve NVIDIA IMEX alanları hakkında doğal bir anlayışa sahiptir. Bu derin farkındalık, Slurm ve NVIDIA Run:ai gibi popüler iş yükü yönetim platformlarıyla akıllıca entegre olmasına olanak tanır. Karmaşık donanım topolojilerini eyleme geçirilebilir planlama zekasına dönüştürerek, Mission Control Blackwell mimarisinin gelişmiş yeteneklerinin tam olarak kullanılmasını sağlayarak, sofistike bir donanım düzeneğini gerçekten operasyonel bir yapay zeka fabrikasına dönüştürür. Bu yetenek, yaklaşan NVIDIA Vera Rubin platformuna, NVIDIA Rubin NVL8 dahil olmak üzere genişleyecek ve yüksek performanslı yapay zeka altyapısına tutarlı bir yaklaşımı daha da pekiştirecektir.

Yapay Zeka İş Yükleri İçin NVLink Alanlarını ve Bölümlerini Çözme

Blackwell sistemleri için topolojiye duyarlı planlamanın merkezinde, sistem düzeyinde tanımlayıcılar aracılığıyla ortaya konan NVLink alanları ve bölümleri kavramları yer alır: küme UUID'si ve clique ID'si. Bu tanımlayıcılar çok önemlidir çünkü fiziksel NVLink dokusunun mantıksal bir haritasını sağlayarak sistem yazılımının ve planlayıcıların GPU'nun konumu ve bağlantısı hakkında akıl yürütmesine olanak tanır.

Eşleme basit ama güçlüdür:

Küme UUID'si, NVLink alanına karşılık gelir. Paylaşılan bir küme UUID'si, sistemlerin ve GPU'larının aynı genel NVLink alanına ait olduğunu ve ortak bir NVLink dokusuyla bağlandığını gösterir. Grace Blackwell NVL72 için bu UUID, tüm rack genelinde tutarlıdır ve fiziksel yakınlığı ve paylaşılan yüksek bant genişlikli bağlantıyı belirtir.
Clique ID'si, NVLink bölümüne karşılık gelir. Clique ID'si, daha büyük bir alan içinde bir NVLink Bölümünü paylaşan GPU gruplarını tanımlayan daha ince taneli bir ayrım sunar. Bir rack, mantıksal olarak birden çok NVLink bölümüne ayrıldığında, küme UUID'si aynı kalır, ancak clique ID'leri bu daha küçük, izole edilmiş yüksek bant genişliğine sahip grupları farklılaştırır.

Bu ayrım operasyonel açıdan hayati öneme sahiptir:

Küme UUID'si şu soruyu yanıtlar: Hangi GPU'lar fiziksel olarak bir rack'i paylaşıyor ve en yüksek hızlarda NVLink iletişimi yapabiliyor?
Clique ID'si ise şu soruyu yanıtlar: Hangi GPU'lar bir NVLink Bölümünü paylaşıyor ve belirli bir iş yükü veya hizmet katmanı için birlikte iletişim kurmayı amaçlıyor, böylece yüksek paralel görevler için optimal performans sağlıyor?

Bu tanımlayıcılar, Slurm, Kubernetes ve NVIDIA Run:ai gibi platformların iş yerleşimini, izolasyonunu ve performans garantilerini NVLink dokusunun gerçek yapısıyla hizalamasını sağlayan bağlantı dokusudur; üstelik temel donanım karmaşıklığını doğrudan son kullanıcılara ifşa etmeden. NVIDIA Mission Control, bu tanımlayıcıların merkezi bir görünümünü sağlayarak yönetimi kolaylaştırır.

Donanım Kavramı	Yazılım Tanımlayıcısı	Açıklama
NVLink Alanı	Küme UUID'si	Bir rack'i fiziksel olarak paylaşan, rack genelinde NVLink iletişimi yapabilen GPU'ları tanımlar.
NVLink Bölümü	Clique ID'si	Belirli bir iş yükü veya hizmet katmanı için bir NVLink alanı içinde birlikte iletişim kurması amaçlanan GPU'ları ayırt eder.

Slurm ile Topolojiye Duyarlı Yapay Zeka Planlaması

Blackwell tabanlı NVL72 sistemlerinde çalışan çok düğümlü iş yükleri için, yerleştirme, tahsis edilen GPU sayısının kendisi kadar kritik hale gelir. Örneğin, 16 GPU gerektiren bir yapay zeka eğitim işi, tek, yüksek bant genişliğine sahip bir NVLink dokusu içinde kısıtlanmaya kıyasla, birden çok daha az bağlı düğüme rastgele yayılırsa çok farklı bir performans sergileyecektir. İşte tam da burada Slurm'ün topoloji/blok eklentisi vazgeçilmezliğini kanıtlar ve Slurm'un düğümler arasındaki incelikli bağlantı farklılıklarını tanımasına olanak tanır.

Grace Blackwell NVL72 sistemlerinde, daha düşük gecikmeli bağlantılara sahip düğüm blokları doğrudan NVLink bölümlerine—özel, yüksek bant genişliğine sahip bir NVLink dokusuyla birleşmiş GPU gruplarına—karşılık gelir. Bu eklentiyi etkinleştirerek ve bu NVLink bölümlerini ayrı bloklar olarak ifşa ederek, Slurm üstün planlama kararları vermek için gerekli bağlamsal zekayı kazanır. Varsayılan olarak, işler akıllıca tek bir NVLink bölümüne (veya bloğuna) yerleştirilir, böylece kritik Multi-Node NVLink (MNNVL) performansı korunur. Gerekirse daha büyük işler birden çok bloğa yayılabilse de, bu yaklaşım performans ödünleşimlerini kazara olmaktan çok açık hale getirir.

Pratik terimlerle, bu esnek dağıtım stratejilerine olanak tanır:

Rack başına bir blok/düğüm grubu: Bu yapılandırma, Slurm Hizmet Kalitesi'nin (QoS) paylaşılan, rack genelindeki bölüme erişimi yönetmesini sağlar, konsolide kaynak yönetimi için idealdir.
Rack başına birden çok blok/düğüm grubu: Bu yaklaşım, daha küçük, izole edilmiş, yüksek bant genişliğine sahip GPU havuzları sunmak için mükemmeldir. Burada, her blok/düğüm grubu özel bir Slurm bölümüne eşlenir ve etkili bir şekilde ayrı bir hizmet katmanı sağlar. Kullanıcılar daha sonra belirli bir Slurm bölümünden yararlanabilir ve temel doku karmaşıklıklarını anlamaya gerek kalmadan işlerini otomatik olarak hedeflenen NVLink bölümüne yerleştirebilirler. Bu gelişmiş kaynak yönetimi, yapay zeka girişimlerini ölçeklendirmek isteyen kuruluşlar için çok önemlidir ve yapay zekayı herkes için ölçeklendirme genel hedefiyle uyumludur.

IMEX ve Mission Control ile MNNVL İş Yüklerini Optimize Etme

Çok Düğümlü NVIDIA CUDA iş yükleri, farklı işlem tepsilerindeki GPU'ların uyumlu, paylaşımlı bellek programlama modeline katılmasını sağlayarak maksimum performans elde etmek için sıklıkla MNNVL'ye güvenir. Bir uygulama geliştiricisinin bakış açısından, MNNVL'yi kullanmak aldatıcı derecede basit görünebilir, ancak temel orkestrasyon karmaşıktır.

İşte tam da burada NVIDIA Mission Control önemli bir rol oynar. MNNVL işlerini Slurm ile çalıştırırken kritik bileşenlerin mükemmel bir şekilde hizalanmasını sağlar. Özellikle Mission Control, paylaşılan GPU belleğini kolaylaştıran IMEX hizmetinin, MNNVL işine katılan tam işlem tepsisi kümesinde çalıştığını garanti eder. Ayrıca, bu yüksek bant genişliğine sahip MNNVL bağlantılarını kurmak ve sürdürmek için gerekli NVS anahtarlarının doğru şekilde yapılandırılmasını sağlar. Bu koordinasyon, rack genelinde tutarlı, öngörülebilir performans sağlamak için hayati öneme sahiptir. Mission Control'ün akıllı orkestrasyonu olmadan, MNNVL ve IMEX'in faydalarını ölçekte gerçekleştirmek ve yönetmek zor olurdu; bu da NVIDIA'nın gelişmiş GPU'lar ve ekosistemleri için eksiksiz çözümler sunma taahhüdünü vurgular.

Otomatik, Ölçeklenebilir Yapay Zeka Altyapısına Doğru

NVIDIA'nın Blackwell mimarisinin Mission Control ve Topograph gibi sofistike yazılım katmanlarıyla entegrasyonu, gerçekten otomatik ve ölçeklenebilir bir yapay zeka altyapısı oluşturmaya yönelik önemli bir adımı işaret ediyor. NVIDIA Topograph, karmaşık NVLink ve ara bağlantı hiyerarşisinin keşfini otomatikleştirerek bu hayati bilgiyi Slurm, Kubernetes (NVIDIA DRA ve ComputeDomains aracılığıyla) ve NVIDIA Run:ai gibi planlayıcılara sunar. Bu, topolojiyi yönetmenin manuel yükünü ortadan kaldırarak kuruluşların yapay zeka iş yüklerini benzeri görülmemiş bir verimlilikle dağıtmasına ve ölçeklendirmesine olanak tanır.

Bu entegre yaklaşım, planlayıcılara donanım topolojisi hakkında derinlemesine, gerçek zamanlı bir anlayış sağlayarak yapay zeka uygulamalarının optimal kaynaklar üzerinde çalışmasını, iletişim gecikmesini en aza indirmesini ve iş hacmini maksimize etmesini sağlar. Sonuç olarak, en zorlu yapay zeka eğitimi ve çıkarım görevlerini yerine getirebilecek, yüksek performanslı, dayanıklı ve yönetimi kolay bir yapay zeka fabrikası ortaya çıkar. Yapay zeka modelleri karmaşıklık ve boyut olarak büyümeye devam ettikçe, iş yüklerini rack-ölçekli süper bilgisayarlarda etkin bir şekilde yönetme ve planlama yeteneği, inovasyonu teşvik etmek ve rekabet avantajını sürdürmek için çok önemli olacaktır. Bu bütünsel strateji, kurumsal yapay zekanın geleceğini destekleyerek ham hesaplama gücünü akıllı, duyarlı ve son derece verimli yapay zeka süper bilgisayarına dönüştürür.

Orijinal kaynak

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Sık Sorulan Sorular

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Güncel Kalın

En son yapay zeka haberlerini e-postanıza alın.

Paylaş