ابرکامپیوترهای هوش مصنوعی در مقیاس رک: از سخت‌افزار تا زمان‌بندی آگاه به توپولوژی

Decorative image.

چشم‌انداز هوش مصنوعی به سرعت در حال تحول است و زیرساخت‌های محاسباتی قدرتمندتر و کارآمدتری را طلب می‌کند. در خط مقدم این تحول، ابرکامپیوترهای مقیاس رک قرار دارند که برای تسریع پیچیده‌ترین بارهای کاری هوش مصنوعی و محاسبات با عملکرد بالا (HPC) طراحی شده‌اند. سیستم‌های GB200 NVL72 و GB300 NVL72 انویدیا، که بر پایه معماری نوآورانه Blackwell ساخته شده‌اند، یک جهش قابل توجه در این مسیر را نشان می‌دهند و فابریک‌های عظیم GPU و شبکه‌های با پهنای باند بالا را در واحدهای یکپارچه و قدرتمند بسته‌بندی می‌کنند.

با این حال، استقرار چنین سخت‌افزار پیشرفته‌ای یک چالش منحصر به فرد را به همراه دارد: چگونه این توپولوژی فیزیکی پیچیده را به یک منبع قابل مدیریت، با عملکرد بالا و قابل دسترس برای توسعه‌دهندگان و محققان هوش مصنوعی تبدیل کنیم؟ عدم تطابق اساسی بین ماهیت سلسله‌مراتبی سخت‌افزار مقیاس رک و انتزاعات اغلب تخت زمان‌بندهای سنتی بارهای کاری، یک گلوگاه ایجاد می‌کند. این دقیقاً همان جایی است که یک پشته نرم‌افزاری معتبر مانند NVIDIA Mission Control وارد عمل می‌شود و این شکاف را پر می‌کند تا قدرت محاسباتی خام را به یک کارخانه هوش مصنوعی یکپارچه و آگاه به توپولوژی تبدیل کند.

ابرکامپیوترهای هوش مصنوعی مقیاس رک نسل بعدی با NVIDIA Blackwell

سیستم‌های NVIDIA GB200 NVL72 و GB300 NVL72، که توسط معماری پیشرفته NVIDIA Blackwell قدرت می‌گیرند، صرفاً مجموعه‌ای از GPUهای قدرتمند نیستند؛ آن‌ها ابرکامپیوترهای یکپارچه و مقیاس رک هستند که برای آینده هوش مصنوعی مهندسی شده‌اند. هر سیستم دارای ۱۸ سینی محاسباتی به شدت یکپارچه است که یک فابریک عظیم GPU را تشکیل می‌دهند که توسط سوئیچ‌های پیشرفته NVLink به هم متصل شده‌اند. این سیستم‌ها از NVIDIA Multi-Node NVLink (MNNVL) پشتیبانی می‌کنند، که ارتباط فوق‌العاده سریع را در داخل رک تسهیل می‌کند، و شامل سینی‌های محاسباتی مجهز به IMEX هستند که حافظه مشترک GPU را در سراسر گره‌ها فعال می‌کنند. این معماری یک پایه بی‌نظیر برای آموزش و استقرار مدل‌های بزرگ هوش مصنوعی فراهم می‌کند و مرزهای ممکن را در زمینه‌هایی از کشف علمی تا برنامه‌های کاربردی هوش مصنوعی سازمانی جابه‌جا می‌کند.

فلسفه طراحی پشت این سیستم‌های مبتنی بر Blackwell بر حداکثرسازی توان عملیاتی داده (data throughput) و به حداقل رساندن تأخیر بین GPUهای متصل تمرکز دارد. این امر از طریق یک پشته سخت‌افزاری با یکپارچگی بالا به دست می‌آید که در آن هر جزء برای عملکرد جمعی بهینه شده است، و تضمین می‌کند که بارهای کاری هوش مصنوعی می‌توانند بدون برخورد با تنگناهای ارتباطی به طور کارآمد مقیاس‌پذیر شوند.

پیوند توپولوژی سخت‌افزار با انتزاعات زمان‌بند هوش مصنوعی

برای معماران هوش مصنوعی و اپراتورهای پلتفرم HPC، چالش واقعی تنها به دست آوردن و مونتاژ این سخت‌افزار پیشرفته نیست، بلکه عملیاتی کردن آن به عنوان یک منبع 'ایمن، با عملکرد بالا و آسان برای استفاده' است. زمان‌بندهای سنتی اغلب با فرض یک مجموعه همگن و تخت از منابع محاسباتی کار می‌کنند. این الگو برای ابرکامپیوترهای مقیاس رک، جایی که طراحی سلسله‌مراتبی و حساس به توپولوژی فابریک‌های NVLink و دامنه‌های IMEX برای عملکرد حیاتی هستند، نامناسب است. بدون یکپارچه‌سازی صحیح، زمان‌بندها ممکن است ناخواسته وظایف را در مکان‌های نامطلوب قرار دهند، که منجر به کاهش کارایی و عملکرد غیرقابل پیش‌بینی می‌شود.

این همان شکافی است که NVIDIA Mission Control برای پر کردن آن مهندسی شده است. به عنوان یک صفحه کنترل قوی در مقیاس رک برای سیستم‌های NVIDIA Grace Blackwell NVL72، Mission Control درکی بومی از دامنه‌های زیرین NVIDIA NVLink و NVIDIA IMEX دارد. این آگاهی عمیق به آن اجازه می‌دهد تا به طور هوشمندانه با پلتفرم‌های محبوب مدیریت بار کاری مانند Slurm و NVIDIA Run:ai یکپارچه شود. با تبدیل توپولوژی‌های سخت‌افزاری پیچیده به اطلاعات زمان‌بندی عملی، Mission Control تضمین می‌کند که قابلیت‌های پیشرفته معماری Blackwell به طور کامل مورد استفاده قرار می‌گیرند و یک مجموعه سخت‌افزاری پیچیده را به یک کارخانه هوش مصنوعی واقعاً عملیاتی تبدیل می‌کند. این قابلیت به پلتفرم آینده NVIDIA Vera Rubin، از جمله NVIDIA Rubin NVL8، نیز گسترش خواهد یافت و رویکردی ثابت به زیرساخت هوش مصنوعی با عملکرد بالا را بیشتر تثبیت می‌کند.

رمزگشایی دامنه‌ها و پارتیشن‌های NVLink برای بارهای کاری هوش مصنوعی

در هسته زمان‌بندی آگاه به توپولوژی برای سیستم‌های Blackwell، مفاهیم دامنه‌ها و پارتیشن‌های NVLink قرار دارند که از طریق شناسه‌های سطح سیستم آشکار می‌شوند: cluster UUID و clique ID. این شناسه‌ها بسیار حیاتی هستند زیرا یک نقشه منطقی از فابریک فیزیکی NVLink را فراهم می‌کنند و به نرم‌افزار سیستم و زمان‌بندها اجازه می‌دهند تا درباره موقعیت و اتصال‌پذیری GPU استدلال کنند.

نگاشت به ظاهر ساده اما قدرتمند است:

Cluster UUID مربوط به دامنه NVLink است. یک Cluster UUID مشترک به این معنی است که سیستم‌ها – و GPUهای آن‌ها – به یک دامنه کلی NVLink تعلق دارند و توسط یک فابریک NVLink مشترک به هم متصل شده‌اند. برای Grace Blackwell NVL72، این UUID در سراسر رک ثابت است که نشان‌دهنده نزدیکی فیزیکی و اتصال با پهنای باند بالا مشترک است.
Clique ID مربوط به پارتیشن NVLink است. Clique ID تمایز دقیق‌تری را ارائه می‌دهد که گروه‌هایی از GPUها را شناسایی می‌کند که یک پارتیشن NVLink را در یک دامنه بزرگ‌تر به اشتراک می‌گذارند. هنگامی که یک رک به طور منطقی به چندین پارتیشن NVLink تقسیم می‌شود، Cluster UUID ثابت می‌ماند، اما Clique ID این گروه‌های کوچک‌تر، جداگانه و با پهنای باند بالا را متمایز می‌کند.

این تمایز از دیدگاه عملیاتی حیاتی است:

Cluster UUID به این سوال پاسخ می‌دهد: کدام GPUها به صورت فیزیکی یک رک را به اشتراک می‌گذارند و قادر به ارتباط NVLink با بالاترین سرعت‌ها هستند؟
Clique ID پاسخ می‌دهد: کدام GPUها یک پارتیشن NVLink را به اشتراک می‌گذارند و برای یک بار کاری یا لایه سرویس معین در نظر گرفته شده‌اند که با یکدیگر ارتباط برقرار کنند و عملکرد بهینه را برای وظایف بسیار موازی تضمین کنند؟

این شناسه‌ها بافت همبند هستند که به پلتفرم‌هایی مانند Slurm، Kubernetes و NVIDIA Run:ai امکان می‌دهند تا قرارگیری شغل، جداسازی و تضمین‌های عملکرد را با ساختار واقعی فابریک NVLink هماهنگ کنند، همه اینها بدون اینکه پیچیدگی سخت‌افزاری زیرین را مستقیماً به کاربران نهایی آشکار کنند. NVIDIA Mission Control یک نمای متمرکز از این شناسه‌ها را فراهم می‌کند و مدیریت را ساده‌تر می‌سازد.

مفهوم سخت‌افزاری	شناسه نرم‌افزاری	توضیحات
دامنه NVLink	Cluster UUID	GPUهایی را شناسایی می‌کند که به صورت فیزیکی یک رک را به اشتراک می‌گذارند و قادر به ارتباط NVLink در سراسر رک هستند.
پارتیشن NVLink	Clique ID	GPUهایی را متمایز می‌کند که برای یک بار کاری یا لایه سرویس خاص در داخل یک دامنه NVLink قصد ارتباط با یکدیگر را دارند.

زمان‌بندی هوش مصنوعی آگاه به توپولوژی با Slurm

برای بارهای کاری چند گره‌ای که بر روی سیستم‌های NVL72 مبتنی بر Blackwell اجرا می‌شوند، قرارگیری به اندازه تعداد صرف GPUهای تخصیص یافته حیاتی می‌شود. به عنوان مثال، یک کار آموزش هوش مصنوعی که به ۱۶ GPU نیاز دارد، در صورتی که به صورت نامنظم در چندین گره با اتصال کمتر پراکنده شود، عملکرد کاملاً متفاوتی نسبت به حالتی خواهد داشت که در یک فابریک NVLink با پهنای باند بالا محدود شود. اینجاست که پلاگین topology/block Slurm حیاتی می‌شود و به Slurm اجازه می‌دهد تا تفاوت‌های ظریف اتصال بین گره‌ها را تشخیص دهد.

در سیستم‌های Grace Blackwell NVL72، بلوک‌هایی از گره‌ها با اتصالات با تأخیر کمتر مستقیماً با پارتیشن‌های NVLink مطابقت دارند—گروه‌هایی از GPUها که توسط یک فابریک NVLink اختصاصی و با پهنای باند بالا به هم متصل شده‌اند. با فعال‌سازی پلاگین topology/block و نمایش این پارتیشن‌های NVLink به عنوان بلوک‌های متمایز، Slurm هوش متنی لازم را برای اتخاذ تصمیمات زمان‌بندی برتر به دست می‌آورد. به طور پیش‌فرض، کارها به صورت هوشمندانه در یک پارتیشن (یا بلوک) NVLink واحد قرار می‌گیرند، بنابراین عملکرد حیاتی Multi-Node NVLink (MNNVL) حفظ می‌شود. در حالی که کارهای بزرگ‌تر در صورت لزوم می‌توانند چندین بلوک را پوشش دهند، این رویکرد مصالحه‌های عملکردی را به جای تصادفی بودن، صریح می‌کند.

در عمل، این امکان استراتژی‌های استقرار انعطاف‌پذیری را فراهم می‌کند:

یک بلوک/گروه گره در هر رک: این پیکربندی امکان مدیریت دسترسی به پارتیشن مشترک و سراسری رک را از طریق Slurm Quality of Service (QoS) فراهم می‌کند که برای مدیریت منابع یکپارچه ایده‌آل است.
چندین بلوک/گروه گره در هر رک: این رویکرد برای ارائه مجموعه‌های کوچکتر، ایزوله و با پهنای باند بالای GPU عالی است. در اینجا، هر بلوک/گروه گره به یک پارتیشن Slurm اختصاصی نگاشت می‌شود و به طور مؤثر یک لایه سرویس متمایز را فراهم می‌کند. سپس کاربران می‌توانند از یک پارتیشن Slurm خاص بهره ببرند و به طور خودکار کارهای خود را در پارتیشن NVLink مورد نظر قرار دهند بدون نیاز به درک پیچیدگی‌های فابریک زیرین. این مدیریت منابع پیشرفته برای سازمان‌هایی که به دنبال مقیاس‌بندی ابتکارات هوش مصنوعی خود هستند، حیاتی است و با هدف گسترده‌تر مقیاس‌گذاری هوش مصنوعی برای همه همسو می‌شود.

بهینه‌سازی بارهای کاری MNNVL با IMEX و Mission Control

بارهای کاری Multi-Node NVIDIA CUDA اغلب برای دستیابی به حداکثر عملکرد به MNNVL متکی هستند، که GPUها را در سینی‌های محاسباتی مختلف قادر می‌سازد تا در یک مدل برنامه‌نویسی حافظه مشترک و منسجم شرکت کنند. از دیدگاه توسعه‌دهنده برنامه، استفاده از MNNVL می‌تواند به ظاهر ساده باشد، اما هماهنگی زیربنایی پیچیده است.

اینجاست که NVIDIA Mission Control نقشی محوری ایفا می‌کند. این سیستم تضمین می‌کند که اجزای حیاتی هنگام اجرای کارهای MNNVL با Slurm به طور کامل همسو شوند. به طور خاص، Mission Control تضمین می‌کند که سرویس IMEX – که حافظه مشترک GPU را تسهیل می‌کند – بر روی مجموعه دقیق سینی‌های محاسباتی که در کار MNNVL شرکت می‌کنند، اجرا شود. همچنین تضمین می‌کند که NVSwitchهای لازم به درستی پیکربندی شده‌اند تا این اتصالات MNNVL با پهنای باند بالا را برقرار و حفظ کنند. این هماهنگی برای ارائه عملکرد ثابت و قابل پیش‌بینی در سراسر رک حیاتی است. بدون هماهنگی هوشمندانه Mission Control، تحقق و مدیریت مزایای MNNVL و IMEX در مقیاس بزرگ چالش‌برانگیز خواهد بود، که تعهد NVIDIA به ارائه راه‌حل‌های کامل برای GPUهای پیشرفته و اکوسیستم‌های آن‌ها را برجسته می‌سازد.

به سوی زیرساخت هوش مصنوعی خودکار و مقیاس‌پذیر

یکپارچه‌سازی معماری Blackwell انویدیا با لایه‌های نرم‌افزاری پیچیده‌ای مانند Mission Control و Topograph، گامی مهم به سوی ایجاد زیرساخت هوش مصنوعی واقعاً خودکار و مقیاس‌پذیر است. NVIDIA Topograph کشف سلسله‌مراتب پیچیده NVLink و اتصالات داخلی را خودکار می‌کند و این اطلاعات حیاتی را در اختیار زمان‌بندهایی مانند Slurm، Kubernetes (از طریق NVIDIA DRA و ComputeDomains) و NVIDIA Run:ai قرار می‌دهد. این امر سربار دستی مدیریت توپولوژی را از بین می‌برد و به سازمان‌ها اجازه می‌دهد تا بارهای کاری هوش مصنوعی را با کارایی بی‌سابقه‌ای مستقر و مقیاس‌بندی کنند.

با ارائه درکی عمیق و در زمان واقعی از توپولوژی سخت‌افزار به زمان‌بندها، این رویکرد یکپارچه تضمین می‌کند که برنامه‌های هوش مصنوعی بر روی منابع بهینه اجرا می‌شوند، تأخیر ارتباطی را به حداقل می‌رساند و توان عملیاتی را به حداکثر می‌رساند. نتیجه یک کارخانه هوش مصنوعی با عملکرد بالا، مقاوم و آسان برای مدیریت است که قادر به انجام پیچیده‌ترین وظایف آموزش و استنتاج هوش مصنوعی است. همانطور که مدل‌های هوش مصنوعی در پیچیدگی و اندازه رشد می‌کنند، توانایی مدیریت و زمان‌بندی مؤثر بارهای کاری بر روی ابرکامپیوترهای مقیاس رک برای پیشبرد نوآوری و حفظ مزیت رقابتی بسیار حیاتی خواهد بود. این استراتژی جامع، آینده هوش مصنوعی سازمانی را پشتیبانی می‌کند و قدرت محاسباتی خام را به ابرکامپیوترهای هوش مصنوعی هوشمند، واکنش‌گرا و بسیار کارآمد تبدیل می‌کند.

منبع اصلی

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

سوالات متداول

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

به‌روز بمانید

آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.

اشتراک‌گذاری