Mga Supercomputer ng AI na Rack-Scale: Mula Hardware hanggang Topology-Aware Scheduling

Mabilis na nagbabago ang tanawin ng artificial intelligence, na nangangailangan ng lalong mas malakas at mahusay na computational infrastructure. Nasa unahan ng ebolusyong ito ang mga supercomputer na rack-scale, na idinisenyo upang pabilisin ang pinakakumplikadong workload ng AI at high-performance computing (HPC). Ang mga sistema ng NVIDIA GB200 NVL72 at GB300 NVL72, na binuo sa makabagong arkitektura ng Blackwell, ay kumakatawan sa isang malaking paglukso sa direksyong ito, na nagbabalot ng napakalaking fabric ng GPU at high-bandwidth networking sa magkakaugnay, makapangyarihang unit.
Gayunpaman, ang pag-deploy ng naturang sopistikadong hardware ay nagdudulot ng isang natatanging hamon: paano mo isasalin ang masalimuot na pisikal na topology na ito sa isang mapamahalaan, mahusay, at naa-access na resource para sa mga developer at mananaliksik ng AI? Ang pangunahing pagkakaiba sa pagitan ng hierarchical na kalikasan ng rack-scale hardware at ang madalas na flat abstractions ng tradisyonal na workload scheduler ay lumilikha ng isang bottleneck. Dito mismo pumapasok ang isang validated software stack tulad ng NVIDIA Mission Control, na nag-uugnay sa agwat upang baguhin ang raw computational power sa isang walang putol, topology-aware na AI factory.
Susunod na Henerasyong Rack-Scale AI Supercomputing gamit ang NVIDIA Blackwell
Ang mga sistema ng NVIDIA GB200 NVL72 at GB300 NVL72, na pinapagana ng makabagong arkitektura ng NVIDIA Blackwell, ay hindi lamang koleksyon ng mga makapangyarihang GPU; ang mga ito ay integrated, rack-scale na supercomputer na idinisenyo para sa kinabukasan ng AI. Ang bawat sistema ay nagtatampok ng 18 mahigpit na magkakaugnay na compute tray, na bumubuo ng isang napakalaking fabric ng GPU na konektado ng advanced na NVLink switches. Sinusuportahan ng mga sistemang ito ang NVIDIA Multi-Node NVLink (MNNVL), na nagpapadali sa ultra-high-speed communication sa loob ng rack, at may kasamang IMEX-capable compute trays na nagpapagana ng shared GPU memory sa mga node. Ang arkitekturang ito ay nagbibigay ng walang kapantay na pundasyon para sa pagsasanay at pag-deploy ng malalaking modelo ng AI, na nagtutulak sa mga hangganan ng kung ano ang posible sa mga larangan mula sa scientific discovery hanggang sa enterprise AI applications.
Ang pilosopiya ng disenyo sa likod ng mga sistemang batay sa Blackwell na ito ay nakatuon sa pag-maximize ng data throughput at pag-minimize ng latency sa pagitan ng mga magkakaugnay na gpus. Nakamit ito sa pamamagitan ng isang densely integrated hardware stack kung saan ang bawat bahagi ay na-optimize para sa kolektibong performance, tinitiyak na ang mga workload ng AI ay maaaring mag-scale nang mahusay nang hindi tumatama sa mga bottleneck ng komunikasyon.
Pag-uugnay ng Hardware Topology sa AI Scheduler Abstractions
Para sa mga arkitekto ng AI at operator ng platform ng HPC, ang tunay na hamon ay hindi lamang ang pagkuha at pag-assemble ng advanced na hardware na ito, kundi ang pagiging operational nito sa isang 'ligtas, mahusay, at madaling gamitin' na resource. Ang tradisyonal na scheduler ay madalas na gumagana sa ilalim ng pagpapalagay ng isang homogeneous, flat pool ng computational resources. Ang paradigm na ito ay hindi angkop para sa mga supercomputer na rack-scale, kung saan ang hierarchical at topology-sensitive na disenyo ng NVLink fabrics at IMEX domains ay kritikal para sa performance. Kung walang tamang integrasyon, maaaring hindi sinasadyang ilagay ng mga scheduler ang mga gawain sa mga suboptimal na lokasyon, na humahantong sa pinababang kahusayan at hindi mahulaan na performance.
Ito ang puwang na idinisenyo ng NVIDIA Mission Control upang punan. Bilang isang matatag na rack-scale control plane para sa mga sistema ng NVIDIA Grace Blackwell NVL72, ang Mission Control ay nagtataglay ng native na pag-unawa sa pinagbabatayan na mga domain ng NVIDIA NVLink at NVIDIA IMEX. Ang malalim na kamalayan na ito ay nagbibigay-daan dito na matalinong makipag-ugnayan sa mga sikat na platform ng pamamahala ng workload tulad ng Slurm at NVIDIA Run:ai. Sa pamamagitan ng pagsasalin ng kumplikadong hardware topologies sa actionable scheduling intelligence, tinitiyak ng Mission Control na ang mga advanced na kakayahan ng arkitektura ng Blackwell ay ganap na nagagamit, na binabago ang isang sopistikadong pagtitipon ng hardware sa isang tunay na operational na AI factory. Ang kakayahang ito ay lalawig sa paparating na platform ng NVIDIA Vera Rubin, kabilang ang NVIDIA Rubin NVL8, na lalong nagpapatibay ng isang pare-parehong diskarte sa high-performance AI infrastructure.
Pag-decode ng NVLink Domains at Partitions para sa mga Workload ng AI
Sa puso ng topology-aware scheduling para sa mga sistema ng Blackwell ay ang mga konsepto ng NVLink domains at partitions, na inilalantad sa pamamagitan ng mga identifier sa antas ng sistema: cluster UUID at clique ID. Ang mga identifier na ito ay mahalaga dahil nagbibigay sila ng lohikal na mapa ng pisikal na NVLink fabric, na nagpapahintulot sa system software at mga scheduler na mangatuwiran tungkol sa posisyon at konektibidad ng GPU.
Ang pagmamapa ay simple ngunit makapangyarihan:
- Cluster UUID ay tumutugma sa NVLink domain. Ang isang shared cluster UUID ay nagpapahiwatig na ang mga sistema—at ang kanilang mga GPU—ay nabibilang sa parehong pangkalahatang NVLink domain at konektado ng isang karaniwang NVLink fabric. Para sa Grace Blackwell NVL72, ang UUID na ito ay pare-pareho sa buong rack, na nagpapahiwatig ng pisikal na kalapitan at shared high-bandwidth connectivity.
- Clique ID ay tumutugma sa NVLink partition. Nag-aalok ang clique ID ng mas pinong pagkakaiba, na nagtutukoy ng mga grupo ng mga GPU na nagbabahagi ng isang NVLink Partition sa loob ng isang mas malaking domain. Kapag ang isang rack ay lohikal na na-segment sa maraming NVLink partitions, nananatiling pareho ang cluster UUID, ngunit ang mga clique ID ang nagpapakilala sa mas maliliit, nakahiwalay na high-bandwidth groups na ito.
Ang pagkakaiba na ito ay mahalaga mula sa operational standpoint:
- Sinasagot ng Cluster UUID ang tanong: Aling mga GPU ang pisikal na nagbabahagi ng isang rack at may kakayahang NVLink communication sa pinakamabilis na bilis?
- Sinasagot ng Clique ID ang tanong: Aling mga GPU ang nagbabahagi ng isang NVLink Partition at nilalayon na makipag-ugnayan nang magkasama para sa isang partikular na workload o service tier, na tinitiyak ang optimal na performance para sa mga highly parallel na gawain?
Ang mga identifier na ito ang connective tissue, na nagbibigay-daan sa mga platform tulad ng Slurm, Kubernetes, at NVIDIA Run:ai na i-align ang paglalagay ng trabaho, paghihiwalay, at mga garantiya sa performance sa aktwal na istruktura ng NVLink fabric, lahat nang hindi inilalantad ang pinagbabatayan na kumplikado ng hardware nang direkta sa mga end-user. Nagbibigay ang NVIDIA Mission Control ng isang sentralisadong view ng mga identifier na ito, na pinapasimple ang pamamahala.
| Konsepto ng Hardware | Identifier ng Software | Deskripsyon |
|---|---|---|
| NVLink Domain | Cluster UUID | Nagpapakilala sa mga GPU na pisikal na nagbabahagi ng isang rack, na may kakayahan para sa NVLink communication sa buong rack. |
| NVLink Partition | Clique ID | Nagpapakilala sa mga GPU na nilalayon na makipag-ugnayan nang magkasama sa loob ng isang NVLink domain para sa isang tiyak na workload o service tier. |
Topology-Aware AI Scheduling gamit ang Slurm
Para sa mga multi-node na workload na tumatakbo sa mga sistemang NVL72 na batay sa Blackwell, ang paglalagay ay nagiging kasing kritikal ng bilang ng mga GPU na inilaan. Ang isang AI training job na nangangailangan ng 16 GPU, halimbawa, ay gaganap nang ibang-iba kung ikakalat nang pabaya sa maraming hindi gaanong konektadong node kumpara sa pagiging nakakulong sa loob ng isang solong, high-bandwidth na NVLink fabric. Dito nagiging kailangan ang topology/block plugin ng Slurm, na nagpapahintulot sa Slurm na makilala ang mga pinong pagkakaiba sa konektibidad sa pagitan ng mga node.
Sa mga sistema ng Grace Blackwell NVL72, ang mga block ng node na may lower-latency connections ay direktang tumutugma sa NVLink partitions—mga grupo ng mga GPU na pinag-isa ng isang dedikado, high-bandwidth na NVLink fabric. Sa pamamagitan ng pagpapagana ng topology/block plugin at paglalantad ng mga NVLink partition na ito bilang magkahiwalay na block, nakukuha ng Slurm ang kontekstwal na intelligence na kinakailangan upang makagawa ng mahusay na desisyon sa pag-iskedyul. Bilang default, ang mga trabaho ay matalinong inilalagay sa loob ng isang solong NVLink partition (o block), kaya pinapanatili ang kritikal na performance ng Multi-Node NVLink (MNNVL). Bagaman ang mas malalaking trabaho ay maaari pa ring sumaklaw sa maraming block kung kinakailangan, ang diskarte na ito ay nagpapakita ng mga performance tradeoff, sa halip na aksidente.
Sa praktikal na termino, ito ay nagbibigay-daan para sa flexible na diskarte sa deployment:
- Isang block/node group bawat rack: Ang configuration na ito ay nagbibigay-daan sa Slurm Quality of Service (QoS) na pamahalaan ang pag-access sa shared, rack-wide na partition, na ideal para sa pinagsamang pamamahala ng resource.
- Maraming block/node group bawat rack: Ang diskarte na ito ay perpekto para sa pag-aalok ng mas maliliit, nakahiwalay, high-bandwidth na GPU pool. Dito, ang bawat block/node group ay nakamapa sa isang dedikadong Slurm partition, na epektibong nagbibigay ng isang natatanging service tier. Maaari pagkatapos gamitin ng mga user ang isang partikular na Slurm partition, awtomatikong inilalapag ang kanilang mga trabaho sa loob ng nilalayon na NVLink partition nang hindi kinakailangang maunawaan ang pinagbabatayan na pagiging kumplikado ng fabric. Ang advanced na pamamahala ng resource na ito ay mahalaga para sa mga organisasyon na naghahanap upang i-scale ang kanilang mga inisyatiba ng AI, na nakahanay sa mas malawak na layunin ng pag-scale ng AI para sa lahat.
Pag-o-optimize ng MNNVL Workloads gamit ang IMEX at Mission Control
Ang mga workload ng Multi-Node NVIDIA CUDA ay madalas na umaasa sa MNNVL upang makamit ang pinakamataas na performance, na nagpapahintulot sa mga GPU sa iba't ibang compute tray na lumahok sa isang magkakaugnay, shared-memory programming model. Mula sa pananaw ng isang application developer, ang paggamit ng MNNVL ay maaaring mukhang mapanlinlang na simple, ngunit ang pinagbabatayan na orkestrasyon ay kumplikado.
Dito gumaganap ng mahalagang papel ang NVIDIA Mission Control. Tinitiyak nito na ang mga kritikal na bahagi ay ganap na nakahanay kapag nagpapatakbo ng mga trabaho ng MNNVL gamit ang Slurm. Sa partikular, ginagarantiyahan ng Mission Control na ang serbisyo ng IMEX—na nagpapadali sa shared GPU memory—ay tumatakbo sa eksaktong hanay ng mga compute tray na lumalahok sa trabaho ng MNNVL. Tinitiyak din nito na ang kinakailangang NVSwitches ay tama na na-configure upang maitatag at mapanatili ang mga high-bandwidth na koneksyon ng MNNVL. Ang koordinasyon na ito ay mahalaga para sa pagbibigay ng pare-pareho, predictable na performance sa buong rack. Kung walang matalinong orkestrasyon ng Mission Control, ang mga benepisyo ng MNNVL at IMEX ay magiging mahirap matanto at pamahalaan sa scale, na nagpapahiwatig ng pangako ng NVIDIA sa paghahatid ng kumpletong solusyon para sa advanced na gpus at ang kanilang mga ecosystem.
Patungo sa Automated, Scalable AI Infrastructure
Ang integrasyon ng arkitektura ng Blackwell ng NVIDIA sa mga sopistikadong software layer tulad ng Mission Control at Topograph ay nagmamarka ng isang malaking hakbang patungo sa paglikha ng tunay na automated at scalable na AI infrastructure. Ang NVIDIA Topograph ay nag-a-automate ng pagtuklas ng kumplikadong NVLink at interconnect hierarchy, na inilalantad ang mahalagang impormasyon na ito sa mga scheduler tulad ng Slurm, Kubernetes (sa pamamagitan ng NVIDIA DRA at ComputeDomains), at NVIDIA Run:ai. Inaalis nito ang manu-manong overhead ng pamamahala ng topology, na nagpapahintulot sa mga organisasyon na mag-deploy at mag-scale ng mga workload ng AI nang may walang kapantay na kahusayan.
Sa pamamagitan ng pagbibigay sa mga scheduler ng malalim, real-time na pag-unawa sa hardware topology, tinitiyak ng integrated approach na ito na ang mga application ng AI ay tumatakbo sa optimal na resources, pinapaliit ang communication latency at pinapataas ang throughput. Ang resulta ay isang lubos na mahusay, matatag, at madaling pamahalaan na AI factory na may kakayahang hawakan ang pinakamahirap na AI training at inference tasks. Habang patuloy na lumalaki ang mga modelo ng AI sa kumplikado at laki, ang kakayahang epektibong pamahalaan at i-iskedyul ang mga workload sa mga supercomputer na rack-scale ay magiging pinakamahalaga para sa pagtulak ng inobasyon at pagpapanatili ng competitive advantage. Ang holistic na diskarte na ito ang sumusuporta sa hinaharap ng AI para sa negosyo, na binabago ang raw computational power sa matalino, tumutugon, at lubos na mahusay na AI supercomputing.
Orihinal na pinagmulan
https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/Mga Karaniwang Tanong
What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?
What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?
How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?
Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.
How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?
What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?
What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?
How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?
Manatiling Updated
Kunin ang pinakabagong AI news sa iyong inbox.
