Statīva mēroga AI superdatori: no aparatūras līdz topoloģiski apzinātai plānošanai

Mākslīgā intelekta vide strauji attīstās, pieprasot arvien jaudīgāku un efektīvāku skaitļošanas infrastruktūru. Šīs evolūcijas priekšplānā ir statīva mēroga superdatori, kas izstrādāti, lai paātrinātu vissarežģītākās AI un augstas veiktspējas skaitļošanas (HPC) darba slodzes. NVIDIA GB200 NVL72 un GB300 NVL72 sistēmas, kas veidotas uz inovatīvās Blackwell arhitektūras, ir nozīmīgs lēciens šajā virzienā, apvienojot milzīgas GPU struktūras un augstas caurlaidības tīklošanu vienotās, jaudīgās vienībās.
Tomēr šādas sarežģītas aparatūras izvietošana rada unikālu izaicinājumu: kā pārvērst šo sarežģīto fizisko topoloģiju par pārvaldāmu, veiktspējīgu un pieejamu resursu AI izstrādātājiem un pētniekiem? Būtiskā neatbilstība starp statīva mēroga aparatūras hierarhisko dabu un tradicionālo darba slodžu plānotāju bieži vien plakano abstrakciju rada šauru vietu. Tieši šeit iedarbojas validēta programmatūras pakotne, piemēram, NVIDIA Mission Control, savienojot plaisu, lai pārvērstu neapstrādātu skaitļošanas jaudu par vienotu, topoloģiski apzinātu AI rūpnīcu.
Nākamās paaudzes statīva mēroga AI superdatori ar NVIDIA Blackwell
NVIDIA GB200 NVL72 un GB300 NVL72 sistēmas, ko darbina vismodernākā NVIDIA Blackwell arhitektūra, nav tikai jaudīgu GPU kopums; tās ir integrēti, statīva mēroga superdatori, kas konstruēti AI nākotnei. Katra sistēma ietver 18 cieši savienotas skaitļošanas teknes, veidojot masīvu GPU struktūru, kas savienota ar uzlabotiem NVLink slēdžiem. Šīs sistēmas atbalsta NVIDIA Vairāku mezglu NVLink (MNNVL), atvieglojot īpaši ātru komunikāciju statīva iekšienē, un ietver IMEX spējīgas skaitļošanas teknes, kas nodrošina dalītu GPU atmiņu starp mezgliem. Šī arhitektūra nodrošina nepārspējamu pamatu liela mēroga AI modeļu apmācībai un izvietošanai, paplašinot iespēju robežas tādās jomās kā zinātniskā atklāšana un uzņēmuma AI lietojumprogrammas.
Blackwell sistēmu dizaina filozofijas centrā ir datu caurlaides maksimizēšana un latentuma samazināšana starp savstarpēji savienotām gpu. Tas tiek panākts, izmantojot blīvi integrētu aparatūras kopu, kurā katrs komponents ir optimizēts kopīgai veiktspējai, nodrošinot, ka AI darba slodzes var efektīvi mērogot bez komunikācijas vājajām vietām.
Aparatūras topoloģijas savienošana ar AI plānotāja abstrakcijām
AI arhitektiem un HPC platformu operatoriem patiesais izaicinājums nav tikai šīs uzlabotās aparatūras iegāde un montāža, bet gan tās operacionalizēšana par "drošu, veiktspējīgu un viegli lietojamu" resursu. Tradicionālie plānotāji bieži darbojas, pieņemot, ka ir homogēns, plakans skaitļošanas resursu kopums. Šī paradigma nav piemērota statīva mēroga superdatoriem, kur NVLink struktūru un IMEX domēnu hierarhiskais un topoloģiski jutīgais dizains ir kritisks veiktspējai. Bez pareizas integrācijas plānotāji var nejauši novietot uzdevumus neoptimālās vietās, kas noved pie samazinātas efektivitātes un neparedzamas veiktspējas.
Tieši šo plaisu ir paredzēts aizpildīt NVIDIA Mission Control. Kā robusta statīva mēroga vadības plakne NVIDIA Grace Blackwell NVL72 sistēmām, Mission Control piemīt dabisks izpratne par pamatā esošajiem NVIDIA NVLink un NVIDIA IMEX domēniem. Šī dziļā apzināšanās ļauj tai inteliģenti integrēties ar populārām darba slodžu pārvaldības platformām, piemēram, Slurm un NVIDIA Run:ai. Pārveidojot sarežģītās aparatūras topoloģijas par rīcības spējīgu plānošanas inteliģenci, Mission Control nodrošina, ka Blackwell arhitektūras uzlabotās iespējas tiek pilnībā izmantotas, pārveidojot sarežģītu aparatūras montāžu par patiesi funkcionējošu AI rūpnīcu. Šī spēja tiks paplašināta arī uz gaidāmo NVIDIA Vera Rubin platformu, tostarp NVIDIA Rubin NVL8, vēl vairāk nostiprinot konsekventu pieeju augstas veiktspējas AI infrastruktūrai.
NVLink domēnu un nodalījumu atšifrēšana AI darba slodzēm
Topoloģiski apzinātas plānošanas pamatā Blackwell sistēmām ir NVLink domēnu un nodalījumu jēdzieni, kas tiek atklāti, izmantojot sistēmas līmeņa identifikatorus: klastera UUID un klika ID. Šie identifikatori ir kritiski, jo tie nodrošina loģisku fiziskās NVLink struktūras karti, ļaujot sistēmas programmatūrai un plānotājiem analizēt GPU pozīciju un savienojamību.
Kartēšana ir vienkārša, bet jaudīga:
- Klastera UUID atbilst NVLink domēnam. Kopīgs klastera UUID nozīmē, ka sistēmas — un to GPU — pieder vienam dominējošam NVLink domēnam un ir savienotas ar kopīgu NVLink struktūru. Grace Blackwell NVL72 gadījumā šis UUID ir konsekvents visā statīvā, norādot fizisko tuvumu un kopīgu augstas caurlaidības savienojamību.
- Klika ID atbilst NVLink nodalījumam. Klika ID piedāvā smalkāku atšķirību, identificējot GPU grupas, kurām ir kopīgs NVLink nodalījums lielākā domēnā. Kad statīvs ir loģiski sadalīts vairākos NVLink nodalījumos, klastera UUID paliek nemainīgs, bet klika ID atšķir šīs mazākās, izolētās augstas caurlaidības grupas.
Šī atšķirība ir vitāli svarīga no darbības viedokļa:
- Klastera UUID atbild uz jautājumu: Kuri GPU fiziski dala statīvu un spēj veikt NVLink komunikāciju ar vislielāko ātrumu?
- Klika ID atbild: Kuri GPU dala NVLink nodalījumu un ir paredzēti kopīgai komunikācijai konkrētai darba slodzei vai pakalpojumu līmenim, nodrošinot optimālu veiktspēju ļoti paralēliem uzdevumiem?
Šie identifikatori ir saistvielas, kas ļauj tādām platformām kā Slurm, Kubernetes un NVIDIA Run:ai saskaņot darbu izvietošanu, izolāciju un veiktspējas garantijas ar NVLink struktūras faktisko struktūru, viss bez tiešas pamatā esošās aparatūras sarežģītības atklāšanas gala lietotājiem. NVIDIA Mission Control nodrošina centralizētu skatu uz šiem identifikatoriem, racionalizējot pārvaldību.
| Aparatūras koncepcija | Programmatūras identifikators | Apraksts |
|---|---|---|
| NVLink domēns | Klastera UUID | Identificē GPU, kas fiziski dala statīvu, spējīgi veikt NVLink komunikāciju visā statīvā. |
| NVLink nodalījums | Klika ID | Atšķir GPU, kas paredzēti kopīgai komunikācijai NVLink domēnā konkrētai darba slodzei vai pakalpojumu līmenim. |
Topoloģiski apzināta AI plānošana ar Slurm
Daudzmezglu darba slodzēm, kas darbojas ar Blackwell balstītām NVL72 sistēmām, izvietošana kļūst tikpat kritiska kā piešķirto GPU skaits. AI apmācības darbs, kam nepieciešami 16 GPU, piemēram, darbosies ievērojami atšķirīgi, ja tas tiks nejauši izplatīts pa vairākiem mazāk savienotiem mezgliem, salīdzinot ar izvietošanu vienā, augstas caurlaidības NVLink struktūrā. Tieši šeit Slurm topoloģijas/bloka spraudnis izrādās neaizstājams, ļaujot Slurm atpazīt niansētas savienojamības atšķirības starp mezgliem.
Grace Blackwell NVL72 sistēmās mezglu bloki ar zemākas latentuma savienojumiem tieši atbilst NVLink nodalījumiem — GPU grupām, kuras ir apvienotas ar īpašu, augstas caurlaidības NVLink struktūru. Ieslēdzot topoloģijas/bloka spraudni un atklājot šos NVLink nodalījumus kā atsevišķus blokus, Slurm iegūst kontekstuālo inteliģenci, kas nepieciešama labāku plānošanas lēmumu pieņemšanai. Pēc noklusējuma darbi tiek inteliģenti izvietoti vienā NVLink nodalījumā (vai blokā), tādējādi saglabājot kritisko Vairāku mezglu NVLink (MNNVL) veiktspēju. Lai gan lielāki darbi joprojām var aptvert vairākus blokus, ja nepieciešams, šī pieeja padara veiktspējas kompromisus skaidrus, nevis nejaušus.
Praktiski tas nodrošina elastīgas izvietošanas stratēģijas:
- Viens bloks/mezglu grupa uz statīvu: Šī konfigurācija ļauj Slurm pakalpojumu kvalitātei (QoS) pārvaldīt piekļuvi kopīgam, visa statīva nodalījumam, kas ir ideāli piemērots konsolidētai resursu pārvaldībai.
- Vairāki bloki/mezglu grupas uz statīvu: Šī pieeja ir ideāli piemērota mazāku, izolētu, augstas caurlaidības GPU kopumu piedāvāšanai. Šeit katrs bloks/mezglu grupa tiek kartēta uz īpašu Slurm nodalījumu, efektīvi nodrošinot atšķirīgu pakalpojumu līmeni. Lietotāji var pēc tam izmantot konkrētu Slurm nodalījumu, automātiski novietojot savus darbus paredzētajā NVLink nodalījumā, bez nepieciešamības izprast pamatā esošās struktūras sarežģītības. Šī uzlabotā resursu pārvaldība ir būtiska organizācijām, kas vēlas mērogot savas AI iniciatīvas, saskaņojoties ar plašāku mērķi — AI mērogošanu visiem.
MNNVL darba slodžu optimizēšana ar IMEX un Mission Control
Vairāku mezglu NVIDIA CUDA darba slodzes bieži paļaujas uz MNNVL, lai sasniegtu maksimālu veiktspēju, ļaujot GPU uz dažādām skaitļošanas tekņu sistēmām piedalīties vienotā, koplietojamās atmiņas programmēšanas modelī. No lietojumprogrammu izstrādātāja viedokļa MNNVL izmantošana var šķist mānīgi vienkārša, taču pamatā esošā orķestrācija ir sarežģīta.
Tieši šeit NVIDIA Mission Control spēlē galveno lomu. Tas nodrošina, ka kritiskie komponenti perfekti saskaņojas, palaižot MNNVL darbus ar Slurm. Konkrēti, Mission Control garantē, ka IMEX pakalpojums — kas atvieglo dalīto GPU atmiņu — darbojas precīzi uz to pašu skaitļošanas tekņu komplektu, kas piedalās MNNVL darbā. Tas arī nodrošina, ka nepieciešamie NVSwitch slēdži ir pareizi konfigurēti, lai izveidotu un uzturētu šos augstas caurlaidības MNNVL savienojumus. Šī koordinācija ir vitāli svarīga, lai nodrošinātu konsekventu, paredzamu veiktspēju visā statīvā. Bez Mission Control inteliģentās orķestrācijas MNNVL un IMEX priekšrocības būtu grūti realizēt un pārvaldīt lielā mērogā, izceļot NVIDIA apņemšanos nodrošināt pilnīgus risinājumus uzlabotiem gpus un to ekosistēmām.
Virzība uz automatizētu, mērogojamu AI infrastruktūru
NVIDIA Blackwell arhitektūras integrācija ar sarežģītiem programmatūras slāņiem, piemēram, Mission Control un Topograph, iezīmē nozīmīgu soli uz patiesi automatizētas un mērogojamas AI infrastruktūras izveidi. NVIDIA Topograph automatizē sarežģītās NVLink un starpsavienojumu hierarhijas atklāšanu, atklājot šo vitāli svarīgo informāciju plānotājiem, piemēram, Slurm, Kubernetes (izmantojot NVIDIA DRA un ComputeDomains) un NVIDIA Run:ai. Tas novērš manuālo režijas izmaksas, kas saistītas ar topoloģijas pārvaldību, ļaujot organizācijām izvietot un mērogot AI darba slodzes ar nepieredzētu efektivitāti.
Nodrošinot plānotājiem dziļu, reāllaika izpratni par aparatūras topoloģiju, šī integrētā pieeja nodrošina, ka AI lietojumprogrammas darbojas uz optimāliem resursiem, samazinot komunikācijas latentumu un maksimāli palielinot caurlaides spēju. Rezultātā tiek iegūta augstas veiktspējas, elastīga un viegli pārvaldāma AI rūpnīca, kas spēj apstrādāt visprasīgākos AI apmācības un secinājumu iegūšanas uzdevumus. Tā kā AI modeļi turpina pieaugt sarežģītībā un izmērā, spēja efektīvi pārvaldīt un plānot darba slodzes statīva mēroga superdatoros būs galvenais, lai virzītu inovācijas un saglabātu konkurētspējīgas priekšrocības. Šī holistiskā stratēģija ir uzņēmuma AI nākotnes pamatā, pārveidojot neapstrādātu skaitļošanas jaudu par inteliģentu, atsaucīgu un ļoti efektīvu AI superdatoru.
Sākotnējais avots
https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/Bieži uzdotie jautājumi
What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?
What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?
How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?
Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.
How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?
What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?
What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?
How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?
Esiet informēti
Saņemiet jaunākās AI ziņas savā e-pastā.
