title: "Superkompjuterët AI në Shkallë Rafti: Nga Hardueri te Planifikimi i Ndërgjegjshëm ndaj Topologjisë" slug: "running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling" date: "2026-04-08" lang: "sq" source: "https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/" category: "AI për Ndërmarrje" keywords:

ngarkesa pune AI
superkompjuterë në shkallë rafti
NVIDIA Blackwell
NVLink
planifikim i ndërgjegjshëm ndaj topologjisë
Slurm
NVIDIA Mission Control
Multi-Node NVLink (MNNVL)
IMEX
arkitekturat e GPU-ve
menaxhimi i burimeve
AI për ndërmarrje meta_description: "Zbuloni se si superkompjuterët NVIDIA Blackwell, të kombinuar me Mission Control, mundësojnë planifikimin e ndërgjegjshëm ndaj topologjisë për ngarkesat e punës të AI, duke optimizuar performancën nëpër domenet NVLink dhe IMEX." image: "/images/articles/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling.png" image_alt: "Rafti NVIDIA Grace Blackwell NVL72 që ilustron domenet NVLink dhe IMEX për superkompjuterët AI në shkallë rafti" quality_score: 94 content_score: 93 seo_score: 95 companies:
NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
question: "Çfarë janë sistemet NVIDIA GB200 dhe GB300 NVL72, dhe çfarë roli luan arkitektura Blackwell?" answer: "Sistemet NVIDIA GB200 dhe GB300 NVL72 përfaqësojnë një gjeneratë të re superkompjuterësh në shkallë rafti, të inxhinieruar posaçërisht për ngarkesa pune të kërkuara të AI dhe HPC. Këto sisteme shfrytëzojnë arkitekturën novatore NVIDIA Blackwell, e cila integron arkitekturat masive të GPU-ve me rrjetëzim me gjerësi bande të lartë në një njësi të vetme, të lidhur fort. Arkitektura Blackwell është projektuar për të ofruar performancë dhe efikasitet të paprecedentë për trajnimin dhe inferencën, duke shfaqur çelësa të avancuar NVLink, Multi-Node NVLink (MNNVL) për komunikim ndër-GPU, dhe sirtarë llogaritës të aftë për IMEX që lehtësojnë kujtesën e përbashkët të GPU-ve nëpër nyje të shumta brenda raftit. Ky dizajn i integruar synon të kapërcejë kufizimet e vendosjeve tradicionale të GPU-ve të lidhura me servera, duke ofruar një platformë të përshtatshme, të shkallëzueshme për modelet komplekse të AI."
question: "Cila është sfida kryesore në planifikimin e ngarkesave të punës të AI në këta superkompjuterë të avancuar në shkallë rafti?" answer: "Sfida thelbësore qëndron në mospërputhjen e rëndësishme midis topologjisë fizike të ndërlikuar, hierarkike të superkompjuterëve në shkallë rafti dhe abstragimeve shpesh të thjeshta të prezantuara nga planifikuesit konvencionalë të ngarkesave të punës. Ndërsa sistemet si NVIDIA GB200/GB300 NVL72 krenohen me arkitektura të sofistikuara NVLink dhe domenë IMEX, planifikuesit zakonisht perceptojnë një grup të sheshtë GPU-sh dhe nyjesh. Kjo mund të çojë në alokim joefikas të burimeve, performancë nën-optimale për shkak të lokalizimit të dobët të të dhënave ose ngushticave të komunikimit, dhe rritje të kompleksitetit operacional për operatorët e platformës. Pa planifikim të ndërgjegjshëm ndaj topologjisë, avantazhet thelbësore të integrimit në shkallë rafti, si ndërlidhjet me gjerësi bande të lartë, nuk mund të shfrytëzohen plotësisht për ngarkesat e punës të AI."
question: "Si e adreson NVIDIA Mission Control kompleksitetin operacional të planifikimit të AI në shkallë rafti?" answer: "NVIDIA Mission Control vepron si një plan kontrolli thelbësor që urëzon hendekun midis topologjisë komplekse të harduerit të sistemeve NVIDIA Grace Blackwell NVL72 dhe nevojave të platformave të menaxhimit të ngarkesave të punës si Slurm dhe NVIDIA Run:ai. Ai ofron një kuptim nativ, të thellë të domenëve NVLink dhe IMEX, duke përkthyer marrëdhëniet fizike të harduerit në identifikues logjikë që planifikuesit mund t'i interpretojnë. Duke centralizuar pamjen e UUID-ve të klasterit dhe ID-ve të klikës, Mission Control mundëson vendosjen e saktë të punëve, të ndërgjegjshme ndaj topologjisë, siguron izolim të duhur të ngarkesave të punës dhe garanton performancë të qëndrueshme duke rreshtuar llogaritjet me arkitekturën optimale themelore të harduerit. Kjo transformon në mënyrë efektive infrastrukturën e papërpunuar në një fabrikë AI efikase dhe të menaxhueshme."
question: "Shpjegoni konceptet e UUID-së së Klasterit dhe ID-së së Klikës në kontekstin e topologjisë NVLink dhe rëndësinë e tyre operacionale." answer: "UUID-ja e Klasterit dhe ID-ja e Klikës janë identifikues të nivelit të sistemit që kodifikojnë pozicionin e një GPU-je brenda arkitekturës NVLink, duke e bërë topologjinë komplekse të kuptueshme për softuerin dhe planifikuesit e sistemit. UUID-ja e Klasterit korrespondon me domenin NVLink, duke treguar se sistemet dhe GPU-të e tyre i përkasin të njëjtit raft fizik dhe ndajnë një arkitekturë të përbashkët NVLink. Për Grace Blackwell NVL72, kjo UUID është konsistente në të gjithë raftin. ID-ja e Klikës ofron një dallim më të hollësishëm, duke korresponduar me një Ndarje NVLink. GPU-të që ndajnë një ID Klika i përkasin të njëjtës ndarje logjike brenda atij domeni. Operacionalisht, UUID-ja e Klasterit i përgjigjet pyetjes se cilat GPU-të ndajnë fizikisht një raft dhe mund të komunikojnë nëpërmjet NVLink, ndërsa ID-ja e Klikës i përgjigjet pyetjes se cilat GPU-të ndajnë një Ndarje NVLink dhe janë të destinuara të komunikojnë së bashku për një ngarkesë pune specifike, duke mundësuar alokim më të hollësishëm të burimeve dhe optimizim të performancës."
question: "Si e përmirëson shtojca topology/block e Slurm vendosjen e ngarkesave të punës të AI në sistemet NVL72?" answer: "Shtojca topology/block e Slurm është thelbësore për vendosjen efikase të ngarkesave të punës të AI në sistemet NVIDIA NVL72 duke e bërë Slurm-in të ndërgjegjshëm se jo të gjitha nyjet (ose GPU-të) janë të barabarta në aspektin e lidhjes dhe performancës. Në sistemet Grace Blackwell NVL72, blloqet e nyjeve me lidhje me latencë më të ulët hartëzohen drejtpërdrejt në ndarjet NVLink, të cilat janë grupe GPU-sh që ndajnë një arkitekturë NVLink me gjerësi bande të lartë. Duke aktivizuar këtë shtojcë dhe duke ekspozuar ndarjet NVLink si 'blloqe', Slurm fiton kontekstin e nevojshëm për të marrë vendime inteligjente të vendosjes. Kjo siguron që punët me shumë GPU alokohen preferencialisht brenda një ndarjeje të vetme NVLink për të ruajtur performancën MNNVL, duke parandaluar degradimin e performancës që mund të ndodhë nëse punët shpërndaheshin pa dallim në segmente të ndryshme, më pak të lidhura të superkompjuterit. Kjo lejon shfrytëzimin e optimizuar të burimeve dhe performancë të parashikueshme për detyrat kërkuese të AI."
question: "Çfarë është Multi-Node NVLink (MNNVL), dhe si e lehtëson IMEX atë për kujtesën e përbashkët të GPU-ve?" answer: "Multi-Node NVLink (MNNVL) është një teknologji kyçe që lejon GPU-të nëpër nyje të ndryshme llogaritëse brenda një sistemi në shkallë rafti të komunikojnë drejtpërdrejt me gjerësi bande të lartë dhe latencë të ulët, thelbësore për shkallëzimin e modeleve të mëdha të AI. MNNVL mundëson një model programimi me memorie të përbashkët nëpër këto GPU të shpërndara, duke u shfaqur aplikacioneve si një arkitekturë e vetme, masive e GPU-ve. IMEX (Infiniband Memory Expansion) është teknologjia themelore që lehtëson MNNVL. Sirtarët llogaritës të aftë për IMEX janë projektuar për të mundësuar kujtesën e përbashkët të GPU-ve nëpër nyje duke shfrytëzuar rrjetëzimin e avancuar të NVIDIA-s. Ndërsa MNNVL thjeshton modelin e programimit për zhvilluesit, Mission Control luan një rol thelbësor pas skenave për të siguruar që shërbimet IMEX të ofrohen saktë dhe të sinkronizohen me punët MNNVL, duke garantuar që përfitimet e kujtesës së përbashkët të GPU-ve të realizohen plotësisht pa ekspozuar kompleksitetet themelore tek përdoruesi fundor."
question: "Cilat janë përfitimet kryesore të zbatimit të planifikimit të ndërgjegjshëm ndaj topologjisë për ngarkesat e punës të AI në superkompjuterët në shkallë rafti?" answer: "Zbatimi i planifikimit të ndërgjegjshëm ndaj topologjisë ofron disa përfitime të rëndësishme për ngarkesat e punës të AI në superkompjuterët në shkallë rafti. Së pari, ai siguron performancë optimale duke vendosur me zgjuarsi punët në GPU-të që kanë lidhjet me gjerësi bande më të lartë dhe latencë më të ulët, duke minimizuar shpenzimet e përgjithshme të komunikimit të qenësishme në trajnimin e shpërndarë të AI. Së dyti, ai rrit shfrytëzimin e burimeve duke parandaluar shpërndarjen joefikase të punëve nëpër segmente të ndryshme të harduerit, duke çuar në performancë më të parashikueshme dhe xhiros më të mirë. Së treti, ai thjeshton menaxhimin për operatorët e platformës duke abstraktuar kompleksitetet e harduerit, duke ofruar kufij të qartë izolimi midis ngarkesave të punës, duke përmirësuar stabilitetin dhe sigurinë e sistemit. Në fund të fundit, planifikimi i ndërgjegjshëm ndaj topologjisë transformon harduerin kompleks në një 'fabrikë AI' shumë efikase, të shkallëzueshme dhe të menaxhueshme, duke përshpejtuar kërkimin dhe zhvillimin ndërsa redukton barrën operacionale."
question: "Si kontribuon NVIDIA Topograph në zbulimin e automatizuar dhe planifikimin e topologjive të superkompjuterëve?" answer: "NVIDIA Topograph është një komponent kritik që automatizon zbulimin e hierarkisë së ndërlikuar të NVLink dhe ndërlidhjes brenda superkompjuterëve në shkallë rafti. Ky zbulim i automatizuar është thelbësor sepse konfigurimi dhe mirëmbajtja manuale e informacionit të detajuar të topologjisë për sistemet në shkallë të gjerë do të ishte e prirur ndaj gabimeve dhe shumë kohë-konsumuese. Topograph ekspozon këtë informacion të detajuar të arkitekturës tek planifikuesit e ngarkesave të punës, duke përfshirë Slurm dhe Kubernetes (nëpërmjet NVIDIA DRA dhe ComputeDomains), si dhe NVIDIA Run:ai. Duke u ofruar planifikuesve një pamje të saktë dhe në kohë reale të topologjisë së harduerit, Topograph i mundëson atyre të marrin vendime inteligjente, të automatizuara të vendosjes. Kjo siguron që ngarkesat e punës të AI të planifikohen në një mënyrë të ndërgjegjshme ndaj topologjisë që në fillim, duke optimizuar performancën, alokimin e burimeve dhe efikasitetin e përgjithshëm të sistemit, gjë që është thelbësore për ndërtimin dhe operimin e fabrikave të shkallëzueshme të AI."

Superkompjuterët AI në Shkallë Rafti: Nga Hardueri te Planifikimi i Ndërgjegjshëm ndaj Topologjisë

Imazh dekorativ.

Peizazhi i inteligjencës artificiale po evoluon me shpejtësi, duke kërkuar infrastrukturë llogaritëse gjithnjë e më të fuqishme dhe efikase. Në ballë të këtij evolucioni janë superkompjuterët në shkallë rafti, të projektuar për të përshpejtuar ngarkesat e punës më komplekse të AI dhe llogaritjes me performancë të lartë (HPC). Sistemet NVIDIA GB200 NVL72 dhe GB300 NVL72, të ndërtuara mbi arkitekturën inovative Blackwell, përfaqësojnë një hap të rëndësishëm në këtë drejtim, duke paketuar arkitektura masive të GPU-ve dhe rrjetëzim me gjerësi bande të lartë në njësi kohezive dhe të fuqishme.

Megjithatë, vendosja e një hardueri kaq të sofistikuar paraqet një sfidë unike: si e përkthen këtë topologji fizike të ndërlikuar në një burim të menaxhueshëm, performues dhe të aksesueshëm për zhvilluesit dhe studiuesit e AI? Mospërputhja thelbësore midis natyrës hierarkike të harduerit në shkallë rafti dhe abstragimeve shpesh të sheshta të planifikuesve tradicionalë të ngarkesave të punës krijon një ngushticë. Pikërisht këtu ndërhyn një shtresë softuerike e vlefshme si NVIDIA Mission Control, duke urëzuar hendekun për të transformuar fuqinë llogaritëse të papërpunuar në një fabrikë AI të përshtatshme, të ndërgjegjshme ndaj topologjisë.

Superkompjuterë AI të Gjeneratës së Re në Shkallë Rafti me NVIDIA Blackwell

Sistemet NVIDIA GB200 NVL72 dhe GB300 NVL72, të mundësuar nga arkitektura e fundit NVIDIA Blackwell, nuk janë thjesht koleksione GPU-sh të fuqishme; ato janë superkompjuterë të integruar, në shkallë rafti të inxhinieruar për të ardhmen e AI. Çdo sistem përmban 18 sirtarë llogaritës të lidhur fort, duke formuar një arkitekturë masive të GPU-ve të lidhur nga çelësa të avancuar NVLink. Këto sisteme mbështesin NVIDIA Multi-Node NVLink (MNNVL), duke lehtësuar komunikimin me shpejtësi ultra të lartë brenda raftit, dhe përfshijnë sirtarë llogaritës të aftë për IMEX që mundësojnë kujtesën e përbashkët të GPU-ve nëpër nyje. Kjo arkitekturë ofron një themel të pakrahasueshëm për trajnimin dhe vendosjen e modeleve të mëdha të AI, duke shtyrë kufijtë e asaj që është e mundur në fusha që variojnë nga zbulimet shkencore te aplikacionet e AI për ndërmarrje.

Filozofia e projektimit pas këtyre sistemeve të bazuar në Blackwell fokusohet në maksimizimin e xhiros së të dhënave dhe minimizimin e latencës midis GPU-ve të ndërlidhura. Kjo arrihet nëpërmjet një shtrese harduerike të integruar dendur ku çdo komponent është optimizuar për performancën kolektive, duke siguruar që ngarkesat e punës të AI mund të shkallëzohen në mënyrë efikase pa hasur në ngushtica komunikimi.

Lidhja e Topologjisë së Harduerit me Abstragimet e Planifikuesit të AI

Për arkitektët e AI dhe operatorët e platformës HPC, sfida reale nuk është vetëm blerja dhe montimi i këtij hardueri të avancuar, por më tepër funksionalizimi i tij në një burim 'të sigurt, performant dhe të lehtë për t'u përdorur'. Planifikuesit tradicionalë shpesh operojnë nën supozimin e një grupi homogjen, të sheshtë burimesh llogaritëse. Kjo paradigmë është e papërshtatshme për superkompjuterët në shkallë rafti, ku dizajni hierarkik dhe i ndjeshëm ndaj topologjisë i arkitekturave NVLink dhe domenëve IMEX janë kritikë për performancën. Pa integrim të duhur, planifikuesit mund të vendosin pa dashje detyrat në vendndodhje jooptimale, duke çuar në efikasitet të reduktuar dhe performancë të paparashikueshme.

Kjo është boshllëku që NVIDIA Mission Control është projektuar të plotësojë. Si një plan kontrolli i fuqishëm në shkallë rafti për sistemet NVIDIA Grace Blackwell NVL72, Mission Control posedon një kuptim nativ të domenëve themelorë NVIDIA NVLink dhe NVIDIA IMEX. Ky ndërgjegjësim i thellë i lejon atij të integrohet në mënyrë inteligjente me platformat popullore të menaxhimit të ngarkesave të punës si Slurm dhe NVIDIA Run:ai. Duke përkthyer topologjitë komplekse të harduerit në inteligjencë planifikimi të zbatueshme, Mission Control siguron që aftësitë e avancuara të arkitekturës Blackwell të shfrytëzohen plotësisht, duke transformuar një montim të sofistikuar harduerik në një fabrikë AI vërtet funksionale. Kjo aftësi do të shtrihet në platformën e ardhshme NVIDIA Vera Rubin, duke përfshirë NVIDIA Rubin NVL8, duke çimentuar më tej një qasje konsistente ndaj infrastrukturës së AI me performancë të lartë.

Dekodimi i Domenëve dhe Ndarjeve NVLink për Ngarkesat e Punës të AI

Në thelb të planifikimit të ndërgjegjshëm ndaj topologjisë për sistemet Blackwell janë konceptet e domenëve dhe ndarjeve NVLink, të cilat ekspozohen nëpërmjet identifikuesve të nivelit të sistemit: UUID i klasterit dhe ID e klikës. Këta identifikues janë thelbësorë sepse ato ofrojnë një hartë logjike të arkitekturës fizike NVLink, duke lejuar softuerin dhe planifikuesit e sistemit të arsyetojnë rreth pozicionit dhe lidhjes së GPU-së.

Hartëzimi është i thjeshtë por i fuqishëm:

UUID i klasterit korrespondon me domenin NVLink. Një UUID i klasterit i përbashkët tregon se sistemet—dhe GPU-të e tyre—i përkasin të njëjtit domen NVLink të përgjithshëm dhe janë të lidhur nga një arkitekturë e përbashkët NVLink. Për Grace Blackwell NVL72, kjo UUID është konsistente në të gjithë raftin, duke treguar afërsinë fizike dhe lidhjen e përbashkët me gjerësi bande të lartë.
ID e klikës korrespondon me ndarjen NVLink. ID e klikës ofron një dallim më të hollësishëm, duke identifikuar grupe GPU-sh që ndajnë një Ndarje NVLink brenda një domeni më të madh. Kur një raft ndahet logjikisht në ndarje të shumta NVLink, UUID i klasterit mbetet i njëjtë, por ID-të e klikës diferencojnë këto grupe më të vogla, të izoluara me gjerësi bande të lartë.

Ky dallim është thelbësor nga pikëpamja operacionale:

UUID i klasterit i përgjigjet pyetjes: Cilat GPU-të ndajnë fizikisht një raft dhe janë të afta për komunikim NVLink me shpejtësitë më të larta?
ID e klikës i përgjigjet: Cilat GPU-të ndajnë një Ndarje NVLink dhe janë të destinuara të komunikojnë së bashku për një ngarkesë pune të caktuar ose nivel shërbimi, duke siguruar performancë optimale për detyra shumë paralele?

Këta identifikues janë pëlhura lidhëse, duke mundësuar platformat si Slurm, Kubernetes dhe NVIDIA Run:ai të rreshtojnë vendosjen e punëve, izolimin dhe garancitë e performancës me strukturën aktuale të arkitekturës NVLink, të gjitha pa ekspozuar kompleksitetin themelor të harduerit direkt tek përdoruesit fundorë. NVIDIA Mission Control ofron një pamje të centralizuar të këtyre identifikuesve, duke thjeshtuar menaxhimin.

Koncepti i harduerit	Identifikuesi i softuerit	Përshkrimi
Domeni NVLink	UUID i Klasterit	Identifikon GPU-të që ndajnë fizikisht një raft, të aftë për komunikim NVLink në të gjithë raftin.
Ndarja NVLink	ID e Klikës	Dallon GPU-të e destinuara për të komunikuar së bashku brenda një domeni NVLink për një ngarkesë pune specifike ose nivel shërbimi.

Planifikimi i AI i Ndërgjegjshëm ndaj Topologjisë me Slurm

Për ngarkesat e punës me shumë nyje që funksionojnë në sistemet NVL72 të bazuar në Blackwell, vendosja bëhet po aq kritike sa numri i pastër i GPU-ve të alokuara. Një punë trajnimi AI që kërkon 16 GPU, për shembull, do të performojë shumë ndryshe nëse shpërndahet rastësisht nëpër nyje të shumta më pak të lidhura, në krahasim me kufizimin brenda një arkitekture të vetme NVLink me gjerësi bande të lartë. Kjo është pikërisht ku shtojca topology/block e Slurm-it dëshmon e domosdoshme, duke lejuar Slurm-in të njohë dallimet e nuancuara të lidhjes midis nyjeve.

Në sistemet Grace Blackwell NVL72, blloqet e nyjeve që shfaqin lidhje me latencë më të ulët korrespondojnë drejtpërdrejt me ndarjet NVLink — grupe GPU-sh që janë të bashkuara nga një arkitekturë NVLink e dedikuar, me gjerësi bande të lartë. Duke aktivizuar shtojcën topology/block dhe duke ekspozuar këto ndarje NVLink si blloqe të dallueshme, Slurm fiton inteligjencën kontekstuale të nevojshme për të marrë vendime superiore të planifikimit. Si parazgjedhje, punët vendosen në mënyrë inteligjente brenda një ndarjeje të vetme NVLink (ose blloku), duke ruajtur kështu performancën kritike të Multi-Node NVLink (MNNVL). Ndërsa punët më të mëdha mund të shtrihen ende në blloqe të shumta nëse është e nevojshme, kjo qasje i bën kompromiset e performancës të qarta, dhe jo aksidentale.

Në terma praktikë, kjo lejon strategji fleksibël vendosjeje:

Një bllok/grup nyjesh për raft: Kjo konfiguracion mundëson Slurm Quality of Service (QoS) të menaxhojë aksesin në ndarjen e përbashkët, në të gjithë raftin, ideale për menaxhimin e konsoliduar të burimeve.
Blloqe/grupe nyjesh të shumta për raft: Kjo qasje është perfekte për të ofruar grupe GPU-sh më të vogla, të izoluara, me gjerësi bande të lartë. Këtu, çdo bllok/grup nyjesh hartohet në një ndarje të dedikuar Slurm, duke ofruar efektivisht një nivel shërbimi të veçantë. Përdoruesit më pas mund të shfrytëzojnë një ndarje specifike Slurm, duke vendosur automatikisht punët e tyre brenda ndarjes së synuar NVLink pa pasur nevojë të kuptojnë ndërlikimet themelore të arkitekturës. Ky menaxhim i avancuar i burimeve është thelbësor për organizatat që kërkojnë të shkallëzojnë iniciativat e tyre të AI, duke u rreshtuar me qëllimin më të gjerë të shkallëzimit të AI për të gjithë.

Optimizimi i Ngarkesave të Punës MNNVL me IMEX dhe Mission Control

Ngarkesat e punës Multi-Node NVIDIA CUDA shpesh mbështeten në MNNVL për të arritur performancë maksimale, duke mundësuar që GPU-të në sirtarë të ndryshëm llogaritës të marrin pjesë në një model programimi koheziv, me memorie të përbashkët. Nga këndvështrimi i një zhvilluesi aplikacionesh, shfrytëzimi i MNNVL mund të duket në mënyrë mashtruese i thjeshtë, por orkestrimi themelor është kompleks.

Këtu NVIDIA Mission Control luan një rol thelbësor. Ai siguron që komponentët kritikë të rreshtohen në mënyrë të përkryer kur ekzekutojnë punë MNNVL me Slurm. Në mënyrë specifike, Mission Control garanton që shërbimi IMEX — i cili lehtëson kujtesën e përbashkët të GPU-ve — të funksionojë në grupin e saktë të sirtarëve llogaritës që marrin pjesë në punën MNNVL. Ai gjithashtu siguron që NVSwitch-ët e nevojshëm të konfigurohen saktë për të krijuar dhe mbajtur këto lidhje MNNVL me gjerësi bande të lartë. Ky koordinim është thelbësor për të ofruar performancë të qëndrueshme dhe të parashikueshme në të gjithë raftin. Pa orkestrimin inteligjent të Mission Control, përfitimet e MNNVL dhe IMEX do të ishin sfiduese për t'u realizuar dhe menaxhuar në shkallë të gjerë, duke theksuar angazhimin e NVIDIA-s për të ofruar zgjidhje të plota për GPU-të e avancuara dhe ekosistemet e tyre.

Drejt Infrastrukturës AI të Automatizuar dhe të Shkallëzueshme

Integrimi i arkitekturës NVIDIA Blackwell me shtresa softuerike të sofistikuara si Mission Control dhe Topograph shënon një hap të rëndësishëm drejt krijimit të një infrastrukture AI vërtet të automatizuar dhe të shkallëzueshme. NVIDIA Topograph automatizon zbulimin e hierarkisë komplekse të NVLink dhe ndërlidhjes, duke ekspozuar këtë informacion jetik tek planifikuesit si Slurm, Kubernetes (nëpërmjet NVIDIA DRA dhe ComputeDomains) dhe NVIDIA Run:ai. Kjo eliminon ngarkesën manuale të menaxhimit të topologjisë, duke lejuar organizatat të vendosin dhe shkallëzojnë ngarkesat e punës të AI me efikasitet të paprecedentë.

Duke u ofruar planifikuesve një kuptim të thellë, në kohë reale të topologjisë së harduerit, kjo qasje e integruar siguron që aplikacionet e AI të funksionojnë në burimet optimale, duke minimizuar latencën e komunikimit dhe duke maksimizuar xhiron. Rezultati është një fabrikë AI me performancë të lartë, elastike dhe e lehtë për t'u menaxhuar, e aftë për të trajtuar detyrat më kërkuese të trajnimit dhe inferencës së AI. Ndërsa modelet e AI vazhdojnë të rriten në kompleksitet dhe madhësi, aftësia për të menaxhuar dhe planifikuar në mënyrë efektive ngarkesat e punës në superkompjuterët në shkallë rafti do të jetë thelbësore për të nxitur inovacionin dhe për të ruajtur avantazhin konkurrues. Kjo strategji holistike mbështet të ardhmen e AI për ndërmarrje, duke transformuar fuqinë llogaritëse të papërpunuar në superkompjuterë AI inteligjentë, të përgjegjshëm dhe shumë efikasë.

Burimi origjinal

https://developer.nvidia.com/blog/running-ai-workloads-on-rack-scale-supercomputers-from-hardware-to-topology-aware-scheduling/

Pyetjet e bëra shpesh

What are NVIDIA GB200 and GB300 NVL72 systems, and what role does the Blackwell architecture play?

NVIDIA GB200 and GB300 NVL72 systems represent a new generation of rack-scale supercomputers specifically engineered for demanding AI and HPC workloads. These systems leverage the groundbreaking NVIDIA Blackwell architecture, which integrates massive GPU fabrics with high-bandwidth networking into a single, tightly coupled unit. The Blackwell architecture is designed to deliver unprecedented performance and efficiency for training and inference, featuring advanced NVLink switches, Multi-Node NVLink (MNNVL) for inter-GPU communication, and IMEX-capable compute trays that facilitate shared GPU memory across multiple nodes within the rack. This integrated design aims to overcome the limitations of traditional server-bound GPU deployments, providing a seamless, scalable platform for complex AI models.

What is the primary challenge in scheduling AI workloads on these advanced rack-scale supercomputers?

The core challenge lies in the significant mismatch between the intricate, hierarchical physical topology of rack-scale supercomputers and the often simplistic abstractions presented by conventional workload schedulers. While systems like the NVIDIA GB200/GB300 NVL72 boast sophisticated NVLink fabrics and IMEX domains, schedulers typically perceive a flat pool of GPUs and nodes. This can lead to inefficient resource allocation, sub-optimal performance due to poor data locality or communication bottlenecks, and increased operational complexity for platform operators. Without topology-aware scheduling, the inherent advantages of rack-scale integration, such as high-bandwidth interconnections, cannot be fully leveraged for AI workloads.

How does NVIDIA Mission Control address the operational complexities of rack-scale AI scheduling?

NVIDIA Mission Control acts as a crucial control plane that bridges the gap between the complex hardware topology of NVIDIA Grace Blackwell NVL72 systems and the needs of workload management platforms like Slurm and NVIDIA Run:ai. It provides a native, deep understanding of NVLink and IMEX domains, translating physical hardware relationships into logical identifiers that schedulers can interpret. By centralizing the view of cluster UUIDs and clique IDs, Mission Control enables precise, topology-aware job placement, ensures proper workload isolation, and guarantees consistent performance by aligning computations with the optimal underlying hardware fabric. This effectively transforms raw infrastructure into an efficient, manageable AI factory.

Explain the concepts of Cluster UUID and Clique ID in the context of NVLink topology and their operational significance.

Cluster UUID and Clique ID are system-level identifiers that encode a GPU's position within the NVLink fabric, making the complex topology understandable to system software and schedulers. The Cluster UUID corresponds to the NVLink domain, indicating that systems and their GPUs belong to the same physical rack and share a common NVLink fabric. For Grace Blackwell NVL72, this UUID is consistent across the entire rack. The Clique ID provides a finer distinction, corresponding to an NVLink Partition. GPUs sharing a Clique ID belong to the same logical partition within that domain. Operationally, the Cluster UUID answers which GPUs physically share a rack and can communicate via NVLink, while the Clique ID answers which GPUs share an NVLink Partition and are intended to communicate together for a specific workload, enabling finer-grained resource allocation and performance optimization.

How does Slurm's topology/block plugin enhance AI workload placement on NVL72 systems?

Slurm's topology/block plugin is essential for efficient AI workload placement on NVIDIA NVL72 systems by making Slurm aware that not all nodes (or GPUs) are equal in terms of connectivity and performance. On Grace Blackwell NVL72 systems, blocks of nodes with lower-latency connections directly map to NVLink partitions, which are groups of GPUs sharing a high-bandwidth NVLink fabric. By enabling this plugin and exposing NVLink partitions as 'blocks,' Slurm gains the necessary context to make intelligent placement decisions. This ensures that multi-GPU jobs are preferentially allocated within a single NVLink partition to preserve MNNVL performance, preventing performance degradation that could occur if jobs were spread indiscriminately across different, less-connected segments of the supercomputer. It allows for optimized resource utilization and predictable performance for demanding AI tasks.

What is Multi-Node NVLink (MNNVL), and how does IMEX facilitate it for shared GPU memory?

Multi-Node NVLink (MNNVL) is a key technology that allows GPUs across different compute nodes within a rack-scale system to communicate directly with high bandwidth and low latency, essential for scaling large AI models. MNNVL enables a shared-memory programming model across these distributed GPUs, making it appear to applications as a single, massive GPU fabric. IMEX (Infiniband Memory Expansion) is the underlying technology that facilitates MNNVL. IMEX-capable compute trays are designed to enable shared GPU memory across nodes by leveraging NVIDIA's advanced networking. While MNNVL simplifies the programming model for developers, Mission Control plays a crucial role behind the scenes to ensure that IMEX services are correctly provisioned and synchronized with MNNVL jobs, guaranteeing that the benefits of shared GPU memory are fully realized without exposing the underlying complexities to the end-user.

What are the key benefits of implementing topology-aware scheduling for AI workloads on rack-scale supercomputers?

Implementing topology-aware scheduling offers several significant benefits for AI workloads on rack-scale supercomputers. Firstly, it ensures optimal performance by intelligently placing jobs on GPUs that have the highest bandwidth and lowest latency connections, minimizing communication overheads inherent in distributed AI training. Secondly, it enhances resource utilization by preventing inefficient spreading of jobs across disparate hardware segments, leading to more predictable performance and better throughput. Thirdly, it simplifies management for platform operators by abstracting hardware complexities while providing clear isolation boundaries between workloads, improving system stability and security. Ultimately, topology-aware scheduling transforms complex hardware into a highly efficient, scalable, and manageable 'AI factory,' accelerating research and development while reducing operational burden.

How does NVIDIA Topograph contribute to the automated discovery and scheduling of supercomputer topologies?

NVIDIA Topograph is a critical component that automates the discovery of the intricate NVLink and interconnect hierarchy within rack-scale supercomputers. This automated discovery is essential because manually configuring and maintaining detailed topology information for large-scale systems would be prone to errors and highly time-consuming. Topograph exposes this detailed fabric information to workload schedulers, including Slurm and Kubernetes (through NVIDIA DRA and ComputeDomains), as well as NVIDIA Run:ai. By providing schedulers with an accurate and real-time view of the hardware topology, Topograph enables them to make intelligent, automated placement decisions. This ensures that AI workloads are scheduled in a topology-aware manner from the outset, optimizing performance, resource allocation, and overall system efficiency, which is crucial for building and operating scalable AI factories.

Qëndroni të përditësuar

Merrni lajmet më të fundit të AI në email.

Ndaj