Code Velocity
Įmonės AI

AI gamyklos tokenų gamyba: NVIDIA Mission Control 3.0 didina efektyvumą

·7 min skaitymo·NVIDIA·Originalus šaltinis
Dalintis
NVIDIA Mission Control 3.0 prietaisų skydelis, rodantis padidintą AI gamyklos tokenų gamybą ir veiklos efektyvumą

title: "AI gamyklos tokenų gamyba: NVIDIA Mission Control 3.0 didina efektyvumą" slug: "accelerate-token-production-in-ai-factories-using-unified-services-and-real-time-ai" date: "2026-04-01" lang: "lt" source: "https://developer.nvidia.com/blog/accelerate-token-production-in-ai-factories-using-unified-services-and-real-time-ai/" category: "Įmonės AI" keywords:

  • AI gamyklos
  • tokenų gamyba
  • NVIDIA Mission Control
  • AI realiuoju laiku
  • vieningos paslaugos
  • daugiatiklis valdymas
  • energijos valdymas
  • AIOps
  • GPU efektyvumas
  • duomenų centras
  • AI infrastruktūra
  • darbo krūvio orkestravimas meta_description: "NVIDIA Mission Control 3.0 revoliucijonizuoja AI gamyklos tokenų gamybą su vieningomis paslaugomis, AI realiuoju laiku ir išmaniuoju energijos valdymu. Atraskite didesnį efektyvumą, saugų daugiatiklį valdymą ir nuspėjamą AIOps, siekiant maksimaliai padidinti GPU našumą." image: "/images/articles/accelerate-token-production-in-ai-factories-using-unified-services-and-real-time-ai.png" image_alt: "NVIDIA Mission Control 3.0 prietaisų skydelis, rodantis padidintą AI gamyklos tokenų gamybą ir veiklos efektyvumą" quality_score: 94 content_score: 93 seo_score: 95 companies:
  • NVIDIA schema_type: "NewsArticle" reading_time: 7 faq:
  • question: "Kas yra NVIDIA Mission Control 3.0 ir kaip tai paspartina AI gamyklos tokenų gamybą?" answer: "NVIDIA Mission Control 3.0 yra pažangi programinės įrangos grupė, sukurta optimizuoti AI gamyklos operacijas, pagrįsta NVIDIA referencinėmis architektūromis. Ji spartina tokenų gamybą, suteikdama vieningą valdymo sluoksnį su moduline, API pagrįsta architektūra, leidžiančia greitai integruoti ir pritaikyti. Pagrindinės funkcijos apima išmanųjį energijos orkestravimą, tvirtą kelių organizacijų izoliaciją saugiam daugiatikliam valdymui ir nuspėjamą AIOps, skirtą realaus laiko anomalijų aptikimui ir sprendimui, visa tai siekiant maksimaliai padidinti GPU efektyvumą ir našumą vatu. Ji transformuoja veiklos KPI nuo tradicinių panaudojimo metrikų į tiesioginį tokenų generavimą."
  • question: "Kaip Mission Control 3.0 pagerina lankstumą ir judrumą AI gamyklos aplinkose?" answer: "Mission Control 3.0 pristato sluoksniuotą, API pagrįstą architektūrą su modulinėmis paslaugomis, žymiai pagerinančią judrumą, palyginti su ankstesnėmis glaudžiai susietomis sistemomis. Šis dizainas leidžia greitai palaikyti naujausią NVIDIA aparatinę įrangą ir leidžia OEM bei ISV sklandžiai integruoti Mission Control galimybes į savo ekosistemas. Įmonės įgyja precedento neturintį lankstumą ir pasirinkimą savo programinės įrangos sistemose, leisdamos joms pritaikyti sprendimus specifiniams verslo ir technologiniams poreikiams, skatindamos greitesnį diegimą ir lengvesnį pritaikymą."
  • question: "Kokie yra kelių organizacijų izoliacijos funkcijų pranašumai Mission Control 3.0?" answer: "Kelių organizacijų izoliacijos funkcijos Mission Control 3.0 yra labai svarbios saugiam ir ekonomiškai efektyviam AI infrastruktūros dalijimuisi. Paverčiant valdymo sistemą programiškai apibrėžta, virtualizuota architektūra su dedikuotais skaičiavimo ir valdymo mazgais kiekvienai organizacijai, užtikrinama griežta nuomininkų izoliacija. Tinklo segmentavimas naudojant VXLAN, skirtą Spectrum-X Ethernet, ir PKeys, skirtą Quantum InfiniBand, dar labiau padidina saugumą. Tai sumažina fizinės valdymo infrastruktūros pėdsaką, mažina bendras nuosavybės išlaidas ir leidžia operatoriams prijungti kelias organizacijas prie bendros infrastruktūros, nepakenkiant saugumui ar našumui."
  • question: "Kaip Mission Control 3.0 sprendžia energijos valdymo apribojimus AI gamyklose?" answer: "Mission Control 3.0 pakelia energijos valdymą į pirmaeilio planavimo primityvo lygį per integruotą domenų energijos paslaugą. Šis proaktyvus požiūris padeda AI gamykloms optimizuoti tokenų gamybą esant fiksuotiems energijos apribojimams. Jis leidžia darbo krūvio paskirstymą atsižvelgiant į energijos sąnaudas Slurm ir Kubernetes aplinkose (per NVIDIA Run:ai), palaiko MAX-P ir MAX-Q profilius našumui arba efektyvumui, ir naudoja stelažų bei topologiją atsižvelgiantį rezervacijų valdymą. Ši išsami sistema nuolat stebi ir optimizuoja energijos vartojimą, užtikrindama maksimalų tokenų našumą vatu, neviršijant objekto ribų."
  • question: "Kokį vaidmenį AIOps vaidina optimizuojant AI gamyklos operacijas su Mission Control 3.0?" answer: "AIOps Mission Control 3.0, veikianti su NVIDIA AIOps Collector ir Platform Stacks (NACPS), teikia pažangias, nuspėjamąsias anomalijų aptikimo galimybes. Jos pagrindas yra AI klasterio modelis – grafu pagrįstas, topologiją atsižvelgiantis infrastruktūros ir darbo krūvių atvaizdavimas. Šis modelis sujungia neprižiūrimą / prižiūrimą mašininį mokymąsi, natūralios kalbos apdorojimą žurnalų analizei ir automatizuotus taisymo darbo eigas. Šis integruotas požiūris leidžia operatoriams neapsiriboti reaktyviais prietaisų skydeliais, o proaktyviai identifikuoti ir spręsti galimas problemas, turinčias įtakos našumui, realiuoju laiku, taip sumažinant prastovas ir maksimaliai išnaudojant GPU laiką."
  • question: "Kaip NVIDIA Mission Control 3.0 perapibrėžia pagrindinius našumo rodiklius AI gamykloms?" answer: "Mission Control 3.0 iš esmės perapibrėžia veiklos pagrindinius našumo rodiklius (KPI) AI gamykloms. Vietoj to, kad būtų sutelktas dėmesys į tradicines metrikas, tokias kaip bendras resursų panaudojimas, jis perkelia dėmesį į konkrečius našumo matavimus, tokius kaip tokenų gamyba vienam GPU, vienam stelažui ir vienam vatu. Šis pokytis suteikia AI gamyklų operatoriams galimybę aktyviai optimizuoti kiekvieną megavatą energijos ir kiekvieną skaičiavimo ciklą maksimaliam tokenų generavimui. Šis tiesioginis ryšys su našumu užtikrina, kad visos veiklos pastangos būtų suderintos su AI gamyklos ekonominio ir konkurencinio pelningumo maksimizavimu."
  • question: "Kas yra NVIDIA Run:ai ir kokią naudą jo integravimas teikia Mission Control 3.0 naudotojams?" answer: "NVIDIA Run:ai yra darbo krūvio orkestravimo platforma, integruota į Mission Control sistemą, skirta valdyti ir optimizuoti AI darbo krūvius įvairiose aplinkose. Jos integravimas su Mission Control 3.0 teikia didelę naudą, ypač energijos valdymo srityje. Run:ai leidžia paskirstyti darbo krūvius, atsižvelgiant į energijos sąnaudas, tiek tradicinėms Slurm, tiek Kubernetes-native darbo krūviams, leidžiant domenų energijos paslaugai efektyviai taikyti MAX-P/MAX-Q profilius ir optimizuoti resursų paskirstymą, atsižvelgiant į energijos apribojimus. Tai užtikrina, kad AI gamyklos gali pasiekti optimalų našumą ar efektyvumą, subalansuodamos pralaidumą su energijos sąnaudomis."

Šiandien sparčiai besivystančioje AI aplinkoje AI gamyklos našumas peržengia vien teorinį efektyvumą; jis lemia ekonominį gyvybingumą, konkurencinį pranašumą ir net egzistencinį išlikimą. Vos 1% sumažėjimas naudojamo GPU laiko gali reikšti milijonus prarastų tokenų per valandą, o kelios minutės tinklo perkrovos gali virsti valandomis sudėtingo atsigavimo. Be to, per didelis stelažo lygio energijos suvartojimas gali lemti nepanaudotus energijos pajėgumus ir žymiai sumažinti "tokenus vatu", tyliai erodavęs gamyklos našumą dideliu mastu. Kadangi AI gamyklos plečiasi, siekdamos talpinti tūkstančius GPU, maitinančių įvairius, kritiškai svarbius darbo krūvius, finansinė ir operacinė našta, susijusi su nenuspėjamu perkrovimu, griežtais energijos apribojimais, užsitęsusiu vėlavimu ir ribotu operaciniu matomumu, didėja eksponentiškai.

Šiuolaikinės operacijų komandos ir administratoriai reikalauja daugiau nei tik statinių prietaisų skydelių; jiems reikia neprilygstamo lankstumo ir įžvalgumo. Būtent šią problemą NVIDIA ėmėsi spręsti su NVIDIA Mission Control – integruota programinės įrangos grupe AI gamykloms, sukurta remiantis NVIDIA pagrindinėmis referencinėmis architektūromis ir kodifikuojančia jų geriausią praktiką vieningame valdymo sluoksnyje. Mission Control 3.0 versija žengia toliau, pristatydama revoliucinį architektūrinį lankstumą, tvirtą kelių organizacijų izoliaciją, išmanųjį energijos orkestravimą ir nuspėjamą AIOps, skirtą anomalijų aptikimui ir kritinio tokenų gamybos rodiklio maksimalizavimui.

Keturios dėžutės, apibūdinančios NVIDIA Mission Control privalumus: Momentinis operacinis judrumas, Išsamus stebėjimas, Įmontuotas atsparumas, Paspartinta AI tokenų gamyba 1 pav. NVIDIA Mission Control teikia patvirtintą programinės įrangos grupę su paslaugomis, skirtomis operaciniam judrumui, stebėjimui ir atsparumui.

Efektyvių AI gamyklos operacijų būtinybė

Perėjimas nuo teorinių etalonų prie apčiuopiamų ekonominių rezultatų pabrėžia kritinį poreikį užtikrinti didžiausią operacinį efektyvumą AI gamyklose. Tai ne tik duomenų centrai; tai sudėtingos, dinamiškos ekosistemos, kur kiekvienas megavatas ir kiekvienas GPU ciklas tiesiogiai koreliuoja su verslo verte. Didėjančios veiklos neefektyvumo išlaidos – nuo netikėtų prastovų iki nepakankamai išnaudojamos infrastruktūros – pabrėžia visuotinę paklausą sistemoms, kurios siūlo proaktyvų valdymą, o ne reaktyvų problemų sprendimą. AI gamyklos operatoriams reikalinga strateginė platforma, kuri ne tik teikia gilias įžvalgas, bet ir aktyviai optimizuoja kiekvieną savo infrastruktūros aspektą, kad būtų išvengta našumo kliūčių ir maksimaliai padidintas pralaidumas.

Judri programinės įrangos architektūra AI spartai

NVIDIA Mission Control 3.0 suteikia naują judrumą per visiškai perprojektuotą sluoksniuotą, API pagrįstą sistemą. Šis modulinis dizainas yra reikšmingas šuolis nuo ankstesnių glaudžiai susietų sistemų, kurioms dažnai reikėdavo sinchronizuotų leidimų ir sudėtingo patvirtinimo įvairiose aparatinės įrangos platformose. Naudodama modulines paslaugas ir atvirus komponentus, Mission Control 3.0 žymiai pagreitina naujausių NVIDIA aparatinės įrangos inovacijų palaikymą.

Ši architektūrinė evoliucija suteikia didelę naudą, ypač OEM sistemų tiekėjams ir nepriklausomiems programinės įrangos tiekėjams (ISV), leidžianti jiems integruoti Mission Control galimybes tiesiai į savo ekosistemas. Rezultatas yra neprilygstamas lankstumas ir pasirinkimas įmonėms, suteikiant joms galimybę pritaikyti savo programinės įrangos sistemas, kad tiksliai atitiktų unikalius verslo tikslus ir technologinius poreikius, galiausiai skatinant didesnį AI greitį ir veiklos efektyvumą.

Šiandien organizacijoms didelį iššūkį kelia saugus kelių organizacijų izoliacijos palaikymas bendroje, centralizuotoje AI gamykloje. Kadangi šios aplinkos pereina nuo tyrimų ir eksperimentų centrų prie gamybos lygio, kritiškai svarbių operacijų, stiprios organizacinės izoliacijos ir saugaus daugiatiklio valdymo reikalavimas bendroje infrastruktūroje tampa svarbiausiu.

Patobulintas Mission Control valdymo sluoksnis paverčia AI gamyklos valdymą sudėtinga programiškai apibrėžta, virtualizuota architektūra. Mission Control paslaugos yra atskirtos nuo fizinių valdymo mazgų ir diegiamos KVM pagrindu sukurtose platformose, naudojant NVIDIA teikiamą automatizavimą. Nors skaičiavimo stelažai ir valdymo mazgai išlieka skirti kiekvienai organizacijai, bendri tinklo jungikliai užtikrina tvirtą daugiatiklį valdymą per loginį segmentavimą: VXLAN, skirtas NVIDIA Spectrum-X Ethernet, ir PKeys, skirtas NVIDIA Quantum InfiniBand. Šis novatoriškas požiūris žymiai sumažina fizinės valdymo infrastruktūros pėdsaką, nustato griežtą nuomininkų izoliaciją ir sukuria saugų pagrindą kelių organizacijų AI gamykloms, galiausiai sumažindamas bendras nuosavybės išlaidas. Įmonėms, kurios daug dėmesio skiria griežtam saugumui, sprendimų integravimas kuriant AI pagrindu veikiančią sistemą atitikties įrodymų rinkimui kartu su Mission Control 3.0 gali dar labiau pagerinti valdymą ir auditą.

Diagrama, rodanti tinklus nuo Org 0, Org 1 iki Org n su izoliacija tarp NVIDIA Mission Control paslaugų, įskaitant darbo krūvio orkestravimą. 2 pav. Kelių organizacijų diegimas su NVIDIA Mission Control naudoja virtualizavimą ir dedikuotą skaičiavimo bei valdymo sluoksnį kiekvienai organizacijai, kuriai reikalinga tinklo izoliacija.

Išmanusis energijos orkestravimas maksimaliam tokenų skaičiui

Energija tapo vis svarbesniu, dažnai "nematomu" apribojimu AI gamyklos tokenų gamybai. Nepaisant to, kad kiekviena nauja GPU karta teikia eksponentiškai didesnį našumą, įrenginių energijos limitai išlieka fiksuoti dėl ekonominių realijų, tokių kaip komunalinės paslaugos ir reguliavimo atitiktis. Pagrindinis iššūkis yra, kaip maksimaliai padidinti tokenų našumą ir stelažo tankį, neviršijant šių griežtų energijos apribojimų.

Ankstesnės Mission Control iteracijos siūlė esmines energijos valdymo galimybes, tačiau jos buvo iš esmės reaktyvios – darbai buvo planuojami pirmiausia, o energijos politika įgyvendinama vėliau. Mission Control 3.0 iš esmės tai keičia tiesiogiai įtraukdama domenų energijos paslaugą, pakeldama energiją į pirmaeilio planavimo primityvo lygį. Ši paslauga suteikia organizacijoms galimybę proaktyviai optimizuoti tokenų gamybą, tiesiogiai integruojant energijos politiką į darbo krūvio paskirstymą. Ji palaiko tiek tradicinius Slurm, tiek Kubernetes-native darbo krūvius, sklandžiai orkestruojamus NVIDIA Run:ai, kuris dabar yra visiškai integruotas į Mission Control sistemą.

Domenų energijos paslauga palaiko MAX-P (maksimalus našumas) ir MAX-Q (maksimalus efektyvumas) profilius įvairioms mokymo ir išvados užduotims. Ji taip pat teikia sudėtingą stelažų ir topologiją atsižvelgiantį rezervacijų valdymą, naudojant Mission Control integravimą su pastatų valdymo sistemomis. Įtikinamas jos efektyvumo pavyzdys parodė duomenų centrą, veikiantį 85% galia, su tik 7% pralaidumo nuostoliu, naudojant MAX-Q profilį. Šis dinaminis optimizavimas yra labai svarbus AI spartinimui nuo bandomojo projekto iki gamybos realaus pasaulio scenarijuose.

Diagrama rodo ryšį tarp domenų energijos paslaugos, pastatų valdymo sistemų ir tinklo, taip pat tarp domenų energijos paslaugos, resursų planuotojų ir skaičiavimo. 3 pav. NVIDIA Mission Control naudoja domenų energijos paslaugą visapusiškam energijos valdymui, kuris nuolat stebi ir optimizuoja energijos vartojimą AI gamykloje.

AIOps realiuoju laiku: nuo prietaisų skydelių iki nuspėjamųjų veiksmų

Be naujų energijos valdymo paslaugų, Mission Control 3.0 žymiai pagerina esamas anomalijų aptikimo galimybes, integruojantis su NVIDIA AIOps Collector ir Platform Stacks (NACPS). Ši tvirta integracija skatina AI pagrindu veikiantį nuspėjamąjį anomalijų aptikimą, perkeliant operacijas už reaktyvaus stebėjimo ribų. NACPS centre yra sudėtingas AI klasterio modelis – grafu pagrįstas, topologiją atsižvelgiantis infrastruktūros ir darbo krūvių atvaizdavimas. Tai apima GPU, NVIDIA NVLink mastelį didinant, NVIDIA Spectrum-X Ethernet arba NVIDIA Quantum InfiniBand Rytų-Vakarų mastelį išplečiant ir NVIDIA BlueField DPU Šiaurės-Pietų tinklą. Kombinuodamas šį detalią infrastruktūros vaizdą su darbo topologija klasterio modelyje, NACPS naudoja neprižiūrimą ir prižiūrimą mašininį mokymąsi, kartu su NLP pagrindu atliekama žurnalų analize, kad identifikuotų subtilias anomalijas ir numatytų galimą našumo pablogėjimą. Tai leidžia automatizuoti taisymo darbo eigas, sumažinant prastovas ir užtikrinant maksimalų galimą kritinių AI darbo krūvių veikimo laiką.

Funkcijų kategorijaAnkstesnis Mission Control požiūrisMission Control 3.0 (Nauja)Pagrindinis privalumas
ArchitektūraGlaudžiai susieta, monolitinėModulinė, API pagrindu, atviri komponentaiPadidintas judrumas, greitesnis aparatinės įrangos integravimas, OEM/ISV lankstumas
Daugiatiklis valdymasPagrindinis, resursų lygio atskyrimasVirtualizuotas, VXLAN/PKeys izoliacija, dedikuoti valdikliaiSaugus, ekonomiškas dalijimasis, sumažintos TCO, griežtas nuomininkų atskyrimas
Energijos valdymasReaktyvus politikos vykdymasProaktyvus pirmaeilio planavimo primityvas, domenų paslaugaMaksimalus tokenų skaičius/vatu, optimizuojama našumui/efektyvumui, dinaminis valdymas
AIOps ir anomalijų aptikimasPrietaisų skydeliai, pagrįsti slenksčiaisNuspėjamas, AI pagrindu veikiantis NACPS, atsižvelgiantis į topologijąProaktyvus problemų sprendimas, sumažintos prastovos, padidintas patikimumas
Veiklos KPIBendros panaudojimo metrikosTokenai/GPU, Stelažas, Vatas (orientuota į išvestį)Tiesioginė koreliacija su pajamomis, optimizuotas resursų naudojimas, aiškūs vertės rodikliai
Darbo krūvio orkestravimasSpecifinė NVIDIA sistemaiSlurm, Kubernetes (per Run:ai) integravimasPlatus palaikymas įvairiems AI darbo krūviams, sklandus planavimas

Sėkmės matavimas: Tokenų gamyba kaip galutinis KPI

Mission Control 3.0 iš esmės perapibrėžia pagrindinius veiklos pagrindinius našumo rodiklius (KPI) AI gamykloms. Pereinant nuo tradicinių panaudojimo metrikų, sėkmė dabar matuojama tiesiogiai "tokenų gamyba vienam GPU, vienam stelažui ir vienam vatu". Šis į išvestį orientuotas požiūris suteikia AI gamyklų operatoriams galimybę aktyviai tikslinti ir optimizuoti kiekvieną megavatą energijos ir kiekvieną skaičiavimo ciklą, kad pasiektų maksimalų tokenų generavimą. Šis tiesioginis ryšys su pagrindine AI gamyklos išvestimi užtikrina, kad kiekvienas operacinis sprendimas tiesiogiai prisideda prie pajamų ir konkurencinio pranašumo maksimizavimo, iš tiesų padarydamas tokenų gamybą galutiniu AI gamyklos sėkmės matu.

NVIDIA Mission Control 3.0 yra visapusiškas šuolis į priekį AI gamyklos valdymui. Integruodama lanksčią architektūrą, saugų daugiatiklį valdymą, išmanųjį energijos orkestravimą ir nuspėjamą AIOps, ji suteikia įrankius, reikalingus AI darbo krūvių optimizavimui, veiklos sąnaudų mažinimui ir AI inovacijų spartinimui visoje įmonėje.

Dažniausiai užduodami klausimai

What is NVIDIA Mission Control 3.0 and how does it accelerate AI factory token production?
NVIDIA Mission Control 3.0 is an advanced software stack designed to optimize AI factory operations, built on NVIDIA reference architectures. It accelerates token production by providing a unified control plane with a modular, API-driven architecture, enabling rapid integration and customization. Key features include intelligent power orchestration, robust multi-organization isolation for secure multi-tenancy, and predictive AIOps for real-time anomaly detection and resolution, all aimed at maximizing GPU efficiency and output per watt. It transforms operational KPIs from traditional utilization metrics to a focus on direct token generation.
How does Mission Control 3.0 enhance flexibility and agility in AI factory environments?
Mission Control 3.0 introduces a layered, API-driven architecture with modular services, significantly improving agility compared to previous tightly coupled stacks. This design allows for rapid support of the latest NVIDIA hardware and enables OEMs and ISVs to seamlessly integrate Mission Control capabilities into their own ecosystems. Enterprises gain unprecedented flexibility and choice in their software stacks, allowing them to tailor solutions to specific business and technological needs, driving faster deployment and easier customization.
What are the benefits of the multi-organization isolation features in Mission Control 3.0?
The multi-organization isolation features in Mission Control 3.0 are crucial for secure and cost-effective sharing of AI infrastructure. By transforming the management stack into a software-defined, virtualized architecture with dedicated compute and management nodes per organization, it establishes hard tenant isolation. Network segmentation using VXLAN for Spectrum-X Ethernet and PKeys for Quantum InfiniBand further enhances security. This reduces the physical management infrastructure footprint, lowers the total cost of ownership, and allows operators to onboard multiple organizations onto shared infrastructure without compromising security or performance.
How does Mission Control 3.0 address power management constraints in AI factories?
Mission Control 3.0 elevates power management to a first-class scheduling primitive through its integrated domain power service. This proactive approach helps AI factories optimize token production within fixed power envelopes. It enables power-aware workload placement across Slurm and Kubernetes environments (via NVIDIA Run:ai), supports MAX-P and MAX-Q profiles for performance or efficiency, and leverages rack- and topology-aware reservation steering. This comprehensive system continuously monitors and optimizes power utilization, ensuring maximum token output per watt without exceeding facility limits.
What role does AIOps play in optimizing AI factory operations with Mission Control 3.0?
AIOps in Mission Control 3.0, powered by NVIDIA AIOps Collector and Platform Stacks (NACPS), provides advanced, predictive anomaly detection capabilities. At its core is an AI cluster model—a graph-based, topology-aware representation of infrastructure and workloads. This model combines unsupervised/supervised machine learning, natural language processing for log analysis, and automated remediation workflows. This integrated approach allows operators to move beyond reactive dashboards, proactively identifying and resolving potential performance-impacting issues in real-time, thereby minimizing downtime and maximizing the usable GPU time.
How does NVIDIA Mission Control 3.0 redefine key performance indicators for AI factories?
Mission Control 3.0 fundamentally redefines operational Key Performance Indicators (KPIs) for AI factories. Instead of focusing on traditional metrics like general resource utilization, it shifts the focus to concrete output measurements such as token production per GPU, per rack, and per watt. This change empowers AI factory operators to actively optimize every megawatt of power and every cycle of computing for maximal token generation. This direct correlation to output ensures that all operational efforts are aligned with maximizing the economic and competitive yield of the AI factory.
What is NVIDIA Run:ai and how does its integration benefit Mission Control 3.0 users?
NVIDIA Run:ai is a workload orchestration platform integrated into the Mission Control stack, designed to manage and optimize AI workloads across diverse environments. Its integration with Mission Control 3.0 brings significant benefits, particularly in power management. Run:ai enables power-aware workload placement for both traditional Slurm and Kubernetes-native workloads, allowing the domain power service to effectively apply MAX-P/MAX-Q profiles and optimize resource allocation based on power constraints. This ensures that AI factories can achieve optimal performance or efficiency, balancing throughput with power consumption.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis