Code Velocity
Uzņēmuma AI

Meta MTIA mikroshēmas mērogo AI miljardiem lietotāju

·7 min lasīšana·Meta·Sākotnējais avots
Dalīties
Meta MTIA AI mikroshēmas uz servera plates datu centra statīvā

AI pieredzes mērogošana ar Meta MTIA mikroshēmām

Katru dienu miljardiem cilvēku dažādās Meta platformās mijiedarbojas ar daudziem AI darbinātiem līdzekļiem, sākot no personalizētiem satura ieteikumiem līdz moderniem AI asistentiem. Pamatproblēma Meta un patiešām nozarei ir šo sarežģīto AI modeļu izvietošana un nepārtraukta uzlabošana globālā mērogā, vienlaikus saglabājot optimālu izmaksu efektivitāti. Šo prasīgo infrastruktūras uzdevumu Meta risina ar stratēģiskām investīcijām elastīgos, nepārtraukti attīstītos risinājumos, kuru centrā ir to pielāgotās AI mikroshēmas: Meta Apmācības un secinājumu paātrinātāja (MTIA) saime.

Lai gan Meta ir apņēmusies veidot daudzveidīgu silīcija portfeli, kas izmanto gan iekšējos, gan ārējos risinājumus, MTIA mikroshēmas, kas izstrādātas ciešā sadarbībā ar Broadcom, ir neaizstājama Meta AI infrastruktūras stratēģijas sastāvdaļa. Šie vietēji izstrādātie paātrinātāji ir būtiski, lai rentabli darbinātu AI pieredzi, kas sasniedz miljardus lietotāju, nepārtraukti pielāgojoties strauji mainīgajai AI modeļu ainavai.

Meta MTIA mikroshēmu iteratīvā attīstība

AI modeļu ainava atrodas nepārtrauktā mainībā, attīstoties tādā tempā, kas bieži vien pārsniedz tradicionālos mikroshēmu izstrādes ciklus. Atzīstot, ka mikroshēmu dizaini, kas balstīti uz prognozētajām darba slodzēm, var kļūt novecojuši līdz brīdim, kad aparatūra sasniedz ražošanu, Meta ir pieņēmusi inovatīvu "ātruma stratēģiju" MTIA. Ilgu, spekulatīvu izstrādes periodu vietā Meta izmanto iteratīvu pieeju, kurā katra MTIA paaudze balstās uz iepriekšējo. Tas ietver modulāru mikroshēmu komponentu (chiplets) izmantošanu, jaunāko atziņu par AI darba slodzēm iekļaušanu un jaunu aparatūras tehnoloģiju izvietošanu ievērojami īsākos termiņos. Šis ciešāks atgriezeniskās saites cikls nodrošina, ka Meta pielāgotais silīcijs joprojām cieši atbilst AI modeļu dinamiskajām prasībām, veicinot jaunu sasniegumu ātrāku ieviešanu.

Meta jau ir detalizēti aprakstījusi pirmās divas paaudzes, MTIA 100 un MTIA 200, akadēmiskajos darbos. Balstoties uz šo pamatu, Meta ir paātrinājusi izstrādi, lai ieviestu četras jaunas secīgas paaudzes: MTIA 300, 400, 450 un 500. Šīs mikroshēmas jau ir ražošanā vai ir paredzētas masveida izvietošanai 2026. un 2027. gadā. Šī straujā secība ir ļāvusi Meta ievērojami paplašināt MTIA darba slodzes pārklājumu, pārejot no sākotnējās ranžēšanas un ieteikumu (R&R) secinājumu veidošanas uz R&R apmācību, vispārējām ģeneratīvās AI (GenAI) darba slodzēm un ļoti optimizētiem GenAI secinājumiem.

MTIA 300: AI darba slodžu pamatu likšana

MTIA 300 iezīmēja būtisku soli Meta pielāgotā silīcija ceļā. Sākotnēji optimizēta R&R modeļiem, kas bija Meta dominējošās darba slodzes pirms GenAI uzplūda, tās arhitektūras pamatelementi izveidoja stabilu pamatu nākamajām mikroshēmām. MTIA 300 galvenās atšķirīgās iezīmes ietver integrētus NIC mikroshēmu komponentus (chiplets), īpašus ziņojumu dzinējus saziņas kolektīvu izkraušanai un gandrīz atmiņas skaitļošanas iespējas, kas paredzētas uz samazinājumiem balstītiem kolektīviem. Šie zemas latentuma, liela joslas platuma sakaru komponenti izrādījās noderīgi, lai nodrošinātu efektīvus GenAI secinājumus un apmācību nākamajās paaudzēs.

MTIA 300 sastāv no viena skaitļošanas mikroshēmas komponenta (compute chiplet), diviem tīkla mikroshēmu komponentiem (network chiplets) un vairākām liela joslas platuma atmiņas (HBM) stertām (stacks). Katrs skaitļošanas mikroshēmas komponents ietver apstrādes elementu (PE) režģi, kas stratēģiski izveidots ar liekiem PE, lai uzlabotu iznākumu. Katrs PE ir sarežģīta vienība, kas satur divus RISC-V vektoru kodolus, Dot Product Engine matricas reizināšanai, Special Function Unit aktivizācijām un elementāru operācijām, Reduction Engine uzkrāšanai un starp-PE saziņai, kā arī DMA dzinēju efektīvai datu pārvietošanai vietējā pagaidu atmiņā (scratch memory). Šis sarežģītais dizains uzsvēra Meta apņēmību radīt ļoti efektīvu un rentablu risinājumu saviem galvenajiem AI uzdevumiem.

MTIA 400: Konkurētspējīgas GenAI veiktspējas sasniegšana

Ar nepieredzēto ģeneratīvās AI pieaugumu, Meta strauji attīstīja MTIA 300 par MTIA 400, lai nodrošinātu stabilu atbalstu GenAI darba slodzēm, līdzās esošajām R&R iespējām. MTIA 400 ir ievērojams lēciens, piedāvājot par 400% augstāku FP8 FLOPS un par 51% palielinātu HBM joslas platumu salīdzinājumā ar priekšgājēju. Kamēr MTIA 300 koncentrējās uz izmaksu efektivitāti, MTIA 400 tika izstrādāta, lai nodrošinātu neapstrādātu veiktspēju, kas konkurētu ar vadošajiem komerciālajiem AI paātrinātājiem.

Tas tiek panākts, apvienojot divus skaitļošanas mikroshēmu komponentus, lai efektīvi dubultotu skaitļošanas blīvumu, un atbalstot uzlabotas MX8 un MX4 versijas, kas ir būtiski zemas precizitātes formāti efektīvai GenAI secinājumu veidošanai. Viens statīvs, kas aprīkots ar 72 MTIA 400 ierīcēm, savienots, izmantojot komutētu pamatplāksni (switched backplane), veido jaudīgu mērogošanas domēnu (scale-up domain). Šīs sistēmas atbalsta progresīvi ar gaisu dzesēti šķidruma dzesēšanas (AALC) statīvi, kas atvieglo ātru izvietošanu pat mantotajos datu centros, demonstrējot Meta praktisko pieeju AI infrastruktūras mērogošanai globālā mērogā.

MTIA 450 un 500: Specializētas GenAI secinājumiem

Paredzot turpmāku eksponenciālu GenAI secinājumu pieprasījuma pieaugumu, Meta vēl vairāk uzlaboja MTIA 400, kas noveda pie MTIA 450 un vēlāk arī MTIA 500 izstrādes. Šīs paaudzes ir īpaši optimizētas unikālajām GenAI secinājumu problēmām, koncentrējoties uz kritiskiem atmiņas un skaitļošanas sasniegumiem.

MTIA 450 panāca ievērojamus uzlabojumus, veicot šādus pasākumus:

  1. HBM joslas platuma dubultošana no iepriekšējās versijas, kas ir ļoti svarīgi, lai paātrinātu dekodēšanas fāzi GenAI modeļos.
  2. MX4 FLOPS palielināšana par 75%, paātrinot ekspertu sajaukumu (MoE) un barošanas tīkla (FFN) aprēķinus, kas bieži sastopami lielos valodu modeļos.
  3. Aparatūras paātrinājuma ieviešana, lai padarītu uzmanības un FFN aprēķinus efektīvākus, mazinot vājās vietas, kas saistītas ar Softmax un FlashAttention.
  4. Inovācijas zemas precizitātes datu tipos, pārsniedzot FP8/MX8, lai nodrošinātu 6 reizes lielākus MX4 FLOPS nekā FP16/BF16, ar pielāgotām datu tipu inovācijām, kas saglabā modeļa kvalitāti un palielina FLOPS ar minimālu mikroshēmas laukuma ietekmi.

MTIA 500, balstoties uz 450. veiksmi, vēl vairāk palielināja HBM joslas platumu par papildu 50% un ieviesa vairāk jauninājumu zemas precizitātes datu tipos, pastiprinot Meta apņēmību paplašināt GenAI secinājumu veiktspējas robežas. Šī nerimstošā tieksme pēc uzlabojumiem nodrošina, ka Meta AI pieredze saglabājas visprogresīvākā.

Kumulatīvie sasniegumi šajās paaudzēs ir acīmredzami. No MTIA 300 līdz MTIA 500 HBM joslas platums ir pieaudzis par iespaidīgām 4,5 reizēm, savukārt skaitļošanas FLOPS ir palielinājušies pārsteidzošas 25 reizes (no MTIA 300 MX8 līdz MTIA 500 MX4). Šī straujā paātrināšanās divu gadu laikā ir apliecinājums Meta ātruma stratēģijai un tās spējai nepārtraukti uzlabot savu pielāgoto silīciju. Šī evolūcija ir galvenā aģentūras AI operacionalizēšanā un citu sarežģītu modeļu mērogošanā.

Šeit ir galveno specifikāciju sadalījums visā MTIA saimē:

FunkcijaMTIA 300MTIA 400MTIA 450MTIA 500
Skaitļošanas matrica1222
HBM stertu skaits4488
HBM joslas platums (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Mērogošanas domēna izmērs18 ierīces**72 ierīces72 ierīces72 ierīces
Galvenā optimizācijaR&R apmācība, zema latentuma saziņaVispārējā GenAI, konkurētspējīga neapstrādāta veiktspēja.GenAI secinājumi, HBM, pielāgota zema precizitāte.GenAI secinājumi, HBM, pielāgota zema precizitāte.

*Daži piegādātāji ziņo par divvirzienu joslas platumu. Reiziniet tabulā norādīto vērtību ar divi, lai iegūtu atbilstošo divvirzienu joslas platumu. **MTIA 300 ir konfigurēta ar mērogošanas (scale-out) tīklu ar augstāku joslas platumu (200 GB/s) tā salīdzinoši mazā mērogošanas (scale-up) domēna izmēra un mērķa R&R darba slodžu dēļ.

Šīs specifikācijas izceļ dramatiskos uzlabojumus atmiņas joslas platumā un skaitļošanas jaudā, demonstrējot, kā katra MTIA paaudze ir rūpīgi izstrādāta, lai risinātu pašreizējo un nākotnes AI lietojumprogrammu, īpaši resursietilpīgo GenAI modeļu, visaktuālākās prasības.

Meta nerimstošā pielāgotu silīcija risinājumu meklēšana ar MTIA saimes starpniecību uzsver tās apņemšanos nodrošināt visprogresīvāko AI pieredzi miljardiem lietotāju visā pasaulē. Apvienojot iekšējas inovācijas ar stratēģiskām partnerībām, Meta turpina no jauna definēt mērogojamas un rentablas AI infrastruktūras iespējas.

Bieži uzdotie jautājumi

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Esiet informēti

Saņemiet jaunākās AI ziņas savā e-pastā.

Dalīties