Code Velocity
AI za preduzeća

Meta MTIA čipovi skaliraju AI za milijarde

·7 min čitanja·Meta·Originalni izvor
Podeli
Meta MTIA AI čipovi na serverskoj ploči u serverskom ormaru data centra

Skaliranje AI iskustava sa Meta MTIA čipovima

Svakog dana, milijarde ljudi širom Meta platformi stupaju u interakciju sa bezbroj funkcija pokretanih veštačkom inteligencijom, od personalizovanih preporuka sadržaja do naprednih AI asistenata. Osnovni izazov za Metu, pa i za industriju, leži u implementaciji i kontinuiranom poboljšanju ovih sofisticiranih AI modela na globalnom nivou, uz održavanje optimalne isplativosti. Ovaj zahtevan infrastrukturni zadatak ispunjen je Metinim strateškim ulaganjem u fleksibilna, kontinuirano razvijajuća rešenja, čija je srž njihova namenski dizajnirana porodica AI čipova: Meta Training and Inference Accelerator (MTIA).

Iako je posvećena raznovrsnom silicijumskom portfoliju koji koristi i interna i eksterna rešenja, MTIA čipovi, razvijeni u bliskom partnerstvu sa Broadcom-om, predstavljaju neizostavnu komponentu Metine strategije AI infrastrukture. Ovi domaći akceleratori su ključni za isplativo pokretanje AI iskustava koja dosežu milijarde, neprestano se prilagođavajući brzo evoluirajućem pejzažu AI modela.

Iterativna evolucija Meta MTIA čipova

Pejzaž AI modela je u stanju stalne promene, razvijajući se tempom koji često nadmašuje tradicionalne cikluse razvoja čipova. Prepoznajući da dizajni čipova zasnovani na projektovanim radnim opterećenjima mogu postati zastareli do trenutka kada hardver stigne u proizvodnju, Meta je prihvatila inovativnu 'strategiju brzine' za MTIA. Umesto dugih, spekulativnih perioda razvoja, Meta usvaja iterativni pristup gde se svaka MTIA generacija nadovezuje na prethodnu. Ovo uključuje korišćenje modularnih čipleta, inkorporiranje najnovijih uvida u AI radna opterećenja i primenu novih hardverskih tehnologija u značajno kraćem ritmu. Ova čvršća povratna sprega obezbeđuje da Metin prilagođeni silicijum ostane blisko usklađen sa dinamičnim zahtevima AI modela, podstičući brže usvajanje novih unapređenja.

Meta je već detaljno opisala prve dve generacije, MTIA 100 i MTIA 200, u akademskim radovima. Nadovezujući se na ovaj temelj, Meta je ubrzala razvoj kako bi predstavila četiri nove uzastopne generacije: MTIA 300, 400, 450 i 500. Ovi čipovi su već u proizvodnji ili su planirani za masovnu primenu 2026. i 2027. godine. Ova brza sukcesija omogućila je Meti da značajno proširi pokrivenost radnih opterećenja MTIA-e, prelazeći sa početnog zaključivanja rangiranja i preporuka (R&R) na R&R obuku, opšta radna opterećenja generativne veštačke inteligencije (GenAI) i visoko optimizovano GenAI zaključivanje.

MTIA 300: Postavljanje temelja za AI radna opterećenja

MTIA 300 je označio ključni korak u Metinom putu prilagođenog silicijuma. Inicijalno optimizovan za R&R modele, koji su bili dominantna radna opterećenja Mete pre GenAI buma, njegovi arhitektonski gradivni blokovi uspostavili su robusnu osnovu za naredne čipove. Ključne karakteristike MTIA 300 uključuju integrisane NIC čiplete, namenske mehanizme za poruke za rasterećenje komunikacionih kolektiva i mogućnosti izračunavanja blizu memorije dizajnirane za kolektive zasnovane na redukciji. Ove komunikacione komponente niske latencije i visokog propusnog opsega pokazale su se ključnim u omogućavanju efikasnog GenAI zaključivanja i obuke u narednim generacijama.

MTIA 300 se sastoji od jednog računarskog čipleta, dva mrežna čipleta i nekoliko slojeva memorije visokog propusnog opsega (HBM). Svaki računarski čiplet sadrži mrežu procesorskih elemenata (PE), strateški dizajniranih sa redundantnim PE-ovima radi poboljšanja prinosa. Svaki PE je sofisticirana jedinica koja sadrži dva RISC-V vektorska jezgra, motor za skalarni proizvod (Dot Product Engine) za matrično množenje, specijalizovanu funkcionalnu jedinicu (Special Function Unit) za aktivacije i operacije po elementima, motor za redukciju (Reduction Engine) za akumulaciju i komunikaciju između PE-ova, i DMA motor za efikasno premeštanje podataka unutar lokalne privremene memorije. Ovaj složeni dizajn naglasio je Metinu posvećenost stvaranju visoko efikasnog i isplativog rešenja za svoje osnovne AI zadatke.

MTIA 400: Postizanje konkurentnih GenAI performansi

Sa nezapamćenim porastom generativne veštačke inteligencije, Meta je brzo razvila MTIA 300 u MTIA 400 kako bi pružila robusnu podršku za GenAI radna opterećenja, pored svojih postojećih R&R mogućnosti. MTIA 400 predstavlja značajan skok, nudeći 400% veći FP8 FLOPS i 51% povećanje HBM propusnog opsega u poređenju sa svojim prethodnikom. Dok se MTIA 300 fokusirao na isplativost, MTIA 400 je dizajniran da pruži sirove performanse konkurentne vodećim komercijalnim AI akceleratorima.

Ovo postiže kombinovanjem dva računarska čipleta kako bi se efikasno udvostručila gustina izračunavanja i podržavanjem poboljšanih verzija MX8 i MX4, ključnih niskopreciznih formata za efikasno GenAI zaključivanje. Jedan ormar opremljen sa 72 MTIA 400 uređaja, međusobno povezanih preko komutacione pozadinske ploče (switched backplane), formira moćan domen za skaliranje. Ove sisteme podržavaju napredni AALC (air-assisted liquid cooling) ormari, omogućavajući brzu primenu čak i u starijim data centrima, pokazujući Metin praktičan pristup globalnom skaliranju svoje AI infrastrukture.

MTIA 450 i 500: Specijalizovani za GenAI zaključivanje

Predviđajući kontinuirani eksponencijalni rast potražnje za GenAI zaključivanjem, Meta je dodatno usavršila MTIA 400, što je dovelo do razvoja MTIA 450, a zatim i MTIA 500. Ove generacije su specifično optimizovane za jedinstvene izazove GenAI zaključivanja, fokusirajući se na kritična unapređenja u memoriji i izračunavanju.

MTIA 450 je postigao značajan napredak:

  1. Udvostručavanjem HBM propusnog opsega u odnosu na prethodnu verziju, što je ključno za ubrzavanje faze dekodiranja u GenAI modelima.
  2. Povećanjem MX4 FLOPS-a za 75%, čime se ubrzavaju proračuni feed-forward mreža (FFN) kod modela tipa mixture-of-experts (MoE), koji su česti u velikim jezičkim modelima.
  3. Uvođenjem hardverskog ubrzanja kako bi se pažnja i FFN proračuni učinili efikasnijim, ublažavajući uska grla povezana sa Softmax-om i FlashAttention-om.
  4. Inovacijama u niskopreciznim tipovima podataka, prelazeći sa FP8/MX8 na isporuku 6 puta većeg MX4 FLOPS-a od FP16/BF16, sa prilagođenim inovacijama tipova podataka koje čuvaju kvalitet modela i povećavaju FLOPS sa minimalnim uticajem na površinu čipa.

MTIA 500, nadovezujući se na uspeh modela 450, dodatno je povećao HBM propusni opseg za još 50% i uveo više inovacija u niskopreciznim tipovima podataka, jačajući Metinu posvećenost pomeranju granica performansi GenAI zaključivanja. Ova neumorna težnja ka poboljšanju obezbeđuje da Metina AI iskustva ostanu na samoj ivici inovacija.

Kumulativna unapređenja kroz ove generacije su očigledna. Od MTIA 300 do MTIA 500, HBM propusni opseg je povećan za impresivnih 4,5 puta, dok su računarske FLOPS performanse doživele neverovatno 25-struko povećanje (od MX8 formata MTIA 300 do MX4 formata MTIA 500). Ovo brzo ubrzanje za dve godine je dokaz Metine strategije brzine i njene sposobnosti da kontinuirano unapređuje svoj prilagođeni silicijum. Ova evolucija je ključna za operacionalizaciju agentne veštačke inteligencije i drugih složenih modela na skali.

Evo pregleda ključnih specifikacija za MTIA porodicu:

KarakteristikaMTIA 300MTIA 400MTIA 450MTIA 500
Računarska matrica1222
HBM slojevi4488
HBM propusni opseg (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Veličina domena za skaliranje18 uređaja**72 uređaja72 uređaja72 uređaja
Ključna optimizacijaR&R obuka, komunikacija niske latencijeOpšti GenAI, konkurentne sirove performanse.GenAI zaključivanje, HBM, prilagođene niske preciznosti.GenAI zaključivanje, HBM, prilagođene niske preciznosti.

*Neki prodavci prijavljuju dvosmerni propusni opseg. Pomnožite vrednost u tabeli sa dva da biste dobili odgovarajući dvosmerni propusni opseg. **MTIA 300 je konfigurisan sa scale-out mrežom višeg propusnog opsega (200 GB/s) zbog svoje relativno male veličine domena za skaliranje i ciljanih R&R radnih opterećenja.

Ove specifikacije ističu dramatična poboljšanja u propusnom opsegu memorije i računarskoj snazi, pokazujući kako je svaka MTIA generacija pažljivo projektovana da odgovori na najhitnije zahteve sadašnjih i budućih AI aplikacija, posebno resursno intenzivnih GenAI modela.

Metina neumorna potraga za prilagođenim silicijumskim rešenjima putem MTIA porodice naglašava njenu posvećenost pružanju vrhunskih AI iskustava milijardama korisnika širom sveta. Kombinujući interne inovacije sa strateškim partnerstvima, Meta nastavlja da redefiniše mogućnosti skalabilne i isplative AI infrastrukture.

Često postavljana pitanja

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Будите у току

Примајте најновије AI вести на имејл.

Podeli