Code Velocity
AI za poduzeća

Meta MTIA čipovi skaliraju AI za milijarde

·7 min čitanja·Meta·Izvorni izvor
Podijeli
Meta MTIA AI čipovi na poslužiteljskoj ploči u stalku podatkovnog centra

Skaliranje AI iskustava s Meta MTIA čipovima

Svakodnevno, milijarde ljudi na raznim Meta platformama stupaju u interakciju s bezbrojnim značajkama pokretanim umjetnom inteligencijom, od personaliziranih preporuka sadržaja do naprednih AI pomoćnika. Temeljni izazov za Metu, pa i za cijelu industriju, leži u implementaciji i kontinuiranom poboljšanju ovih sofisticiranih AI modela na globalnoj razini, uz održavanje optimalne troškovne učinkovitosti. Ovaj zahtjevni infrastrukturni zadatak Meta rješava strateškim ulaganjem u fleksibilna, kontinuirano evoluirajuća rješenja, čiji su središnji dio njihovi prilagođeno dizajnirani AI čipovi: obitelj Meta Training and Inference Accelerator (MTIA).

Iako je predana raznolikom portfelju silicija koji koristi i interna i eksterna rješenja, MTIA čipovi, razvijeni u bliskom partnerstvu s Broadcomom, nezaobilazna su komponenta Metine AI infrastrukturne strategije. Ovi vlastiti akceleratori ključni su za troškovno učinkovito pokretanje AI iskustava koja dosežu milijarde, neprestano se prilagođavajući brzo evoluirajućem krajoliku AI modela.

Iterativna evolucija Meta MTIA čipova

Krajolik AI modela u stanju je neprestanih promjena, razvijajući se tempom koji često nadmašuje tradicionalne cikluse razvoja čipova. Prepoznajući da dizajn čipova temeljen na predviđenim radnim opterećenjima može postati zastario do trenutka kada hardver dođe u proizvodnju, Meta je prihvatila inovativnu "strategiju brzine" za MTIA. Umjesto dugih, spekulativnih razdoblja razvoja, Meta primjenjuje iterativni pristup gdje se svaka MTIA generacija nadograđuje na prethodnu. To uključuje korištenje modularnih 'chipleta', ugradnju najnovijih uvida u AI radna opterećenja i implementaciju novih hardverskih tehnologija u znatno kraćem ritmu. Ova uža povratna sprega osigurava da Metin prilagođeni silicij ostane usko usklađen s dinamičnim zahtjevima AI modela, potičući brže usvajanje novih napredaka.

Meta je već detaljno opisala prve dvije generacije, MTIA 100 i MTIA 200, u akademskim radovima. Nadovezujući se na taj temelj, Meta je ubrzala razvoj kako bi predstavila četiri nove uzastopne generacije: MTIA 300, 400, 450 i 500. Ti su čipovi već u proizvodnji ili su predviđeni za masovno uvođenje 2026. i 2027. godine. Ovaj brzi slijed omogućio je Meti da značajno proširi pokrivenost radnih opterećenja MTIA-e, prelazeći s početnog zaključivanja (inference) rangiranja i preporuka (R&R) na R&R obuku, opća radna opterećenja generativnog AI-a (GenAI) i visoko optimizirano GenAI zaključivanje.

MTIA 300: Postavljanje temelja za AI radna opterećenja

MTIA 300 označio je ključan korak u Metinom putovanju s prilagođenim silicijem. U početku optimiziran za R&R modele, koji su bili Metina dominantna radna opterećenja prije procvata GenAI-a, njegovi arhitektonski gradivni blokovi uspostavili su robustan temelj za sljedeće čipove. Ključne prepoznatljive značajke MTIA 300 uključuju integrirane NIC 'chiplete', namjenske porukovne pogone za rasterećenje komunikacijskih kolektiva, te mogućnosti računanja blizu memorije dizajnirane za kolektive temeljene na redukciji. Ove komunikacijske komponente niske latencije i visoke propusnosti pokazale su se ključnima u omogućavanju učinkovitog GenAI zaključivanja i obuke u generacijama koje su slijedile.

MTIA 300 sastoji se od jednog računalnog 'chipleta', dva mrežna 'chipleta' i nekoliko slojeva memorije visoke propusnosti (HBM). Svaki računalni 'chiplet' sadrži mrežu procesnih elemenata (PE), strateški dizajniranih s redundantnim PE-ovima za poboljšanje iskoristivosti. Svaki PE je sofisticirana jedinica koja sadrži dvije RISC-V vektorske jezgre, Dot Product Engine za matrično množenje, Special Function Unit za aktivacije i elementarne operacije, Reduction Engine za akumulaciju i komunikaciju između PE-ova, te DMA pogon za učinkovito premještanje podataka unutar lokalne privremene memorije. Ovaj složeni dizajn naglašava Metinu predanost stvaranju visoko učinkovitog i troškovno isplativog rješenja za svoje osnovne AI zadatke.

MTIA 400: Postizanje konkurentnih GenAI performansi

S neviđenim porastom generativnog AI-a, Meta je brzo razvila MTIA 300 u MTIA 400 kako bi pružila robusnu podršku za GenAI radna opterećenja uz postojeće R&R mogućnosti. MTIA 400 predstavlja značajan skok, nudeći 400% više FP8 FLOPS-a i 51% povećanje HBM propusnosti u usporedbi s prethodnikom. Dok se MTIA 300 fokusirao na troškovnu učinkovitost, MTIA 400 je dizajniran da pruži sirove performanse konkurentne vodećim komercijalnim AI akceleratorima.

To postiže kombiniranjem dva računalna 'chipleta' kako bi se učinkovito udvostručila računalna gustoća te podrškom poboljšanih verzija MX8 i MX4, ključnih niskopreciznih formata za učinkovito GenAI zaključivanje. Jedan stalak opremljen sa 72 MTIA 400 uređaja, međusobno povezanih putem preklopne stražnje ploče, čini snažnu domenu za skaliranje. Ove sustave podržavaju napredni stalci s tekućim hlađenjem potpomognutim zrakom (AALC), olakšavajući brzu implementaciju čak i u starijim podatkovnim centrima, pokazujući Metin praktičan pristup globalnom skaliranju svoje AI infrastrukture.

MTIA 450 i 500: Specijalizirani za GenAI zaključivanje

Predviđajući nastavak eksponencijalnog rasta potražnje za GenAI zaključivanjem, Meta je dodatno usavršila MTIA 400, što je dovelo do razvoja MTIA 450, a zatim i MTIA 500. Ove generacije su posebno optimizirane za jedinstvene izazove GenAI zaključivanja, fokusirajući se na kritična poboljšanja u memoriji i izračunima.

MTIA 450 je napravio značajne korake:

  1. Udvostručenje HBM propusnosti u odnosu na prethodnu verziju, što je ključno za ubrzavanje faze dekodiranja u GenAI modelima.
  2. Povećanje MX4 FLOPS-a za 75%, ubrzavajući izračune mreže s mješavinom stručnjaka (MoE) i feed-forward mreže (FFN) uobičajene u velikim jezičnim modelima.
  3. Uvođenje hardverske akceleracije za učinkovitije izračune pažnje i FFN-a, ublažavajući uska grla povezana sa Softmaxom i FlashAttentionom.
  4. Inovacije u niskopreciznim tipovima podataka, prelazeći FP8/MX8 kako bi se postiglo 6x više MX4 FLOPS-a od FP16/BF16, s prilagođenim inovacijama tipova podataka koje čuvaju kvalitetu modela i povećavaju FLOPS uz minimalan utjecaj na površinu čipa.

MTIA 500, nadovezujući se na uspjeh 450-ice, dodatno je povećao HBM propusnost za još 50% i uveo više inovacija u niskopreciznim tipovima podataka, jačajući Metinu predanost pomicanju granica GenAI performansi zaključivanja. Ova neumorna težnja za poboljšanjem osigurava da Metina AI iskustva ostanu na samom vrhu.

Kumulativna poboljšanja kroz ove generacije su očita. Od MTIA 300 do MTIA 500, HBM propusnost povećala se za impresivnih 4,5 puta, dok su računalni FLOPS-i zabilježili zapanjujući 25-struki porast (od MX8 MTIA 300 do MX4 MTIA 500). Ovo brzo ubrzanje unutar dvije godine svjedočanstvo je Metine strategije brzine i njezine sposobnosti da kontinuirano poboljšava svoj prilagođeni silicij. Ova je evolucija ključna za operacionalizaciju agentnog AI-a i drugih složenih modela na velikoj skali.

Evo pregleda ključnih specifikacija obitelji MTIA:

ZnačajkaMTIA 300MTIA 400MTIA 450MTIA 500
Računalni čip1222
HBM slojevi4488
HBM propusnost (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Veličina domene za skaliranje18 devices**72 devices72 devices72 devices
Ključna optimizacijaR&R obuka, komunikacija niske latencijeOpći GenAI, konkurentne sirove performanseGenAI zaključivanje, HBM, prilagođena niska preciznostGenAI zaključivanje, HBM, prilagođena niska preciznost

*Neki proizvođači navode dvosmjernu propusnost. Pomnožite vrijednost u tablici s dva kako biste dobili odgovarajuću dvosmjernu propusnost. **MTIA 300 je konfiguriran s "scale-out" mrežom s većom propusnošću (200 GB/s) zbog svoje relativno male veličine domene za skaliranje i ciljanih R&R radnih opterećenja.

Ove specifikacije ističu dramatična poboljšanja u propusnosti memorije i računalnoj snazi, pokazujući kako je svaka MTIA generacija pomno projektirana za rješavanje najhitnijih zahtjeva trenutnih i budućih AI aplikacija, posebno resursno intenzivnih GenAI modela.

Metina neumorna potraga za prilagođenim silicijskim rješenjima putem obitelji MTIA naglašava njezinu predanost pružanju vrhunskih AI iskustava milijardama korisnika diljem svijeta. Kombinirajući interne inovacije sa strateškim partnerstvima, Meta nastavlja redefinirati mogućnosti skalabilne i troškovno učinkovite AI infrastrukture.

Često postavljana pitanja

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Budite u toku

Primajte najnovije AI vijesti na e-mail.

Podijeli