Code Velocity
Onderneming KI

Meta MTIA-skyfies skaal KI vir miljarde

·7 min lees·Meta·Oorspronklike bron
Deel
Meta MTIA KI-skyfies op 'n bedienerbord in 'n datasentrumrak

Die Skaal van KI-ervarings met Meta se MTIA-skyfies

Elke dag interaksie miljarde mense oor Meta se diverse platforms heen met 'n magdom KI-gedrewe funksies, van gepersonaliseerde inhoudsaanbevelings tot gevorderde KI-assistente. Die onderliggende uitdaging vir Meta, en inderdaad die bedryf, lê in die ontplooiing en deurlopende verbetering van hierdie gesofistikeerde KI-modelle op 'n globale skaal, alles terwyl optimale koste-doeltreffendheid gehandhaaf word. Hierdie veeleisende infrastruktuurtaak word beantwoord deur Meta se strategiese belegging in buigsame, deurlopend ontwikkelende oplossings, sentraal waartoe hul pasgemaakte KI-skyfies behoort: die Meta Training and Inference Accelerator (MTIA)-familie.

Hoewel Meta toegewyd is aan 'n diverse silikonportefeulje wat beide interne en eksterne oplossings benut, is MTIA-skyfies, ontwikkel in noue vennootskap met Broadcom, 'n onontbeerlike komponent van Meta se KI-infrastruktuurstrategie. Hierdie tuisgekweekte versnellers is deurslaggewend om die KI-ervarings wat miljarde bereik, koste-effektief aan te dryf, en voortdurend aan te pas by die vinnig ontwikkelende landskap van KI-modelle.

Die Iteratiewe Evolusie van Meta se MTIA-skyfies

Die KI-modelle-landskap is in 'n toestand van voortdurende verandering, en ontwikkel teen 'n tempo wat dikwels tradisionele skyfie-ontwikkelingssiklusse oorskry. Meta, wat erken dat skyfie-ontwerpe gebaseer op geprojekteerde werkladings verouderd kan raak teen die tyd dat hardeware produksie bereik, het 'n innoverende "snelheidstrategie" vir MTIA omhels. In plaas van lang, spekulatiewe ontwikkelingsperiodes, neem Meta 'n iteratiewe benadering aan waar elke MTIA-generasie voortbou op die vorige. Dit behels die gebruik van modulêre skyfie-elemente, die inkorporering van die nuutste KI-werkladinginsigte, en die ontplooiing van nuwe hardeware-tegnologieë op 'n aansienlik korter kadens. Hierdie nouer terugvoerkring verseker dat Meta se pasgemaakte silikon nou in lyn bly met die dinamiese eise van KI-modelle, wat vinniger aanvaarding van nuwe vorderings bevorder.

Meta het reeds die eerste twee generasies, MTIA 100 en MTIA 200, in akademiese artikels uiteengesit. Voortbouend op hierdie fondament, het Meta ontwikkeling versnel om vier nuwe opeenvolgende generasies bekend te stel: MTIA 300, 400, 450, en 500. Hierdie skyfies is óf reeds in produksie óf geskeduleer vir massa-ontplooiing in 2026 en 2027. Hierdie vinnige opeenvolging het Meta in staat gestel om MTIA se werkladingdekking aansienlik uit te brei, van aanvanklike rangorde- en aanbevelings (R&R) inferensie na R&R-opleiding, algemene Generatiewe KI (GenKI)-werkladings, en hoogs geoptimaliseerde GenKI-inferensie.

MTIA 300: Die Lê van die Grondslag vir KI-werkladings

Die MTIA 300 het 'n deurslaggewende stap in Meta se pasgemaakte silikonreis gemerk. Aanvanklik geoptimaliseer vir R&R-modelle, wat Meta se dominante werkladings was voor die GenKI-oplewing, het sy argitektoniese boublokke 'n robuuste fondament vir daaropvolgende skyfies gevestig. Sleutelonderskeidende kenmerke van MTIA 300 sluit in geïntegreerde NIC-skyfie-elemente, toegewyde boodskap-enjins vir die aflaai van kommunikasiekollokatiewe, en naby-geheue rekenvermoëns wat ontwerp is vir reduksiegebaseerde kollokatiewe. Hierdie lae-latensie, hoë-bandwydte kommunikasiekomponente het instrumenteel bewys in die moontlikmaking van doeltreffende GenKI-inferensie en -opleiding in die generasies wat gevolg het.

Die MTIA 300 bestaan uit een reken-skyfie-element, twee netwerk-skyfie-elemente, en verskeie Hoë-bandwydte geheue (HBM)-stapels. Elke reken-skyfie-element beskik oor 'n rooster van verwerkingselemente (PE's), strategies ontwerp met oorbodige PE's om opbrengs te verbeter. Elke PE is 'n gesofistikeerde eenheid wat twee RISC-V vektor-kerne, 'n Dot Product Engine vir matriksvermenigvuldiging, 'n Spesiale Funksie Eenheid vir aktiverings en elementgewyse operasies, 'n Reduksie-enjin vir akkumulasie en inter-PE-kommunikasie, en 'n DMA-enjin vir doeltreffende databeweging binne plaaslike skraapgeheue bevat. Hierdie ingewikkelde ontwerp het Meta se verbintenis tot die skep van 'n hoogs doeltreffende en koste-effektiewe oplossing vir sy kern-KI-take onderstreep.

MTIA 400: Die Bereiking van Mededingende GenKI-prestasie

Met die ongekende toename in Generatiewe KI, het Meta die MTIA 300 vinnig ontwikkel tot die MTIA 400 om robuuste ondersteuning vir GenKI-werkladings saam met sy bestaande R&R-vermoëns te bied. Die MTIA 400 verteenwoordig 'n beduidende sprong, en bied 400% hoër FP8 FLOPS en 'n 51% toename in HBM-bandwydte in vergelyking met sy voorganger. Terwyl MTIA 300 op koste-doeltreffendheid gefokus het, is MTIA 400 ontwerp om rou werkverrigting te lewer wat mededingend is met toonaangewende kommersiële KI-versnellers.

Dit bereik dit deur twee reken-skyfie-elemente te kombineer om reken-digtheid effektief te verdubbel en deur verbeterde weergawes van MX8 en MX4 te ondersteun, wat kritieke lae-presisie-formate is vir doeltreffende GenKI-inferensie. 'n Enkele rek toegerus met 72 MTIA 400-toestelle, onderling verbind via 'n geskakelde rugvlak, vorm 'n kragtige skaal-op-domein. Hierdie stelsels word ondersteun deur gevorderde lug-ondersteunde vloeistofverkoeling (AALC)-rakke, wat vinnige ontplooiing selfs in ou datasentrums fasiliteer, en Meta se praktiese benadering tot die skaal van sy KI-infrastruktuur wêreldwyd ten toon stel.

MTIA 450 en 500: Gespesialiseer vir GenKI-inferensie

Met die verwagting van die voortgesette eksponensiële groei in GenKI-inferensie-aanvraag, het Meta die MTIA 400 verder verfyn, wat gelei het tot die ontwikkeling van MTIA 450 en daarna MTIA 500. Hierdie generasies is spesifiek geoptimaliseer vir die unieke uitdagings van GenKI-inferensie, met die fokus op kritieke vorderings in geheue en berekening.

MTIA 450 het beduidende vordering gemaak deur:

  1. Die verdubbeling van HBM-bandwydte vanaf die vorige weergawe, wat deurslaggewend is vir die versnelling van die dekodeerfase in GenKI-modelle.
  2. Die verhoging van MX4 FLOPS met 75%, wat die spoed van 'mixture-of-experts' (MoE) vorentoevoer-netwerk (FFN)-berekeninge, wat algemeen is in groot taalmodelle, versnel.
  3. Die bekendstelling van hardeware-versnelling om aandag- en FFN-berekeninge meer doeltreffend te maak, wat knelpunte wat met Softmax en FlashAttention geassosieer word, verlig.
  4. Die innovering in lae-presisie-datatipes, wat verder gaan as FP8/MX8 om 6x die MX4 FLOPS van FP16/BF16 te lewer, met pasgemaakte datatipe-innovasies wat modelkwaliteit behou en FLOPS verhoog met minimale skyfie-area-impak.

MTIA 500, wat voortbou op die sukses van die 450, het HBM-bandwydte met 'n addisionele 50% verder verhoog en meer innovasies in lae-presisie-datatipes bekendgestel, wat Meta se verbintenis tot die verskuiwing van die grense van GenKI-inferensieprestasie versterk. Hierdie onverbiddelike strewe na verbetering verseker dat Meta se KI-ervarings aan die voorpunt bly.

Die kumulatiewe vorderings oor hierdie generasies is opvallend. Van MTIA 300 tot MTIA 500 het die HBM-bandwydte met 'n indrukwekkende 4.5x toegeneem, terwyl die reken-FLOPS 'n verstommende 25x toename gesien het (van MTIA 300 se MX8 na MTIA 500 se MX4). Hierdie vinnige versnelling binne twee jaar is 'n bewys van Meta se snelheidstrategie en sy vermoë om sy pasgemaakte silikon voortdurend te verbeter. Hierdie evolusie is sentraal tot die operationalisering van agentiese KI en ander komplekse modelle op skaal.

Hier is 'n uiteensetting van die sleutelspesifikasies oor die MTIA-familie:

KenmerkMTIA 300MTIA 400MTIA 450MTIA 500
Reken-skyfie1222
HBM-stapels4488
HBM-bandwydte (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)NVT200350500
Skaal-op-domeingrootte18 toestelle**72 toestelle72 toestelle72 toestelle
SleuteloptimiseringR&R-opleiding, lae-latensie kommunikasieAlgemene GenKI, mededingende rou prestasie.GenKI-inferensie, HBM, pasgemaakte lae-pres.GenKI-inferensie, HBM, pasgemaakte lae-pres.

*Sommige verskaffers rapporteer bidirectionele bandwydte. Vermenigvuldig die waarde in die tabel met twee om die ooreenstemmende bidirectionele bandwydte te verkry. **MTIA 300 is gekonfigureer met 'n skaal-uit-netwerk met hoër bandwydte (200 GB/s) as gevolg van sy relatief klein skaal-op-domeingrootte en die teiken-R&R-werkladings.

Hierdie spesifikasies beklemtoon die dramatiese verbeteringe in geheuebandwydte en rekenkrag, wat demonstreer hoe elke MTIA-generasie noukeurig ontwerp is om die mees dringende eise van huidige en toekomstige KI-toepassings, veral die hulpbron-intensiewe GenKI-modelle, aan te spreek.

Meta se onverbiddelike strewe na pasgemaakte silikonoplossings via die MTIA-familie onderstreep sy verbintenis om toonaangewende KI-ervarings aan miljarde gebruikers wêreldwyd te lewer. Deur interne innovasie met strategiese vennootskappe te kombineer, gaan Meta voort om die moontlikhede van skaalbare en koste-effektiewe KI-infrastruktuur te herdefinieer.

Gereelde Vrae

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Bly op hoogte

Kry die nuutste KI-nuus in jou inkassie.

Deel