Code Velocity
AI för företag

Meta MTIA-chip skalar AI för miljarder

·7 min läsning·Meta·Originalkälla
Dela
Meta MTIA AI-chip på ett serverkort i ett datacenterställ

Skalning av AI-upplevelser med Metas MTIA-chip

Varje dag interagerar miljarder människor över Metas olika plattformar med en myriad av AI-drivna funktioner, från personaliserade innehållsrekommendationer till avancerade AI-assistenter. Den underliggande utmaningen för Meta, och faktiskt hela branschen, ligger i att implementera och kontinuerligt förbättra dessa sofistikerade AI-modeller på global skala, samtidigt som optimal kostnadseffektivitet bibehålls. Denna krävande infrastrukturella uppgift möts av Metas strategiska investering i flexibla, kontinuerligt utvecklande lösningar, där deras specialdesignade AI-chip, Meta Training and Inference Accelerator (MTIA)-familjen, är centrala.

Även om Meta är engagerade i en diversifierad kiselportfölj som utnyttjar både interna och externa lösningar, är MTIA-chip, utvecklade i nära samarbete med Broadcom, en oumbärlig komponent i Metas AI-infrastrukturstrategi. Dessa egenutvecklade acceleratorer är avgörande för att kostnadseffektivt driva de AI-upplevelser som når miljarder, ständigt anpassade till det snabbt utvecklande landskapet av AI-modeller.

Den iterativa utvecklingen av Metas MTIA-chip

AI-modellandskapet befinner sig i ett tillstånd av ständig förändring och utvecklas i en takt som ofta överträffar traditionella chiputvecklingscykler. Meta inser att chipdesigner baserade på prognostiserade arbetsbelastningar kan bli föråldrade när hårdvaran når produktion, och har därför anammat en innovativ 'hastighetsstrategi' för MTIA. Istället för långa, spekulativa utvecklingsperioder antar Meta ett iterativt tillvägagångssätt där varje MTIA-generation bygger på den föregående. Detta innebär att man använder modulära chiplets, integrerar de senaste insikterna om AI-arbetsbelastningar och implementerar nya hårdvarutekniker med en betydligt kortare kadens. Denna tätare feedbackloop säkerställer att Metas anpassade kisel förblir nära anpassat till AI-modellernas dynamiska krav, vilket främjar snabbare införande av nya framsteg.

Meta har redan beskrivit de första två generationerna, MTIA 100 och MTIA 200, i akademiska artiklar. Med denna grund har Meta accelererat utvecklingen för att introducera fyra nya successiva generationer: MTIA 300, 400, 450 och 500. Dessa chip är antingen redan i produktion eller planerade för massdistribution under 2026 och 2027. Denna snabba succession har gjort det möjligt för Meta att avsevärt utöka MTIA:s arbetsbelastningskapacitet, från initial rankning och rekommendation (R&R) inferens till R&R-träning, allmänna generativa AI (GenAI)-arbetsbelastningar och högt optimerad GenAI-inferens.

MTIA 300: Lägger grunden för AI-arbetsbelastningar

MTIA 300 markerade ett avgörande steg i Metas resa med anpassat kisel. Initialt optimerad för R&R-modeller, som var Metas dominerande arbetsbelastningar före GenAI-boomen, etablerade dess arkitektoniska byggstenar en robust grund för efterföljande chip. Viktiga särskiljande egenskaper hos MTIA 300 inkluderar integrerade NIC-chiplets, dedikerade meddelandemotorer för avlastning av kommunikationskollektiv, och nära-minnesberäkningskapacitet utformad för reduktionsbaserade kollektiv. Dessa kommunikationskomponenter med låg latens och hög bandbredd visade sig vara avgörande för att möjliggöra effektiv GenAI-inferens och träning i de generationer som följde.

MTIA 300 består av en beräkningschiplet, två nätverkschiplets och flera High-Bandwidth Memory (HBM)-stackar. Varje beräkningschiplet har ett nät av processelement (PEs), strategiskt utformat med redundanta PEs för att förbättra utbytet. Varje PE är en sofistikerad enhet som innehåller två RISC-V vektorkärnor, en Dot Product Engine för matris multipplikation, en Special Function Unit för aktiveringar och elementvisa operationer, en Reduction Engine för ackumulering och inter-PE kommunikation, och en DMA-motor för effektiv dataförflyttning inom lokalt skrapminne. Denna intrikata design underströk Metas engagemang för att skapa en mycket effektiv och kostnadseffektiv lösning för sina kärn-AI-uppgifter.

MTIA 400: Uppnår konkurrenskraftig GenAI-prestanda

Med den oöverträffade ökningen av generativ AI, utvecklade Meta snabbt MTIA 300 till MTIA 400 för att ge robust stöd för GenAI-arbetsbelastningar vid sidan av dess befintliga R&R-kapacitet. MTIA 400 representerar ett betydande framsteg, och erbjuder 400% högre FP8 FLOPS och en 51% ökning av HBM-bandbredd jämfört med sin föregångare. Medan MTIA 300 fokuserade på kostnadseffektivitet, designades MTIA 400 för att leverera rå prestanda som är konkurrenskraftig med ledande kommersiella AI-acceleratorer.

Detta uppnås genom att kombinera två beräkningschiplets för att effektivt dubbla beräkningstätheten och genom att stödja förbättrade versioner av MX8 och MX4, avgörande lågprecisionsformat för effektiv GenAI-inferens. Ett enda rack utrustat med 72 MTIA 400-enheter, sammankopplade via en växlad bakplan, bildar en kraftfull uppskalningsdomän. Dessa system stöds av avancerade luftassisterade vätskekylda (AALC) rack, vilket underlättar snabb utrullning även i äldre datacenter, och visar Metas praktiska tillvägagångssätt för att skala sin AI-infrastruktur globalt.

MTIA 450 och 500: Specialiserade för GenAI-inferens

I förväntan om den fortsatta exponentiella tillväxten i efterfrågan på GenAI-inferens, förfinade Meta MTIA 400 ytterligare, vilket ledde till utvecklingen av MTIA 450 och därefter MTIA 500. Dessa generationer är specifikt optimerade för de unika utmaningarna med GenAI-inferens, med fokus på kritiska framsteg inom minne och beräkning.

MTIA 450 gjorde betydande framsteg genom att:

  1. Dubblera HBM-bandbredd jämfört med den tidigare versionen, vilket är avgörande för att accelerera avkodningsfasen i GenAI-modeller.
  2. Öka MX4 FLOPS med 75%, vilket snabbar upp blandning-av-experter (MoE) feed-forward network (FFN)-beräkningar som är vanliga i stora språkmodeller.
  3. Införa hårdvaruacceleration för att göra uppmärksamhets- och FFN-beräkningar effektivare, vilket avlastar flaskhalsar associerade med Softmax och FlashAttention.
  4. Innovera inom lågprecisionsdatatyp, som går bortom FP8/MX8 för att leverera 6 gånger MX4 FLOPS jämfört med FP16/BF16, med anpassade datatypinnovationer som bevarar modellkvaliteten och ökar FLOPS med minimal påverkan på chipområdet.

MTIA 500, som bygger på 450:ans framgång, ökade HBM-bandbredden med ytterligare 50% och introducerade fler innovationer inom lågprecisionsdatatyp, vilket förstärker Metas åtagande att tänja på gränserna för GenAI-inferensprestanda. Denna obevekliga strävan efter förbättring säkerställer att Metas AI-upplevelser förblir i framkant.

De kumulativa framstegen över dessa generationer är slående. Från MTIA 300 till MTIA 500 har HBM-bandbredden ökat med imponerande 4,5 gånger, medan beräknings-FLOPS har sett en häpnadsväckande 25-faldig ökning (från MTIA 300:s MX8 till MTIA 500:s MX4). Denna snabba acceleration inom två år är ett bevis på Metas hastighetsstrategi och dess förmåga att kontinuerligt förbättra sitt anpassade kisel. Denna utveckling är central för att operationalisera agentisk AI och andra komplexa modeller i skala.

Här är en översikt över nyckelspecifikationerna för MTIA-familjen:

FunktionMTIA 300MTIA 400MTIA 450MTIA 500
Beräkningskärna1222
HBM-stackar4488
HBM-bandbredd (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Uppskalningsdomänstorlek18 enheter**72 enheter72 enheter72 enheter
Viktig optimeringR&R-träning, låg latenskommunikationAllmän GenAI, konkurrenskraftig rå prestandaGenAI-inferens, HBM, anpassad lågprec.GenAI-inferens, HBM, anpassad lågprec.

*Vissa leverantörer rapporterar dubbelriktad bandbredd. Multiplicera värdet i tabellen med två för att få den motsvarande dubbelriktade bandbredden. **MTIA 300 är konfigurerad med ett utskalande nätverk med högre bandbredd (200 GB/s) på grund av dess relativt lilla uppskalningsdomänstorlek och de riktade R&R-arbetsbelastningarna.

Dessa specifikationer belyser de dramatiska förbättringarna i minnesbandbredd och beräkningskraft, vilket visar hur varje MTIA-generation är noggrant konstruerad för att möta de mest pressande kraven från nuvarande och framtida AI-applikationer, särskilt de resurskrävande GenAI-modellerna.

Metas obevekliga strävan efter anpassade kiselösningar via MTIA-familjen understryker dess engagemang för att leverera banbrytande AI-upplevelser till miljarder användare över hela världen. Genom att kombinera intern innovation med strategiska partnerskap fortsätter Meta att omdefiniera möjligheterna för skalbar och kostnadseffektiv AI-infrastruktur.

Vanliga frågor

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela