Skalning av AI-upplevelser med Metas MTIA-chip
Varje dag interagerar miljarder människor över Metas olika plattformar med en myriad av AI-drivna funktioner, från personaliserade innehållsrekommendationer till avancerade AI-assistenter. Den underliggande utmaningen för Meta, och faktiskt hela branschen, ligger i att implementera och kontinuerligt förbättra dessa sofistikerade AI-modeller på global skala, samtidigt som optimal kostnadseffektivitet bibehålls. Denna krävande infrastrukturella uppgift möts av Metas strategiska investering i flexibla, kontinuerligt utvecklande lösningar, där deras specialdesignade AI-chip, Meta Training and Inference Accelerator (MTIA)-familjen, är centrala.
Även om Meta är engagerade i en diversifierad kiselportfölj som utnyttjar både interna och externa lösningar, är MTIA-chip, utvecklade i nära samarbete med Broadcom, en oumbärlig komponent i Metas AI-infrastrukturstrategi. Dessa egenutvecklade acceleratorer är avgörande för att kostnadseffektivt driva de AI-upplevelser som når miljarder, ständigt anpassade till det snabbt utvecklande landskapet av AI-modeller.
Den iterativa utvecklingen av Metas MTIA-chip
AI-modellandskapet befinner sig i ett tillstånd av ständig förändring och utvecklas i en takt som ofta överträffar traditionella chiputvecklingscykler. Meta inser att chipdesigner baserade på prognostiserade arbetsbelastningar kan bli föråldrade när hårdvaran når produktion, och har därför anammat en innovativ 'hastighetsstrategi' för MTIA. Istället för långa, spekulativa utvecklingsperioder antar Meta ett iterativt tillvägagångssätt där varje MTIA-generation bygger på den föregående. Detta innebär att man använder modulära chiplets, integrerar de senaste insikterna om AI-arbetsbelastningar och implementerar nya hårdvarutekniker med en betydligt kortare kadens. Denna tätare feedbackloop säkerställer att Metas anpassade kisel förblir nära anpassat till AI-modellernas dynamiska krav, vilket främjar snabbare införande av nya framsteg.
Meta har redan beskrivit de första två generationerna, MTIA 100 och MTIA 200, i akademiska artiklar. Med denna grund har Meta accelererat utvecklingen för att introducera fyra nya successiva generationer: MTIA 300, 400, 450 och 500. Dessa chip är antingen redan i produktion eller planerade för massdistribution under 2026 och 2027. Denna snabba succession har gjort det möjligt för Meta att avsevärt utöka MTIA:s arbetsbelastningskapacitet, från initial rankning och rekommendation (R&R) inferens till R&R-träning, allmänna generativa AI (GenAI)-arbetsbelastningar och högt optimerad GenAI-inferens.
MTIA 300: Lägger grunden för AI-arbetsbelastningar
MTIA 300 markerade ett avgörande steg i Metas resa med anpassat kisel. Initialt optimerad för R&R-modeller, som var Metas dominerande arbetsbelastningar före GenAI-boomen, etablerade dess arkitektoniska byggstenar en robust grund för efterföljande chip. Viktiga särskiljande egenskaper hos MTIA 300 inkluderar integrerade NIC-chiplets, dedikerade meddelandemotorer för avlastning av kommunikationskollektiv, och nära-minnesberäkningskapacitet utformad för reduktionsbaserade kollektiv. Dessa kommunikationskomponenter med låg latens och hög bandbredd visade sig vara avgörande för att möjliggöra effektiv GenAI-inferens och träning i de generationer som följde.
MTIA 300 består av en beräkningschiplet, två nätverkschiplets och flera High-Bandwidth Memory (HBM)-stackar. Varje beräkningschiplet har ett nät av processelement (PEs), strategiskt utformat med redundanta PEs för att förbättra utbytet. Varje PE är en sofistikerad enhet som innehåller två RISC-V vektorkärnor, en Dot Product Engine för matris multipplikation, en Special Function Unit för aktiveringar och elementvisa operationer, en Reduction Engine för ackumulering och inter-PE kommunikation, och en DMA-motor för effektiv dataförflyttning inom lokalt skrapminne. Denna intrikata design underströk Metas engagemang för att skapa en mycket effektiv och kostnadseffektiv lösning för sina kärn-AI-uppgifter.
MTIA 400: Uppnår konkurrenskraftig GenAI-prestanda
Med den oöverträffade ökningen av generativ AI, utvecklade Meta snabbt MTIA 300 till MTIA 400 för att ge robust stöd för GenAI-arbetsbelastningar vid sidan av dess befintliga R&R-kapacitet. MTIA 400 representerar ett betydande framsteg, och erbjuder 400% högre FP8 FLOPS och en 51% ökning av HBM-bandbredd jämfört med sin föregångare. Medan MTIA 300 fokuserade på kostnadseffektivitet, designades MTIA 400 för att leverera rå prestanda som är konkurrenskraftig med ledande kommersiella AI-acceleratorer.
Detta uppnås genom att kombinera två beräkningschiplets för att effektivt dubbla beräkningstätheten och genom att stödja förbättrade versioner av MX8 och MX4, avgörande lågprecisionsformat för effektiv GenAI-inferens. Ett enda rack utrustat med 72 MTIA 400-enheter, sammankopplade via en växlad bakplan, bildar en kraftfull uppskalningsdomän. Dessa system stöds av avancerade luftassisterade vätskekylda (AALC) rack, vilket underlättar snabb utrullning även i äldre datacenter, och visar Metas praktiska tillvägagångssätt för att skala sin AI-infrastruktur globalt.
MTIA 450 och 500: Specialiserade för GenAI-inferens
I förväntan om den fortsatta exponentiella tillväxten i efterfrågan på GenAI-inferens, förfinade Meta MTIA 400 ytterligare, vilket ledde till utvecklingen av MTIA 450 och därefter MTIA 500. Dessa generationer är specifikt optimerade för de unika utmaningarna med GenAI-inferens, med fokus på kritiska framsteg inom minne och beräkning.
MTIA 450 gjorde betydande framsteg genom att:
- Dubblera HBM-bandbredd jämfört med den tidigare versionen, vilket är avgörande för att accelerera avkodningsfasen i GenAI-modeller.
- Öka MX4 FLOPS med 75%, vilket snabbar upp blandning-av-experter (MoE) feed-forward network (FFN)-beräkningar som är vanliga i stora språkmodeller.
- Införa hårdvaruacceleration för att göra uppmärksamhets- och FFN-beräkningar effektivare, vilket avlastar flaskhalsar associerade med Softmax och FlashAttention.
- Innovera inom lågprecisionsdatatyp, som går bortom FP8/MX8 för att leverera 6 gånger MX4 FLOPS jämfört med FP16/BF16, med anpassade datatypinnovationer som bevarar modellkvaliteten och ökar FLOPS med minimal påverkan på chipområdet.
MTIA 500, som bygger på 450:ans framgång, ökade HBM-bandbredden med ytterligare 50% och introducerade fler innovationer inom lågprecisionsdatatyp, vilket förstärker Metas åtagande att tänja på gränserna för GenAI-inferensprestanda. Denna obevekliga strävan efter förbättring säkerställer att Metas AI-upplevelser förblir i framkant.
De kumulativa framstegen över dessa generationer är slående. Från MTIA 300 till MTIA 500 har HBM-bandbredden ökat med imponerande 4,5 gånger, medan beräknings-FLOPS har sett en häpnadsväckande 25-faldig ökning (från MTIA 300:s MX8 till MTIA 500:s MX4). Denna snabba acceleration inom två år är ett bevis på Metas hastighetsstrategi och dess förmåga att kontinuerligt förbättra sitt anpassade kisel. Denna utveckling är central för att operationalisera agentisk AI och andra komplexa modeller i skala.
Här är en översikt över nyckelspecifikationerna för MTIA-familjen:
| Funktion | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Beräkningskärna | 1 | 2 | 2 | 2 |
| HBM-stackar | 4 | 4 | 8 | 8 |
| HBM-bandbredd (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Uppskalningsdomänstorlek | 18 enheter** | 72 enheter | 72 enheter | 72 enheter |
| Viktig optimering | R&R-träning, låg latenskommunikation | Allmän GenAI, konkurrenskraftig rå prestanda | GenAI-inferens, HBM, anpassad lågprec. | GenAI-inferens, HBM, anpassad lågprec. |
*Vissa leverantörer rapporterar dubbelriktad bandbredd. Multiplicera värdet i tabellen med två för att få den motsvarande dubbelriktade bandbredden. **MTIA 300 är konfigurerad med ett utskalande nätverk med högre bandbredd (200 GB/s) på grund av dess relativt lilla uppskalningsdomänstorlek och de riktade R&R-arbetsbelastningarna.
Dessa specifikationer belyser de dramatiska förbättringarna i minnesbandbredd och beräkningskraft, vilket visar hur varje MTIA-generation är noggrant konstruerad för att möta de mest pressande kraven från nuvarande och framtida AI-applikationer, särskilt de resurskrävande GenAI-modellerna.
Metas obevekliga strävan efter anpassade kiselösningar via MTIA-familjen understryker dess engagemang för att leverera banbrytande AI-upplevelser till miljarder användare över hela världen. Genom att kombinera intern innovation med strategiska partnerskap fortsätter Meta att omdefiniera möjligheterna för skalbar och kostnadseffektiv AI-infrastruktur.
Vanliga frågor
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Håll dig uppdaterad
Få de senaste AI-nyheterna i din inkorg.
