Skalering av AI-opplevelser med Metas MTIA-brikker
Hver dag samhandler milliarder av mennesker på tvers av Metas ulike plattformer med et utall AI-drevne funksjoner, fra personaliserte innholdsanbefalinger til avanserte AI-assistenter. Den underliggende utfordringen for Meta, og bransjen for øvrig, ligger i å distribuere og kontinuerlig forbedre disse sofistikerte AI-modellene på global skala, samtidig som man opprettholder optimal kostnadseffektivitet. Denne krevende infrastruktursoppgaven møtes av Metas strategiske investering i fleksible, kontinuerlig utviklende løsninger, sentralt i dette er deres spesialdesignede AI-brikker: Meta Training and Inference Accelerator (MTIA) familien.
Meta er forpliktet til en mangfoldig silisiumportefølje som utnytter både interne og eksterne løsninger, men MTIA-brikker, utviklet i tett samarbeid med Broadcom, er en uunnværlig komponent i Metas AI-infrastrukturstrategi. Disse egenutviklede akseleratorene er avgjørende for kostnadseffektivt å drive AI-opplevelsene som når milliarder, og de tilpasser seg kontinuerlig det raskt utviklende landskapet av AI-modeller.
Den iterative utviklingen av Metas MTIA-brikker
AI-modellandskapet er i en tilstand av konstant endring, og utvikler seg i et tempo som ofte overgår tradisjonelle brikkeutviklingssykluser. Meta anerkjenner at brikkedesign basert på forventede arbeidsbelastninger kan bli utdatert innen maskinvaren når produksjon, og har derfor omfavnet en innovativ 'hastighetsstrategi' (velocity strategy) for MTIA. I stedet for lange, spekulative utviklingsperioder, benytter Meta en iterativ tilnærming der hver MTIA-generasjon bygger på den forrige. Dette innebærer bruk av modulære chiplets, inkorporering av den nyeste innsikten i AI-arbeidsbelastninger, og utplassering av nye maskinvareteknologier med en betydelig kortere kadens. Denne tettere tilbakemeldingssløyfen sikrer at Metas spesialtilpassede silisium forblir tett tilpasset de dynamiske kravene til AI-modeller, noe som fremmer raskere adopsjon av nye fremskritt.
Meta har allerede detaljert de to første generasjonene, MTIA 100 og MTIA 200, i akademiske artikler. Ved å bygge på dette grunnlaget har Meta akselerert utviklingen for å introdusere fire nye suksessive generasjoner: MTIA 300, 400, 450 og 500. Disse brikkene er enten allerede i produksjon eller planlagt for masseutplassering i 2026 og 2027. Denne raske utviklingen har gjort det mulig for Meta å utvide MTIA sin arbeidsbelastningsdekning betydelig, og bevege seg fra innledende rangerings- og anbefalingsinferens (R&R) til R&R-trening, generelle Generativ AI (GenAI) arbeidsbelastninger, og høyt optimalisert GenAI-inferens.
MTIA 300: Legger grunnlaget for AI-arbeidsbelastninger
MTIA 300 markerte et avgjørende skritt i Metas reise med spesialtilpasset silisium. Den ble opprinnelig optimert for R&R-modeller, som var Metas dominerende arbeidsbelastninger før GenAI-boomen, og dens arkitektoniske byggeklosser etablerte et robust grunnlag for påfølgende brikker. Viktige kjennetegn ved MTIA 300 inkluderer integrerte NIC chiplets, dedikerte meldingsmotorer for avlastning av kommunikasjonskollektiver, og nær-minne beregningsmuligheter designet for reduksjonsbaserte kollektiver. Disse kommunikasjonskomponentene med lav latens og høy båndbredde viste seg å være avgjørende for å muliggjøre effektiv GenAI-inferens og trening i de etterfølgende generasjonene.
MTIA 300 består av én beregnings-chiplet, to nettverks-chiplets, og flere High-Bandwidth Memory (HBM) stakker. Hver beregnings-chiplet har et rutenett av prosesseringselementer (PE-er), strategisk designet med redundante PE-er for å forbedre utbyttet. Hver PE er en sofistikert enhet som inneholder to RISC-V vektorkjerner, en Dot Product Engine for matrisemultiplikasjon, en Special Function Unit for aktiveringer og elementvise operasjoner, en Reduction Engine for akkumulering og inter-PE-kommunikasjon, og en DMA-motor for effektiv dataflytting innenfor lokalt skrapminne. Denne intrikate designen understreket Metas forpliktelse til å skape en svært effektiv og kostnadseffektiv løsning for sine kjerne-AI-oppgaver.
MTIA 400: Oppnår konkurransedyktig GenAI-ytelse
Med den enestående økningen innen Generativ AI, utviklet Meta raskt MTIA 300 til MTIA 400 for å gi robust støtte for GenAI-arbeidsbelastninger ved siden av sine eksisterende R&R-funksjoner. MTIA 400 representerer et betydelig sprang, og tilbyr 400% høyere FP8 FLOPS og en 51% økning i HBM-båndbredde sammenlignet med forgjengeren. Mens MTIA 300 fokuserte på kostnadseffektivitet, ble MTIA 400 designet for å levere rå ytelse som er konkurransedyktig med ledende kommersielle AI-akseleratorer.
Den oppnår dette ved å kombinere to beregnings-chiplets for effektivt å doble beregningstettheten og ved å støtte forbedrede versjoner av MX8 og MX4, som er avgjørende lavpresisjonsformater for effektiv GenAI-inferens. Ett enkelt rack utstyrt med 72 MTIA 400-enheter, sammenkoblet via et svitsjet bakplan, danner et kraftig oppskaleringsdomene. Disse systemene støttes av avanserte luftassisterte væskekjølingsrack (AALC), noe som muliggjør rask utplassering selv i eldre datasentre, og viser Metas praktiske tilnærming til å skalere AI-infrastrukturen globalt.
MTIA 450 og 500: Spesialisert for GenAI-inferens
Meta forutså den fortsatte eksponensielle veksten i etterspørselen etter GenAI-inferens, og videreforedlet MTIA 400, noe som førte til utviklingen av MTIA 450 og deretter MTIA 500. Disse generasjonene er spesifikt optimert for de unike utfordringene ved GenAI-inferens, med fokus på kritiske fremskritt innen minne og beregning.
MTIA 450 gjorde betydelige fremskritt ved å:
- Doble HBM-båndbredden fra den forrige versjonen, noe som er avgjørende for å akselerere dekodingfasen i GenAI-modeller.
- Øke MX4 FLOPS med 75%, noe som fremskynder blanding av eksperter (MoE) feed-forward nettverk (FFN) beregninger som er vanlig i store språkmodeller.
- Introdusere maskinvareakselerasjon for å gjøre oppmerksomhets- og FFN-beregninger mer effektive, noe som avlaster flaskehalser knyttet til Softmax og FlashAttention.
- Innovasjon innen lavpresisjonsdatatypter, som går utover FP8/MX8 for å levere 6 ganger MX4 FLOPS av FP16/BF16, med tilpassede datatypeninnovasjoner som bevarer modellkvaliteten og øker FLOPS med minimal innvirkning på brikkeområdet.
MTIA 500, som bygger på 450s suksess, økte HBM-båndbredden med ytterligere 50% og introduserte flere innovasjoner innen lavpresisjonsdatatypter, noe som forsterker Metas forpliktelse til å flytte grensene for GenAI-inferensytelse. Denne ubarmhjertige innsatsen for forbedring sikrer at Metas AI-opplevelser forblir i forkant.
De kumulative fremskrittene på tvers av disse generasjonene er slående. Fra MTIA 300 til MTIA 500 har HBM-båndbredden økt med imponerende 4,5x, mens beregnings-FLOPS har sett en forbløffende 25x økning (fra MTIA 300s MX8 til MTIA 500s MX4). Denne raske akselerasjonen innen to år er et bevis på Metas hastighetsstrategi og dens evne til kontinuerlig å forbedre sitt spesialtilpassede silisium. Denne utviklingen er sentral for å operasjonalisere agentisk AI og andre komplekse modeller i stor skala.
Her er en oversikt over nøkkelspesifikasjonene for MTIA-familien:
| Funksjon | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Beregning Die | 1 | 2 | 2 | 2 |
| HBM-stakker | 4 | 4 | 8 | 8 |
| HBM-båndbredde (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Oppskaleringsdomenet | 18 enheter** | 72 enheter | 72 enheter | 72 enheter |
| Nøkkeloptimalisering | R&R-trening, lavlatens kommunikasjon | Generell GenAI, konkurransedyktig rå ytelse. | GenAI-inferens, HBM, tilpasset lavpresisjon. | GenAI-inferens, HBM, tilpasset lavpresisjon. |
*Noen leverandører rapporterer toveis båndbredde. Multipliser verdien i tabellen med to for å få den tilsvarende toveis båndbredden. **MTIA 300 er konfigurert med et utskaleringsnettverk med høyere båndbredde (200 GB/s) på grunn av den relativt lille oppskaleringsdomenstørrelsen og de målrettede R&R-arbeidsbelastningene.
Disse spesifikasjonene fremhever de dramatiske forbedringene i minnebåndbredde og beregningskraft, og demonstrerer hvordan hver MTIA-generasjon er omhyggelig konstruert for å møte de mest presserende kravene fra nåværende og fremtidige AI-applikasjoner, spesielt de ressurskrevende GenAI-modellene.
Metas nådeløse jakt på spesialtilpassede silisiumløsninger via MTIA-familien understreker selskapets forpliktelse til å levere banebrytende AI-opplevelser til milliarder av brukere over hele verden. Ved å kombinere intern innovasjon med strategiske partnerskap, fortsetter Meta å redefinere mulighetene for skalerbar og kostnadseffektiv AI-infrastruktur.
Opprinnelig kilde
https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/Ofte stilte spørsmål
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Hold deg oppdatert
Få de siste AI-nyhetene i innboksen din.
