Code Velocity
Enterprise AI

Metas MTIA-brikker skalerer AI for milliarder

·7 min lesing·Meta·Opprinnelig kilde
Del
Metas MTIA AI-brikker på et serverkort i et datasenterrack

Skalering av AI-opplevelser med Metas MTIA-brikker

Hver dag samhandler milliarder av mennesker på tvers av Metas ulike plattformer med et utall AI-drevne funksjoner, fra personaliserte innholdsanbefalinger til avanserte AI-assistenter. Den underliggende utfordringen for Meta, og bransjen for øvrig, ligger i å distribuere og kontinuerlig forbedre disse sofistikerte AI-modellene på global skala, samtidig som man opprettholder optimal kostnadseffektivitet. Denne krevende infrastruktursoppgaven møtes av Metas strategiske investering i fleksible, kontinuerlig utviklende løsninger, sentralt i dette er deres spesialdesignede AI-brikker: Meta Training and Inference Accelerator (MTIA) familien.

Meta er forpliktet til en mangfoldig silisiumportefølje som utnytter både interne og eksterne løsninger, men MTIA-brikker, utviklet i tett samarbeid med Broadcom, er en uunnværlig komponent i Metas AI-infrastrukturstrategi. Disse egenutviklede akseleratorene er avgjørende for kostnadseffektivt å drive AI-opplevelsene som når milliarder, og de tilpasser seg kontinuerlig det raskt utviklende landskapet av AI-modeller.

Den iterative utviklingen av Metas MTIA-brikker

AI-modellandskapet er i en tilstand av konstant endring, og utvikler seg i et tempo som ofte overgår tradisjonelle brikkeutviklingssykluser. Meta anerkjenner at brikkedesign basert på forventede arbeidsbelastninger kan bli utdatert innen maskinvaren når produksjon, og har derfor omfavnet en innovativ 'hastighetsstrategi' (velocity strategy) for MTIA. I stedet for lange, spekulative utviklingsperioder, benytter Meta en iterativ tilnærming der hver MTIA-generasjon bygger på den forrige. Dette innebærer bruk av modulære chiplets, inkorporering av den nyeste innsikten i AI-arbeidsbelastninger, og utplassering av nye maskinvareteknologier med en betydelig kortere kadens. Denne tettere tilbakemeldingssløyfen sikrer at Metas spesialtilpassede silisium forblir tett tilpasset de dynamiske kravene til AI-modeller, noe som fremmer raskere adopsjon av nye fremskritt.

Meta har allerede detaljert de to første generasjonene, MTIA 100 og MTIA 200, i akademiske artikler. Ved å bygge på dette grunnlaget har Meta akselerert utviklingen for å introdusere fire nye suksessive generasjoner: MTIA 300, 400, 450 og 500. Disse brikkene er enten allerede i produksjon eller planlagt for masseutplassering i 2026 og 2027. Denne raske utviklingen har gjort det mulig for Meta å utvide MTIA sin arbeidsbelastningsdekning betydelig, og bevege seg fra innledende rangerings- og anbefalingsinferens (R&R) til R&R-trening, generelle Generativ AI (GenAI) arbeidsbelastninger, og høyt optimalisert GenAI-inferens.

MTIA 300: Legger grunnlaget for AI-arbeidsbelastninger

MTIA 300 markerte et avgjørende skritt i Metas reise med spesialtilpasset silisium. Den ble opprinnelig optimert for R&R-modeller, som var Metas dominerende arbeidsbelastninger før GenAI-boomen, og dens arkitektoniske byggeklosser etablerte et robust grunnlag for påfølgende brikker. Viktige kjennetegn ved MTIA 300 inkluderer integrerte NIC chiplets, dedikerte meldingsmotorer for avlastning av kommunikasjonskollektiver, og nær-minne beregningsmuligheter designet for reduksjonsbaserte kollektiver. Disse kommunikasjonskomponentene med lav latens og høy båndbredde viste seg å være avgjørende for å muliggjøre effektiv GenAI-inferens og trening i de etterfølgende generasjonene.

MTIA 300 består av én beregnings-chiplet, to nettverks-chiplets, og flere High-Bandwidth Memory (HBM) stakker. Hver beregnings-chiplet har et rutenett av prosesseringselementer (PE-er), strategisk designet med redundante PE-er for å forbedre utbyttet. Hver PE er en sofistikert enhet som inneholder to RISC-V vektorkjerner, en Dot Product Engine for matrisemultiplikasjon, en Special Function Unit for aktiveringer og elementvise operasjoner, en Reduction Engine for akkumulering og inter-PE-kommunikasjon, og en DMA-motor for effektiv dataflytting innenfor lokalt skrapminne. Denne intrikate designen understreket Metas forpliktelse til å skape en svært effektiv og kostnadseffektiv løsning for sine kjerne-AI-oppgaver.

MTIA 400: Oppnår konkurransedyktig GenAI-ytelse

Med den enestående økningen innen Generativ AI, utviklet Meta raskt MTIA 300 til MTIA 400 for å gi robust støtte for GenAI-arbeidsbelastninger ved siden av sine eksisterende R&R-funksjoner. MTIA 400 representerer et betydelig sprang, og tilbyr 400% høyere FP8 FLOPS og en 51% økning i HBM-båndbredde sammenlignet med forgjengeren. Mens MTIA 300 fokuserte på kostnadseffektivitet, ble MTIA 400 designet for å levere rå ytelse som er konkurransedyktig med ledende kommersielle AI-akseleratorer.

Den oppnår dette ved å kombinere to beregnings-chiplets for effektivt å doble beregningstettheten og ved å støtte forbedrede versjoner av MX8 og MX4, som er avgjørende lavpresisjonsformater for effektiv GenAI-inferens. Ett enkelt rack utstyrt med 72 MTIA 400-enheter, sammenkoblet via et svitsjet bakplan, danner et kraftig oppskaleringsdomene. Disse systemene støttes av avanserte luftassisterte væskekjølingsrack (AALC), noe som muliggjør rask utplassering selv i eldre datasentre, og viser Metas praktiske tilnærming til å skalere AI-infrastrukturen globalt.

MTIA 450 og 500: Spesialisert for GenAI-inferens

Meta forutså den fortsatte eksponensielle veksten i etterspørselen etter GenAI-inferens, og videreforedlet MTIA 400, noe som førte til utviklingen av MTIA 450 og deretter MTIA 500. Disse generasjonene er spesifikt optimert for de unike utfordringene ved GenAI-inferens, med fokus på kritiske fremskritt innen minne og beregning.

MTIA 450 gjorde betydelige fremskritt ved å:

  1. Doble HBM-båndbredden fra den forrige versjonen, noe som er avgjørende for å akselerere dekodingfasen i GenAI-modeller.
  2. Øke MX4 FLOPS med 75%, noe som fremskynder blanding av eksperter (MoE) feed-forward nettverk (FFN) beregninger som er vanlig i store språkmodeller.
  3. Introdusere maskinvareakselerasjon for å gjøre oppmerksomhets- og FFN-beregninger mer effektive, noe som avlaster flaskehalser knyttet til Softmax og FlashAttention.
  4. Innovasjon innen lavpresisjonsdatatypter, som går utover FP8/MX8 for å levere 6 ganger MX4 FLOPS av FP16/BF16, med tilpassede datatypeninnovasjoner som bevarer modellkvaliteten og øker FLOPS med minimal innvirkning på brikkeområdet.

MTIA 500, som bygger på 450s suksess, økte HBM-båndbredden med ytterligere 50% og introduserte flere innovasjoner innen lavpresisjonsdatatypter, noe som forsterker Metas forpliktelse til å flytte grensene for GenAI-inferensytelse. Denne ubarmhjertige innsatsen for forbedring sikrer at Metas AI-opplevelser forblir i forkant.

De kumulative fremskrittene på tvers av disse generasjonene er slående. Fra MTIA 300 til MTIA 500 har HBM-båndbredden økt med imponerende 4,5x, mens beregnings-FLOPS har sett en forbløffende 25x økning (fra MTIA 300s MX8 til MTIA 500s MX4). Denne raske akselerasjonen innen to år er et bevis på Metas hastighetsstrategi og dens evne til kontinuerlig å forbedre sitt spesialtilpassede silisium. Denne utviklingen er sentral for å operasjonalisere agentisk AI og andre komplekse modeller i stor skala.

Her er en oversikt over nøkkelspesifikasjonene for MTIA-familien:

FunksjonMTIA 300MTIA 400MTIA 450MTIA 500
Beregning Die1222
HBM-stakker4488
HBM-båndbredde (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Oppskaleringsdomenet18 enheter**72 enheter72 enheter72 enheter
NøkkeloptimaliseringR&R-trening, lavlatens kommunikasjonGenerell GenAI, konkurransedyktig rå ytelse.GenAI-inferens, HBM, tilpasset lavpresisjon.GenAI-inferens, HBM, tilpasset lavpresisjon.

*Noen leverandører rapporterer toveis båndbredde. Multipliser verdien i tabellen med to for å få den tilsvarende toveis båndbredden. **MTIA 300 er konfigurert med et utskaleringsnettverk med høyere båndbredde (200 GB/s) på grunn av den relativt lille oppskaleringsdomenstørrelsen og de målrettede R&R-arbeidsbelastningene.

Disse spesifikasjonene fremhever de dramatiske forbedringene i minnebåndbredde og beregningskraft, og demonstrerer hvordan hver MTIA-generasjon er omhyggelig konstruert for å møte de mest presserende kravene fra nåværende og fremtidige AI-applikasjoner, spesielt de ressurskrevende GenAI-modellene.

Metas nådeløse jakt på spesialtilpassede silisiumløsninger via MTIA-familien understreker selskapets forpliktelse til å levere banebrytende AI-opplevelser til milliarder av brukere over hele verden. Ved å kombinere intern innovasjon med strategiske partnerskap, fortsetter Meta å redefinere mulighetene for skalerbar og kostnadseffektiv AI-infrastruktur.

Ofte stilte spørsmål

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Hold deg oppdatert

Få de siste AI-nyhetene i innboksen din.

Del