Code Velocity
AI voor bedrijven

Meta MTIA-chips schalen AI voor miljarden

·7 min leestijd·Meta·Originele bron
Delen
Meta MTIA AI-chips op een serverkaart in een datacenterrek

AI-ervaringen schalen met Meta's MTIA-chips

Elke dag interacteren miljarden mensen op Meta's diverse platforms met een groot aantal AI-gestuurde functies, van gepersonaliseerde inhoudsaanbevelingen tot geavanceerde AI-assistenten. De onderliggende uitdaging voor Meta, en zelfs de hele industrie, ligt in het wereldwijd implementeren en continu verbeteren van deze geavanceerde AI-modellen, met behoud van optimale kostenefficiëntie. Deze veeleisende infrastructuurtaak wordt aangegaan door Meta's strategische investering in flexibele, continu evoluerende oplossingen, waarvan hun op maat ontworpen AI-chips, de Meta Training and Inference Accelerator (MTIA)-familie, een centraal onderdeel vormen.

Hoewel Meta zich inzet voor een divers siliciumportfolio dat zowel interne als externe oplossingen benut, zijn MTIA-chips, ontwikkeld in nauwe samenwerking met Broadcom, een onmisbaar onderdeel van Meta's AI-infrastructuurstrategie. Deze eigen accelerators zijn cruciaal om kosteneffectief de AI-ervaringen aan te sturen die miljarden mensen bereiken, en passen zich voortdurend aan het snel evoluerende landschap van AI-modellen aan.

De iteratieve evolutie van Meta's MTIA-chips

Het landschap van AI-modellen verkeert in een staat van voortdurende verandering en evolueert in een tempo dat vaak sneller is dan traditionele chipontwikkelingscycli. Meta erkent dat chipontwerpen op basis van geprojecteerde workloads verouderd kunnen raken tegen de tijd dat de hardware in productie gaat, en heeft daarom een innovatieve "velocity strategy" voor MTIA omarmd. In plaats van lange, speculatieve ontwikkelingsperioden, hanteert Meta een iteratieve benadering waarbij elke MTIA-generatie voortbouwt op de vorige. Dit omvat het gebruik van modulaire chiplets, het integreren van de nieuwste inzichten in AI-workloads en het implementeren van nieuwe hardwaretechnologieën met een aanzienlijk kortere cadans. Deze nauwere feedbacklus zorgt ervoor dat Meta's op maat gemaakte silicium nauw aansluit bij de dynamische eisen van AI-modellen, wat een snellere adoptie van nieuwe ontwikkelingen bevordert.

Meta heeft de eerste twee generaties, MTIA 100 en MTIA 200, al in academische publicaties beschreven. Voortbouwend op deze basis heeft Meta de ontwikkeling versneld om vier nieuwe opeenvolgende generaties te introduceren: MTIA 300, 400, 450 en 500. Deze chips zijn ofwel al in productie, ofwel gepland voor massale implementatie in 2026 en 2027. Deze snelle opvolging heeft Meta in staat gesteld de workloaddekking van MTIA aanzienlijk uit te breiden, van initiële ranking- en aanbevelingsinferentie (R&R) naar R&R-training, algemene Generatieve AI (GenAI)-workloads en sterk geoptimaliseerde GenAI-inferentie.

MTIA 300: De basis leggen voor AI-workloads

De MTIA 300 markeerde een cruciale stap in Meta's reis met maatwerk silicium. Oorspronkelijk geoptimaliseerd voor R&R-modellen, Meta's dominante workloads vóór de GenAI-boom, legden de architectonische bouwstenen een robuuste basis voor de daaropvolgende chips. Belangrijke onderscheidende kenmerken van MTIA 300 zijn onder meer geïntegreerde NIC-chiplets, speciale berichtenmotoren voor het ontlasten van communicatiecollectieven en nabij-geheugen rekenmogelijkheden ontworpen voor reductiegebaseerde collectieven. Deze communicatiecomponenten met lage latentie en hoge bandbreedte bleken cruciaal voor het mogelijk maken van efficiënte GenAI-inferentie en -training in de daaropvolgende generaties.

De MTIA 300 bestaat uit één reken-chiplet, twee netwerk-chiplets en meerdere High-Bandwidth Memory (HBM)-stacks. Elke reken-chiplet bevat een raster van verwerkingselementen (PE's), strategisch ontworpen met redundante PE's om de opbrengst te verbeteren. Elke PE is een geavanceerde eenheid met twee RISC-V-vectorcores, een Dot Product Engine voor matrixvermenigvuldiging, een Special Function Unit voor activaties en elementaire bewerkingen, een Reduction Engine voor accumulatie en inter-PE-communicatie, en een DMA-engine voor efficiënte gegevensverplaatsing binnen lokaal krasgeheugen. Dit ingewikkelde ontwerp onderstreepte Meta's toewijding aan het creëren van een zeer efficiënte en kosteneffectieve oplossing voor zijn kern-AI-taken.

MTIA 400: Competitieve GenAI-prestaties behalen

Met de ongekende toename van Generatieve AI heeft Meta de MTIA 300 snel doorontwikkeld tot de MTIA 400 om naast de bestaande R&R-mogelijkheden robuuste ondersteuning te bieden voor GenAI-workloads. De MTIA 400 vertegenwoordigt een aanzienlijke sprong, met 400% hogere FP8 FLOPS en een toename van 51% in HBM-bandbreedte vergeleken met zijn voorganger. Waar MTIA 300 zich richtte op kosteneffectiviteit, is MTIA 400 ontworpen om ruwe prestaties te leveren die kunnen concurreren met toonaangevende commerciële AI-accelerators.

Dit wordt bereikt door twee reken-chiplets te combineren om de rekendichtheid effectief te verdubbelen en door verbeterde versies van MX8 en MX4 te ondersteunen, cruciale lage-precisieformaten voor efficiënte GenAI-inferentie. Eén rek uitgerust met 72 MTIA 400-apparaten, onderling verbonden via een switched backplane, vormt een krachtig scale-up domein. Deze systemen worden ondersteund door geavanceerde air-assisted liquid cooling (AALC) racks, die snelle implementatie mogelijk maken, zelfs in oudere datacenters, wat Meta's praktische benadering van het wereldwijd schalen van zijn AI-infrastructuur demonstreert.

MTIA 450 en 500: Gespecialiseerd voor GenAI-inferentie

Anticiperend op de aanhoudende exponentiële groei van de GenAI-inferentiebehoefte, verfijnde Meta de MTIA 400 verder, wat leidde tot de ontwikkeling van MTIA 450 en vervolgens MTIA 500. Deze generaties zijn specifiek geoptimaliseerd voor de unieke uitdagingen van GenAI-inferentie, gericht op cruciale vooruitgangen in geheugen en rekenkracht.

MTIA 450 boekte aanzienlijke vooruitgang door:

  1. Verdubbeling van de HBM-bandbreedte ten opzichte van de vorige versie, wat cruciaal is voor het versnellen van de decodeerfase in GenAI-modellen.
  2. Verhoging van MX4 FLOPS met 75%, waardoor mixture-of-experts (MoE) feed-forward netwerk (FFN)-berekeningen, veelvoorkomend in grote taalmodellen, worden versneld.
  3. Introductie van hardwareversnelling om aandacht- en FFN-berekeningen efficiënter te maken, waardoor knelpunten in verband met Softmax en FlashAttention worden verlicht.
  4. Innoveren in datatypen met lage precisie, verdergaand dan FP8/MX8 om 6x de MX4 FLOPS van FP16/BF16 te leveren, met aangepaste datatype-innovaties die de modelkwaliteit behouden en de FLOPS verhogen met minimale impact op het chipoppervlak.

MTIA 500, voortbouwend op het succes van de 450, verhoogde de HBM-bandbreedte met nog eens 50% en introduceerde meer innovaties in datatypen met lage precisie, wat Meta's toewijding aan het verleggen van de grenzen van GenAI-inferentieprestaties versterkt. Deze onophoudelijke drang naar verbetering zorgt ervoor dat Meta's AI-ervaringen aan de top blijven.

De cumulatieve vooruitgangen over deze generaties zijn opvallend. Van MTIA 300 tot MTIA 500 is de HBM-bandbreedte met een indrukwekkende factor 4,5 toegenomen, terwijl de reken-FLOPS een verbazingwekkende 25-voudige toename hebben gekend (van MTIA 300's MX8 naar MTIA 500's MX4). Deze snelle acceleratie binnen twee jaar is een bewijs van Meta's velocity strategy en zijn vermogen om zijn maatwerk silicium voortdurend te verbeteren. Deze evolutie is cruciaal voor het operationaliseren van agentic AI en andere complexe modellen op schaal.

Hier is een overzicht van de belangrijkste specificaties van de MTIA-familie:

FunctieMTIA 300MTIA 400MTIA 450MTIA 500
Reken-die1222
HBM-stacks4488
HBM-bandbreedte (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Schaalvergroting domeingrootte18 apparaten**72 apparaten72 apparaten72 apparaten
Belangrijkste optimalisatieR&R-training, communicatie met lage latentieAlgemene GenAI, concurrerende ruwe prestatiesGenAI-inferentie, HBM, aangepaste lage precisieGenAI-inferentie, HBM, aangepaste lage precisie

*Sommige leveranciers rapporteren bidirectionele bandbreedte. Vermenigvuldig de waarde in de tabel met twee om de overeenkomstige bidirectionele bandbreedte te verkrijgen. **MTIA 300 is geconfigureerd met een scale-out netwerk met hogere bandbreedte (200 GB/s) vanwege de relatief kleine scale-up domeingrootte en de beoogde R&R-workloads.

Deze specificaties benadrukken de dramatische verbeteringen in geheugenbandbreedte en rekenkracht, en demonstreren hoe elke MTIA-generatie nauwgezet is ontworpen om te voldoen aan de meest urgente eisen van huidige en toekomstige AI-toepassingen, met name de resource-intensieve GenAI-modellen.

Meta's meedogenloze streven naar maatwerk siliciumoplossingen via de MTIA-familie onderstreept zijn toewijding aan het leveren van geavanceerde AI-ervaringen aan miljarden gebruikers wereldwijd. Door interne innovatie te combineren met strategische partnerschappen, blijft Meta de mogelijkheden van schaalbare en kosteneffectieve AI-infrastructuur herdefiniëren.

Veelgestelde vragen

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Blijf op de hoogte

Ontvang het laatste AI-nieuws in je inbox.

Delen