AI-ervaringen schalen met Meta's MTIA-chips
Elke dag interacteren miljarden mensen op Meta's diverse platforms met een groot aantal AI-gestuurde functies, van gepersonaliseerde inhoudsaanbevelingen tot geavanceerde AI-assistenten. De onderliggende uitdaging voor Meta, en zelfs de hele industrie, ligt in het wereldwijd implementeren en continu verbeteren van deze geavanceerde AI-modellen, met behoud van optimale kostenefficiëntie. Deze veeleisende infrastructuurtaak wordt aangegaan door Meta's strategische investering in flexibele, continu evoluerende oplossingen, waarvan hun op maat ontworpen AI-chips, de Meta Training and Inference Accelerator (MTIA)-familie, een centraal onderdeel vormen.
Hoewel Meta zich inzet voor een divers siliciumportfolio dat zowel interne als externe oplossingen benut, zijn MTIA-chips, ontwikkeld in nauwe samenwerking met Broadcom, een onmisbaar onderdeel van Meta's AI-infrastructuurstrategie. Deze eigen accelerators zijn cruciaal om kosteneffectief de AI-ervaringen aan te sturen die miljarden mensen bereiken, en passen zich voortdurend aan het snel evoluerende landschap van AI-modellen aan.
De iteratieve evolutie van Meta's MTIA-chips
Het landschap van AI-modellen verkeert in een staat van voortdurende verandering en evolueert in een tempo dat vaak sneller is dan traditionele chipontwikkelingscycli. Meta erkent dat chipontwerpen op basis van geprojecteerde workloads verouderd kunnen raken tegen de tijd dat de hardware in productie gaat, en heeft daarom een innovatieve "velocity strategy" voor MTIA omarmd. In plaats van lange, speculatieve ontwikkelingsperioden, hanteert Meta een iteratieve benadering waarbij elke MTIA-generatie voortbouwt op de vorige. Dit omvat het gebruik van modulaire chiplets, het integreren van de nieuwste inzichten in AI-workloads en het implementeren van nieuwe hardwaretechnologieën met een aanzienlijk kortere cadans. Deze nauwere feedbacklus zorgt ervoor dat Meta's op maat gemaakte silicium nauw aansluit bij de dynamische eisen van AI-modellen, wat een snellere adoptie van nieuwe ontwikkelingen bevordert.
Meta heeft de eerste twee generaties, MTIA 100 en MTIA 200, al in academische publicaties beschreven. Voortbouwend op deze basis heeft Meta de ontwikkeling versneld om vier nieuwe opeenvolgende generaties te introduceren: MTIA 300, 400, 450 en 500. Deze chips zijn ofwel al in productie, ofwel gepland voor massale implementatie in 2026 en 2027. Deze snelle opvolging heeft Meta in staat gesteld de workloaddekking van MTIA aanzienlijk uit te breiden, van initiële ranking- en aanbevelingsinferentie (R&R) naar R&R-training, algemene Generatieve AI (GenAI)-workloads en sterk geoptimaliseerde GenAI-inferentie.
MTIA 300: De basis leggen voor AI-workloads
De MTIA 300 markeerde een cruciale stap in Meta's reis met maatwerk silicium. Oorspronkelijk geoptimaliseerd voor R&R-modellen, Meta's dominante workloads vóór de GenAI-boom, legden de architectonische bouwstenen een robuuste basis voor de daaropvolgende chips. Belangrijke onderscheidende kenmerken van MTIA 300 zijn onder meer geïntegreerde NIC-chiplets, speciale berichtenmotoren voor het ontlasten van communicatiecollectieven en nabij-geheugen rekenmogelijkheden ontworpen voor reductiegebaseerde collectieven. Deze communicatiecomponenten met lage latentie en hoge bandbreedte bleken cruciaal voor het mogelijk maken van efficiënte GenAI-inferentie en -training in de daaropvolgende generaties.
De MTIA 300 bestaat uit één reken-chiplet, twee netwerk-chiplets en meerdere High-Bandwidth Memory (HBM)-stacks. Elke reken-chiplet bevat een raster van verwerkingselementen (PE's), strategisch ontworpen met redundante PE's om de opbrengst te verbeteren. Elke PE is een geavanceerde eenheid met twee RISC-V-vectorcores, een Dot Product Engine voor matrixvermenigvuldiging, een Special Function Unit voor activaties en elementaire bewerkingen, een Reduction Engine voor accumulatie en inter-PE-communicatie, en een DMA-engine voor efficiënte gegevensverplaatsing binnen lokaal krasgeheugen. Dit ingewikkelde ontwerp onderstreepte Meta's toewijding aan het creëren van een zeer efficiënte en kosteneffectieve oplossing voor zijn kern-AI-taken.
MTIA 400: Competitieve GenAI-prestaties behalen
Met de ongekende toename van Generatieve AI heeft Meta de MTIA 300 snel doorontwikkeld tot de MTIA 400 om naast de bestaande R&R-mogelijkheden robuuste ondersteuning te bieden voor GenAI-workloads. De MTIA 400 vertegenwoordigt een aanzienlijke sprong, met 400% hogere FP8 FLOPS en een toename van 51% in HBM-bandbreedte vergeleken met zijn voorganger. Waar MTIA 300 zich richtte op kosteneffectiviteit, is MTIA 400 ontworpen om ruwe prestaties te leveren die kunnen concurreren met toonaangevende commerciële AI-accelerators.
Dit wordt bereikt door twee reken-chiplets te combineren om de rekendichtheid effectief te verdubbelen en door verbeterde versies van MX8 en MX4 te ondersteunen, cruciale lage-precisieformaten voor efficiënte GenAI-inferentie. Eén rek uitgerust met 72 MTIA 400-apparaten, onderling verbonden via een switched backplane, vormt een krachtig scale-up domein. Deze systemen worden ondersteund door geavanceerde air-assisted liquid cooling (AALC) racks, die snelle implementatie mogelijk maken, zelfs in oudere datacenters, wat Meta's praktische benadering van het wereldwijd schalen van zijn AI-infrastructuur demonstreert.
MTIA 450 en 500: Gespecialiseerd voor GenAI-inferentie
Anticiperend op de aanhoudende exponentiële groei van de GenAI-inferentiebehoefte, verfijnde Meta de MTIA 400 verder, wat leidde tot de ontwikkeling van MTIA 450 en vervolgens MTIA 500. Deze generaties zijn specifiek geoptimaliseerd voor de unieke uitdagingen van GenAI-inferentie, gericht op cruciale vooruitgangen in geheugen en rekenkracht.
MTIA 450 boekte aanzienlijke vooruitgang door:
- Verdubbeling van de HBM-bandbreedte ten opzichte van de vorige versie, wat cruciaal is voor het versnellen van de decodeerfase in GenAI-modellen.
- Verhoging van MX4 FLOPS met 75%, waardoor mixture-of-experts (MoE) feed-forward netwerk (FFN)-berekeningen, veelvoorkomend in grote taalmodellen, worden versneld.
- Introductie van hardwareversnelling om aandacht- en FFN-berekeningen efficiënter te maken, waardoor knelpunten in verband met Softmax en FlashAttention worden verlicht.
- Innoveren in datatypen met lage precisie, verdergaand dan FP8/MX8 om 6x de MX4 FLOPS van FP16/BF16 te leveren, met aangepaste datatype-innovaties die de modelkwaliteit behouden en de FLOPS verhogen met minimale impact op het chipoppervlak.
MTIA 500, voortbouwend op het succes van de 450, verhoogde de HBM-bandbreedte met nog eens 50% en introduceerde meer innovaties in datatypen met lage precisie, wat Meta's toewijding aan het verleggen van de grenzen van GenAI-inferentieprestaties versterkt. Deze onophoudelijke drang naar verbetering zorgt ervoor dat Meta's AI-ervaringen aan de top blijven.
De cumulatieve vooruitgangen over deze generaties zijn opvallend. Van MTIA 300 tot MTIA 500 is de HBM-bandbreedte met een indrukwekkende factor 4,5 toegenomen, terwijl de reken-FLOPS een verbazingwekkende 25-voudige toename hebben gekend (van MTIA 300's MX8 naar MTIA 500's MX4). Deze snelle acceleratie binnen twee jaar is een bewijs van Meta's velocity strategy en zijn vermogen om zijn maatwerk silicium voortdurend te verbeteren. Deze evolutie is cruciaal voor het operationaliseren van agentic AI en andere complexe modellen op schaal.
Hier is een overzicht van de belangrijkste specificaties van de MTIA-familie:
| Functie | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Reken-die | 1 | 2 | 2 | 2 |
| HBM-stacks | 4 | 4 | 8 | 8 |
| HBM-bandbreedte (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Schaalvergroting domeingrootte | 18 apparaten** | 72 apparaten | 72 apparaten | 72 apparaten |
| Belangrijkste optimalisatie | R&R-training, communicatie met lage latentie | Algemene GenAI, concurrerende ruwe prestaties | GenAI-inferentie, HBM, aangepaste lage precisie | GenAI-inferentie, HBM, aangepaste lage precisie |
*Sommige leveranciers rapporteren bidirectionele bandbreedte. Vermenigvuldig de waarde in de tabel met twee om de overeenkomstige bidirectionele bandbreedte te verkrijgen. **MTIA 300 is geconfigureerd met een scale-out netwerk met hogere bandbreedte (200 GB/s) vanwege de relatief kleine scale-up domeingrootte en de beoogde R&R-workloads.
Deze specificaties benadrukken de dramatische verbeteringen in geheugenbandbreedte en rekenkracht, en demonstreren hoe elke MTIA-generatie nauwgezet is ontworpen om te voldoen aan de meest urgente eisen van huidige en toekomstige AI-toepassingen, met name de resource-intensieve GenAI-modellen.
Meta's meedogenloze streven naar maatwerk siliciumoplossingen via de MTIA-familie onderstreept zijn toewijding aan het leveren van geavanceerde AI-ervaringen aan miljarden gebruikers wereldwijd. Door interne innovatie te combineren met strategische partnerschappen, blijft Meta de mogelijkheden van schaalbare en kosteneffectieve AI-infrastructuur herdefiniëren.
Veelgestelde vragen
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Blijf op de hoogte
Ontvang het laatste AI-nieuws in je inbox.
