Code Velocity
IA d'entreprise

Les puces MTIA de Meta mettent l'IA à l'échelle pour des milliards d'utilisateurs

·7 min de lecture·Meta·Source originale
Partager
Puces IA MTIA de Meta sur une carte serveur dans une baie de centre de données

Mettre à l'échelle les expériences d'IA avec les puces MTIA de Meta

Chaque jour, des milliards de personnes sur les diverses plateformes de Meta interagissent avec une myriade de fonctionnalités basées sur l'IA, des recommandations de contenu personnalisées aux assistants d'IA avancés. Le défi sous-jacent pour Meta, et pour l'industrie en général, réside dans le déploiement et l'amélioration continue de ces modèles d'IA sophistiqués à l'échelle mondiale, tout en maintenant une rentabilité optimale. Cette tâche d'infrastructure exigeante est relevée par l'investissement stratégique de Meta dans des solutions flexibles et en constante évolution, au centre desquelles se trouvent ses puces IA conçues sur mesure : la famille Meta Training and Inference Accelerator (MTIA).

Bien qu'engagée dans un portefeuille de silicium diversifié qui exploite des solutions internes et externes, les puces MTIA, développées en partenariat étroit avec Broadcom, sont un composant indispensable de la stratégie d'infrastructure IA de Meta. Ces accélérateurs développés en interne sont cruciaux pour alimenter de manière rentable les expériences d'IA qui touchent des milliards de personnes, en s'adaptant constamment au paysage en rapide évolution des modèles d'IA.

L'évolution itérative des puces MTIA de Meta

Le paysage des modèles d'IA est en perpétuel mouvement, évoluant à un rythme qui dépasse souvent les cycles de développement de puces traditionnels. Reconnaissant que les conceptions de puces basées sur des charges de travail projetées peuvent devenir obsolètes au moment où le matériel atteint la production, Meta a adopté une "stratégie de vélocité" innovante pour MTIA. Au lieu de longues périodes de développement spéculatif, Meta adopte une approche itérative où chaque génération de MTIA s'appuie sur la précédente. Cela implique l'utilisation de chiplets modulaires, l'incorporation des dernières informations sur les charges de travail d'IA et le déploiement de nouvelles technologies matérielles à un rythme significativement plus court. Cette boucle de rétroaction plus étroite garantit que le silicium personnalisé de Meta reste étroitement aligné sur les demandes dynamiques des modèles d'IA, favorisant une adoption plus rapide des nouvelles avancées.

Meta a déjà détaillé les deux premières générations, MTIA 100 et MTIA 200, dans des articles universitaires. S'appuyant sur cette base, Meta a accéléré le développement pour introduire quatre nouvelles générations successives : MTIA 300, 400, 450 et 500. Ces puces sont soit déjà en production, soit prévues pour un déploiement de masse en 2026 et 2027. Cette succession rapide a permis à Meta d'étendre considérablement la couverture des charges de travail de MTIA, passant de l'inférence initiale de classement et de recommandation (R&R) à l'entraînement R&R, aux charges de travail d'IA générative (GenAI) générale et à l'inférence GenAI hautement optimisée.

MTIA 300 : Jeter les bases des charges de travail d'IA

Le MTIA 300 a marqué une étape cruciale dans le parcours de Meta en matière de silicium personnalisé. Initialement optimisé pour les modèles R&R, qui étaient les charges de travail dominantes de Meta avant l'essor de la GenAI, ses blocs de construction architecturaux ont établi une base robuste pour les puces ultérieures. Les caractéristiques distinctives du MTIA 300 incluent des chiplets NIC intégrés, des moteurs de messages dédiés pour décharger les collectifs de communication, et des capacités de calcul proche de la mémoire conçues pour les collectifs basés sur la réduction. Ces composants de communication à faible latence et à large bande passante se sont avérés essentiels pour permettre une inférence et un entraînement GenAI efficaces dans les générations suivantes.

Le MTIA 300 comprend un chiplet de calcul, deux chiplets de réseau et plusieurs piles de mémoire à large bande passante (HBM). Chaque chiplet de calcul présente une grille d'éléments de traitement (PEs), stratégiquement conçus avec des PEs redondants pour améliorer le rendement. Chaque PE est une unité sophistiquée contenant deux cœurs vectoriels RISC-V, un moteur de produit scalaire pour la multiplication matricielle, une unité de fonction spéciale pour les activations et les opérations élément par élément, un moteur de réduction pour l'accumulation et la communication inter-PE, et un moteur DMA pour un déplacement efficace des données au sein de la mémoire scratch locale. Cette conception complexe a souligné l'engagement de Meta à créer une solution très efficace et rentable pour ses tâches d'IA principales.

MTIA 400 : Atteindre des performances GenAI compétitives

Avec la montée en puissance sans précédent de l'IA générative, Meta a rapidement fait évoluer le MTIA 300 vers le MTIA 400 pour offrir un support robuste aux charges de travail GenAI aux côtés de ses capacités R&R existantes. Le MTIA 400 représente un bond significatif, offrant des FLOPS FP8 400 % plus élevés et une augmentation de 51 % de la bande passante HBM par rapport à son prédécesseur. Alors que le MTIA 300 se concentrait sur la rentabilité, le MTIA 400 a été conçu pour offrir des performances brutes compétitives par rapport aux principaux accélérateurs d'IA commerciaux.

Il y parvient en combinant deux chiplets de calcul pour doubler efficacement la densité de calcul et en prenant en charge des versions améliorées de MX8 et MX4, des formats à faible précision cruciaux pour une inférence GenAI efficace. Un seul rack équipé de 72 dispositifs MTIA 400, interconnectés via un fond de panier commuté, forme un puissant domaine de mise à l'échelle. Ces systèmes sont pris en charge par des racks de refroidissement liquide assisté par air (AALC) avancés, facilitant un déploiement rapide même dans les centres de données existants, démontrant l'approche pratique de Meta pour mettre à l'échelle son infrastructure d'IA à l'échelle mondiale.

MTIA 450 et 500 : Spécialisés pour l'inférence GenAI

Anticipant la croissance exponentielle continue de la demande d'inférence GenAI, Meta a encore affiné le MTIA 400, conduisant au développement du MTIA 450 et, par la suite, du MTIA 500. Ces générations sont spécifiquement optimisées pour les défis uniques de l'inférence GenAI, se concentrant sur des avancées critiques en matière de mémoire et de calcul.

MTIA 450 a réalisé des avancées significatives en :

  1. Doublant la bande passante HBM par rapport à la version précédente, ce qui est crucial pour accélérer la phase de décodage dans les modèles GenAI.
  2. Augmentant les FLOPS MX4 de 75 %, accélérant les calculs de réseaux de neurones feed-forward (FFN) basés sur des mélanges d'experts (MoE) courants dans les grands modèles de langage.
  3. Introduisant l'accélération matérielle pour rendre les calculs d'attention et de FFN plus efficaces, allégeant les goulots d'étranglement associés à Softmax et FlashAttention.
  4. Innovant dans les types de données à faible précision, allant au-delà de FP8/MX8 pour fournir 6 fois les FLOPS MX4 de FP16/BF16, avec des innovations de types de données personnalisés qui préservent la qualité du modèle et augmentent les FLOPS avec un impact minimal sur la surface de la puce.

MTIA 500, s'appuyant sur le succès du 450, a encore augmenté la bande passante HBM de 50 % supplémentaires et introduit davantage d'innovations dans les types de données à faible précision, renforçant l'engagement de Meta à repousser les limites des performances d'inférence GenAI. Cette volonté incessante d'amélioration garantit que les expériences d'IA de Meta restent à la pointe de la technologie.

Les avancées cumulées à travers ces générations sont frappantes. Du MTIA 300 au MTIA 500, la bande passante HBM a augmenté de manière impressionnante de 4,5 fois, tandis que les FLOPS de calcul ont connu une augmentation stupéfiante de 25 fois (du MX8 du MTIA 300 au MX4 du MTIA 500). Cette accélération rapide en deux ans témoigne de la stratégie de vélocité de Meta et de sa capacité à améliorer continuellement son silicium personnalisé. Cette évolution est essentielle pour opérationnaliser l'IA agentique et d'autres modèles complexes à l'échelle.

Voici une ventilation des spécifications clés de la famille MTIA :

FeatureMTIA 300MTIA 400MTIA 450MTIA 500
Compute Die1222
HBM Stacks4488
HBM Bandwidth (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Scale-up Domain Size18 devices**72 devices72 devices72 devices
Key OptimizationR&R training, low-latency communicationGeneral GenAI, competitive raw perf.GenAI inference, HBM, custom low-prec.GenAI inference, HBM, custom low-prec.

*Certains fournisseurs indiquent la bande passante bidirectionnelle. Multipliez la valeur du tableau par deux pour obtenir la bande passante bidirectionnelle correspondante. **Le MTIA 300 est configuré avec un réseau scale-out à bande passante plus élevée (200 Go/s) en raison de sa taille de domaine scale-up relativement petite et des charges de travail R&R ciblées.

La quête incessante de Meta pour des solutions de silicium personnalisées via la famille MTIA souligne son engagement à offrir des expériences d'IA de pointe à des milliards d'utilisateurs dans le monde entier. En combinant l'innovation interne avec des partenariats stratégiques, Meta continue de redéfinir les possibilités d'une infrastructure d'IA évolutive et rentable.

Questions Fréquentes

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Restez informé

Recevez les dernières actualités IA dans votre boîte mail.

Partager