Mettre à l'échelle les expériences d'IA avec les puces MTIA de Meta
Chaque jour, des milliards de personnes sur les diverses plateformes de Meta interagissent avec une myriade de fonctionnalités basées sur l'IA, des recommandations de contenu personnalisées aux assistants d'IA avancés. Le défi sous-jacent pour Meta, et pour l'industrie en général, réside dans le déploiement et l'amélioration continue de ces modèles d'IA sophistiqués à l'échelle mondiale, tout en maintenant une rentabilité optimale. Cette tâche d'infrastructure exigeante est relevée par l'investissement stratégique de Meta dans des solutions flexibles et en constante évolution, au centre desquelles se trouvent ses puces IA conçues sur mesure : la famille Meta Training and Inference Accelerator (MTIA).
Bien qu'engagée dans un portefeuille de silicium diversifié qui exploite des solutions internes et externes, les puces MTIA, développées en partenariat étroit avec Broadcom, sont un composant indispensable de la stratégie d'infrastructure IA de Meta. Ces accélérateurs développés en interne sont cruciaux pour alimenter de manière rentable les expériences d'IA qui touchent des milliards de personnes, en s'adaptant constamment au paysage en rapide évolution des modèles d'IA.
L'évolution itérative des puces MTIA de Meta
Le paysage des modèles d'IA est en perpétuel mouvement, évoluant à un rythme qui dépasse souvent les cycles de développement de puces traditionnels. Reconnaissant que les conceptions de puces basées sur des charges de travail projetées peuvent devenir obsolètes au moment où le matériel atteint la production, Meta a adopté une "stratégie de vélocité" innovante pour MTIA. Au lieu de longues périodes de développement spéculatif, Meta adopte une approche itérative où chaque génération de MTIA s'appuie sur la précédente. Cela implique l'utilisation de chiplets modulaires, l'incorporation des dernières informations sur les charges de travail d'IA et le déploiement de nouvelles technologies matérielles à un rythme significativement plus court. Cette boucle de rétroaction plus étroite garantit que le silicium personnalisé de Meta reste étroitement aligné sur les demandes dynamiques des modèles d'IA, favorisant une adoption plus rapide des nouvelles avancées.
Meta a déjà détaillé les deux premières générations, MTIA 100 et MTIA 200, dans des articles universitaires. S'appuyant sur cette base, Meta a accéléré le développement pour introduire quatre nouvelles générations successives : MTIA 300, 400, 450 et 500. Ces puces sont soit déjà en production, soit prévues pour un déploiement de masse en 2026 et 2027. Cette succession rapide a permis à Meta d'étendre considérablement la couverture des charges de travail de MTIA, passant de l'inférence initiale de classement et de recommandation (R&R) à l'entraînement R&R, aux charges de travail d'IA générative (GenAI) générale et à l'inférence GenAI hautement optimisée.
MTIA 300 : Jeter les bases des charges de travail d'IA
Le MTIA 300 a marqué une étape cruciale dans le parcours de Meta en matière de silicium personnalisé. Initialement optimisé pour les modèles R&R, qui étaient les charges de travail dominantes de Meta avant l'essor de la GenAI, ses blocs de construction architecturaux ont établi une base robuste pour les puces ultérieures. Les caractéristiques distinctives du MTIA 300 incluent des chiplets NIC intégrés, des moteurs de messages dédiés pour décharger les collectifs de communication, et des capacités de calcul proche de la mémoire conçues pour les collectifs basés sur la réduction. Ces composants de communication à faible latence et à large bande passante se sont avérés essentiels pour permettre une inférence et un entraînement GenAI efficaces dans les générations suivantes.
Le MTIA 300 comprend un chiplet de calcul, deux chiplets de réseau et plusieurs piles de mémoire à large bande passante (HBM). Chaque chiplet de calcul présente une grille d'éléments de traitement (PEs), stratégiquement conçus avec des PEs redondants pour améliorer le rendement. Chaque PE est une unité sophistiquée contenant deux cœurs vectoriels RISC-V, un moteur de produit scalaire pour la multiplication matricielle, une unité de fonction spéciale pour les activations et les opérations élément par élément, un moteur de réduction pour l'accumulation et la communication inter-PE, et un moteur DMA pour un déplacement efficace des données au sein de la mémoire scratch locale. Cette conception complexe a souligné l'engagement de Meta à créer une solution très efficace et rentable pour ses tâches d'IA principales.
MTIA 400 : Atteindre des performances GenAI compétitives
Avec la montée en puissance sans précédent de l'IA générative, Meta a rapidement fait évoluer le MTIA 300 vers le MTIA 400 pour offrir un support robuste aux charges de travail GenAI aux côtés de ses capacités R&R existantes. Le MTIA 400 représente un bond significatif, offrant des FLOPS FP8 400 % plus élevés et une augmentation de 51 % de la bande passante HBM par rapport à son prédécesseur. Alors que le MTIA 300 se concentrait sur la rentabilité, le MTIA 400 a été conçu pour offrir des performances brutes compétitives par rapport aux principaux accélérateurs d'IA commerciaux.
Il y parvient en combinant deux chiplets de calcul pour doubler efficacement la densité de calcul et en prenant en charge des versions améliorées de MX8 et MX4, des formats à faible précision cruciaux pour une inférence GenAI efficace. Un seul rack équipé de 72 dispositifs MTIA 400, interconnectés via un fond de panier commuté, forme un puissant domaine de mise à l'échelle. Ces systèmes sont pris en charge par des racks de refroidissement liquide assisté par air (AALC) avancés, facilitant un déploiement rapide même dans les centres de données existants, démontrant l'approche pratique de Meta pour mettre à l'échelle son infrastructure d'IA à l'échelle mondiale.
MTIA 450 et 500 : Spécialisés pour l'inférence GenAI
Anticipant la croissance exponentielle continue de la demande d'inférence GenAI, Meta a encore affiné le MTIA 400, conduisant au développement du MTIA 450 et, par la suite, du MTIA 500. Ces générations sont spécifiquement optimisées pour les défis uniques de l'inférence GenAI, se concentrant sur des avancées critiques en matière de mémoire et de calcul.
MTIA 450 a réalisé des avancées significatives en :
- Doublant la bande passante HBM par rapport à la version précédente, ce qui est crucial pour accélérer la phase de décodage dans les modèles GenAI.
- Augmentant les FLOPS MX4 de 75 %, accélérant les calculs de réseaux de neurones feed-forward (FFN) basés sur des mélanges d'experts (MoE) courants dans les grands modèles de langage.
- Introduisant l'accélération matérielle pour rendre les calculs d'attention et de FFN plus efficaces, allégeant les goulots d'étranglement associés à Softmax et FlashAttention.
- Innovant dans les types de données à faible précision, allant au-delà de FP8/MX8 pour fournir 6 fois les FLOPS MX4 de FP16/BF16, avec des innovations de types de données personnalisés qui préservent la qualité du modèle et augmentent les FLOPS avec un impact minimal sur la surface de la puce.
MTIA 500, s'appuyant sur le succès du 450, a encore augmenté la bande passante HBM de 50 % supplémentaires et introduit davantage d'innovations dans les types de données à faible précision, renforçant l'engagement de Meta à repousser les limites des performances d'inférence GenAI. Cette volonté incessante d'amélioration garantit que les expériences d'IA de Meta restent à la pointe de la technologie.
Les avancées cumulées à travers ces générations sont frappantes. Du MTIA 300 au MTIA 500, la bande passante HBM a augmenté de manière impressionnante de 4,5 fois, tandis que les FLOPS de calcul ont connu une augmentation stupéfiante de 25 fois (du MX8 du MTIA 300 au MX4 du MTIA 500). Cette accélération rapide en deux ans témoigne de la stratégie de vélocité de Meta et de sa capacité à améliorer continuellement son silicium personnalisé. Cette évolution est essentielle pour opérationnaliser l'IA agentique et d'autres modèles complexes à l'échelle.
Voici une ventilation des spécifications clés de la famille MTIA :
| Feature | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Compute Die | 1 | 2 | 2 | 2 |
| HBM Stacks | 4 | 4 | 8 | 8 |
| HBM Bandwidth (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Scale-up Domain Size | 18 devices** | 72 devices | 72 devices | 72 devices |
| Key Optimization | R&R training, low-latency communication | General GenAI, competitive raw perf. | GenAI inference, HBM, custom low-prec. | GenAI inference, HBM, custom low-prec. |
*Certains fournisseurs indiquent la bande passante bidirectionnelle. Multipliez la valeur du tableau par deux pour obtenir la bande passante bidirectionnelle correspondante. **Le MTIA 300 est configuré avec un réseau scale-out à bande passante plus élevée (200 Go/s) en raison de sa taille de domaine scale-up relativement petite et des charges de travail R&R ciblées.
La quête incessante de Meta pour des solutions de silicium personnalisées via la famille MTIA souligne son engagement à offrir des expériences d'IA de pointe à des milliards d'utilisateurs dans le monde entier. En combinant l'innovation interne avec des partenariats stratégiques, Meta continue de redéfinir les possibilités d'une infrastructure d'IA évolutive et rentable.
Source originale
https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/Questions Fréquentes
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Restez informé
Recevez les dernières actualités IA dans votre boîte mail.
