Code Velocity
AI aziendale

I chip MTIA di Meta scalano l'AI per miliardi

·7 min di lettura·Meta·Fonte originale
Condividi
Chip AI Meta MTIA su una scheda server in un rack di data center

Scalare le esperienze AI con i chip MTIA di Meta

Ogni giorno, miliardi di persone sulle diverse piattaforme di Meta interagiscono con una miriade di funzionalità basate sull'intelligenza artificiale, dalle raccomandazioni di contenuti personalizzati agli assistenti AI avanzati. La sfida fondamentale per Meta, e per l'intero settore, risiede nella distribuzione e nel miglioramento continuo di questi sofisticati modelli AI su scala globale, il tutto mantenendo un'efficienza dei costi ottimale. Questo compito infrastrutturale esigente è affrontato dall'investimento strategico di Meta in soluzioni flessibili e in continua evoluzione, al centro delle quali ci sono i loro chip AI progettati su misura: la famiglia Meta Training and Inference Accelerator (MTIA).

Pur impegnati in un portafoglio di silicio diversificato che sfrutta soluzioni sia interne che esterne, i chip MTIA, sviluppati in stretta collaborazione con Broadcom, sono un componente indispensabile della strategia di infrastruttura AI di Meta. Questi acceleratori interni sono cruciali per alimentare in modo economicamente vantaggioso le esperienze AI che raggiungono miliardi di persone, adattandosi costantemente al panorama in rapida evoluzione dei modelli AI.

L'evoluzione iterativa dei chip MTIA di Meta

Il panorama dei modelli AI è in uno stato di flusso perpetuo, evolvendosi a un ritmo che spesso supera i cicli di sviluppo dei chip tradizionali. Riconoscendo che i design dei chip basati su carichi di lavoro previsti possono diventare obsoleti quando l'hardware raggiunge la produzione, Meta ha adottato un'innovativa "strategia di velocità" per gli MTIA. Invece di lunghi periodi di sviluppo speculativi, Meta adotta un approccio iterativo in cui ogni generazione MTIA si basa sulla precedente. Ciò implica l'utilizzo di chiplet modulari, l'incorporazione delle più recenti intuizioni sui carichi di lavoro AI e la distribuzione di nuove tecnologie hardware con una cadenza significativamente più breve. Questo ciclo di feedback più stretto garantisce che il silicio personalizzato di Meta rimanga strettamente allineato con le esigenze dinamiche dei modelli AI, promuovendo una più rapida adozione di nuove innovazioni.

Meta ha già dettagliato le prime due generazioni, MTIA 100 e MTIA 200, in articoli accademici. Basandosi su questa fondazione, Meta ha accelerato lo sviluppo per introdurre quattro nuove generazioni successive: MTIA 300, 400, 450 e 500. Questi chip sono già in produzione o sono previsti per la distribuzione di massa nel 2026 e 2027. Questa rapida successione ha permesso a Meta di espandere significativamente la copertura dei carichi di lavoro di MTIA, passando dall'inferenza iniziale di ranking e raccomandazione (R&R) all'addestramento R&R, ai carichi di lavoro generali di Generative AI (GenAI) e all'inferenza GenAI altamente ottimizzata.

MTIA 300: Gettare le basi per i carichi di lavoro AI

Il MTIA 300 ha segnato un passo fondamentale nel percorso di Meta nel silicio personalizzato. Inizialmente ottimizzato per i modelli R&R, che erano i carichi di lavoro dominanti di Meta prima del boom della GenAI, i suoi blocchi architetturali hanno stabilito una solida base per i chip successivi. Le caratteristiche distintive del MTIA 300 includono chiplet NIC integrati, motori di messaggistica dedicati per l'offload dei collettivi di comunicazione e capacità di calcolo vicino alla memoria progettate per collettivi basati sulla riduzione. Questi componenti di comunicazione a bassa latenza e alta larghezza di banda si sono dimostrati fondamentali per abilitare l'inferenza e l'addestramento GenAI efficienti nelle generazioni successive.

Il MTIA 300 comprende un chiplet di calcolo, due chiplet di rete e diversi stack di memoria ad alta larghezza di banda (HBM). Ogni chiplet di calcolo presenta una griglia di elementi di elaborazione (PE), strategicamente progettati con PE ridondanti per migliorare la resa. Ogni PE è un'unità sofisticata contenente due core vettoriali RISC-V, un Dot Product Engine per la moltiplicazione di matrici, una Special Function Unit per attivazioni e operazioni elemento per elemento, un Reduction Engine per l'accumulo e la comunicazione inter-PE e un motore DMA per un efficiente movimento dei dati all'interno della memoria scratch locale. Questo design intricato ha sottolineato l'impegno di Meta nella creazione di una soluzione altamente efficiente ed economicamente vantaggiosa per i suoi compiti AI fondamentali.

MTIA 400: Raggiungere prestazioni GenAI competitive

Con l'impennata senza precedenti dell'intelligenza artificiale generativa, Meta ha rapidamente evoluto il MTIA 300 nel MTIA 400 per fornire un solido supporto ai carichi di lavoro GenAI insieme alle sue capacità R&R esistenti. Il MTIA 400 rappresenta un salto significativo, offrendo FLOPS FP8 superiori del 400% e un aumento del 51% della larghezza di banda HBM rispetto al suo predecessore. Mentre il MTIA 300 si concentrava sull'efficienza dei costi, il MTIA 400 è stato progettato per offrire prestazioni grezze competitive con i principali acceleratori AI commerciali.

Ciò si ottiene combinando due chiplet di calcolo per raddoppiare efficacemente la densità di calcolo e supportando versioni migliorate di MX8 e MX4, formati cruciali a bassa precisione per un'inferenza GenAI efficiente. Un singolo rack dotato di 72 dispositivi MTIA 400, interconnessi tramite un backplane switchato, forma un potente dominio di scale-up. Questi sistemi sono supportati da rack di raffreddamento a liquido assistito ad aria (AALC) avanzati, facilitando una rapida implementazione anche nei data center legacy, dimostrando l'approccio pratico di Meta per scalare la sua infrastruttura AI a livello globale.

MTIA 450 e 500: Specializzati per l'inferenza GenAI

Anticipando la continua crescita esponenziale della domanda di inferenza GenAI, Meta ha ulteriormente perfezionato il MTIA 400, portando allo sviluppo del MTIA 450 e successivamente del MTIA 500. Queste generazioni sono specificamente ottimizzate per le sfide uniche dell'inferenza GenAI, concentrandosi su progressi critici nella memoria e nel calcolo.

MTIA 450 ha compiuto progressi significativi tramite:

  1. Raddoppiamento della larghezza di banda HBM rispetto alla versione precedente, fondamentale per accelerare la fase di decodifica nei modelli GenAI.
  2. Aumento dei FLOPS MX4 del 75%, accelerando i calcoli delle reti feed-forward (FFN) 'mixture-of-experts' (MoE) comuni nei modelli linguistici di grandi dimensioni.
  3. Introduzione dell'accelerazione hardware per rendere più efficienti i calcoli di attenzione e FFN, alleviando i colli di bottiglia associati a Softmax e FlashAttention.
  4. Innovazione nei tipi di dati a bassa precisione, andando oltre FP8/MX8 per fornire 6 volte i FLOPS MX4 di FP16/BF16, con innovazioni personalizzate sui tipi di dati che preservano la qualità del modello e aumentano i FLOPS con un impatto minimo sull'area del chip.

MTIA 500, basandosi sul successo del 450, ha ulteriormente aumentato la larghezza di banda HBM di un ulteriore 50% e ha introdotto ulteriori innovazioni nei tipi di dati a bassa precisione, rafforzando l'impegno di Meta a spingere i confini delle prestazioni di inferenza GenAI. Questo implacabile slancio verso il miglioramento garantisce che le esperienze AI di Meta rimangano all'avanguardia.

I progressi cumulativi tra queste generazioni sono netti. Dal MTIA 300 al MTIA 500, la larghezza di banda HBM è aumentata di un impressionante 4,5 volte, mentre i FLOPS di calcolo hanno registrato un sorprendente aumento di 25 volte (dall'MX8 del MTIA 300 all'MX4 del MTIA 500). Questa rapida accelerazione in due anni è una testimonianza della strategia di velocità di Meta e della sua capacità di migliorare continuamente il suo silicio personalizzato. Questa evoluzione è fondamentale per rendere operativa l'AI agentica e altri modelli complessi su larga scala.

Ecco una scomposizione delle specifiche chiave della famiglia MTIA:

CaratteristicaMTIA 300MTIA 400MTIA 450MTIA 500
Die di calcolo1222
Stack HBM4488
Larghezza di banda HBM (GB/s)*100151302453
FLOPS MX8 (TFLOPS)100400400400
FLOPS MX4 (TFLOPS)N/A200350500
Dimensione dominio scale-up18 dispositivi**72 dispositivi72 dispositivi72 dispositivi
Ottimizzazione chiaveAddestramento R&R, comunicazione a bassa latenzaGenAI generale, prestazioni grezze competitiveInferenza GenAI, HBM, bassa precisione personalizzataInferenza GenAI, HBM, bassa precisione personalizzata

*Alcuni fornitori riportano la larghezza di banda bidirezionale. Moltiplicare il valore nella tabella per due per ottenere la corrispondente larghezza di banda bidirezionale. **MTIA 300 è configurato con una rete scale-out con larghezza di banda superiore (200 GB/s) a causa delle sue dimensioni relativamente ridotte del dominio scale-up e dei carichi di lavoro R&R target.

Queste specifiche evidenziano i drammatici miglioramenti nella larghezza di banda della memoria e nella potenza di calcolo, dimostrando come ogni generazione MTIA sia meticolosamente progettata per affrontare le esigenze più urgenti delle applicazioni AI attuali e future, in particolare i modelli GenAI ad alta intensità di risorse.

L'implacabile ricerca di soluzioni di silicio personalizzate da parte di Meta tramite la famiglia MTIA sottolinea il suo impegno a fornire esperienze AI all'avanguardia a miliardi di utenti in tutto il mondo. Combinando innovazione interna e partnership strategiche, Meta continua a ridefinire le possibilità di un'infrastruttura AI scalabile ed economicamente vantaggiosa.

Domande Frequenti

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Resta aggiornato

Ricevi le ultime notizie sull'IA nella tua casella.

Condividi