Scalare le esperienze AI con i chip MTIA di Meta
Ogni giorno, miliardi di persone sulle diverse piattaforme di Meta interagiscono con una miriade di funzionalità basate sull'intelligenza artificiale, dalle raccomandazioni di contenuti personalizzati agli assistenti AI avanzati. La sfida fondamentale per Meta, e per l'intero settore, risiede nella distribuzione e nel miglioramento continuo di questi sofisticati modelli AI su scala globale, il tutto mantenendo un'efficienza dei costi ottimale. Questo compito infrastrutturale esigente è affrontato dall'investimento strategico di Meta in soluzioni flessibili e in continua evoluzione, al centro delle quali ci sono i loro chip AI progettati su misura: la famiglia Meta Training and Inference Accelerator (MTIA).
Pur impegnati in un portafoglio di silicio diversificato che sfrutta soluzioni sia interne che esterne, i chip MTIA, sviluppati in stretta collaborazione con Broadcom, sono un componente indispensabile della strategia di infrastruttura AI di Meta. Questi acceleratori interni sono cruciali per alimentare in modo economicamente vantaggioso le esperienze AI che raggiungono miliardi di persone, adattandosi costantemente al panorama in rapida evoluzione dei modelli AI.
L'evoluzione iterativa dei chip MTIA di Meta
Il panorama dei modelli AI è in uno stato di flusso perpetuo, evolvendosi a un ritmo che spesso supera i cicli di sviluppo dei chip tradizionali. Riconoscendo che i design dei chip basati su carichi di lavoro previsti possono diventare obsoleti quando l'hardware raggiunge la produzione, Meta ha adottato un'innovativa "strategia di velocità" per gli MTIA. Invece di lunghi periodi di sviluppo speculativi, Meta adotta un approccio iterativo in cui ogni generazione MTIA si basa sulla precedente. Ciò implica l'utilizzo di chiplet modulari, l'incorporazione delle più recenti intuizioni sui carichi di lavoro AI e la distribuzione di nuove tecnologie hardware con una cadenza significativamente più breve. Questo ciclo di feedback più stretto garantisce che il silicio personalizzato di Meta rimanga strettamente allineato con le esigenze dinamiche dei modelli AI, promuovendo una più rapida adozione di nuove innovazioni.
Meta ha già dettagliato le prime due generazioni, MTIA 100 e MTIA 200, in articoli accademici. Basandosi su questa fondazione, Meta ha accelerato lo sviluppo per introdurre quattro nuove generazioni successive: MTIA 300, 400, 450 e 500. Questi chip sono già in produzione o sono previsti per la distribuzione di massa nel 2026 e 2027. Questa rapida successione ha permesso a Meta di espandere significativamente la copertura dei carichi di lavoro di MTIA, passando dall'inferenza iniziale di ranking e raccomandazione (R&R) all'addestramento R&R, ai carichi di lavoro generali di Generative AI (GenAI) e all'inferenza GenAI altamente ottimizzata.
MTIA 300: Gettare le basi per i carichi di lavoro AI
Il MTIA 300 ha segnato un passo fondamentale nel percorso di Meta nel silicio personalizzato. Inizialmente ottimizzato per i modelli R&R, che erano i carichi di lavoro dominanti di Meta prima del boom della GenAI, i suoi blocchi architetturali hanno stabilito una solida base per i chip successivi. Le caratteristiche distintive del MTIA 300 includono chiplet NIC integrati, motori di messaggistica dedicati per l'offload dei collettivi di comunicazione e capacità di calcolo vicino alla memoria progettate per collettivi basati sulla riduzione. Questi componenti di comunicazione a bassa latenza e alta larghezza di banda si sono dimostrati fondamentali per abilitare l'inferenza e l'addestramento GenAI efficienti nelle generazioni successive.
Il MTIA 300 comprende un chiplet di calcolo, due chiplet di rete e diversi stack di memoria ad alta larghezza di banda (HBM). Ogni chiplet di calcolo presenta una griglia di elementi di elaborazione (PE), strategicamente progettati con PE ridondanti per migliorare la resa. Ogni PE è un'unità sofisticata contenente due core vettoriali RISC-V, un Dot Product Engine per la moltiplicazione di matrici, una Special Function Unit per attivazioni e operazioni elemento per elemento, un Reduction Engine per l'accumulo e la comunicazione inter-PE e un motore DMA per un efficiente movimento dei dati all'interno della memoria scratch locale. Questo design intricato ha sottolineato l'impegno di Meta nella creazione di una soluzione altamente efficiente ed economicamente vantaggiosa per i suoi compiti AI fondamentali.
MTIA 400: Raggiungere prestazioni GenAI competitive
Con l'impennata senza precedenti dell'intelligenza artificiale generativa, Meta ha rapidamente evoluto il MTIA 300 nel MTIA 400 per fornire un solido supporto ai carichi di lavoro GenAI insieme alle sue capacità R&R esistenti. Il MTIA 400 rappresenta un salto significativo, offrendo FLOPS FP8 superiori del 400% e un aumento del 51% della larghezza di banda HBM rispetto al suo predecessore. Mentre il MTIA 300 si concentrava sull'efficienza dei costi, il MTIA 400 è stato progettato per offrire prestazioni grezze competitive con i principali acceleratori AI commerciali.
Ciò si ottiene combinando due chiplet di calcolo per raddoppiare efficacemente la densità di calcolo e supportando versioni migliorate di MX8 e MX4, formati cruciali a bassa precisione per un'inferenza GenAI efficiente. Un singolo rack dotato di 72 dispositivi MTIA 400, interconnessi tramite un backplane switchato, forma un potente dominio di scale-up. Questi sistemi sono supportati da rack di raffreddamento a liquido assistito ad aria (AALC) avanzati, facilitando una rapida implementazione anche nei data center legacy, dimostrando l'approccio pratico di Meta per scalare la sua infrastruttura AI a livello globale.
MTIA 450 e 500: Specializzati per l'inferenza GenAI
Anticipando la continua crescita esponenziale della domanda di inferenza GenAI, Meta ha ulteriormente perfezionato il MTIA 400, portando allo sviluppo del MTIA 450 e successivamente del MTIA 500. Queste generazioni sono specificamente ottimizzate per le sfide uniche dell'inferenza GenAI, concentrandosi su progressi critici nella memoria e nel calcolo.
MTIA 450 ha compiuto progressi significativi tramite:
- Raddoppiamento della larghezza di banda HBM rispetto alla versione precedente, fondamentale per accelerare la fase di decodifica nei modelli GenAI.
- Aumento dei FLOPS MX4 del 75%, accelerando i calcoli delle reti feed-forward (FFN) 'mixture-of-experts' (MoE) comuni nei modelli linguistici di grandi dimensioni.
- Introduzione dell'accelerazione hardware per rendere più efficienti i calcoli di attenzione e FFN, alleviando i colli di bottiglia associati a Softmax e FlashAttention.
- Innovazione nei tipi di dati a bassa precisione, andando oltre FP8/MX8 per fornire 6 volte i FLOPS MX4 di FP16/BF16, con innovazioni personalizzate sui tipi di dati che preservano la qualità del modello e aumentano i FLOPS con un impatto minimo sull'area del chip.
MTIA 500, basandosi sul successo del 450, ha ulteriormente aumentato la larghezza di banda HBM di un ulteriore 50% e ha introdotto ulteriori innovazioni nei tipi di dati a bassa precisione, rafforzando l'impegno di Meta a spingere i confini delle prestazioni di inferenza GenAI. Questo implacabile slancio verso il miglioramento garantisce che le esperienze AI di Meta rimangano all'avanguardia.
I progressi cumulativi tra queste generazioni sono netti. Dal MTIA 300 al MTIA 500, la larghezza di banda HBM è aumentata di un impressionante 4,5 volte, mentre i FLOPS di calcolo hanno registrato un sorprendente aumento di 25 volte (dall'MX8 del MTIA 300 all'MX4 del MTIA 500). Questa rapida accelerazione in due anni è una testimonianza della strategia di velocità di Meta e della sua capacità di migliorare continuamente il suo silicio personalizzato. Questa evoluzione è fondamentale per rendere operativa l'AI agentica e altri modelli complessi su larga scala.
Ecco una scomposizione delle specifiche chiave della famiglia MTIA:
| Caratteristica | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Die di calcolo | 1 | 2 | 2 | 2 |
| Stack HBM | 4 | 4 | 8 | 8 |
| Larghezza di banda HBM (GB/s)* | 100 | 151 | 302 | 453 |
| FLOPS MX8 (TFLOPS) | 100 | 400 | 400 | 400 |
| FLOPS MX4 (TFLOPS) | N/A | 200 | 350 | 500 |
| Dimensione dominio scale-up | 18 dispositivi** | 72 dispositivi | 72 dispositivi | 72 dispositivi |
| Ottimizzazione chiave | Addestramento R&R, comunicazione a bassa latenza | GenAI generale, prestazioni grezze competitive | Inferenza GenAI, HBM, bassa precisione personalizzata | Inferenza GenAI, HBM, bassa precisione personalizzata |
*Alcuni fornitori riportano la larghezza di banda bidirezionale. Moltiplicare il valore nella tabella per due per ottenere la corrispondente larghezza di banda bidirezionale. **MTIA 300 è configurato con una rete scale-out con larghezza di banda superiore (200 GB/s) a causa delle sue dimensioni relativamente ridotte del dominio scale-up e dei carichi di lavoro R&R target.
Queste specifiche evidenziano i drammatici miglioramenti nella larghezza di banda della memoria e nella potenza di calcolo, dimostrando come ogni generazione MTIA sia meticolosamente progettata per affrontare le esigenze più urgenti delle applicazioni AI attuali e future, in particolare i modelli GenAI ad alta intensità di risorse.
L'implacabile ricerca di soluzioni di silicio personalizzate da parte di Meta tramite la famiglia MTIA sottolinea il suo impegno a fornire esperienze AI all'avanguardia a miliardi di utenti in tutto il mondo. Combinando innovazione interna e partnership strategiche, Meta continua a ridefinire le possibilità di un'infrastruttura AI scalabile ed economicamente vantaggiosa.
Domande Frequenti
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Resta aggiornato
Ricevi le ultime notizie sull'IA nella tua casella.
