What are Meta MTIA chips and what is their purpose?

Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.

How many generations of MTIA chips has Meta developed in recent years?

Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.

What is Meta's 'velocity strategy' for AI chip development?

Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.

How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?

As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.

What are the key performance advancements from MTIA 300 to MTIA 500?

The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.

Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?

High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Τα τσιπ MTIA της Meta επεκτείνουν την Τεχνητή Νοημοσύνη για δισεκατομμύρια

Επέκταση Εμπειριών ΤΝ με τα Τσιπ MTIA της Meta

Καθημερινά, δισεκατομμύρια άνθρωποι σε όλες τις διαφορετικές πλατφόρμες της Meta αλληλεπιδρούν με μια πληθώρα λειτουργιών που υποστηρίζονται από ΤΝ, από εξατομικευμένες προτάσεις περιεχομένου έως προηγμένους βοηθούς ΤΝ. Η υποκείμενη πρόκληση για τη Meta, και πράγματι για τη βιομηχανία, έγκειται στην ανάπτυξη και τη συνεχή βελτίωση αυτών των εξελιγμένων μοντέλων ΤΝ σε παγκόσμια κλίμακα, διατηρώντας παράλληλα τη βέλτιστη αποδοτικότητα κόστους. Αυτό το απαιτητικό έργο υποδομής αντιμετωπίζεται από τη στρατηγική επένδυση της Meta σε ευέλικτες, συνεχώς εξελισσόμενες λύσεις, στο επίκεντρο των οποίων βρίσκονται τα ειδικά σχεδιασμένα τσιπ ΤΝ: η οικογένεια Meta Training and Inference Accelerator (MTIA).

Ενώ δεσμεύεται σε ένα ποικιλόμορφο χαρτοφυλάκιο πυριτίου που αξιοποιεί τόσο εσωτερικές όσο και εξωτερικές λύσεις, τα τσιπ MTIA, που αναπτύχθηκαν σε στενή συνεργασία με την Broadcom, αποτελούν ένα απαραίτητο συστατικό της στρατηγικής υποδομής ΤΝ της Meta. Αυτοί οι εγχώριοι επιταχυντές είναι ζωτικής σημασίας για την οικονομικά αποδοτική τροφοδοσία των εμπειριών ΤΝ που φτάνουν σε δισεκατομμύρια χρήστες, προσαρμοζόμενοι συνεχώς στο ταχέως εξελισσόμενο τοπίο των μοντέλων ΤΝ.

Η Επαναληπτική Εξέλιξη των Τσιπ MTIA της Meta

Το τοπίο των μοντέλων ΤΝ βρίσκεται σε μια κατάσταση συνεχούς μεταβολής, εξελισσόμενο με ρυθμό που συχνά ξεπερνά τους παραδοσιακούς κύκλους ανάπτυξης τσιπ. Αναγνωρίζοντας ότι τα σχέδια τσιπ που βασίζονται σε προβλεπόμενους φόρτους εργασίας μπορούν να καταστούν παρωχημένα τη στιγμή που το υλικό φτάνει στην παραγωγή, η Meta έχει υιοθετήσει μια καινοτόμο "στρατηγική ταχύτητας" για τα MTIA. Αντί για μεγάλες, κερδοσκοπικές περιόδους ανάπτυξης, η Meta υιοθετεί μια επαναληπτική προσέγγιση όπου κάθε γενιά MTIA βασίζεται στην προηγούμενη. Αυτό περιλαμβάνει τη χρήση αρθρωτών chiplets, την ενσωμάτωση των πιο πρόσφατων γνώσεων φόρτου εργασίας ΤΝ και την ανάπτυξη νέων τεχνολογιών υλικού σε ένα σημαντικά συντομότερο χρονικό διάστημα. Αυτός ο πιο στενός βρόχος ανατροφοδότησης διασφαλίζει ότι το προσαρμοσμένο πυρίτιο της Meta παραμένει στενά ευθυγραμμισμένο με τις δυναμικές απαιτήσεις των μοντέλων ΤΝ, ενισχύοντας την ταχύτερη υιοθέτηση νέων εξελίξεων.

Η Meta έχει ήδη αναλύσει τις δύο πρώτες γενιές, MTIA 100 και MTIA 200, σε ακαδημαϊκές εργασίες. Βασιζόμενη σε αυτή τη θεμελιώδη αρχή, η Meta έχει επιταχύνει την ανάπτυξη για να εισαγάγει τέσσερις νέες διαδοχικές γενιές: MTIA 300, 400, 450 και 500. Αυτά τα τσιπ είτε βρίσκονται ήδη σε παραγωγή είτε έχουν προγραμματιστεί για μαζική ανάπτυξη το 2026 και το 2027. Αυτή η ταχεία διαδοχή επέτρεψε στη Meta να επεκτείνει σημαντικά την κάλυψη φόρτου εργασίας των MTIA, μεταβαίνοντας από την αρχική κατάταξη και σύσταση (R&R) inference σε R&R training, γενικούς φόρτους εργασίας Γενετικής ΤΝ (GenAI) και υψηλά βελτιστοποιημένη GenAI inference.

MTIA 300: Θέτοντας τα Θεμέλια για τους Φόρτους Εργασίας ΤΝ

Το MTIA 300 σηματοδότησε ένα κομβικό βήμα στην πορεία της Meta στον τομέα του προσαρμοσμένου πυριτίου. Αρχικά βελτιστοποιημένο για μοντέλα R&R, τα οποία ήταν οι κυρίαρχοι φόρτοι εργασίας της Meta πριν από την έκρηξη της GenAI, τα αρχιτεκτονικά του δομικά στοιχεία καθιέρωσαν μια ισχυρή βάση για τα επόμενα τσιπ. Τα βασικά διακριτικά χαρακτηριστικά του MTIA 300 περιλαμβάνουν ενσωματωμένα chiplets NIC, ειδικούς μηχανισμούς μηνυμάτων για την εκφόρτωση συλλογικών επικοινωνιών και δυνατότητες υπολογισμού κοντά στη μνήμη, σχεδιασμένες για συλλογικές μειώσεις. Αυτά τα εξαρτήματα επικοινωνίας χαμηλής καθυστέρησης, υψηλού εύρους ζώνης αποδείχθηκαν καθοριστικά για την επίτευξη αποτελεσματικής GenAI inference και training στις γενιές που ακολούθησαν.

Το MTIA 300 αποτελείται από ένα compute chiplet, δύο network chiplets και αρκετές στοίβες μνήμης υψηλού εύρους ζώνης (HBM). Κάθε compute chiplet διαθέτει ένα πλέγμα στοιχείων επεξεργασίας (PEs), στρατηγικά σχεδιασμένο με πλεονάζοντα PEs για την ενίσχυση της απόδοσης. Κάθε PE είναι μια εξελιγμένη μονάδα που περιέχει δύο διανυσματικούς πυρήνες RISC-V, έναν Dot Product Engine για πολλαπλασιασμό πινάκων, μια Ειδική Μονάδα Λειτουργίας για ενεργοποιήσεις και λειτουργίες κατά στοιχείο, έναν Reduction Engine για συσσώρευση και ενδο-PE επικοινωνία, και έναν DMA engine για αποτελεσματική μετακίνηση δεδομένων εντός της τοπικής μνήμης scratch. Αυτός ο περίπλοκος σχεδιασμός υπογράμμισε τη δέσμευση της Meta να δημιουργήσει μια εξαιρετικά αποτελεσματική και οικονομικά αποδοτική λύση για τις βασικές της εργασίες ΤΝ.

MTIA 400: Επίτευξη Ανταγωνιστικής Απόδοσης GenAI

Με την πρωτοφανή άνοδο της Γενετικής ΤΝ, η Meta εξέλιξε ταχέως το MTIA 300 στο MTIA 400 για να παρέχει ισχυρή υποστήριξη για τους φόρτους εργασίας GenAI παράλληλα με τις υπάρχουσες δυνατότητες R&R. Το MTIA 400 αντιπροσωπεύει ένα σημαντικό άλμα, προσφέροντας 400% υψηλότερα FP8 FLOPS και αύξηση 51% στο εύρος ζώνης HBM σε σύγκριση με τον προκάτοχό του. Ενώ το MTIA 300 επικεντρώθηκε στην αποδοτικότητα κόστους, το MTIA 400 σχεδιάστηκε για να προσφέρει ακατέργαστη απόδοση ανταγωνιστική με τους κορυφαίους εμπορικούς επιταχυντές ΤΝ.

Το επιτυγχάνει αυτό συνδυάζοντας δύο compute chiplets για να διπλασιάσει αποτελεσματικά την πυκνότητα υπολογισμού και υποστηρίζοντας βελτιωμένες εκδόσεις MX8 και MX4, κρίσιμα formats χαμηλής ακρίβειας για αποτελεσματική GenAI inference. Ένα ενιαίο rack εξοπλισμένο με 72 συσκευές MTIA 400, διασυνδεδεμένες μέσω ενός switched backplane, σχηματίζει ένα ισχυρό domain scale-up. Αυτά τα συστήματα υποστηρίζονται από προηγμένα rack υγρής ψύξης με υποβοήθηση αέρα (AALC), διευκολύνοντας την ταχεία ανάπτυξη ακόμη και σε παλιά κέντρα δεδομένων, αναδεικνύοντας την πρακτική προσέγγιση της Meta για την παγκόσμια κλιμάκωση της υποδομής ΤΝ της.

MTIA 450 και 500: Εξειδικευμένα για GenAI Inference

Προβλέποντας τη συνεχιζόμενη εκθετική αύξηση της ζήτησης για GenAI inference, η Meta βελτίωσε περαιτέρω το MTIA 400, οδηγώντας στην ανάπτυξη του MTIA 450 και στη συνέχεια του MTIA 500. Αυτές οι γενιές είναι ειδικά βελτιστοποιημένες για τις μοναδικές προκλήσεις της GenAI inference, εστιάζοντας σε κρίσιμες εξελίξεις στη μνήμη και τον υπολογισμό.

Το MTIA 450 έκανε σημαντικά βήματα με το να:

Διπλασιάσει το εύρος ζώνης HBM από την προηγούμενη έκδοση, κάτι που είναι κρίσιμο για την επιτάχυνση της φάσης αποκωδικοποίησης σε μοντέλα GenAI.
Αυξήσει τα MX4 FLOPS κατά 75%, επιταχύνοντας τους υπολογισμούς δικτύου feed-forward (FFN) με 'μίξη ειδικών' (MoE) που είναι συνηθισμένοι σε μεγάλα γλωσσικά μοντέλα.
Εισαγάγει επιτάχυνση υλικού για να καταστήσει τους υπολογισμούς προσοχής και FFN πιο αποδοτικούς, μειώνοντας τα σημεία συμφόρησης που σχετίζονται με τα Softmax και FlashAttention.
Καινοτομήσει σε τύπους δεδομένων χαμηλής ακρίβειας, ξεπερνώντας τα FP8/MX8 για να προσφέρει 6x τα MX4 FLOPS των FP16/BF16, με προσαρμοσμένες καινοτομίες τύπου δεδομένων που διατηρούν την ποιότητα του μοντέλου και ενισχύουν τους FLOPS με ελάχιστο αντίκτυπο στην περιοχή του τσιπ.

Το MTIA 500, βασιζόμενο στην επιτυχία του 450, αύξησε περαιτέρω το εύρος ζώνης HBM κατά επιπλέον 50% και εισήγαγε περισσότερες καινοτομίες σε τύπους δεδομένων χαμηλής ακρίβειας, ενισχύοντας τη δέσμευση της Meta να ωθήσει τα όρια της απόδοσης GenAI inference. Αυτή η αδιάκοπη προσπάθεια για βελτίωση διασφαλίζει ότι οι εμπειρίες ΤΝ της Meta παραμένουν στην αιχμή του δόρατος.

Οι σωρευτικές εξελίξεις σε αυτές τις γενιές είναι εντυπωσιακές. Από το MTIA 300 έως το MTIA 500, το εύρος ζώνης HBM έχει αυξηθεί κατά ένα εντυπωσιακό 4,5x, ενώ οι υπολογιστικοί FLOPS έχουν σημειώσει μια εκπληκτική αύξηση 25x (από τα MX8 του MTIA 300 στα MX4 του MTIA 500). Αυτή η ταχεία επιτάχυνση μέσα σε δύο χρόνια αποτελεί απόδειξη της στρατηγικής ταχύτητας της Meta και της ικανότητάς της να βελτιώνει συνεχώς το προσαρμοσμένο πυρίτιό της. Αυτή η εξέλιξη είναι κεντρικής σημασίας για την λειτουργία της 'agentic AI' και άλλων πολύπλοκων μοντέλων σε κλίμακα.

Ακολουθεί μια ανάλυση των βασικών προδιαγραφών της οικογένειας MTIA:

Χαρακτηριστικό	MTIA 300	MTIA 400	MTIA 450	MTIA 500
Compute Die	1	2	2	2
HBM Stacks	4	4	8	8
Εύρος ζώνης HBM (GB/s)*	100	151	302	453
MX8 FLOPS (TFLOPS)	100	400	400	400
MX4 FLOPS (TFLOPS)	N/A	200	350	500
Μέγεθος Scale-up Domain	18 συσκευές**	72 συσκευές	72 συσκευές	72 συσκευές
Βασική Βελτιστοποίηση	R&R training, επικοινωνία χαμηλής καθυστέρησης	Γενική GenAI, ανταγωνιστική ακατέργαστη απόδοση	GenAI inference, HBM, προσαρμοσμένη χαμηλή ακρίβεια	GenAI inference, HBM, προσαρμοσμένη χαμηλή ακρίβεια

*Ορισμένοι προμηθευτές αναφέρουν αμφίδρομο εύρος ζώνης. Πολλαπλασιάστε την τιμή στον πίνακα επί δύο για να λάβετε το αντίστοιχο αμφίδρομο εύρος ζώνης. **Το MTIA 300 είναι διαμορφωμένο με δίκτυο scale-out με υψηλότερο εύρος ζώνης (200 GB/s) λόγω του σχετικά μικρού μεγέθους του scale-up domain και των στοχευμένων φόρτων εργασίας R&R.

Αυτές οι προδιαγραφές υπογραμμίζουν τις δραματικές βελτιώσεις στο εύρος ζώνης της μνήμης και την υπολογιστική ισχύ, καταδεικνύοντας πώς κάθε γενιά MTIA είναι σχολαστικά σχεδιασμένη για να αντιμετωπίζει τις πιο πιεστικές απαιτήσεις των τρεχουσών και μελλοντικών εφαρμογών ΤΝ, ιδίως των μοντέλων GenAI που απαιτούν πολλούς πόρους.

Η αδιάκοπη επιδίωξη της Meta για προσαρμοσμένες λύσεις πυριτίου μέσω της οικογένειας MTIA υπογραμμίζει τη δέσμευσή της να προσφέρει πρωτοποριακές εμπειρίες ΤΝ σε δισεκατομμύρια χρήστες παγκοσμίως. Συνδυάζοντας την εσωτερική καινοτομία με στρατηγικές συνεργασίες, η Meta συνεχίζει να επαναπροσδιορίζει τις δυνατότητες της επεκτάσιμης και οικονομικά αποδοτικής υποδομής ΤΝ.