What are Meta MTIA chips and what is their purpose?

Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.

How many generations of MTIA chips has Meta developed in recent years?

Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.

What is Meta's 'velocity strategy' for AI chip development?

Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.

How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?

As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.

What are the key performance advancements from MTIA 300 to MTIA 500?

The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.

Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?

High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Mga Chip ng Meta MTIA, Pinapalaki ang AI para sa Bilyun-bilyong Gumagamit

Pagpapalaki ng mga Karanasan sa AI gamit ang mga Chip ng MTIA ng Meta

Araw-araw, bilyun-bilyong tao sa iba't ibang platform ng Meta ang nakikipag-ugnayan sa napakaraming feature na pinapagana ng AI, mula sa mga personalized na rekomendasyon ng nilalaman hanggang sa mga advanced na AI assistant. Ang pangunahing hamon para sa Meta, at maging sa industriya, ay nakasalalay sa pag-deploy at patuloy na pagpapabuti ng mga sopistikadong modelo ng AI na ito sa pandaigdigang saklaw, habang pinananatili ang optimal na cost-efficiency. Ang mahirap na gawain sa imprastraktura na ito ay natutugunan ng estratehikong pamumuhunan ng Meta sa flexible, patuloy na umuusbong na mga solusyon, kung saan sentro ang kanilang mga custom-designed na chip ng AI: ang pamilya ng Meta Training and Inference Accelerator (MTIA).

Bagaman nakatuon sa isang magkakaibang portfolio ng silicon na gumagamit ng parehong panloob at panlabas na solusyon, ang mga chip ng MTIA, na binuo sa malapit na pakikipagtulungan sa Broadcom, ay isang mahalagang bahagi ng diskarte sa imprastraktura ng AI ng Meta. Ang mga lokal na binuong accelerator na ito ay mahalaga para sa cost-effectively na pagpapagana ng mga karanasan sa AI na umaabot sa bilyun-bilyon, patuloy na umaangkop sa mabilis na umuusbong na landscape ng mga modelo ng AI.

Ang Iterative na Ebolusyon ng mga Chip ng MTIA ng Meta

Ang landscape ng modelo ng AI ay nasa estado ng patuloy na pagbabago, umuusbong sa bilis na madalas na nalalampasan ang tradisyonal na siklo ng pagbuo ng chip. Kinikilala na ang mga disenyo ng chip batay sa mga inaasahang workload ay maaaring maging lipas na sa panahon bago pa man makarating sa produksyon ang hardware, niyakap ng Meta ang isang inobatibong 'velocity strategy' para sa MTIA. Sa halip na mahaba, espekulatibong panahon ng pagbuo, gumagamit ang Meta ng isang iterative na diskarte kung saan ang bawat henerasyon ng MTIA ay bumubuo sa nakaraan. Kabilang dito ang paggamit ng modular chiplets, pagsasama ng pinakabagong mga insight sa AI workload, at pag-deploy ng mga bagong teknolohiya ng hardware sa isang mas maikling panahon. Tinitiyak ng mas mahigpit na feedback loop na ito na ang pasadyang silicon ng Meta ay nananatiling malapit na nakahanay sa pabago-bagong pangangailangan ng mga modelo ng AI, na nagtataguyod ng mas mabilis na paggamit ng mga bagong pagpapabuti.

Naidetalye na ng Meta ang unang dalawang henerasyon, MTIA 100 at MTIA 200, sa mga akademikong papel. Batay sa pundasyong ito, pinabilis ng Meta ang pagbuo upang ipakilala ang apat na bagong sunud-sunod na henerasyon: MTIA 300, 400, 450, at 500. Ang mga chip na ito ay nasa produksyon na o nakatakdang i-deploy nang maramihan sa 2026 at 2027. Ang mabilis na pagpapalit na ito ay nagbigay-daan sa Meta upang makabuluhang palawakin ang saklaw ng workload ng MTIA, lumipat mula sa paunang ranking at rekomendasyon (R&R) inference tungo sa R&R training, pangkalahatang Generative AI (GenAI) workloads, at lubos na na-optimize na GenAI inference.

MTIA 300: Paglalagay ng Pundasyon para sa mga Workload ng AI

Minarkahan ng MTIA 300 ang isang mahalagang hakbang sa paglalakbay ng custom silicon ng Meta. Sa simula'y na-optimize para sa mga modelo ng R&R, na siyang naging dominanteng workload ng Meta bago ang pag-usbong ng GenAI, ang mga architectural building block nito ay nagtatag ng isang matatag na pundasyon para sa mga sumunod na chip. Kabilang sa mga pangunahing tampok ng MTIA 300 ang integrated NIC chiplets, dedikadong message engines para sa offloading ng communication collectives, at near-memory compute capabilities na dinisenyo para sa reduction-based collectives. Ang mga low-latency, high-bandwidth na bahagi ng komunikasyon na ito ay naging mahalaga sa pagpapagana ng mahusay na GenAI inference at training sa mga sumunod na henerasyon.

Binubuo ang MTIA 300 ng isang compute chiplet, dalawang network chiplets, at ilang High-Bandwidth Memory (HBM) stacks. Ang bawat compute chiplet ay nagtatampok ng grid ng processing elements (PEs), na estratehikong dinisenyo na may redundant PEs upang mapahusay ang ani. Ang bawat PE ay isang sopistikadong unit na naglalaman ng dalawang RISC-V vector cores, isang Dot Product Engine para sa matrix multiplication, isang Special Function Unit para sa activations at elementwise operations, isang Reduction Engine para sa accumulation at inter-PE communication, at isang DMA engine para sa mahusay na paggalaw ng data sa loob ng lokal na scratch memory. Binigyang-diin ng masalimuot na disenyong ito ang pangako ng Meta sa paggawa ng isang lubos na epektibo at cost-effective na solusyon para sa mga pangunahing gawain nitong AI.

MTIA 400: Pagkamit ng Mapagkumpitensyang Performance ng GenAI

Dahil sa walang kaparis na pag-usbong ng Generative AI, mabilis na binago ng Meta ang MTIA 300 tungo sa MTIA 400 upang magbigay ng matatag na suporta para sa mga workload ng GenAI kasama ang umiiral nitong kakayahan sa R&R. Kumakatawan ang MTIA 400 sa isang malaking paglukso, na nag-aalok ng 400% na mas mataas na FP8 FLOPS at isang 51% na pagtaas sa HBM bandwidth kumpara sa nauna nito. Habang nakatuon ang MTIA 300 sa cost-effectiveness, idinisenyo ang MTIA 400 upang magbigay ng raw performance na mapagkumpitensya sa nangungunang commercial AI accelerators.

Nakakamit nito ito sa pamamagitan ng pagsasama ng dalawang compute chiplets upang epektibong doblehin ang compute density at sa pamamagitan ng pagsuporta sa mga pinahusay na bersyon ng MX8 at MX4, na mahahalagang low-precision format para sa epektibong GenAI inference. Ang isang rack na nilagyan ng 72 MTIA 400 device, na magkakaugnay sa pamamagitan ng isang switched backplane, ay bumubuo ng isang malakas na scale-up domain. Ang mga sistemang ito ay sinusuportahan ng advanced air-assisted liquid cooling (AALC) racks, na nagpapadali sa mabilis na pag-deploy kahit sa mga legacy data center, na nagpapakita ng praktikal na diskarte ng Meta sa pagpapalaki ng imprastraktura ng AI nito sa buong mundo.

MTIA 450 at 500: Espesyalista para sa GenAI Inference

Sa pag-asam ng patuloy na paglago ng GenAI inference demand, pinino pa ng Meta ang MTIA 400, na humantong sa pagbuo ng MTIA 450 at kasunod nito ang MTIA 500. Ang mga henerasyong ito ay partikular na na-optimize para sa mga natatanging hamon ng GenAI inference, na nakatuon sa kritikal na pagpapabuti sa memorya at compute.

Nakagawa ang MTIA 450 ng mga makabuluhang hakbang sa pamamagitan ng:

Pagdodoble ng HBM bandwidth mula sa nakaraang bersyon, na mahalaga para mapabilis ang decode phase sa mga modelo ng GenAI.
Pagtaas ng MX4 FLOPS ng 75%, na nagpapabilis sa mixture-of-experts (MoE) feed-forward network (FFN) computations na karaniwan sa malalaking modelo ng wika.
Pagpapakilala ng hardware acceleration upang gawing mas epektibo ang attention at FFN computations, na nagpapagaan ng mga bottleneck na nauugnay sa Softmax at FlashAttention.
Pagbabago sa mga uri ng data na mababa ang precision, lumalampas sa FP8/MX8 upang magbigay ng 6x ang MX4 FLOPS ng FP16/BF16, na may mga inobasyon sa custom data-type na nagpapanatili ng kalidad ng modelo at nagpapataas ng FLOPS na may minimal na epekto sa chip area.

MTIA 500, batay sa tagumpay ng 450, lalo pang pinataas ang HBM bandwidth ng karagdagang 50% at nagpakilala ng mas maraming inobasyon sa mga uri ng data na mababa ang precision, na nagpapatibay sa pangako ng Meta na itulak ang mga hangganan ng GenAI inference performance. Tinitiyak ng walang humpay na paghimok na ito para sa pagpapabuti na mananatili sa pinakamataas ang mga karanasan sa AI ng Meta.

Ang pinagsama-samang mga pagpapabuti sa mga henerasyong ito ay kapansin-pansin. Mula MTIA 300 hanggang MTIA 500, ang HBM bandwidth ay tumaas ng kahanga-hangang 4.5x, habang ang compute FLOPS ay nakakita ng kamangha-manghang 25x na pagtaas (mula sa MX8 ng MTIA 300 hanggang sa MX4 ng MTIA 500). Ang mabilis na pagbilis na ito sa loob ng dalawang taon ay patunay sa velocity strategy ng Meta at sa kakayahan nitong patuloy na pagandahin ang pasadyang silicon nito. Ang ebolusyon na ito ay sentral sa pagpapatupad ng agentic AI at iba pang kumplikadong modelo sa sukat.

Narito ang breakdown ng mga pangunahing detalye sa buong pamilya ng MTIA:

Feature	MTIA 300	MTIA 400	MTIA 450	MTIA 500
Compute Die	1	2	2	2
HBM Stacks	4	4	8	8
HBM Bandwidth (GB/s)*	100	151	302	453
MX8 FLOPS (TFLOPS)	100	400	400	400
MX4 FLOPS (TFLOPS)	N/A	200	350	500
Scale-up Domain Size	18 devices**	72 devices	72 devices	72 devices
Key Optimization	Pagsasanay ng R&R, low-latency na komunikasyon	Pangkalahatang GenAI, mapagkumpitensyang raw perf.	GenAI inference, HBM, pasadyang low-prec.	GenAI inference, HBM, pasadyang low-prec.

*Ang ilang vendor ay nag-uulat ng bidirectional bandwidth. Paramihin ang halaga sa talahanayan ng dalawa upang makuha ang kaukulang bidirectional bandwidth. **Ang MTIA 300 ay naka-configure na may scale-out network na may mas mataas na bandwidth (200 GB/s) dahil sa medyo maliit nitong scale-up domain size at ang target na R&R workloads.

Binibigyang-diin ng mga detalye na ito ang kapansin-pansin na pagpapabuti sa memory bandwidth at compute power, na nagpapakita kung paano ang bawat henerasyon ng MTIA ay maingat na ininhinyero upang tugunan ang pinakamahigpit na pangangailangan ng kasalukuyan at hinaharap na AI application, partikular ang mga GenAI model na nangangailangan ng maraming mapagkukunan. Ang walang humpay na paghahanap ng Meta ng mga custom silicon solution sa pamamagitan ng pamilya ng MTIA ay nagpapakita ng pangako nito sa pagbibigay ng cutting-edge AI experiences sa bilyun-bilyong gumagamit sa buong mundo. Sa pamamagitan ng pagsasama ng panloob na inobasyon sa mga estratehikong partnership, patuloy na binibigyang-kahulugan ng Meta ang mga posibilidad ng scalable at cost-effective na imprastraktura ng AI.