What are Meta MTIA chips and what is their purpose?

Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.

How many generations of MTIA chips has Meta developed in recent years?

Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.

What is Meta's 'velocity strategy' for AI chip development?

Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.

How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?

As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.

What are the key performance advancements from MTIA 300 to MTIA 500?

The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.

Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?

High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Meta MTIA чипови ја скалираат вештачката интелигенција за милијарди

Скалирање на искуствата со вештачка интелигенција со Meta MTIA чипови

Секојдневно, милијарди луѓе на различните платформи на Meta комуницираат со безброј функции напојувани од вештачка интелигенција, од персонализирани препораки за содржина до напредни AI асистенти. Основниот предизвик за Meta, а всушност и за индустријата, лежи во распоредувањето и континуираното подобрување на овие софистицирани AI модели на глобално ниво, притоа одржувајќи оптимална економичност. Оваа барачка инфраструктурна задача е исполнета со стратешката инвестиција на Meta во флексибилни, постојано развивачки решенија, чиј централен дел се нивните прилагодени AI чипови: семејството Meta Training and Inference Accelerator (MTIA).

Додека е посветена на диверзифицирано портфолио на силициум што ги користи и внатрешните и надворешните решенија, MTIA чиповите, развиени во блиско партнерство со Broadcom, се незаменлива компонента на стратегијата за AI инфраструктура на Meta. Овие домашни акцелератори се клучни за економично напојување на AI искуствата кои достигнуваат милијарди, постојано прилагодувајќи се на брзо развивачкиот пејзаж на AI моделите.

Итеративната еволуција на Meta MTIA чиповите

Пејзажот на AI моделите е во состојба на постојана промена, развивајќи се со темпо кое често ги надминува традиционалните циклуси на развој на чипови. Признавајќи дека дизајните на чиповите засновани на предвидени работни оптоварувања можат да застарат додека хардверот не стигне до производство, Meta прифати иновативна „стратегија за брзина“ за MTIA. Наместо долги, шпекулативни периоди на развој, Meta применува итеративен пристап каде што секоја MTIA генерација се надоврзува на претходната. Ова вклучува користење модуларни чиплети, инкорпорирање на најновите сознанија за AI работни оптоварувања и распоредување нови хардверски технологии со значително пократок циклус. Оваа потесна повратна врска осигурува дека прилагодениот силициум на Meta останува тесно усогласен со динамичните барања на AI моделите, поттикнувајќи побрзо усвојување на нови напредоци.

Meta веќе ги детално опиша првите две генерации, MTIA 100 и MTIA 200, во академски трудови. Надоврзувајќи се на оваа основа, Meta го забрза развојот за да воведе четири нови последователни генерации: MTIA 300, 400, 450 и 500. Овие чипови или веќе се во производство или се планирани за масовно распоредување во 2026 и 2027 година. Оваа брза сукцесија ѝ овозможи на Meta значително да ја прошири покриеноста на работните оптоварувања на MTIA, движејќи се од почетната инференција за рангирање и препораки (R&R) кон R&R тренирање, општи работни оптоварувања на генеративна вештачка интелигенција (GenAI) и високо оптимизирана GenAI инференција.

MTIA 300: Поставување на основата за AI работни оптоварувања

MTIA 300 означи клучен чекор во патувањето на Meta со прилагоден силициум. Првично оптимизиран за R&R модели, кои беа доминантни работни оптоварувања на Meta пред бумот на GenAI, неговите архитектонски градбени блокови воспоставија цврста основа за следните чипови. Клучните карактеристики на MTIA 300 вклучуваат интегрирани NIC чиплети, наменски мотори за пораки за растоварување на комуникациски колективи и компјутерски способности блиску до меморијата дизајнирани за колективи базирани на редукција. Овие компоненти за комуникација со ниска латентност и висок пропусен опсег се покажаа инструментални во овозможувањето ефикасна GenAI инференција и тренирање во следните генерации.

MTIA 300 се состои од еден компјутерски чиплет, два мрежни чиплети и неколку High-Bandwidth Memory (HBM) стекови. Секој компјутерски чиплет располага со мрежа од елементи за обработка (PEs), стратешки дизајнирани со редундантни PEs за подобрување на приносот. Секој PE е софистицирана единица која содржи две RISC-V векторски јадра, Dot Product Engine за множење матрици, Special Function Unit за активации и операции по елемент, Reduction Engine за акумулација и интер-PE комуникација, и DMA engine за ефикасно движење на податоци во локалната привремена меморија. Овој сложен дизајн ја истакна посветеноста на Meta за создавање високо ефикасно и економично решение за своите основни AI задачи.

MTIA 400: Постигнување конкурентни GenAI перформанси

Со невидениот пораст на генеративната вештачка интелигенција, Meta брзо го разви MTIA 300 во MTIA 400 за да обезбеди цврста поддршка за GenAI работни оптоварувања заедно со своите постоечки R&R способности. MTIA 400 претставува значителен скок, нудејќи 400% повисоки FP8 FLOPS и зголемување од 51% на пропусниот опсег на HBM во споредба со неговиот претходник. Додека MTIA 300 се фокусираше на економичност, MTIA 400 беше дизајниран да испорача сурови перформанси конкурентни со водечките комерцијални AI акцелератори.

Ова го постигнува со комбинирање на два компјутерски чиплети за ефикасно удвојување на густината на пресметување и со поддршка на подобрени верзии на MX8 и MX4, клучни формати со ниска прецизност за ефикасна GenAI инференција. Еден рек опремен со 72 MTIA 400 уреди, меѓусебно поврзани преку преклопна задна плоча, формира моќен домен за скалирање нагоре. Овие системи се поддржани од напредни рекови за течно ладење со помош на воздух (AALC), олеснувајќи брзо распоредување дури и во постари центри за податоци, покажувајќи го практичниот пристап на Meta кон скалирање на својата AI инфраструктура на глобално ниво.

MTIA 450 и 500: Специјализирани за GenAI инференција

Предвидувајќи го континуираниот експоненцијален раст на побарувачката за GenAI инференција, Meta дополнително го усоврши MTIA 400, што доведе до развој на MTIA 450, а потоа и MTIA 500. Овие генерации се специјално оптимизирани за уникатните предизвици на GenAI инференцијата, фокусирајќи се на критични напредоци во меморијата и пресметувањето.

MTIA 450 направи значајни чекори со:

Удвојување на пропусниот опсег на HBM од претходната верзија, што е клучно за забрзување на фазата на декодирање во GenAI моделите.
Зголемување на MX4 FLOPS за 75%, забрзувајќи ги пресметките на feed-forward мрежата (FFN) со мешавина од експерти (MoE) кои се чести кај големите јазични модели.
Воведување хардверско забрзување за да се направат пресметките на внимание и FFN поефикасни, олеснувајќи ги тесните грла поврзани со Softmax и FlashAttention.
Иновации во типовите податоци со ниска прецизност, надминувајќи ги FP8/MX8 за да испорачаат 6x MX4 FLOPS од FP16/BF16, со прилагодени иновации во типови податоци кои го зачувуваат квалитетот на моделот и ги зголемуваат FLOPS со минимално влијание врз површината на чипот.

MTIA 500, надоврзувајќи се на успехот на 450, дополнително го зголеми пропусниот опсег на HBM за дополнителни 50% и воведе повеќе иновации во типовите податоци со ниска прецизност, зајакнувајќи ја посветеноста на Meta да ги поместува границите на перформансите на GenAI инференцијата. Овој неуморен стремеж кон подобрување осигурува дека AI искуствата на Meta остануваат на највисоко ниво.

Кумулативните напредоци низ овие генерации се очигледни. Од MTIA 300 до MTIA 500, пропусниот опсег на HBM е зголемен за импресивни 4,5 пати, додека пресметковните FLOPS забележаа зачудувачко 25-кратно зголемување (од MX8 на MTIA 300 до MX4 на MTIA 500). Ова брзо забрзување за две години е доказ за стратегијата за брзина на Meta и нејзината способност постојано да го подобрува својот прилагоден силициум. Оваа еволуција е централна за операционализацијата на агентична вештачка интелигенција и други сложени модели во голем обем.

Еве преглед на клучните спецификации низ семејството MTIA:

Карактеристика	MTIA 300	MTIA 400	MTIA 450	MTIA 500
Пресметувачки чип	1	2	2	2
HBM стекови	4	4	8	8
Пропусен опсег на HBM (GB/s)*	100	151	302	453
MX8 FLOPS (TFLOPS)	100	400	400	400
MX4 FLOPS (TFLOPS)	N/A	200	350	500
Големина на домен за скалирање	18 уреди**	72 уреди	72 уреди	72 уреди
Клучна оптимизација	R&R тренирање, комуникација со ниска латентност	Општа GenAI, конкурентни сурови перформанси.	GenAI инференција, HBM, прилагодена ниска прецизност.	GenAI инференција, HBM, прилагодена ниска прецизност.

*Некои продавачи известуваат двонасочен пропусен опсег. Помножете ја вредноста во табелата со два за да го добиете соодветниот двонасочен пропусен опсег. **MTIA 300 е конфигуриран со scale-out мрежа со поголем пропусен опсег (200 GB/s) поради неговата релативно мала големина на домен за скалирање и целните R&R работни оптоварувања.

Овие спецификации ги нагласуваат драматичните подобрувања во пропусниот опсег на меморијата и пресметковната моќ, демонстрирајќи како секоја MTIA генерација е прецизно дизајнирана за да одговори на најитните барања на тековните и идните AI апликации, особено на GenAI моделите кои интензивно користат ресурси.

Неуморната потрага на Meta по прилагодени силициумски решенија преку семејството MTIA ја нагласува нејзината посветеност на испорака на најсовремени AI искуства за милијарди корисници ширум светот. Со комбинирање на внатрешната иновација со стратешки партнерства, Meta продолжува да ги редефинира можностите за скалабилна и економична AI инфраструктура.