Скалирање на искуствата со вештачка интелигенција со Meta MTIA чипови
Секојдневно, милијарди луѓе на различните платформи на Meta комуницираат со безброј функции напојувани од вештачка интелигенција, од персонализирани препораки за содржина до напредни AI асистенти. Основниот предизвик за Meta, а всушност и за индустријата, лежи во распоредувањето и континуираното подобрување на овие софистицирани AI модели на глобално ниво, притоа одржувајќи оптимална економичност. Оваа барачка инфраструктурна задача е исполнета со стратешката инвестиција на Meta во флексибилни, постојано развивачки решенија, чиј централен дел се нивните прилагодени AI чипови: семејството Meta Training and Inference Accelerator (MTIA).
Додека е посветена на диверзифицирано портфолио на силициум што ги користи и внатрешните и надворешните решенија, MTIA чиповите, развиени во блиско партнерство со Broadcom, се незаменлива компонента на стратегијата за AI инфраструктура на Meta. Овие домашни акцелератори се клучни за економично напојување на AI искуствата кои достигнуваат милијарди, постојано прилагодувајќи се на брзо развивачкиот пејзаж на AI моделите.
Итеративната еволуција на Meta MTIA чиповите
Пејзажот на AI моделите е во состојба на постојана промена, развивајќи се со темпо кое често ги надминува традиционалните циклуси на развој на чипови. Признавајќи дека дизајните на чиповите засновани на предвидени работни оптоварувања можат да застарат додека хардверот не стигне до производство, Meta прифати иновативна „стратегија за брзина“ за MTIA. Наместо долги, шпекулативни периоди на развој, Meta применува итеративен пристап каде што секоја MTIA генерација се надоврзува на претходната. Ова вклучува користење модуларни чиплети, инкорпорирање на најновите сознанија за AI работни оптоварувања и распоредување нови хардверски технологии со значително пократок циклус. Оваа потесна повратна врска осигурува дека прилагодениот силициум на Meta останува тесно усогласен со динамичните барања на AI моделите, поттикнувајќи побрзо усвојување на нови напредоци.
Meta веќе ги детално опиша првите две генерации, MTIA 100 и MTIA 200, во академски трудови. Надоврзувајќи се на оваа основа, Meta го забрза развојот за да воведе четири нови последователни генерации: MTIA 300, 400, 450 и 500. Овие чипови или веќе се во производство или се планирани за масовно распоредување во 2026 и 2027 година. Оваа брза сукцесија ѝ овозможи на Meta значително да ја прошири покриеноста на работните оптоварувања на MTIA, движејќи се од почетната инференција за рангирање и препораки (R&R) кон R&R тренирање, општи работни оптоварувања на генеративна вештачка интелигенција (GenAI) и високо оптимизирана GenAI инференција.
MTIA 300: Поставување на основата за AI работни оптоварувања
MTIA 300 означи клучен чекор во патувањето на Meta со прилагоден силициум. Првично оптимизиран за R&R модели, кои беа доминантни работни оптоварувања на Meta пред бумот на GenAI, неговите архитектонски градбени блокови воспоставија цврста основа за следните чипови. Клучните карактеристики на MTIA 300 вклучуваат интегрирани NIC чиплети, наменски мотори за пораки за растоварување на комуникациски колективи и компјутерски способности блиску до меморијата дизајнирани за колективи базирани на редукција. Овие компоненти за комуникација со ниска латентност и висок пропусен опсег се покажаа инструментални во овозможувањето ефикасна GenAI инференција и тренирање во следните генерации.
MTIA 300 се состои од еден компјутерски чиплет, два мрежни чиплети и неколку High-Bandwidth Memory (HBM) стекови. Секој компјутерски чиплет располага со мрежа од елементи за обработка (PEs), стратешки дизајнирани со редундантни PEs за подобрување на приносот. Секој PE е софистицирана единица која содржи две RISC-V векторски јадра, Dot Product Engine за множење матрици, Special Function Unit за активации и операции по елемент, Reduction Engine за акумулација и интер-PE комуникација, и DMA engine за ефикасно движење на податоци во локалната привремена меморија. Овој сложен дизајн ја истакна посветеноста на Meta за создавање високо ефикасно и економично решение за своите основни AI задачи.
MTIA 400: Постигнување конкурентни GenAI перформанси
Со невидениот пораст на генеративната вештачка интелигенција, Meta брзо го разви MTIA 300 во MTIA 400 за да обезбеди цврста поддршка за GenAI работни оптоварувања заедно со своите постоечки R&R способности. MTIA 400 претставува значителен скок, нудејќи 400% повисоки FP8 FLOPS и зголемување од 51% на пропусниот опсег на HBM во споредба со неговиот претходник. Додека MTIA 300 се фокусираше на економичност, MTIA 400 беше дизајниран да испорача сурови перформанси конкурентни со водечките комерцијални AI акцелератори.
Ова го постигнува со комбинирање на два компјутерски чиплети за ефикасно удвојување на густината на пресметување и со поддршка на подобрени верзии на MX8 и MX4, клучни формати со ниска прецизност за ефикасна GenAI инференција. Еден рек опремен со 72 MTIA 400 уреди, меѓусебно поврзани преку преклопна задна плоча, формира моќен домен за скалирање нагоре. Овие системи се поддржани од напредни рекови за течно ладење со помош на воздух (AALC), олеснувајќи брзо распоредување дури и во постари центри за податоци, покажувајќи го практичниот пристап на Meta кон скалирање на својата AI инфраструктура на глобално ниво.
MTIA 450 и 500: Специјализирани за GenAI инференција
Предвидувајќи го континуираниот експоненцијален раст на побарувачката за GenAI инференција, Meta дополнително го усоврши MTIA 400, што доведе до развој на MTIA 450, а потоа и MTIA 500. Овие генерации се специјално оптимизирани за уникатните предизвици на GenAI инференцијата, фокусирајќи се на критични напредоци во меморијата и пресметувањето.
MTIA 450 направи значајни чекори со:
- Удвојување на пропусниот опсег на HBM од претходната верзија, што е клучно за забрзување на фазата на декодирање во GenAI моделите.
- Зголемување на MX4 FLOPS за 75%, забрзувајќи ги пресметките на feed-forward мрежата (FFN) со мешавина од експерти (MoE) кои се чести кај големите јазични модели.
- Воведување хардверско забрзување за да се направат пресметките на внимание и FFN поефикасни, олеснувајќи ги тесните грла поврзани со Softmax и FlashAttention.
- Иновации во типовите податоци со ниска прецизност, надминувајќи ги FP8/MX8 за да испорачаат 6x MX4 FLOPS од FP16/BF16, со прилагодени иновации во типови податоци кои го зачувуваат квалитетот на моделот и ги зголемуваат FLOPS со минимално влијание врз површината на чипот.
MTIA 500, надоврзувајќи се на успехот на 450, дополнително го зголеми пропусниот опсег на HBM за дополнителни 50% и воведе повеќе иновации во типовите податоци со ниска прецизност, зајакнувајќи ја посветеноста на Meta да ги поместува границите на перформансите на GenAI инференцијата. Овој неуморен стремеж кон подобрување осигурува дека AI искуствата на Meta остануваат на највисоко ниво.
Кумулативните напредоци низ овие генерации се очигледни. Од MTIA 300 до MTIA 500, пропусниот опсег на HBM е зголемен за импресивни 4,5 пати, додека пресметковните FLOPS забележаа зачудувачко 25-кратно зголемување (од MX8 на MTIA 300 до MX4 на MTIA 500). Ова брзо забрзување за две години е доказ за стратегијата за брзина на Meta и нејзината способност постојано да го подобрува својот прилагоден силициум. Оваа еволуција е централна за операционализацијата на агентична вештачка интелигенција и други сложени модели во голем обем.
Еве преглед на клучните спецификации низ семејството MTIA:
| Карактеристика | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Пресметувачки чип | 1 | 2 | 2 | 2 |
| HBM стекови | 4 | 4 | 8 | 8 |
| Пропусен опсег на HBM (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Големина на домен за скалирање | 18 уреди** | 72 уреди | 72 уреди | 72 уреди |
| Клучна оптимизација | R&R тренирање, комуникација со ниска латентност | Општа GenAI, конкурентни сурови перформанси. | GenAI инференција, HBM, прилагодена ниска прецизност. | GenAI инференција, HBM, прилагодена ниска прецизност. |
*Некои продавачи известуваат двонасочен пропусен опсег. Помножете ја вредноста во табелата со два за да го добиете соодветниот двонасочен пропусен опсег. **MTIA 300 е конфигуриран со scale-out мрежа со поголем пропусен опсег (200 GB/s) поради неговата релативно мала големина на домен за скалирање и целните R&R работни оптоварувања.
Овие спецификации ги нагласуваат драматичните подобрувања во пропусниот опсег на меморијата и пресметковната моќ, демонстрирајќи како секоја MTIA генерација е прецизно дизајнирана за да одговори на најитните барања на тековните и идните AI апликации, особено на GenAI моделите кои интензивно користат ресурси.
Неуморната потрага на Meta по прилагодени силициумски решенија преку семејството MTIA ја нагласува нејзината посветеност на испорака на најсовремени AI искуства за милијарди корисници ширум светот. Со комбинирање на внатрешната иновација со стратешки партнерства, Meta продолжува да ги редефинира можностите за скалабилна и економична AI инфраструктура.
Оригинален извор
https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/Често поставувани прашања
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Бидете информирани
Добивајте ги најновите AI вести на е-пошта.
