Code Velocity
Įmonių DI

Meta MTIA lustai – DI mastelio didinimui milijardams

·7 min skaitymo·Meta·Originalus šaltinis
Dalintis
Meta MTIA DI lustai serverio plokštėje duomenų centro stovoje

DI patirčių plėtimas su Meta MTIA lustais

Kiekvieną dieną milijardai žmonių visose įvairiose Meta platformose sąveikauja su daugybe DI pagrįstų funkcijų, nuo personalizuotų turinio rekomendacijų iki pažangių DI asistentų. Pagrindinis iššūkis Meta ir iš tiesų visai pramonei slypi diegiant ir nuolat tobulinant šiuos sudėtingus DI modelius pasauliniu mastu, išlaikant optimalų sąnaudų efektyvumą. Šią reikalaujančią infrastruktūros užduotį Meta sprendžia strategiškai investuodama į lanksčius, nuolat tobulėjančius sprendimus, kurių pagrindas yra jos individualiai sukurti DI lustai: Meta Training and Inference Accelerator (MTIA) šeima.

Nors Meta yra įsipareigojusi naudoti įvairų silicio portfelį, kuriame naudojami tiek vidiniai, tiek išoriniai sprendimai, MTIA lustai, sukurti glaudžiai bendradarbiaujant su Broadcom, yra nepakeičiama Meta DI infrastruktūros strategijos dalis. Šie pačių sukurti spartintuvai yra labai svarbūs ekonomiškai efektyviam DI patirčių, kurios pasiekia milijardus vartotojų, palaikymui, nuolat prisitaikant prie sparčiai besivystančio DI modelių kraštovaizdžio.

Iteracinis Meta MTIA lustų tobulėjimas

DI modelių kraštovaizdis nuolat kinta, tobulėja tokiu tempu, kuris dažnai pranoksta tradicinius lustų kūrimo ciklus. Pripažindama, kad lustų projektai, paremti numatomais darbo krūviais, gali pasenti iki to laiko, kai aparatinė įranga pasieks gamybą, Meta priėmė naujovišką „greičio strategiją“ MTIA lustams. Vietoj ilgų, spekuliatyvių kūrimo laikotarpių, Meta taiko iteracinį metodą, kai kiekviena MTIA karta remiasi ankstesne. Tai apima modulinių lustų komponentų (chiplets) naudojimą, naujausių DI darbo krūvių įžvalgų integravimą ir naujų aparatinės įrangos technologijų diegimą žymiai trumpesniais intervalais. Šis glaudesnis grįžtamojo ryšio ciklas užtikrina, kad Meta individualizuotas silicis glaudžiai atitiktų dinamiškus DI modelių poreikius, skatindamas greitesnį naujų pasiekimų pritaikymą.

Meta jau išsamiai aprašė pirmas dvi kartas – MTIA 100 ir MTIA 200 – akademiniuose straipsniuose. Remdamasi šiuo pagrindu, Meta paspartino kūrimą, pristatydama keturias naujas nuoseklias kartas: MTIA 300, 400, 450 ir 500. Šie lustai jau gaminami arba numatyti masiniam diegimui 2026 ir 2027 metais. Ši sparti seka leido Meta žymiai išplėsti MTIA darbo krūvių aprėptį, pereinant nuo pirminio reitingavimo ir rekomendacijų (R&R) išvedimo prie R&R mokymo, bendrųjų generatyvinio DI (GenAI) darbo krūvių ir labai optimizuoto GenAI išvedimo.

MTIA 300: DI darbo krūvių pagrindų padėjimas

MTIA 300 žymėjo esminį žingsnį Meta individualizuoto silicio kelionėje. Iš pradžių optimizuotas R&R modeliams, kurie buvo pagrindiniai Meta darbo krūviai prieš GenAI pakilimą, jo architektūriniai blokai padėjo tvirtą pagrindą vėlesniems lustams. Pagrindinės MTIA 300 savybės yra integruoti NIC lustų komponentai (chiplets), specialūs pranešimų varikliai (message engines) ryšio rinkinių iškrovimui ir netoli atminties esančios skaičiavimo galimybės, skirtos redukcijos pagrindu veikiantiems rinkiniams. Šie mažos vėlos, didelio pralaidumo ryšio komponentai pasirodė esantys esminiai, leidžiantys efektyviai GenAI išvedimą ir mokymą vėlesnėse kartose.

MTIA 300 sudaro vienas skaičiavimo lustų komponentas (compute chiplet), du tinklo lustų komponentai (network chiplets) ir kelios didelio pralaidumo atminties (HBM) krūvos. Kiekvienas skaičiavimo lustų komponentas turi apdorojimo elementų (PE) tinklelį, strategiškai suprojektuotą su pertekliniais PE, siekiant padidinti išeigą. Kiekvienas PE yra sudėtingas vienetas, turintis du RISC-V vektorinius branduolius, taškinės sandaugos variklį (Dot Product Engine) matricų daugybai, specialios funkcijos vienetą (Special Function Unit) aktyvacijoms ir elementinėms operacijoms, redukcijos variklį (Reduction Engine) kaupimui ir tarp-PE ryšiui bei DMA variklį efektyviam duomenų judėjimui vietinėje laikinųjų duomenų atmintyje (scratch memory). Šis sudėtingas dizainas pabrėžė Meta įsipareigojimą sukurti labai efektyvų ir ekonomišką sprendimą savo pagrindinėms DI užduotims.

MTIA 400: Konkurencingo GenAI našumo pasiekimas

Nepaprastai išaugus generatyviniam DI, Meta sparčiai patobulino MTIA 300 į MTIA 400, siekdama užtikrinti tvirtą GenAI darbo krūvių palaikymą kartu su esamomis R&R galimybėmis. MTIA 400 žymi reikšmingą šuolį, siūlydama 400% didesnius FP8 FLOPS ir 51% didesnį HBM pralaidumą, palyginti su pirmtaku. Nors MTIA 300 daugiausia dėmesio skyrė ekonomiškumui, MTIA 400 buvo sukurtas siekiant užtikrinti žaliavinį našumą, kuris galėtų konkuruoti su pirmaujančiais komerciniais DI spartintuvais.

Tai pasiekiama derinant du skaičiavimo lustų komponentus (compute chiplets), siekiant efektyviai padvigubinti skaičiavimo tankį, ir palaikant patobulintas MX8 ir MX4 versijas – labai svarbius mažo tikslumo formatus efektyviam GenAI išvedimui. Vienas stovas, aprūpintas 72 MTIA 400 įrenginiais, sujungtais per komutuojamą galinę plokštę (switched backplane), sudaro galingą mastelio didinimo domeną. Šias sistemas palaiko pažangūs oro pagalba aušinami skysto aušinimo (AALC) stovai, palengvinantys greitą diegimą net ir senesniuose duomenų centruose, demonstruojant Meta praktinį požiūrį į savo DI infrastruktūros mastelio didinimą visame pasaulyje.

MTIA 450 ir 500: specializuoti GenAI išvedimui

Nuspręsdama numatyti nuolatinį eksponentinį GenAI išvedimo paklausos augimą, Meta toliau tobulino MTIA 400, kas lėmė MTIA 450 ir vėliau MTIA 500 kūrimą. Šios kartos yra specialiai optimizuotos unikaliems GenAI išvedimo iššūkiams, daugiausia dėmesio skiriant kritiniams atminties ir skaičiavimo patobulinimams.

MTIA 450 padarė didelę pažangą:

  1. Padvigubinant HBM pralaidumą nuo ankstesnės versijos, o tai yra labai svarbu spartinant dekodavimo etapą GenAI modeliuose.
  2. Padidinant MX4 FLOPS 75%, pagreitinant ekspertų mišinio (MoE) tiesioginio tinklo (FFN) skaičiavimus, būdingus dideliems kalbos modeliams.
  3. Įdiegiant aparatinį spartinimą, kad dėmesio (attention) ir FFN skaičiavimai būtų efektyvesni, palengvinant kliūtis, susijusias su Softmax ir FlashAttention.
  4. Diegiant naujoves mažo tikslumo duomenų tipuose, peržengiant FP8/MX8 ribas, siekiant užtikrinti 6 kartus didesnius MX4 FLOPS nei FP16/BF16, su individualizuotomis duomenų tipų naujovomis, kurios išsaugo modelio kokybę ir padidina FLOPS, minimaliai paveikdamos lusto plotą.

MTIA 500, remdamasis 450 sėkme, dar labiau padidino HBM pralaidumą dar 50% ir įdiegė daugiau naujovių mažo tikslumo duomenų tipuose, sustiprindamas Meta įsipareigojimą plėsti GenAI išvedimo našumo ribas. Šis nenumaldomas tobulėjimo siekis užtikrina, kad Meta DI patirtys išliktų pačios pažangiausios.

Bendri šių kartų patobulinimai yra akivaizdūs. Nuo MTIA 300 iki MTIA 500 HBM pralaidumas padidėjo įspūdingai 4,5 karto, o skaičiavimo FLOPS padidėjo stulbinamai 25 kartus (nuo MTIA 300 MX8 iki MTIA 500 MX4). Šis spartus pagreitis per dvejus metus liudija Meta greičio strategiją ir jos gebėjimą nuolat tobulinti savo individualizuotą silicį. Ši evoliucija yra esminė agentinio DI diegimui ir kitiems sudėtingiems modeliams dideliu mastu.

Štai pagrindinių MTIA šeimos specifikacijų aprašymas:

FunkcijaMTIA 300MTIA 400MTIA 450MTIA 500
Skaičiavimo lustas1222
HBM krūvos4488
HBM pralaidumas (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Mastelio didinimo domeno dydis18 įrenginių**72 įrenginiai72 įrenginiai72 įrenginiai
Pagrindinė optimizacijaR&R mokymas, mažos vėlos ryšysBendras GenAI, konkurencingas žalias našumasGenAI išvedimas, HBM, individualizuotas mažo tikslumoGenAI išvedimas, HBM, individualizuotas mažo tikslumo

*Kai kurie pardavėjai nurodo dvikryptį pralaidumą. Padauginkite lentelėje pateiktą vertę iš dviejų, kad gautumėte atitinkamą dvikryptį pralaidumą. **MTIA 300 sukonfigūruotas su didesnio pralaidumo (200 GB/s) mastelio didinimo tinklu (scale-out network) dėl santykinai mažo mastelio didinimo domeno dydžio ir tikslinių R&R darbo krūvių.

Šios specifikacijos pabrėžia dramatiškus atminties pralaidumo ir skaičiavimo galios patobulinimus, demonstruojančius, kaip kiekviena MTIA karta yra kruopščiai suprojektuota, kad atitiktų didžiausius dabartinių ir būsimų DI programų, ypač daug resursų reikalaujančių GenAI modelių, poreikius.

Meta nenumaldomas siekis sukurti individualizuotus silicio sprendimus per MTIA šeimą pabrėžia jos įsipareigojimą teikti pažangiausias DI patirtis milijardams vartotojų visame pasaulyje. Derindama vidines naujoves su strateginėmis partnerystėmis, Meta ir toliau iš naujo apibrėžia mastelio keitimo ir ekonomiškai efektyvios DI infrastruktūros galimybes.

Dažniausiai užduodami klausimai

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis