Code Velocity
Podniková AI

Čipy Meta MTIA škálujú AI pre miliardy používateľov

·7 min čítania·Meta·Pôvodný zdroj
Zdieľať
AI čipy Meta MTIA na serverovej doske v dátovom centre

Škálovanie AI zážitkov s čipmi MTIA od Meta

Každý deň miliardy ľudí naprieč rôznymi platformami spoločnosti Meta interagujú s množstvom AI-poháňaných funkcií, od personalizovaných odporúčaní obsahu po pokročilých AI asistentov. Základná výzva pre Metu, a vlastne aj pre celé odvetvie, spočíva v nasadzovaní a neustálom zlepšovaní týchto sofistikovaných AI modelov v globálnom meradle, a to všetko pri zachovaní optimálnej nákladovej efektívnosti. Túto náročnú infraštruktúrnu úlohu Meta rieši strategickými investíciami do flexibilných, neustále sa vyvíjajúcich riešení, pričom kľúčovými sú jej na mieru navrhnuté AI čipy: rodina Meta Training and Inference Accelerator (MTIA).

Hoci je Meta oddaná rôznorodému portfóliu kremíka, ktoré využíva interné aj externé riešenia, čipy MTIA, vyvinuté v úzkom partnerstve s Broadcomom, sú neoddeliteľnou súčasťou infraštruktúrnej stratégie Meta pre AI. Tieto vlastné akcelerátory sú kľúčové pre nákladovo efektívne napájanie AI zážitkov, ktoré oslovujú miliardy ľudí, pričom sa neustále prispôsobujú rýchlo sa vyvíjajúcemu prostrediu AI modelov.

Iteratívny vývoj čipov MTIA od Meta

Prostredie AI modelov je v neustálom pohybe a vyvíja sa tempom, ktoré často prekonáva tradičné cykly vývoja čipov. Uvedomujúc si, že návrhy čipov založené na predpokladaných záťažiach môžu zastarať, kým sa hardvér dostane do výroby, Meta prijala inovatívnu "rýchlostnú stratégiu" pre MTIA. Namiesto dlhých, špekulatívnych období vývoja, Meta používa iteratívny prístup, kde každá generácia MTIA stavia na tej predchádzajúcej. To zahŕňa používanie modulárnych čipletov, začlenenie najnovších poznatkov o AI záťažiach a nasadenie nových hardvérových technológií v podstatne kratších intervaloch. Táto užšia spätná väzba zaisťuje, že vlastný kremík spoločnosti Meta zostáva v úzkom súlade s dynamickými požiadavkami AI modelov, čím podporuje rýchlejšie prijímanie nových pokrokov.

Meta už podrobne opísala prvé dve generácie, MTIA 100 a MTIA 200, v akademických prácach. Na tomto základe Meta urýchlila vývoj, aby predstavila štyri nové po sebe idúce generácie: MTIA 300, 400, 450 a 500. Tieto čipy sú buď už vo výrobe, alebo sú naplánované na masové nasadenie v rokoch 2026 a 2027. Táto rýchla postupnosť umožnila spoločnosti Meta výrazne rozšíriť pokrytie záťaží MTIA, prejsť od počiatočnej inferencie pre hodnotenie a odporúčania (R&R) k tréningu R&R, všeobecným záťažiam generatívnej AI (GenAI) a vysoko optimalizovanej inferencii GenAI.

MTIA 300: Položenie základov pre AI záťaže

MTIA 300 predstavovala kľúčový krok na ceste spoločnosti Meta k vlastnému kremíku. Pôvodne optimalizovaný pre R&R modely, ktoré boli dominantnými záťažami spoločnosti Meta pred boomom GenAI, jeho architektonické stavebné bloky vytvorili robustný základ pre následné čipy. Kľúčové rozlišovacie črty MTIA 300 zahŕňajú integrované NIC čiplety, dedikované message enginy na odľahčenie komunikačných kolektívov a výpočtové schopnosti blízko pamäte navrhnuté pre kolektívy založené na redukcii. Tieto komunikačné komponenty s nízkou latenciou a vysokou šírkou pásma sa ukázali ako kľúčové pre umožnenie efektívnej inferencie a tréningu GenAI v nasledujúcich generáciách.

MTIA 300 sa skladá z jedného výpočtového čipletu, dvoch sieťových čipletov a niekoľkých zásobníkov pamäte s vysokou priepustnosťou (HBM). Každý výpočtový čiplet obsahuje mriežku spracovateľských prvkov (PE), strategicky navrhnutých s redundantnými PE na zvýšenie výťažnosti. Každý PE je sofistikovaná jednotka obsahujúca dve vektorové jadrá RISC-V, Dot Product Engine pre maticové násobenie, Special Function Unit pre aktivácie a elementárne operácie, Reduction Engine pre akumuláciu a komunikáciu medzi PE a DMA engine pre efektívny pohyb dát v lokálnej dočasnej pamäti. Tento zložitý dizajn podčiarkol záväzok spoločnosti Meta vytvárať vysoko efektívne a nákladovo výhodné riešenie pre svoje kľúčové AI úlohy.

MTIA 400: Dosahovanie konkurencieschopného výkonu GenAI

S bezprecedentným nárastom generatívnej AI Meta rýchlo vyvinula MTIA 300 na MTIA 400, aby poskytla robustnú podporu pre GenAI záťaže popri svojich existujúcich R&R schopnostiach. MTIA 400 predstavuje významný skok, ponúka o 400% vyššie FP8 FLOPS a 51% nárast šírky pásma HBM v porovnaní so svojím predchodcom. Zatiaľ čo MTIA 300 sa sústredila na nákladovú efektívnosť, MTIA 400 bola navrhnutá tak, aby poskytovala surový výkon konkurencieschopný s poprednými komerčnými AI akcelerátormi.

Dosahuje to kombináciou dvoch výpočtových čipletov, čím efektívne zdvojnásobuje výpočtovú hustotu, a podporou vylepšených verzií MX8 a MX4, čo sú kľúčové nízko-presné formáty pre efektívnu GenAI inferenciu. Jeden rack vybavený 72 zariadeniami MTIA 400, prepojenými cez prepínaciu základnú dosku, tvorí výkonnú doménu pre škálovanie (scale-up). Tieto systémy sú podporované pokročilými rackmi s kvapalinovým chladením s asistenciou vzduchu (AALC), čo umožňuje rýchle nasadenie aj v starších dátových centrách a demonštruje praktický prístup spoločnosti Meta k globálnemu škálovaniu svojej AI infraštruktúry.

MTIA 450 a 500: Špecializované pre inferenciu GenAI

Očakávajúc pokračujúci exponenciálny rast dopytu po inferencii GenAI, Meta ďalej vylepšila MTIA 400, čo viedlo k vývoju MTIA 450 a následne MTIA 500. Tieto generácie sú špecificky optimalizované pre jedinečné výzvy inferencie GenAI, pričom sa zameriavajú na kritické pokroky v pamäti a výpočtoch.

MTIA 450 dosiahla významné pokroky tým, že:

  1. Zdvojnásobila šírku pásma HBM oproti predchádzajúcej verzii, čo je kľúčové pre urýchlenie fázy dekódovania v modeloch GenAI.
  2. Zvýšila MX4 FLOPS o 75%, čím zrýchlila výpočty dopredných sietí (FFN) typu mixture-of-experts (MoE) bežné vo veľkých jazykových modeloch.
  3. Zaviedla hardvérovú akceleráciu na zvýšenie efektívnosti výpočtov pozornosti a FFN, čím zmiernila úzke hrdlá spojené so Softmaxom a FlashAttention.
  4. Inovovala v dátových typoch s nízkou presnosťou, prekonávajúc FP8/MX8 a dodávajúc 6-násobok MX4 FLOPS oproti FP16/BF16, s vlastnými inováciami dátových typov, ktoré zachovávajú kvalitu modelu a zvyšujú FLOPS s minimálnym vplyvom na plochu čipu.

MTIA 500, staviaca na úspechu modelu 450, ďalej zvýšila šírku pásma HBM o ďalších 50% a zaviedla viac inovácií v dátových typoch s nízkou presnosťou, čím posilnila záväzok spoločnosti Meta posúvať hranice výkonu inferencie GenAI. Tento neúnavný pohon k zlepšovaniu zaručuje, že AI zážitky spoločnosti Meta zostávajú na špičke.

Kumulatívne pokroky naprieč týmito generáciami sú výrazné. Od MTIA 300 po MTIA 500 sa šírka pásma HBM zvýšila o pôsobivých 4,5-násobok, zatiaľ čo výpočtové FLOPS zaznamenali ohromujúci 25-násobný nárast (z MX8 MTIA 300 na MX4 MTIA 500). Toto rýchle zrýchlenie v priebehu dvoch rokov je dôkazom rýchlostnej stratégie spoločnosti Meta a jej schopnosti neustále vylepšovať svoj vlastný kremík. Táto evolúcia je kľúčová pre prevádzkovanie agentickej AI a iných komplexných modelov v mierke.

Tu je prehľad kľúčových špecifikácií naprieč rodinou MTIA:

FunkciaMTIA 300MTIA 400MTIA 450MTIA 500
Výpočtový čip1222
Zásobníky HBM4488
Šírka pásma HBM (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Veľkosť škálovanej domény18 zariadení**72 zariadení72 zariadení72 zariadení
Kľúčová optimalizáciaTréning R&R, komunikácia s nízkou latenciouVšeobecná GenAI, konkurencieschopný surový výkonInferencie GenAI, HBM, vlastná nízka presnosťInferencie GenAI, HBM, vlastná nízka presnosť

*Niektorí dodávatelia uvádzajú obojsmernú šírku pásma. Vynásobte hodnotu v tabuľke dvoma, aby ste získali zodpovedajúcu obojsmernú šírku pásma. **MTIA 300 je nakonfigurovaná so scale-out sieťou s vyššou šírkou pásma (200 GB/s) kvôli jej relatívne malej veľkosti scale-up domény a cieľovým R&R záťažiam.

Tieto špecifikácie zdôrazňujú dramatické zlepšenia v šírke pásma pamäte a výpočtovom výkone, demonštrujúc, ako je každá generácia MTIA precízne navrhnutá na riešenie najnaliehavejších požiadaviek súčasných a budúcich AI aplikácií, najmä na zdroje náročných modelov GenAI.

Neúnavné úsilie spoločnosti Meta o riešenia s vlastným kremíkom prostredníctvom rodiny MTIA podčiarkuje jej záväzok poskytovať špičkové AI zážitky miliardám používateľov po celom svete. Kombináciou interných inovácií so strategickými partnerstvami Meta naďalej predefinuje možnosti škálovateľnej a nákladovo efektívnej AI infraštruktúry.

Často kladené otázky

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Buďte informovaní

Dostávajte najnovšie AI správy do schránky.

Zdieľať