Code Velocity
UI za podjetja

Čipi Meta MTIA omogočajo razširitev umetne inteligence za milijarde

·7 min branja·Meta·Izvirni vir
Deli
Čipi UI Meta MTIA na strežniški plošči v omari podatkovnega centra

Razširitev izkušenj z UI s čipi MTIA podjetja Meta

Vsak dan milijarde ljudi na različnih platformah Mete komunicirajo z množico funkcij, ki jih poganja umetna inteligenca, od personaliziranih priporočil vsebine do naprednih asistentov UI. Temeljni izziv za Meto in pravzaprav za celotno industrijo, je uvajanje in nenehno izboljševanje teh sofisticiranih modelov UI na globalni ravni, hkrati pa ohranjanje optimalne stroškovne učinkovitosti. To zahtevno infrastrukturno nalogo Meta izpolnjuje s strateško naložbo v prilagodljive, nenehno razvijajoče se rešitve, v središču katerih so njeni čipi UI, zasnovani po meri: družina Meta Training and Inference Accelerator (MTIA).

Medtem ko se zavezujejo raznolikemu portfelju silicija, ki izkorišča tako notranje kot zunanje rešitve, so čipi MTIA, razviti v tesnem partnerstvu z Broadcomom, nepogrešljiv del Metine strategije infrastrukture UI. Ti lastni pospeševalniki so ključnega pomena za stroškovno učinkovito poganjanje izkušenj UI, ki dosežejo milijarde ljudi, nenehno se prilagajajo hitro razvijajoči se pokrajini modelov UI.

Iterativni razvoj Metinih čipov MTIA

Pokrajina modelov UI je v stanju nenehnega spreminjanja, razvija se s hitrostjo, ki pogosto presega tradicionalne cikle razvoja čipov. Zavedajoč se, da lahko zasnove čipov, ki temeljijo na predvidenih delovnih obremenitvah, zastarijo, še preden strojna oprema doseže proizvodnjo, je Meta sprejela inovativno "strategijo hitrosti" za MTIA. Namesto dolgih, špekulativnih razvojnih obdobij, Meta uporablja iterativen pristop, kjer vsaka generacija MTIA gradi na prejšnji. To vključuje uporabo modularnih čipletov, vključevanje najnovejših vpogledov v delovne obremenitve UI in uvajanje novih strojnih tehnologij v bistveno krajših časovnih intervalih. Ta tesnejša povratna zanka zagotavlja, da Metin silicij po meri ostaja tesno usklajen z dinamičnimi zahtevami modelov UI, kar spodbuja hitrejše sprejemanje novih napredkov.

Meta je že podrobno opisala prvi dve generaciji, MTIA 100 in MTIA 200, v akademskih delih. Na tej podlagi je Meta pospešila razvoj, da bi predstavila štiri nove zaporedne generacije: MTIA 300, 400, 450 in 500. Ti čipi so že v proizvodnji ali pa so predvideni za množično uvedbo v letih 2026 in 2027. To hitro zaporedje je Meti omogočilo, da bistveno razširi pokritost delovnih obremenitev MTIA, od začetnega sklepanja za razvrščanje in priporočila (R&R) do usposabljanja R&R, splošnih delovnih obremenitev Generativne umetne inteligence (GenAI) in visoko optimiziranega sklepanja GenAI.

MTIA 300: Postavljanje temeljev za delovne obremenitve UI

MTIA 300 je zaznamoval ključen korak na Metini poti razvoja silicija po meri. Sprva optimiziran za modele R&R, ki so bili dominantne delovne obremenitve Mete pred razcvetom GenAI, so njegovi arhitekturni gradniki postavili trden temelj za naslednje čipe. Ključne značilnosti MTIA 300 vključujejo integrirane NIC čiplete, namenske pogone za sporočila za razbremenitev komunikacijskih kolektivov in računske zmožnosti v bližini pomnilnika, zasnovane za kolektive, ki temeljijo na redukciji. Te komunikacijske komponente z nizko zakasnitvijo in visoko pasovno širino so se izkazale za ključne pri omogočanju učinkovitega sklepanja in usposabljanja GenAI v naslednjih generacijah.

MTIA 300 obsega en računalniški čiplet, dva omrežna čipleta in več skladov pomnilnika z visoko pasovno širino (HBM). Vsak računalniški čiplet vsebuje mrežo procesnih elementov (PE), strateško zasnovanih z redundantnimi PE za izboljšanje izkoristka. Vsak PE je sofisticirana enota, ki vsebuje dve vektorski jedri RISC-V, pogon za skalarni produkt za matrično množenje, posebno funkcijsko enoto za aktivacije in elementarne operacije, redukcijski pogon za akumulacijo in komunikacijo med PE ter DMA pogon za učinkovito premikanje podatkov znotraj lokalnega delovnega pomnilnika. Ta zapletena zasnova je poudarila Metino zavezanost ustvarjanju visoko učinkovite in stroškovno ugodne rešitve za njene temeljne naloge UI.

MTIA 400: Doseganje konkurenčne zmogljivosti GenAI

Z izjemnim porastom generativne umetne inteligence je Meta hitro razvila MTIA 300 v MTIA 400, da bi zagotovila robustno podporo za delovne obremenitve GenAI poleg svojih obstoječih zmožnosti R&R. MTIA 400 predstavlja pomemben preskok, saj ponuja 400 % višje FP8 FLOPS in 51 % povečanje pasovne širine HBM v primerjavi s svojim predhodnikom. Medtem ko se je MTIA 300 osredotočal na stroškovno učinkovitost, je bil MTIA 400 zasnovan za zagotavljanje surove zmogljivosti, ki je konkurenčna vodilnim komercialnim pospeševalnikom UI.

To doseže z združitvijo dveh računalniških čipletov, s čimer se učinkovito podvoji računska gostota, in s podporo izboljšanih različic MX8 in MX4, ključnih formatov z nizko natančnostjo za učinkovito sklepanje GenAI. Ena sama omarica, opremljena z 72 napravami MTIA 400, povezanimi preko stikalne hrbtne plošče, tvori zmogljivo razširitveno domeno. Te sisteme podpirajo napredne omarice z zračno podprtim tekočinskim hlajenjem (AALC), kar omogoča hitro uvedbo tudi v starejših podatkovnih centrih, kar kaže na Metin praktični pristop k globalnemu razširjanju svoje infrastrukture UI.

MTIA 450 in 500: Specializirana za sklepanje GenAI

Predvidevajoč nadaljnjo eksponentno rast povpraševanja po sklepanju GenAI, je Meta dodatno izpopolnila MTIA 400, kar je privedlo do razvoja MTIA 450 in nato MTIA 500. Te generacije so specifično optimizirane za edinstvene izzive sklepanja GenAI, osredotočajoč se na kritične napredke v pomnilniku in računalniški moči.

MTIA 450 je dosegel pomembne korake z:

  1. Podvojitvijo pasovne širine HBM iz prejšnje različice, kar je ključno za pospeševanje faze dekodiranja v modelih GenAI.
  2. Povečanjem MX4 FLOPS za 75 %, kar pospešuje izračune v naprej podajajočih mrežah (FFN) z mešanico ekspertov (MoE), pogoste v velikih jezikovnih modelih.
  3. Uvedbo strojnega pospeševanja za učinkovitejše izračune pozornosti in FFN, kar zmanjšuje ozka grla, povezana s Softmaxom in FlashAttention.
  4. Inovacijami na področju podatkovnih tipov z nizko natančnostjo, ki presegajo FP8/MX8, da bi zagotovili 6-krat več MX4 FLOPS kot FP16/BF16, z inovacijami podatkovnih tipov po meri, ki ohranjajo kakovost modela in povečujejo FLOPS z minimalnim vplivom na površino čipa.

MTIA 500, ki gradi na uspehu 450, je dodatno povečal pasovno širino HBM za dodatnih 50 % in uvedel več inovacij na področju podatkovnih tipov z nizko natančnostjo, kar potrjuje Metino zavezanost premikanju meja zmogljivosti sklepanja GenAI. Ta neusmiljena težnja po izboljšavah zagotavlja, da Metine izkušnje UI ostajajo na samem vrhu.

Kumulativni napredki v teh generacijah so očitni. Od MTIA 300 do MTIA 500 se je pasovna širina HBM povečala za impresivnih 4,5-krat, medtem ko so se računalniški FLOPS povečali za osupljivih 25-krat (od MX8 pri MTIA 300 do MX4 pri MTIA 500). To hitro pospeševanje v dveh letih je dokaz Metine strategije hitrosti in njene sposobnosti nenehnega izboljševanja svojega silicija po meri. Ta evolucija je ključna za operacionalizacijo agentne UI in drugih kompleksnih modelov v velikem obsegu.

Tukaj je razčlenitev ključnih specifikacij v družini MTIA:

ZnačilnostMTIA 300MTIA 400MTIA 450MTIA 500
Računalniški čip1222
Skladi HBM4488
Pasovna širina HBM (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Velikost razširitvene domene18 naprav**72 naprav72 naprav72 naprav
Ključna optimizacijaUsposabljanje R&R, komunikacija z nizko zakasnitvijoSplošna GenAI, konkurenčna surova zmogljivostSklepanje GenAI, HBM, nizka natančnost po meriSklepanje GenAI, HBM, nizka natančnost po meri

*Nekateri ponudniki poročajo o dvosmerni pasovni širini. Pomnožite vrednost v tabeli z dve, da dobite ustrezno dvosmerno pasovno širino. **MTIA 300 je konfiguriran z razširitvenim omrežjem z višjo pasovno širino (200 GB/s) zaradi svoje razmeroma majhne velikosti razširitvene domene in ciljnih delovnih obremenitev R&R.

Te specifikacije poudarjajo dramatične izboljšave pasovne širine pomnilnika in računske moči, kar kaže, kako je vsaka generacija MTIA natančno zasnovana za reševanje najnujnejših zahtev trenutnih in prihodnjih aplikacij UI, zlasti računalniško intenzivnih modelov GenAI.

Metino neusmiljeno iskanje rešitev silicija po meri preko družine MTIA poudarja njeno zavezanost zagotavljanju vrhunskih izkušenj UI milijardam uporabnikov po vsem svetu. Z združevanjem notranjih inovacij s strateškimi partnerstvi Meta še naprej redefinira možnosti razširljive in stroškovno učinkovite infrastrukture UI.

Pogosta vprašanja

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Bodite na tekočem

Prejemajte najnovejše AI novice po e-pošti.

Deli