Code Velocity
Ettevõtte tehisintellekt

Meta MTIA kiibid skaleerivad tehisintellekti miljardite jaoks

·7 min lugemist·Meta·Algallikas
Jaga
Meta MTIA tehisintellekti kiibid serveriplaadil andmekeskuse riiulis

Tehisintellekti kogemuste skaleerimine Meta MTIA kiipidega

Iga päev suhtlevad miljardid inimesed Meta erinevatel platvormidel lugematute tehisintellektil põhinevate funktsioonidega, alates isikupärastatud sisu soovitustest kuni täiustatud tehisintellekti assistentideni. Meta ja tegelikult kogu tööstuse peamine väljakutse seisneb nende keerukate tehisintellekti mudelite globaalses juurutamises ja pidevas täiustamises, säilitades samal ajal optimaalse kulutõhususe. Selle nõudliku infrastruktuuriülesandega tegeletakse Meta strateegilise investeeringuga paindlikesse, pidevalt arenevatesse lahendustesse, mille keskmes on nende kohandatud tehisintellekti kiibid: Meta Training and Inference Accelerator (MTIA) perekond.

Kuigi Meta on pühendunud mitmekesisele ränilahenduste portfellile, mis kasutab nii sise- kui ka väliseid lahendusi, on Broadcomiga tihedas koostöös arendatud MTIA kiibid Meta tehisintellekti infrastruktuuri strateegia asendamatu osa. Need kodumaiselt arendatud kiirendid on üliolulised miljardite inimesteni jõudvate tehisintellekti kogemuste kulutõhusaks toetamiseks, kohanedes pidevalt tehisintellekti mudelite kiiresti muutuva maastikuga.

Meta MTIA kiipide iteratiivne areng

Tehisintellekti mudelite maastik on pidevas muutumises, arenedes kiirusega, mis sageli ületab traditsioonilisi kiipide arendustsükleid. Tunnistades, et prognoositavatele töökoormustele tuginevad kiibidisainid võivad riistvara tootmisse jõudmise ajaks vananeda, on Meta võtnud kasutusele uuendusliku "kiirusstrateegia" MTIA jaoks. Pikkade ja spekulatiivsete arendusperioodide asemel kasutab Meta iteratiivset lähenemist, kus iga MTIA põlvkond tugineb eelmistele. See hõlmab modulaarsete kiipide kasutamist, uusimate tehisintellekti töökoormuse teadmiste kaasasamist ja uute riistvaratehnoloogiate juurutamist oluliselt lühema sagedusega. See tihedam tagasiside ahel tagab, et Meta kohandatud ränikiibid jäävad tihedalt vastavusse tehisintellekti mudelite dünaamiliste nõudmistega, soodustades uute edusammude kiiremat kasutuselevõttu.

Meta on juba akadeemilistes töödes kirjeldanud kahte esimest põlvkonda, MTIA 100 ja MTIA 200. Sellele vundamendile tuginedes on Meta kiirendanud arendust, et tutvustada nelja uut järjestikust põlvkonda: MTIA 300, 400, 450 ja 500. Need kiibid on kas juba tootmises või plaanis massiliselt juurutada 2026. ja 2027. aastal. See kiire järjestikustus on võimaldanud Metan'l oluliselt laiendada MTIA töökoormuse katvust, liikudes esialgsest järjestus- ja soovituste (R&R) järelduste tegemisest R&R koolitusele, üldistele generatiivse tehisintellekti (GenAI) töökoormustele ja kõrgelt optimeeritud GenAI järelduste tegemisele.

MTIA 300: Aluse panemine tehisintellekti töökoormustele

MTIA 300 tähistas pöördelist sammu Meta kohandatud ränikiipide arendusteel. Esialgu optimeeritud R&R mudelite jaoks, mis olid Meta domineerivad töökoormused enne GenAI buumi, panid selle arhitektuurilised ehitusplokid tugeva aluse järgnevatele kiipidele. MTIA 300 peamised eristavad omadused hõlmavad integreeritud NIC-kiibistikke, spetsiaalseid sõnumimootoreid kommunikatsioonikollektiivide maha laadimiseks ja mälulähedasi arvutusvõimalusi, mis on loodud reduktsioonipõhiste kollektiivide jaoks. Need madala latentsusega, suure ribalaiusega kommunikatsioonikomponendid osutusid oluliseks, et võimaldada tõhusat GenAI järelduste tegemist ja koolitust järgmistes põlvkondades.

MTIA 300 koosneb ühest arvutuskiibistikust, kahest võrgukiibistikust ja mitmest suure ribalaiusega mälu (HBM) virnast. Iga arvutuskiibistik sisaldab protsessorelementide (PE) võrku, mis on strateegiliselt disainitud üleliigsete PE-dega, et suurendada saagikust. Iga PE on keerukas üksus, mis sisaldab kahte RISC-V vektorsüdamikku, maatrikskorrutamise Dot Product mootorit, aktiveerimiste ja elemendipõhiste operatsioonide Special Function Unit'i, akumuleerimise ja PE-devahelise kommunikatsiooni Reduction mootorit ning DMA mootorit tõhusaks andmete liigutamiseks lokaalses nullmälu (scratch memory) sees. See keerukas disain rõhutas Meta pühendumust luua oma peamiste tehisintellekti ülesannete jaoks väga tõhus ja kulutõhus lahendus.

MTIA 400: Konkurentsivõimelise GenAI jõudluse saavutamine

Generatiivse tehisintellekti enneolematu tõusu tõttu arendas Meta MTIA 300 kiiresti edasi MTIA 400-ks, et pakkuda tugevat tuge GenAI töökoormustele koos olemasolevate R&R võimekustega. MTIA 400 on märkimisväärne hüpe, pakkudes 400% kõrgemat FP8 FLOPS-i ja 51% HBM ribalaiuse kasvu võrreldes eelkäijaga. Kui MTIA 300 keskendus kulutõhususele, siis MTIA 400 disainiti pakkuma toorjõudlust, mis on konkurentsivõimeline juhtivate kaubanduslike tehisintellekti kiirenditega.

See saavutab selle, kombineerides kahte arvutuskiibistikku, et tõhusalt kahekordistada arvutustihedust, ja toetades MX8 ja MX4 täiustatud versioone, mis on üliolulised madala täpsusega formaadid tõhusa GenAI järelduste tegemiseks. Üks riiul, mis on varustatud 72 MTIA 400 seadmega, mis on ühendatud lülitatud tagaplaadi kaudu, moodustab võimsa laiendatava domeeni. Neid süsteeme toetavad täiustatud õhuga abistatavad vedelikjahutusega (AALC) riiulid, mis hõlbustavad kiiret juurutamist isegi vanades andmekeskustes, näidates Meta praktilist lähenemist oma tehisintellekti infrastruktuuri globaalsele skaleerimisele.

MTIA 450 ja 500: spetsialiseeritud GenAI järelduste tegemiseks

Ennetades GenAI järelduste nõudluse jätkuvat eksponentsiaalset kasvu, täiustas Meta MTIA 400 veelgi, mis viis MTIA 450 ja seejärel MTIA 500 arendamiseni. Need põlvkonnad on spetsiaalselt optimeeritud GenAI järelduste ainulaadsete väljakutsete jaoks, keskendudes kriitilistele edusammudele mälus ja arvutuses.

MTIA 450 tegi märkimisväärseid edusamme:

  1. HBM ribalaiuse kahekordistamine võrreldes eelmise versiooniga, mis on GenAI mudelite dekodeerimisfaasi kiirendamiseks ülioluline.
  2. MX4 FLOPS-i suurendamine 75% võrra, kiirendades ekspertide segude (MoE) edasiviivate võrkude (FFN) arvutusi, mis on levinud suurtes keelemudelites.
  3. Riistvaralise kiirenduse juurutamine, et muuta tähelepanu- ja FFN-arvutused tõhusamaks, leevendades Softmaxi ja FlashAttentioniga seotud kitsaskohti.
  4. Uuendused madala täpsusega andmetüüpides, minnes kaugemale FP8/MX8-st, et pakkuda 6 korda rohkem MX4 FLOPS-i kui FP16/BF16, kohandatud andmetüübi uuendustega, mis säilitavad mudeli kvaliteedi ja suurendavad FLOPS-i minimaalse kiibi pindala mõjuga.

MTIA 500, tuginedes 450 edule, suurendas HBM ribalaiust veel 50% ja tutvustas rohkem uuendusi madala täpsusega andmetüüpides, tugevdades Meta pühendumust GenAI järelduste tegemise jõudluse piiride nihutamisele. See järeleandmatu parenduspüüdlus tagab, et Meta tehisintellekti kogemused jäävad esirinda.

Nende põlvkondade kumulatiivsed edusammud on ilmsed. MTIA 300-st MTIA 500-ni on HBM ribalaius kasvanud muljetavaldavad 4,5 korda, samas kui arvutus-FLOPSid on näinud hämmastavat 25-kordset kasvu (MTIA 300 MX8-st MTIA 500 MX4-ni). See kiirendus kahe aasta jooksul on tunnistus Meta kiirusstrateegiast ja selle võimest pidevalt täiustada oma kohandatud ränikiipi. See areng on keskne agentse tehisintellekti opereerimisele ja teiste keerukate mudelite skaleerimisele.

Siin on MTIA perekonna peamiste spetsifikatsioonide ülevaade:

FunktsioonMTIA 300MTIA 400MTIA 450MTIA 500
Arvutuskiip1222
HBM virnad4488
HBM ribalaius (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Skaleeritav domeeni suurus18 seadet**72 seadet72 seadet72 seadet
Peamine optimeerimineR&R koolitus, madala latentsusega sideÜldine GenAI, konkurentsivõimeline toorjõudlus.GenAI järeldused, HBM, kohandatud madal täpsus.GenAI järeldused, HBM, kohandatud madal täpsus.

*Mõned tarnijad annavad kahesuunalise ribalaiuse. Vastav kahesuunaline ribalaius saadakse tabelis toodud väärtuse korrutamisel kahega. **MTIA 300 on konfigureeritud suurema ribalaiusega (200 GB/s) skaleeritava võrguga tänu oma suhteliselt väikesele laiendatava domeeni suurusele ja siht-R&R töökoormustele.

Need spetsifikatsioonid rõhutavad dramaatilisi edusamme mälu ribalaiuses ja arvutusvõimsuses, demonstreerides, kuidas iga MTIA põlvkond on hoolikalt disainitud, et vastata praeguste ja tulevaste tehisintellekti rakenduste, eriti ressurssimahukate GenAI mudelite, kõige pakilisematele nõudmistele.

Meta järeleandmatu püüdlus kohandatud ränilahenduste poole MTIA perekonna kaudu rõhutab selle pühendumust tipptasemel tehisintellekti kogemuste pakkumisele miljarditele kasutajatele kogu maailmas. Ühendades sisemise innovatsiooni strateegiliste partnerlustega, jätkab Meta skaleeritava ja kulutõhusa tehisintellekti infrastruktuuri võimaluste ümbermääratlemist.

Korduma kippuvad küsimused

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Püsige kursis

Saage värskeimad AI uudised oma postkasti.

Jaga