Code Velocity
Yritysten tekoäly

Metan MTIA-sirut skaalaavat tekoälyä miljardeille

·7 min lukuaika·Meta·Alkuperäinen lähde
Jaa
Metan MTIA-tekoälysirut palvelinkortilla datakeskuksen telineessä

title: "Metan MTIA-sirut skaalaavat tekoälyä miljardeille" slug: "meta-mtia-scale-ai-chips-for-billions" date: "2026-03-14" lang: "fi" source: "https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/" category: "Yritysten tekoäly" keywords:

  • Meta
  • MTIA
  • Tekoälysirut
  • GenAI
  • Päätelylaitteisto
  • Mukautettu pii
  • Datakeskukset
  • Llama
  • HBM-kaistanleveys
  • Matala-tarkkuuksiset datatyypit
  • Tekoälyinfrastruktuuri
  • R&R-työkuormat meta_description: "Metan MTIA-tekoälysirut kehittyvät nopeasti – neljä sukupolvea kahdessa vuodessa – skaalatakseen GenAI- ja R&R-kokemuksia tehokkaasti miljardeille käyttäjille." image: "/images/articles/meta-mtia-scale-ai-chips-for-billions.png" image_alt: "Metan MTIA-tekoälysirut palvelinkortilla datakeskuksen telineessä" quality_score: 94 content_score: 93 seo_score: 95 companies:
  • Meta schema_type: "NewsArticle" reading_time: 7 faq:
  • question: "Mitä Metan MTIA-sirut ovat ja mihin niitä käytetään?" answer: "Meta Training and Inference Accelerator (MTIA) -sirut ovat Metan yhdessä Broadcomin kanssa kehittämiä, räätälöityjä tekoälykiihdyttimiä. Niiden ensisijaisena tarkoituksena on tukea Metan alustoilla miljardeille käyttäjille tarjottavia lukemattomia tekoälypohjaisia kokemuksia. Tämä sisältää kaiken henkilökohtaisista suosituksista (R&R) aina edistyneisiin generatiivisen tekoälyn (GenAI) avustajiin. Kehittämällä omaa piiteknologiaa Meta pyrkii skaalaamaan tekoälytyökuormia kustannustehokkaasti, säilyttämään joustavuuden ja optimoimaan suorituskyvyn omiin infrastruktuuritarpeisiinsa, varmistaen jatkuvan innovaation tekoälylaitteistokehityksessä."
  • question: "Kuinka monta sukupolvea MTIA-siruja Meta on kehittänyt viime vuosina?" answer: "Meta on nopeuttanut MTIA-kehitystä merkittävästi ja esitellyt neljä peräkkäistä sukupolvea alle kahdessa vuodessa: MTIA 300, MTIA 400, MTIA 450 ja MTIA 500. Nämä sirut on joko jo otettu käyttöön tai ne on tarkoitus ottaa laajamittaisesti käyttöön vuosina 2026 tai 2027. Tämä nopea iteraatio osoittaa Metan 'nopeusstrategian', jonka tarkoituksena on pysyä tekoälymallien poikkeuksellisen nopean kehityksen tahdissa ja varmistaa, että niiden laitteisto pysyy linjassa nykyisten ja tulevien työkuormavaatimusten kanssa, laajentuen alkuperäisistä R&R-tehtävistä kattamaan yleisen GenAI:n ja erikoistuneen GenAI-päättelyn."
  • question: "Mikä on Metan 'nopeusstrategia' tekoälysirujen kehityksessä?" answer: "Metan 'nopeusstrategia' on iteratiivinen lähestymistapa tekoälysirujen kehitykseen, joka eroaa perinteisistä, pidemmistä sirujen suunnittelusykleistä. Tunnustaen, että tekoälymallit kehittyvät nopeammin kuin tyypillinen laitteistokehitys, Meta suunnittelee jokaisen MTIA-sukupolven rakentuvan edellisen päälle käyttäen modulaarisia piirilevyjä. Tämä strategia yhdistää uusimmat tekoälyn työkuormatietämykset ja laitteistoteknologiat mahdollistaen käyttöönoton lyhyemmällä syklillä. Tämä tiukempi palautejakso varmistaa, että Metan räätälöity laitteisto pysyy tiiviisti linjassa kehittyvien tekoälymallien kanssa, edistäen uusien teknologioiden nopeampaa käyttöönottoa ja ylläpitäen optimaalisen suorituskyvyn ja kustannustehokkuuden."
  • question: "Miten uudemmat MTIA-sirut (400, 450, 500) tukevat generatiivisen tekoälyn työkuormia?" answer: "GenAI:n voimistuessa MTIA-sirut kehittyivät merkittävästi tukemaan näitä vaativia työkuormia. MTIA 400 paransi GenAI:n tukea 400 % suuremmilla FP8 FLOPS -lukemilla ja kasvatti HBM-kaistanleveyttä. MTIA 450 optimoitiin erityisesti GenAI-päättelyä varten kaksinkertaistamalla HBM-kaistanleveyden, kasvattamalla MX4 FLOPS -lukemia 75 %, ottamalla käyttöön laitteistokiihdytyksen huomio- ja FFN-laskelmille sekä innovoimalla mukautetuilla matalan tarkkuuden datatyypeillä. MTIA 500 paransi tätä edelleen kasvattamalla HBM-kaistanleveyttä vielä 50 % ja esittelemällä lisää matalan tarkkuuden innovaatioita, vastaten suoraan monimutkaisten GenAI-mallien laskenta- ja muistivaatimuksiin."
  • question: "Mitkä ovat tärkeimmät suorituskyvyn parannukset MTIA 300:sta MTIA 500:een?" answer: "MTIA-siruperheessä on tapahtunut huomattavaa edistystä 300-sarjasta 500-sarjaan alle kahdessa vuodessa. HBM-kaistanleveys on kasvanut 4,5-kertaiseksi, mikä tehostaa merkittävästi muistin käyttöönottonopeutta, joka on ratkaisevan tärkeää suurille tekoälymalleille. Laskenta-FLOPS (Floating Point Operations Per Second) on kasvanut hämmästyttävästi 25-kertaiseksi, erityisesti MTIA 300:n MX8-muodosta MTIA 500:n MX4-muotoihin. Nämä dramaattiset parannukset korostavat Metan kykyä nopeasti parantaa räätälöidyn piinsä raakaa laskentatehoa ja tiedonkäsittelykykyä vastatakseen edistyneiden tekoälymallien kasvaviin vaatimuksiin."
  • question: "Miksi High-Bandwidth Memory (HBM) on tärkeää GenAI-päättelyn suorituskyvylle?" answer: "High-Bandwidth Memory (HBM) on kriittisen tärkeää generatiivisen tekoälyn (GenAI) päättelyn suorituskyvylle, koska GenAI-malleilla, erityisesti suurilla kielimalleilla (LLM), on tyypillisesti valtavat parametrimäärät ja ne vaativat laajaa muistikaistanleveyttä hakeakseen ja käsitelläkseen näitä parametreja tehokkaasti päättelyn aikana. GenAI-päättelyn dekoodausvaihe, joka luo tunnuksia peräkkäin, on usein muistikäytön pullonkaula eikä niinkään raa'an laskennan. HBM-kaistanleveyden kaksinkertaistaminen tai merkittävä lisääminen, kuten MTIA 450:ssä ja 500:ssa, tarkoittaa suoraan nopeampaa tunnusten luomista, pienempää viivettä ja suurempaa suorituskykyä, tehden tekoälykokemuksista reagoivampia ja tehokkaampia käyttäjille."

Tekoälykokemusten skaalaaminen Metan MTIA-siruilla

Joka päivä miljardit ihmiset Metan eri alustoilla ovat vuorovaikutuksessa lukemattomien tekoälypohjaisten ominaisuuksien kanssa, jotka ulottuvat henkilökohtaisista sisältösuosituksista edistyneisiin tekoälyavustajiin. Metan, ja itse asiassa koko toimialan, perimmäinen haaste on näiden kehittyneiden tekoälymallien käyttöönotto ja jatkuva parantaminen globaalilla tasolla, samalla kun ylläpidetään optimaalista kustannustehokkuutta. Tähän vaativaan infrastruktuuritehtävään vastaa Metan strateginen panostus joustaviin, jatkuvasti kehittyviin ratkaisuihin, joiden ytimessä ovat heidän räätälöidyt tekoälysirunsa: Meta Training and Inference Accelerator (MTIA) -perhe.

Vaikka Meta on sitoutunut monipuoliseen piisalkkuun, joka hyödyntää sekä sisäisiä että ulkoisia ratkaisuja, Broadcomin kanssa tiiviissä yhteistyössä kehitetyt MTIA-sirut ovat korvaamaton osa Metan tekoälyinfrastruktuuristrategiaa. Nämä talon sisällä kehitetyt kiihdyttimet ovat ratkaisevan tärkeitä miljardeja ihmisiä tavoittavien tekoälykokemusten kustannustehokkaalle pyörittämiselle, mukautuen jatkuvasti tekoälymallien nopeasti kehittyvään maisemaan.

Metan MTIA-sirujen iteratiivinen kehitys

Tekoälymallien maisema on jatkuvassa muutoksessa, ja se kehittyy usein nopeammin kuin perinteiset sirujen kehityssyklit sallivat. Tunnustaen, että ennakoituihin työkuormiin perustuvat sirujen suunnitelmat voivat vanhentua ennen kuin laitteisto saavuttaa tuotannon, Meta on ottanut käyttöön innovatiivisen "nopeusstrategian" MTIA:n osalta. Sen sijaan, että käytettäisiin pitkiä, spekulatiivisia kehityskausia, Meta omaksuu iteratiivisen lähestymistavan, jossa jokainen MTIA-sukupolvi rakentuu edellisen päälle. Tämä edellyttää modulaaristen piirilevyjen käyttöä, uusimpien tekoälyn työkuormatietämyksen sisällyttämistä ja uusien laitteistoteknologioiden käyttöönottoa huomattavasti lyhyemmällä syklillä. Tämä tiukempi palautejakso varmistaa, että Metan räätälöity pii pysyy tiiviisti linjassa tekoälymallien dynaamisten vaatimusten kanssa, edistäen uusien edistysaskeleiden nopeampaa käyttöönottoa.

Meta on jo kuvannut kahta ensimmäistä sukupolvea, MTIA 100 ja MTIA 200, akateemisissa julkaisuissa. Tälle perustalle rakentaen Meta on kiihdyttänyt kehitystä esitelläkseen neljä uutta peräkkäistä sukupolvea: MTIA 300, 400, 450 ja 500. Nämä sirut ovat joko jo tuotannossa tai ne on suunniteltu massakäyttöönottoon vuosina 2026 ja 2027. Tämä nopea peräkkäisyys on antanut Metalle mahdollisuuden laajentaa MTIA:n työkuormakattavuutta merkittävästi, siirtyen alkuperäisestä ranking- ja suositus (R&R) -päättelystä R&R-koulutukseen, yleisiin generatiivisen tekoälyn (GenAI) työkuormiin ja erittäin optimoituun GenAI-päättelyyn.

MTIA 300: Perustan luominen tekoälytyökuormille

MTIA 300 merkitsi käännekohtaa Metan räätälöidyn piiteknologian matkalla. Se optimoitiin alun perin R&R-malleille, jotka olivat Metan hallitsevia työkuormia ennen GenAI-buumia, ja sen arkkitehtuuriset rakennuspalikat loivat vankan perustan myöhemmille siruille. MTIA 300:n keskeisiin erottuviin ominaisuuksiin kuuluvat integroidut NIC-piirilevyt, omistetut viestimoottorit viestintäkollektiivien purkamiseen ja lähellä muistia olevat laskentaominaisuudet, jotka on suunniteltu reduktiopohjaisille kollektiiveille. Nämä matalan viiveen ja suuren kaistanleveyden viestintäkomponentit osoittautuivat ratkaisevan tärkeiksi tehokkaan GenAI-päättelyn ja -koulutuksen mahdollistamisessa seuraavissa sukupolvissa.

MTIA 300 koostuu yhdestä laskentapiirilevystä, kahdesta verkkopiirilevystä ja useista High-Bandwidth Memory (HBM) -pinoista. Jokaisessa laskentapiirilevyssä on käsittelyelementtien (PE) ruudukko, joka on strategisesti suunniteltu redundanttisilla PE:illä tuotannon parantamiseksi. Jokainen PE on kehittynyt yksikkö, joka sisältää kaksi RISC-V-vektoriydintä, Dot Product -moottorin matriisien kertolaskulle, Special Function Unitin aktivaatioille ja elementtikohtaisille operaatioille, Reduction Engine -moottorin akkumulointiin ja PE:iden väliseen kommunikaatioon, sekä DMA-moottorin tehokkaaseen tiedonsiirtoon paikallisen scratch-muistin sisällä. Tämä monimutkainen suunnittelu korosti Metan sitoutumista luomaan erittäin tehokkaan ja kustannustehokkaan ratkaisun ydintekoälytehtäviinsä.

MTIA 400: Kilpailukykyisen GenAI-suorituskyvyn saavuttaminen

Generatiivisen tekoälyn ennennäkemättömän nousun myötä Meta kehitti nopeasti MTIA 300:n MTIA 400:ksi tarjotakseen vankkaa tukea GenAI-työkuormille olemassa olevien R&R-ominaisuuksiensa rinnalla. MTIA 400 edustaa merkittävää harppausta, tarjoten 400 % korkeammat FP8 FLOPS -lukemat ja 51 % lisää HBM-kaistanleveyttä edeltäjäänsä verrattuna. Siinä missä MTIA 300 keskittyi kustannustehokkuuteen, MTIA 400 suunniteltiin tarjoamaan raakaa suorituskykyä, joka on kilpailukykyinen johtavien kaupallisten tekoälykiihdyttimien kanssa.

Tämä saavutetaan yhdistämällä kaksi laskentapiirilevyä laskentatiheyden tehokkaaksi kaksinkertaistamiseksi ja tukemalla paranneltuja versioita MX8:sta ja MX4:stä, jotka ovat kriittisiä matalan tarkkuuden formaatteja tehokkaaseen GenAI-päättelyyn. Yksi teline, joka on varustettu 72 MTIA 400 -laitteella ja kytketty toisiinsa kytketyllä takapaneelilla, muodostaa tehokkaan skaalausalueen. Näitä järjestelmiä tukevat edistyneet ilmaa avustavat nestekylmän (AALC) telineet, jotka mahdollistavat nopean käyttöönoton jopa vanhoissa datakeskuksissa, osoittaen Metan käytännöllisen lähestymistavan tekoälyinfrastruktuurinsa globaaliin skaalaamiseen.

MTIA 450 ja 500: Erikoistuneet GenAI-päättelyyn

Ennakoiden GenAI-päättelyn kysynnän jatkuvaa eksponentiaalista kasvua, Meta jalosti edelleen MTIA 400:aa, mikä johti MTIA 450:n ja myöhemmin MTIA 500:n kehitykseen. Nämä sukupolvet on optimoitu erityisesti GenAI-päättelyn ainutlaatuisiin haasteisiin, keskittyen kriittisiin edistysaskeliin muistissa ja laskennassa.

MTIA 450 teki merkittäviä edistysaskeleita:

  1. Kaksinkertaistamalla HBM-kaistanleveyden edelliseen versioon verrattuna, mikä on ratkaisevan tärkeää GenAI-mallien dekoodausvaiheen nopeuttamisessa.
  2. Kasvattamalla MX4 FLOPS -lukemia 75 %, mikä nopeuttaa asiantuntijoiden sekoitus (MoE) -syöttöverkko (FFN) -laskelmia, jotka ovat yleisiä suurissa kielimalleissa.
  3. Ottamalla käyttöön laitteistokiihdytyksen huomio- ja FFN-laskelmien tehostamiseksi, lievittäen Softmaxiin ja FlashAttentioniin liittyviä pullonkauloja.
  4. Innovoimalla matalan tarkkuuden datatyypeissä, siirtymällä FP8/MX8:n ulkopuolelle ja tuottamalla 6x FP16/BF16:n MX4 FLOPS -lukemat, mukautetuilla datatyyppi-innovaatioilla, jotka säilyttävät mallin laadun ja tehostavat FLOPS-lukemia minimaalisella sirualueen vaikutuksella.

MTIA 500, rakentaen 450:n menestykselle, kasvatti edelleen HBM-kaistanleveyttä lisäksi 50 % ja esitteli lisää innovaatioita matalan tarkkuuden datatyypeissä, vahvistaen Metan sitoutumista GenAI-päättelyn suorituskyvyn rajojen siirtämiseen. Tämä hellittämätön parantamisen halu varmistaa, että Metan tekoälykokemukset pysyvät eturintamassa.

Näiden sukupolvien kumulatiiviset edistysaskeleet ovat jyrkkiä. MTIA 300:sta MTIA 500:een HBM-kaistanleveys on kasvanut vaikuttavat 4,5-kertaisesti, kun taas laskenta-FLOPS-lukemat ovat kasvaneet hämmästyttävät 25-kertaisesti (MTIA 300:n MX8:sta MTIA 500:n MX4:ään). Tämä nopea kiihtyvyys kahden vuoden sisällä on osoitus Metan nopeusstrategiasta ja sen kyvystä jatkuvasti parantaa räätälöityä piiteknologiaansa. Tämä kehitys on keskeistä agenttitekoälyn operatiivisen käyttöönoton ja muiden monimutkaisten mallien skaalaamisessa.

Tässä on katsaus MTIA-perheen tärkeimpiin teknisiin tietoihin:

OminaisuusMTIA 300MTIA 400MTIA 450MTIA 500
Laskentapiiri1222
HBM-pinot4488
HBM-kaistanleveys (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Skaalausalueen koko18 laitetta**72 laitetta72 laitetta72 laitetta
AvainoptimointiR&R-koulutus, matalan viiveen viestintäYleinen GenAI, kilpailukykyinen raaka suorituskyky.GenAI-päättely, HBM, mukautettu matala tarkkuus.GenAI-päättely, HBM, mukautettu matala tarkkuus.

*Jotkut toimittajat ilmoittavat kaksisuuntaisen kaistanleveyden. Kerro taulukon arvo kahdella saadaksesi vastaavan kaksisuuntaisen kaistanleveyden. **MTIA 300 on konfiguroitu skaalautuvalla verkolla, jossa on suurempi kaistanleveys (200 GB/s), johtuen sen suhteellisen pienestä skaalausalueen koosta ja kohdistetuista R&R-työkuormista.

Nämä tekniset tiedot korostavat dramaattisia parannuksia muistikaistanleveydessä ja laskentatehossa, osoittaen kuinka jokainen MTIA-sukupolvi on huolellisesti suunniteltu vastaamaan nykyisten ja tulevien tekoälysovellusten, erityisesti resurssi-intensiivisten GenAI-mallien, kiireellisimpiin vaatimuksiin.

Metan hellittämätön pyrkimys räätälöityihin piiratkaisuihin MTIA-perheen kautta korostaa sen sitoutumista tarjoamaan huippuluokan tekoälykokemuksia miljardeille käyttäjille maailmanlaajuisesti. Yhdistämällä sisäisen innovaation strategisiin kumppanuuksiin Meta jatkaa skaalautuvan ja kustannustehokkaan tekoälyinfrastruktuurin mahdollisuuksien uudelleenmäärittelyä.

Usein kysytyt kysymykset

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Pysy ajan tasalla

Saa uusimmat tekoälyuutiset sähköpostiisi.

Jaa