Pagpapalaki ng mga Karanasan sa AI gamit ang mga Chip ng MTIA ng Meta
Araw-araw, bilyun-bilyong tao sa iba't ibang platform ng Meta ang nakikipag-ugnayan sa napakaraming feature na pinapagana ng AI, mula sa mga personalized na rekomendasyon ng nilalaman hanggang sa mga advanced na AI assistant. Ang pangunahing hamon para sa Meta, at maging sa industriya, ay nakasalalay sa pag-deploy at patuloy na pagpapabuti ng mga sopistikadong modelo ng AI na ito sa pandaigdigang saklaw, habang pinananatili ang optimal na cost-efficiency. Ang mahirap na gawain sa imprastraktura na ito ay natutugunan ng estratehikong pamumuhunan ng Meta sa flexible, patuloy na umuusbong na mga solusyon, kung saan sentro ang kanilang mga custom-designed na chip ng AI: ang pamilya ng Meta Training and Inference Accelerator (MTIA).
Bagaman nakatuon sa isang magkakaibang portfolio ng silicon na gumagamit ng parehong panloob at panlabas na solusyon, ang mga chip ng MTIA, na binuo sa malapit na pakikipagtulungan sa Broadcom, ay isang mahalagang bahagi ng diskarte sa imprastraktura ng AI ng Meta. Ang mga lokal na binuong accelerator na ito ay mahalaga para sa cost-effectively na pagpapagana ng mga karanasan sa AI na umaabot sa bilyun-bilyon, patuloy na umaangkop sa mabilis na umuusbong na landscape ng mga modelo ng AI.
Ang Iterative na Ebolusyon ng mga Chip ng MTIA ng Meta
Ang landscape ng modelo ng AI ay nasa estado ng patuloy na pagbabago, umuusbong sa bilis na madalas na nalalampasan ang tradisyonal na siklo ng pagbuo ng chip. Kinikilala na ang mga disenyo ng chip batay sa mga inaasahang workload ay maaaring maging lipas na sa panahon bago pa man makarating sa produksyon ang hardware, niyakap ng Meta ang isang inobatibong 'velocity strategy' para sa MTIA. Sa halip na mahaba, espekulatibong panahon ng pagbuo, gumagamit ang Meta ng isang iterative na diskarte kung saan ang bawat henerasyon ng MTIA ay bumubuo sa nakaraan. Kabilang dito ang paggamit ng modular chiplets, pagsasama ng pinakabagong mga insight sa AI workload, at pag-deploy ng mga bagong teknolohiya ng hardware sa isang mas maikling panahon. Tinitiyak ng mas mahigpit na feedback loop na ito na ang pasadyang silicon ng Meta ay nananatiling malapit na nakahanay sa pabago-bagong pangangailangan ng mga modelo ng AI, na nagtataguyod ng mas mabilis na paggamit ng mga bagong pagpapabuti.
Naidetalye na ng Meta ang unang dalawang henerasyon, MTIA 100 at MTIA 200, sa mga akademikong papel. Batay sa pundasyong ito, pinabilis ng Meta ang pagbuo upang ipakilala ang apat na bagong sunud-sunod na henerasyon: MTIA 300, 400, 450, at 500. Ang mga chip na ito ay nasa produksyon na o nakatakdang i-deploy nang maramihan sa 2026 at 2027. Ang mabilis na pagpapalit na ito ay nagbigay-daan sa Meta upang makabuluhang palawakin ang saklaw ng workload ng MTIA, lumipat mula sa paunang ranking at rekomendasyon (R&R) inference tungo sa R&R training, pangkalahatang Generative AI (GenAI) workloads, at lubos na na-optimize na GenAI inference.
MTIA 300: Paglalagay ng Pundasyon para sa mga Workload ng AI
Minarkahan ng MTIA 300 ang isang mahalagang hakbang sa paglalakbay ng custom silicon ng Meta. Sa simula'y na-optimize para sa mga modelo ng R&R, na siyang naging dominanteng workload ng Meta bago ang pag-usbong ng GenAI, ang mga architectural building block nito ay nagtatag ng isang matatag na pundasyon para sa mga sumunod na chip. Kabilang sa mga pangunahing tampok ng MTIA 300 ang integrated NIC chiplets, dedikadong message engines para sa offloading ng communication collectives, at near-memory compute capabilities na dinisenyo para sa reduction-based collectives. Ang mga low-latency, high-bandwidth na bahagi ng komunikasyon na ito ay naging mahalaga sa pagpapagana ng mahusay na GenAI inference at training sa mga sumunod na henerasyon.
Binubuo ang MTIA 300 ng isang compute chiplet, dalawang network chiplets, at ilang High-Bandwidth Memory (HBM) stacks. Ang bawat compute chiplet ay nagtatampok ng grid ng processing elements (PEs), na estratehikong dinisenyo na may redundant PEs upang mapahusay ang ani. Ang bawat PE ay isang sopistikadong unit na naglalaman ng dalawang RISC-V vector cores, isang Dot Product Engine para sa matrix multiplication, isang Special Function Unit para sa activations at elementwise operations, isang Reduction Engine para sa accumulation at inter-PE communication, at isang DMA engine para sa mahusay na paggalaw ng data sa loob ng lokal na scratch memory. Binigyang-diin ng masalimuot na disenyong ito ang pangako ng Meta sa paggawa ng isang lubos na epektibo at cost-effective na solusyon para sa mga pangunahing gawain nitong AI.
MTIA 400: Pagkamit ng Mapagkumpitensyang Performance ng GenAI
Dahil sa walang kaparis na pag-usbong ng Generative AI, mabilis na binago ng Meta ang MTIA 300 tungo sa MTIA 400 upang magbigay ng matatag na suporta para sa mga workload ng GenAI kasama ang umiiral nitong kakayahan sa R&R. Kumakatawan ang MTIA 400 sa isang malaking paglukso, na nag-aalok ng 400% na mas mataas na FP8 FLOPS at isang 51% na pagtaas sa HBM bandwidth kumpara sa nauna nito. Habang nakatuon ang MTIA 300 sa cost-effectiveness, idinisenyo ang MTIA 400 upang magbigay ng raw performance na mapagkumpitensya sa nangungunang commercial AI accelerators.
Nakakamit nito ito sa pamamagitan ng pagsasama ng dalawang compute chiplets upang epektibong doblehin ang compute density at sa pamamagitan ng pagsuporta sa mga pinahusay na bersyon ng MX8 at MX4, na mahahalagang low-precision format para sa epektibong GenAI inference. Ang isang rack na nilagyan ng 72 MTIA 400 device, na magkakaugnay sa pamamagitan ng isang switched backplane, ay bumubuo ng isang malakas na scale-up domain. Ang mga sistemang ito ay sinusuportahan ng advanced air-assisted liquid cooling (AALC) racks, na nagpapadali sa mabilis na pag-deploy kahit sa mga legacy data center, na nagpapakita ng praktikal na diskarte ng Meta sa pagpapalaki ng imprastraktura ng AI nito sa buong mundo.
MTIA 450 at 500: Espesyalista para sa GenAI Inference
Sa pag-asam ng patuloy na paglago ng GenAI inference demand, pinino pa ng Meta ang MTIA 400, na humantong sa pagbuo ng MTIA 450 at kasunod nito ang MTIA 500. Ang mga henerasyong ito ay partikular na na-optimize para sa mga natatanging hamon ng GenAI inference, na nakatuon sa kritikal na pagpapabuti sa memorya at compute.
Nakagawa ang MTIA 450 ng mga makabuluhang hakbang sa pamamagitan ng:
- Pagdodoble ng HBM bandwidth mula sa nakaraang bersyon, na mahalaga para mapabilis ang decode phase sa mga modelo ng GenAI.
- Pagtaas ng MX4 FLOPS ng 75%, na nagpapabilis sa mixture-of-experts (MoE) feed-forward network (FFN) computations na karaniwan sa malalaking modelo ng wika.
- Pagpapakilala ng hardware acceleration upang gawing mas epektibo ang attention at FFN computations, na nagpapagaan ng mga bottleneck na nauugnay sa Softmax at FlashAttention.
- Pagbabago sa mga uri ng data na mababa ang precision, lumalampas sa FP8/MX8 upang magbigay ng 6x ang MX4 FLOPS ng FP16/BF16, na may mga inobasyon sa custom data-type na nagpapanatili ng kalidad ng modelo at nagpapataas ng FLOPS na may minimal na epekto sa chip area.
MTIA 500, batay sa tagumpay ng 450, lalo pang pinataas ang HBM bandwidth ng karagdagang 50% at nagpakilala ng mas maraming inobasyon sa mga uri ng data na mababa ang precision, na nagpapatibay sa pangako ng Meta na itulak ang mga hangganan ng GenAI inference performance. Tinitiyak ng walang humpay na paghimok na ito para sa pagpapabuti na mananatili sa pinakamataas ang mga karanasan sa AI ng Meta.
Ang pinagsama-samang mga pagpapabuti sa mga henerasyong ito ay kapansin-pansin. Mula MTIA 300 hanggang MTIA 500, ang HBM bandwidth ay tumaas ng kahanga-hangang 4.5x, habang ang compute FLOPS ay nakakita ng kamangha-manghang 25x na pagtaas (mula sa MX8 ng MTIA 300 hanggang sa MX4 ng MTIA 500). Ang mabilis na pagbilis na ito sa loob ng dalawang taon ay patunay sa velocity strategy ng Meta at sa kakayahan nitong patuloy na pagandahin ang pasadyang silicon nito. Ang ebolusyon na ito ay sentral sa pagpapatupad ng agentic AI at iba pang kumplikadong modelo sa sukat.
Narito ang breakdown ng mga pangunahing detalye sa buong pamilya ng MTIA:
| Feature | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Compute Die | 1 | 2 | 2 | 2 |
| HBM Stacks | 4 | 4 | 8 | 8 |
| HBM Bandwidth (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Scale-up Domain Size | 18 devices** | 72 devices | 72 devices | 72 devices |
| Key Optimization | Pagsasanay ng R&R, low-latency na komunikasyon | Pangkalahatang GenAI, mapagkumpitensyang raw perf. | GenAI inference, HBM, pasadyang low-prec. | GenAI inference, HBM, pasadyang low-prec. |
*Ang ilang vendor ay nag-uulat ng bidirectional bandwidth. Paramihin ang halaga sa talahanayan ng dalawa upang makuha ang kaukulang bidirectional bandwidth. **Ang MTIA 300 ay naka-configure na may scale-out network na may mas mataas na bandwidth (200 GB/s) dahil sa medyo maliit nitong scale-up domain size at ang target na R&R workloads.
Binibigyang-diin ng mga detalye na ito ang kapansin-pansin na pagpapabuti sa memory bandwidth at compute power, na nagpapakita kung paano ang bawat henerasyon ng MTIA ay maingat na ininhinyero upang tugunan ang pinakamahigpit na pangangailangan ng kasalukuyan at hinaharap na AI application, partikular ang mga GenAI model na nangangailangan ng maraming mapagkukunan. Ang walang humpay na paghahanap ng Meta ng mga custom silicon solution sa pamamagitan ng pamilya ng MTIA ay nagpapakita ng pangako nito sa pagbibigay ng cutting-edge AI experiences sa bilyun-bilyong gumagamit sa buong mundo. Sa pamamagitan ng pagsasama ng panloob na inobasyon sa mga estratehikong partnership, patuloy na binibigyang-kahulugan ng Meta ang mga posibilidad ng scalable at cost-effective na imprastraktura ng AI.
Orihinal na pinagmulan
https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/Mga Karaniwang Tanong
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Manatiling Updated
Kunin ang pinakabagong AI news sa iyong inbox.
