Code Velocity
AI Perusahaan

Cip MTIA Meta Skalakan AI untuk Berbilion Pengguna

·7 min bacaan·Meta·Sumber asal
Kongsi
Cip AI MTIA Meta pada papan pelayan dalam rak pusat data

Menskalakan Pengalaman AI dengan Cip MTIA Meta

Setiap hari, berbilion orang di seluruh pelbagai platform Meta berinteraksi dengan pelbagai ciri yang dikuasakan AI, daripada cadangan kandungan diperibadikan kepada pembantu AI canggih. Cabaran utama bagi Meta, dan sememangnya industri, terletak pada penggunaan dan peningkatan berterusan model AI canggih ini pada skala global, semuanya sambil mengekalkan kecekapan kos yang optimum. Tugas infrastruktur yang mencabar ini dipenuhi oleh pelaburan strategik Meta dalam penyelesaian yang fleksibel dan sentiasa berkembang, di mana terasnya adalah cip AI yang direka khas mereka: keluarga Pemecut Latihan dan Inferens Meta (MTIA).

Walaupun komited kepada portfolio silikon yang pelbagai yang memanfaatkan kedua-dua penyelesaian dalaman dan luaran, cip MTIA, yang dibangunkan dengan kerjasama rapat Broadcom, adalah komponen yang sangat diperlukan dalam strategi infrastruktur AI Meta. Pemecut buatan sendiri ini adalah penting untuk menggerakkan pengalaman AI secara kos efektif yang menjangkau berbilion pengguna, sentiasa menyesuaikan diri dengan landskap model AI yang berkembang pesat.

Evolusi Iteratif Cip MTIA Meta

Landskap model AI berada dalam keadaan perubahan yang berterusan, berkembang pada kadar yang sering kali mengatasi kitaran pembangunan cip tradisional. Menyedari bahawa reka bentuk cip berdasarkan beban kerja yang diunjurkan boleh menjadi lapuk apabila perkakasan mencapai pengeluaran, Meta telah menerima "strategi halaju" yang inovatif untuk MTIA. Daripada tempoh pembangunan yang panjang dan spekulatif, Meta mengamalkan pendekatan lelaran di mana setiap generasi MTIA dibina berdasarkan yang sebelumnya. Ini melibatkan penggunaan ciplet modular, menggabungkan pandangan beban kerja AI terkini, dan menggunakan teknologi perkakasan baharu pada rentak yang jauh lebih singkat. Gelung maklum balas yang lebih ketat ini memastikan silikon tersuai Meta kekal sejajar dengan permintaan dinamik model AI, memupuk penggunaan kemajuan baharu yang lebih pantas.

Meta telah memperincikan dua generasi pertama, MTIA 100 dan MTIA 200, dalam kertas akademik. Berdasarkan asas ini, Meta telah mempercepatkan pembangunan untuk memperkenalkan empat generasi baharu berturut-turut: MTIA 300, 400, 450, dan 500. Cip-cip ini sama ada sudah dalam pengeluaran atau dijadualkan untuk penggunaan besar-besaran pada tahun 2026 dan 2027. Penggantian pantas ini telah membolehkan Meta untuk mengembangkan liputan beban kerja MTIA dengan ketara, bergerak daripada inferens kedudukan dan cadangan (R&R) awal kepada latihan R&R, beban kerja AI Generatif (GenAI) umum, dan inferens GenAI yang sangat dioptimumkan.

MTIA 300: Meletakkan Asas untuk Beban Kerja AI

MTIA 300 menandakan langkah penting dalam perjalanan silikon tersuai Meta. Pada awalnya dioptimumkan untuk model R&R, yang merupakan beban kerja dominan Meta sebelum ledakan GenAI, blok bangunan arsitekturnya mewujudkan asas yang teguh untuk cip-cip berikutnya. Ciri-ciri utama yang membezakan MTIA 300 termasuk ciplet NIC bersepadu, enjin mesej khusus untuk memunggah kolektif komunikasi, dan keupayaan pengiraan berhampiran memori yang direka untuk kolektif berasaskan pengurangan. Komponen komunikasi kependaman rendah dan lebar jalur tinggi ini terbukti penting dalam membolehkan inferens dan latihan GenAI yang cekap pada generasi berikutnya.

MTIA 300 terdiri daripada satu ciplet pengiraan, dua ciplet rangkaian, dan beberapa susunan Memori Lebar Jalur Tinggi (HBM). Setiap ciplet pengiraan mempunyai grid elemen pemprosesan (PE), yang direka secara strategik dengan PE yang berlebihan untuk meningkatkan hasil. Setiap PE adalah unit canggih yang mengandungi dua teras vektor RISC-V, Enjin Hasil Titik untuk pendaraban matriks, Unit Fungsi Khas untuk pengaktifan dan operasi elemenwise, Enjin Pengurangan untuk pengumpulan dan komunikasi antara PE, dan enjin DMA untuk pergerakan data yang cekap dalam memori goresan tempatan. Reka bentuk rumit ini menggariskan komitmen Meta untuk mencipta penyelesaian yang sangat cekap dan kos efektif untuk tugas AI utamanya.

MTIA 400: Mencapai Prestasi GenAI yang Kompetitif

Dengan lonjakan Generatif AI yang belum pernah terjadi sebelumnya, Meta dengan pantas mengembangkan MTIA 300 menjadi MTIA 400 untuk memberikan sokongan yang mantap untuk beban kerja GenAI di samping keupayaan R&R sedia adanya. MTIA 400 mewakili satu lonjakan besar, menawarkan 400% FLOPS FP8 yang lebih tinggi dan peningkatan 51% dalam lebar jalur HBM berbanding pendahulunya. Walaupun MTIA 300 menumpukan pada kecekapan kos, MTIA 400 direka untuk menyampaikan prestasi mentah yang kompetitif dengan pemecut AI komersial terkemuka.

Ini dicapai dengan menggabungkan dua ciplet pengiraan untuk menggandakan ketumpatan pengiraan secara berkesan dan dengan menyokong versi MX8 dan MX4 yang dipertingkatkan, format ketepatan rendah yang penting untuk inferens GenAI yang cekap. Satu rak yang dilengkapi dengan 72 peranti MTIA 400, yang disambungkan melalui backplane bersuis, membentuk domain penskalaan atas yang berkuasa. Sistem-sistem ini disokong oleh rak penyejukan cecair berbantu udara (AALC) canggih, memudahkan penggunaan pantas walaupun di pusat data lama, menunjukkan pendekatan praktikal Meta untuk menskalakan infrastruktur AInya secara global.

MTIA 450 dan 500: Khusus untuk Inferens GenAI

Menjangkakan pertumbuhan eksponen yang berterusan dalam permintaan inferens GenAI, Meta terus memperhalusi MTIA 400, membawa kepada pembangunan MTIA 450 dan kemudian MTIA 500. Generasi-generasi ini dioptimumkan secara khusus untuk cabaran unik inferens GenAI, memfokuskan pada kemajuan kritikal dalam memori dan pengiraan.

MTIA 450 membuat kemajuan yang ketara dengan:

  1. Menggandakan lebar jalur HBM dari versi sebelumnya, yang penting untuk mempercepatkan fasa dekod dalam model GenAI.
  2. Meningkatkan MX4 FLOPS sebanyak 75%, mempercepatkan pengiraan rangkaian feed-forward (FFN) campuran pakar (MoE) yang biasa dalam model bahasa besar.
  3. Memperkenalkan pecutan perkakasan untuk menjadikan pengiraan perhatian dan FFN lebih cekap, mengurangkan kesesakan yang berkaitan dengan Softmax dan FlashAttention.
  4. Berinovasi dalam jenis data berketepatan rendah, bergerak melangkaui FP8/MX8 untuk menyampaikan 6x MX4 FLOPS FP16/BF16, dengan inovasi jenis data tersuai yang mengekalkan kualiti model dan meningkatkan FLOPS dengan impak kawasan cip yang minimum.

MTIA 500, berdasarkan kejayaan 450, terus meningkatkan lebar jalur HBM sebanyak tambahan 50% dan memperkenalkan lebih banyak inovasi dalam jenis data berketepatan rendah, mengukuhkan komitmen Meta untuk menolak batasan prestasi inferens GenAI. Dorongan berterusan untuk peningkatan ini memastikan pengalaman AI Meta kekal di barisan hadapan.

Kemajuan kumulatif merentas generasi ini sangat ketara. Dari MTIA 300 ke MTIA 500, lebar jalur HBM telah meningkat sebanyak 4.5 kali ganda yang mengagumkan, manakala FLOPS pengiraan telah menyaksikan peningkatan 25 kali ganda yang menakjubkan (dari MX8 MTIA 300 ke MX4 MTIA 500). Pecutan pantas ini dalam tempoh dua tahun adalah bukti strategi halaju Meta dan keupayaannya untuk terus meningkatkan silikon tersuainya. Evolusi ini adalah pusat kepada pengoperasian AI agenik dan model kompleks lain pada skala.

Berikut adalah pecahan spesifikasi utama merentasi keluarga MTIA:

CiriMTIA 300MTIA 400MTIA 450MTIA 500
Die Pengiraan1222
Susunan HBM4488
Lebar Jalur HBM (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Saiz Domain Penskalaan Atas18 peranti**72 peranti72 peranti72 peranti
Pengoptimuman UtamaLatihan R&R, komunikasi kependaman rendahGenAI umum, prestasi mentah kompetitifInferens GenAI, HBM, ketepatan rendah tersuaiInferens GenAI, HBM, ketepatan rendah tersuai

*Sesetengah vendor melaporkan lebar jalur dwiarah. Darabkan nilai dalam jadual dengan dua untuk mendapatkan lebar jalur dwiarah yang sepadan. **MTIA 300 dikonfigurasi dengan rangkaian penskalaan keluar dengan lebar jalur yang lebih tinggi (200 GB/s) kerana saiz domain penskalaan atasnya yang agak kecil dan beban kerja R&R sasaran.

Spesifikasi ini menyerlahkan peningkatan dramatik dalam lebar jalur memori dan kuasa pengiraan, menunjukkan bagaimana setiap generasi MTIA direka dengan teliti untuk menangani tuntutan paling mendesak bagi aplikasi AI semasa dan masa depan, terutamanya model GenAI yang intensif sumber.

Usaha berterusan Meta dalam mencari penyelesaian silikon tersuai melalui keluarga MTIA menggariskan komitmennya untuk menyampaikan pengalaman AI canggih kepada berbilion pengguna di seluruh dunia. Dengan menggabungkan inovasi dalaman dengan perkongsian strategik, Meta terus mentakrifkan semula kemungkinan infrastruktur AI yang boleh diskalakan dan kos efektif.

Soalan Lazim

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Kekal Dikemas Kini

Dapatkan berita AI terkini dalam peti masuk anda.

Kongsi