Code Velocity
AI Perusahaan

Chip MTIA Meta Tingkatkan Skala AI untuk Miliaran Pengguna

·7 mnt baca·Meta·Sumber asli
Bagikan
Chip AI MTIA Meta pada papan server di rak pusat data

Meningkatkan Skala Pengalaman AI dengan Chip MTIA Meta

Setiap hari, miliaran orang di berbagai platform Meta berinteraksi dengan segudang fitur bertenaga AI, mulai dari rekomendasi konten yang dipersonalisasi hingga asisten AI canggih. Tantangan mendasar bagi Meta, dan memang industri ini, terletak pada penerapan dan peningkatan berkelanjutan model AI canggih ini dalam skala global, sekaligus mempertahankan efisiensi biaya yang optimal. Tugas infrastruktur yang menuntut ini dipenuhi oleh investasi strategis Meta dalam solusi yang fleksibel dan terus berkembang, di mana chip AI yang dirancang khusus menjadi pusatnya: keluarga Meta Training and Inference Accelerator (MTIA).

Meskipun berkomitmen pada portofolio silikon yang beragam yang memanfaatkan solusi internal dan eksternal, chip MTIA, yang dikembangkan dalam kemitraan erat dengan Broadcom, adalah komponen yang sangat diperlukan dari strategi infrastruktur AI Meta. Akselerator buatan sendiri ini sangat penting untuk mendukung pengalaman AI yang menjangkau miliaran orang secara efisien biaya, terus-menerus beradaptasi dengan lanskap model AI yang berkembang pesat.

Evolusi Iteratif Chip MTIA Meta

Lanskap model AI berada dalam keadaan fluks yang terus-menerus, berevolusi dengan kecepatan yang seringkali melampaui siklus pengembangan chip tradisional. Menyadari bahwa desain chip berdasarkan beban kerja yang diproyeksikan dapat menjadi usang pada saat perangkat keras mencapai produksi, Meta telah merangkul 'strategi kecepatan' inovatif untuk MTIA. Alih-alih periode pengembangan yang panjang dan spekulatif, Meta mengadopsi pendekatan iteratif di mana setiap generasi MTIA dibangun di atas yang sebelumnya. Ini melibatkan penggunaan chiplet modular, menggabungkan wawasan beban kerja AI terbaru, dan menyebarkan teknologi perangkat keras baru dengan irama yang jauh lebih singkat. Umpan balik yang lebih ketat ini memastikan silikon khusus Meta tetap selaras dengan tuntutan dinamis model AI, mendorong adopsi kemajuan baru yang lebih cepat.

Meta telah merinci dua generasi pertama, MTIA 100 dan MTIA 200, dalam makalah akademis. Berdasarkan fondasi ini, Meta telah mempercepat pengembangan untuk memperkenalkan empat generasi berturut-turut yang baru: MTIA 300, 400, 450, dan 500. Chip-chip ini sudah dalam produksi atau dijadwalkan untuk penyebaran massal pada tahun 2026 dan 2027. Suksesi cepat ini telah memungkinkan Meta untuk memperluas cakupan beban kerja MTIA secara signifikan, bergerak dari inferensi ranking dan rekomendasi (R&R) awal ke pelatihan R&R, beban kerja Generative AI (GenAI) umum, dan inferensi GenAI yang sangat dioptimalkan.

MTIA 300: Meletakkan Fondasi untuk Beban Kerja AI

MTIA 300 menandai langkah penting dalam perjalanan silikon khusus Meta. Awalnya dioptimalkan untuk model R&R, yang merupakan beban kerja dominan Meta sebelum ledakan GenAI, blok bangunan arsitekturnya membangun fondasi yang kokoh untuk chip-chip berikutnya. Fitur pembeda utama MTIA 300 meliputi chiplet NIC terintegrasi, mesin pesan khusus untuk membongkar kolektif komunikasi, dan kemampuan komputasi dekat memori yang dirancang untuk kolektif berbasis reduksi. Komponen komunikasi latensi rendah, bandwidth tinggi ini terbukti berperan penting dalam memungkinkan inferensi dan pelatihan GenAI yang efisien di generasi-generasi berikutnya.

MTIA 300 terdiri dari satu chiplet komputasi, dua chiplet jaringan, dan beberapa tumpukan High-Bandwidth Memory (HBM). Setiap chiplet komputasi menampilkan kisi elemen pemrosesan (PE), yang dirancang secara strategis dengan PE redundan untuk meningkatkan hasil. Setiap PE adalah unit canggih yang berisi dua core vektor RISC-V, Dot Product Engine untuk perkalian matriks, Special Function Unit untuk aktivasi dan operasi elementwise, Reduction Engine untuk akumulasi dan komunikasi antar-PE, dan mesin DMA untuk pergerakan data yang efisien dalam memori awal lokal. Desain yang rumit ini menggarisbawahi komitmen Meta untuk menciptakan solusi yang sangat efisien dan hemat biaya untuk tugas AI intinya.

MTIA 400: Mencapai Kinerja GenAI yang Kompetitif

Dengan lonjakan Generative AI yang belum pernah terjadi sebelumnya, Meta dengan cepat mengembangkan MTIA 300 menjadi MTIA 400 untuk memberikan dukungan yang kuat untuk beban kerja GenAI di samping kemampuan R&R yang ada. MTIA 400 merupakan lompatan signifikan, menawarkan 400% FLOPS FP8 yang lebih tinggi dan peningkatan bandwidth HBM sebesar 51% dibandingkan pendahulunya. Sementara MTIA 300 berfokus pada efisiensi biaya, MTIA 400 dirancang untuk memberikan kinerja mentah yang kompetitif dengan akselerator AI komersial terkemuka.

Ini dicapai dengan menggabungkan dua chiplet komputasi untuk secara efektif menggandakan kepadatan komputasi dan dengan mendukung versi MX8 dan MX4 yang ditingkatkan, format presisi rendah yang penting untuk inferensi GenAI yang efisien. Sebuah rak tunggal yang dilengkapi dengan 72 perangkat MTIA 400, saling terhubung melalui backplane yang diaktifkan, membentuk domain scale-up yang kuat. Sistem ini didukung oleh rak pendingin cairan yang dibantu udara (AALC) canggih, memfasilitasi penyebaran cepat bahkan di pusat data lama, menunjukkan pendekatan praktis Meta untuk meningkatkan skala infrastruktur AI-nya secara global.

MTIA 450 dan 500: Khusus untuk Inferensi GenAI

Mengantisipasi pertumbuhan eksponensial yang berkelanjutan dalam permintaan inferensi GenAI, Meta lebih lanjut menyempurnakan MTIA 400, yang mengarah pada pengembangan MTIA 450 dan selanjutnya MTIA 500. Generasi ini secara khusus dioptimalkan untuk tantangan unik inferensi GenAI, berfokus pada kemajuan kritis dalam memori dan komputasi.

MTIA 450 membuat kemajuan signifikan dengan:

  1. Menggandakan bandwidth HBM dari versi sebelumnya, yang sangat penting untuk mempercepat fase decode dalam model GenAI.
  2. Meningkatkan FLOPS MX4 sebesar 75%, mempercepat komputasi jaringan feed-forward (FFN) mixture-of-experts (MoE) yang umum dalam model bahasa besar.
  3. Memperkenalkan akselerasi perangkat keras untuk membuat komputasi attention dan FFN lebih efisien, mengurangi hambatan yang terkait dengan Softmax dan FlashAttention.
  4. Berinovasi dalam tipe data presisi rendah, bergerak melampaui FP8/MX8 untuk memberikan 6x FLOPS MX4 dari FP16/BF16, dengan inovasi tipe data khusus yang mempertahankan kualitas model dan meningkatkan FLOPS dengan dampak area chip minimal.

MTIA 500, dibangun di atas keberhasilan 450, lebih lanjut meningkatkan bandwidth HBM sebesar 50% lagi dan memperkenalkan lebih banyak inovasi dalam tipe data presisi rendah, memperkuat komitmen Meta untuk mendorong batas-batas kinerja inferensi GenAI. Dorongan tanpa henti untuk peningkatan ini memastikan bahwa pengalaman AI Meta tetap berada di garis depan.

Kemajuan kumulatif di seluruh generasi ini sangat mencolok. Dari MTIA 300 ke MTIA 500, bandwidth HBM telah meningkat sebesar 4,5x yang mengesankan, sementara FLOPS komputasi telah mengalami peningkatan 25x yang mencengangkan (dari MX8 MTIA 300 ke MX4 MTIA 500). Percepatan cepat dalam dua tahun ini merupakan bukti strategi kecepatan Meta dan kemampuannya untuk terus meningkatkan silikon khususnya. Evolusi ini adalah pusat untuk mengoperasionalkan AI agen dan model kompleks lainnya dalam skala besar.

Berikut adalah rincian spesifikasi utama di seluruh keluarga MTIA:

FiturMTIA 300MTIA 400MTIA 450MTIA 500
Die Komputasi1222
Tumpukan HBM4488
Bandwidth HBM (GB/s)*100151302453
FLOPS MX8 (TFLOPS)100400400400
FLOPS MX4 (TFLOPS)N/A200350500
Ukuran Domain Scale-up18 perangkat**72 perangkat72 perangkat72 perangkat
Optimasi Utamapelatihan R&R, komunikasi latensi rendahGenAI umum, kinerja mentah kompetitifInferensi GenAI, HBM, presisi rendah khususInferensi GenAI, HBM, presisi rendah khusus

*Beberapa vendor melaporkan bandwidth dua arah. Kalikan nilai dalam tabel dengan dua untuk mendapatkan bandwidth dua arah yang sesuai. **MTIA 300 dikonfigurasi dengan jaringan scale-out dengan bandwidth yang lebih tinggi (200 GB/s) karena ukuran domain scale-up yang relatif kecil dan beban kerja R&R yang ditargetkan.

Spesifikasi ini menyoroti peningkatan dramatis dalam bandwidth memori dan daya komputasi, menunjukkan bagaimana setiap generasi MTIA direkayasa dengan cermat untuk mengatasi tuntutan paling mendesak dari aplikasi AI saat ini dan masa depan, terutama model GenAI yang intensif sumber daya.

Pengejaran tanpa henti Meta terhadap solusi silikon khusus melalui keluarga MTIA menggarisbawahi komitmennya untuk menghadirkan pengalaman AI mutakhir kepada miliaran pengguna di seluruh dunia. Dengan menggabungkan inovasi internal dengan kemitraan strategis, Meta terus mendefinisikan ulang kemungkinan infrastruktur AI yang dapat diskalakan dan hemat biaya.

Pertanyaan yang Sering Diajukan

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.

Bagikan