Meningkatkan Skala Pengalaman AI dengan Chip MTIA Meta
Setiap hari, miliaran orang di berbagai platform Meta berinteraksi dengan segudang fitur bertenaga AI, mulai dari rekomendasi konten yang dipersonalisasi hingga asisten AI canggih. Tantangan mendasar bagi Meta, dan memang industri ini, terletak pada penerapan dan peningkatan berkelanjutan model AI canggih ini dalam skala global, sekaligus mempertahankan efisiensi biaya yang optimal. Tugas infrastruktur yang menuntut ini dipenuhi oleh investasi strategis Meta dalam solusi yang fleksibel dan terus berkembang, di mana chip AI yang dirancang khusus menjadi pusatnya: keluarga Meta Training and Inference Accelerator (MTIA).
Meskipun berkomitmen pada portofolio silikon yang beragam yang memanfaatkan solusi internal dan eksternal, chip MTIA, yang dikembangkan dalam kemitraan erat dengan Broadcom, adalah komponen yang sangat diperlukan dari strategi infrastruktur AI Meta. Akselerator buatan sendiri ini sangat penting untuk mendukung pengalaman AI yang menjangkau miliaran orang secara efisien biaya, terus-menerus beradaptasi dengan lanskap model AI yang berkembang pesat.
Evolusi Iteratif Chip MTIA Meta
Lanskap model AI berada dalam keadaan fluks yang terus-menerus, berevolusi dengan kecepatan yang seringkali melampaui siklus pengembangan chip tradisional. Menyadari bahwa desain chip berdasarkan beban kerja yang diproyeksikan dapat menjadi usang pada saat perangkat keras mencapai produksi, Meta telah merangkul 'strategi kecepatan' inovatif untuk MTIA. Alih-alih periode pengembangan yang panjang dan spekulatif, Meta mengadopsi pendekatan iteratif di mana setiap generasi MTIA dibangun di atas yang sebelumnya. Ini melibatkan penggunaan chiplet modular, menggabungkan wawasan beban kerja AI terbaru, dan menyebarkan teknologi perangkat keras baru dengan irama yang jauh lebih singkat. Umpan balik yang lebih ketat ini memastikan silikon khusus Meta tetap selaras dengan tuntutan dinamis model AI, mendorong adopsi kemajuan baru yang lebih cepat.
Meta telah merinci dua generasi pertama, MTIA 100 dan MTIA 200, dalam makalah akademis. Berdasarkan fondasi ini, Meta telah mempercepat pengembangan untuk memperkenalkan empat generasi berturut-turut yang baru: MTIA 300, 400, 450, dan 500. Chip-chip ini sudah dalam produksi atau dijadwalkan untuk penyebaran massal pada tahun 2026 dan 2027. Suksesi cepat ini telah memungkinkan Meta untuk memperluas cakupan beban kerja MTIA secara signifikan, bergerak dari inferensi ranking dan rekomendasi (R&R) awal ke pelatihan R&R, beban kerja Generative AI (GenAI) umum, dan inferensi GenAI yang sangat dioptimalkan.
MTIA 300: Meletakkan Fondasi untuk Beban Kerja AI
MTIA 300 menandai langkah penting dalam perjalanan silikon khusus Meta. Awalnya dioptimalkan untuk model R&R, yang merupakan beban kerja dominan Meta sebelum ledakan GenAI, blok bangunan arsitekturnya membangun fondasi yang kokoh untuk chip-chip berikutnya. Fitur pembeda utama MTIA 300 meliputi chiplet NIC terintegrasi, mesin pesan khusus untuk membongkar kolektif komunikasi, dan kemampuan komputasi dekat memori yang dirancang untuk kolektif berbasis reduksi. Komponen komunikasi latensi rendah, bandwidth tinggi ini terbukti berperan penting dalam memungkinkan inferensi dan pelatihan GenAI yang efisien di generasi-generasi berikutnya.
MTIA 300 terdiri dari satu chiplet komputasi, dua chiplet jaringan, dan beberapa tumpukan High-Bandwidth Memory (HBM). Setiap chiplet komputasi menampilkan kisi elemen pemrosesan (PE), yang dirancang secara strategis dengan PE redundan untuk meningkatkan hasil. Setiap PE adalah unit canggih yang berisi dua core vektor RISC-V, Dot Product Engine untuk perkalian matriks, Special Function Unit untuk aktivasi dan operasi elementwise, Reduction Engine untuk akumulasi dan komunikasi antar-PE, dan mesin DMA untuk pergerakan data yang efisien dalam memori awal lokal. Desain yang rumit ini menggarisbawahi komitmen Meta untuk menciptakan solusi yang sangat efisien dan hemat biaya untuk tugas AI intinya.
MTIA 400: Mencapai Kinerja GenAI yang Kompetitif
Dengan lonjakan Generative AI yang belum pernah terjadi sebelumnya, Meta dengan cepat mengembangkan MTIA 300 menjadi MTIA 400 untuk memberikan dukungan yang kuat untuk beban kerja GenAI di samping kemampuan R&R yang ada. MTIA 400 merupakan lompatan signifikan, menawarkan 400% FLOPS FP8 yang lebih tinggi dan peningkatan bandwidth HBM sebesar 51% dibandingkan pendahulunya. Sementara MTIA 300 berfokus pada efisiensi biaya, MTIA 400 dirancang untuk memberikan kinerja mentah yang kompetitif dengan akselerator AI komersial terkemuka.
Ini dicapai dengan menggabungkan dua chiplet komputasi untuk secara efektif menggandakan kepadatan komputasi dan dengan mendukung versi MX8 dan MX4 yang ditingkatkan, format presisi rendah yang penting untuk inferensi GenAI yang efisien. Sebuah rak tunggal yang dilengkapi dengan 72 perangkat MTIA 400, saling terhubung melalui backplane yang diaktifkan, membentuk domain scale-up yang kuat. Sistem ini didukung oleh rak pendingin cairan yang dibantu udara (AALC) canggih, memfasilitasi penyebaran cepat bahkan di pusat data lama, menunjukkan pendekatan praktis Meta untuk meningkatkan skala infrastruktur AI-nya secara global.
MTIA 450 dan 500: Khusus untuk Inferensi GenAI
Mengantisipasi pertumbuhan eksponensial yang berkelanjutan dalam permintaan inferensi GenAI, Meta lebih lanjut menyempurnakan MTIA 400, yang mengarah pada pengembangan MTIA 450 dan selanjutnya MTIA 500. Generasi ini secara khusus dioptimalkan untuk tantangan unik inferensi GenAI, berfokus pada kemajuan kritis dalam memori dan komputasi.
MTIA 450 membuat kemajuan signifikan dengan:
- Menggandakan bandwidth HBM dari versi sebelumnya, yang sangat penting untuk mempercepat fase decode dalam model GenAI.
- Meningkatkan FLOPS MX4 sebesar 75%, mempercepat komputasi jaringan feed-forward (FFN) mixture-of-experts (MoE) yang umum dalam model bahasa besar.
- Memperkenalkan akselerasi perangkat keras untuk membuat komputasi attention dan FFN lebih efisien, mengurangi hambatan yang terkait dengan Softmax dan FlashAttention.
- Berinovasi dalam tipe data presisi rendah, bergerak melampaui FP8/MX8 untuk memberikan 6x FLOPS MX4 dari FP16/BF16, dengan inovasi tipe data khusus yang mempertahankan kualitas model dan meningkatkan FLOPS dengan dampak area chip minimal.
MTIA 500, dibangun di atas keberhasilan 450, lebih lanjut meningkatkan bandwidth HBM sebesar 50% lagi dan memperkenalkan lebih banyak inovasi dalam tipe data presisi rendah, memperkuat komitmen Meta untuk mendorong batas-batas kinerja inferensi GenAI. Dorongan tanpa henti untuk peningkatan ini memastikan bahwa pengalaman AI Meta tetap berada di garis depan.
Kemajuan kumulatif di seluruh generasi ini sangat mencolok. Dari MTIA 300 ke MTIA 500, bandwidth HBM telah meningkat sebesar 4,5x yang mengesankan, sementara FLOPS komputasi telah mengalami peningkatan 25x yang mencengangkan (dari MX8 MTIA 300 ke MX4 MTIA 500). Percepatan cepat dalam dua tahun ini merupakan bukti strategi kecepatan Meta dan kemampuannya untuk terus meningkatkan silikon khususnya. Evolusi ini adalah pusat untuk mengoperasionalkan AI agen dan model kompleks lainnya dalam skala besar.
Berikut adalah rincian spesifikasi utama di seluruh keluarga MTIA:
| Fitur | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Die Komputasi | 1 | 2 | 2 | 2 |
| Tumpukan HBM | 4 | 4 | 8 | 8 |
| Bandwidth HBM (GB/s)* | 100 | 151 | 302 | 453 |
| FLOPS MX8 (TFLOPS) | 100 | 400 | 400 | 400 |
| FLOPS MX4 (TFLOPS) | N/A | 200 | 350 | 500 |
| Ukuran Domain Scale-up | 18 perangkat** | 72 perangkat | 72 perangkat | 72 perangkat |
| Optimasi Utama | pelatihan R&R, komunikasi latensi rendah | GenAI umum, kinerja mentah kompetitif | Inferensi GenAI, HBM, presisi rendah khusus | Inferensi GenAI, HBM, presisi rendah khusus |
*Beberapa vendor melaporkan bandwidth dua arah. Kalikan nilai dalam tabel dengan dua untuk mendapatkan bandwidth dua arah yang sesuai. **MTIA 300 dikonfigurasi dengan jaringan scale-out dengan bandwidth yang lebih tinggi (200 GB/s) karena ukuran domain scale-up yang relatif kecil dan beban kerja R&R yang ditargetkan.
Spesifikasi ini menyoroti peningkatan dramatis dalam bandwidth memori dan daya komputasi, menunjukkan bagaimana setiap generasi MTIA direkayasa dengan cermat untuk mengatasi tuntutan paling mendesak dari aplikasi AI saat ini dan masa depan, terutama model GenAI yang intensif sumber daya.
Pengejaran tanpa henti Meta terhadap solusi silikon khusus melalui keluarga MTIA menggarisbawahi komitmennya untuk menghadirkan pengalaman AI mutakhir kepada miliaran pengguna di seluruh dunia. Dengan menggabungkan inovasi internal dengan kemitraan strategis, Meta terus mendefinisikan ulang kemungkinan infrastruktur AI yang dapat diskalakan dan hemat biaya.
Pertanyaan yang Sering Diajukan
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Tetap Update
Dapatkan berita AI terbaru di inbox Anda.
