Code Velocity
Kurumsal Yapay Zeka

Meta MTIA Çipleri Yapay Zekayı Milyarlarca Kullanıcı İçin Ölçeklendiriyor

·7 dk okuma·Meta·Orijinal kaynak
Paylaş
Bir veri merkezi rafındaki sunucu kartında Meta MTIA yapay zeka çipleri

Meta'nın MTIA Çipleriyle Yapay Zeka Deneyimlerini Ölçeklendirme

Her gün, Meta'nın çeşitli platformlarındaki milyarlarca insan, kişiselleştirilmiş içerik önerilerinden gelişmiş yapay zeka asistanlarına kadar sayısız yapay zeka destekli özellikle etkileşim kuruyor. Meta ve aslında tüm sektör için temel zorluk, bu sofistike yapay zeka modellerini küresel ölçekte dağıtmak ve sürekli olarak geliştirmek, tüm bunları yaparken optimum maliyet etkinliğini sürdürmektir. Bu zorlu altyapı görevi, Meta'nın esnek, sürekli gelişen çözümlere yaptığı stratejik yatırımla karşılanıyor; bu çözümlerin merkezinde ise özel tasarımlı yapay zeka çipleri olan Meta Eğitim ve Çıkarım Hızlandırıcı (MTIA) ailesi yer alıyor.

Hem dahili hem de harici çözümleri kullanan çeşitli bir silikon portföyüne bağlı olsa da, Broadcom ile yakın işbirliği içinde geliştirilen MTIA çipleri, Meta'nın yapay zeka altyapı stratejisinin vazgeçilmez bir bileşenidir. Bu yerel hızlandırıcılar, milyarlara ulaşan yapay zeka deneyimlerini maliyet etkin bir şekilde güçlendirmek ve yapay zeka modellerinin hızla gelişen ortamına sürekli uyum sağlamak için kritik öneme sahiptir.

Meta'nın MTIA Çiplerinin Yinelemeli Evrimi

Yapay zeka modeli ortamı sürekli bir değişim halindedir ve geleneksel çip geliştirme döngülerini genellikle geride bırakan bir hızda evrilmektedir. Tahmini iş yüklerine dayalı çip tasarımlarının donanım üretime ulaştığında güncelliğini yitirebileceğini fark eden Meta, MTIA için yenilikçi bir "hız stratejisi" benimsemiştir. Uzun, spekülatif geliştirme dönemleri yerine Meta, her MTIA neslinin bir öncekinin üzerine inşa edildiği yinelemeli bir yaklaşım benimser. Bu, modüler çipletlerin kullanılmasını, en son yapay zeka iş yükü içgörülerinin dahil edilmesini ve yeni donanım teknolojilerinin önemli ölçüde daha kısa bir döngüde konuşlandırılmasını içerir. Bu daha sıkı geri bildirim döngüsü, Meta'nın özel silikonunun yapay zeka modellerinin dinamik talepleriyle yakından uyumlu kalmasını sağlayarak yeni gelişmelerin daha hızlı benimsenmesini teşvik eder.

Meta, ilk iki nesil olan MTIA 100 ve MTIA 200'ü akademik makalelerde zaten ayrıntılı olarak açıklamıştı. Bu temelin üzerine inşa eden Meta, dört yeni ardışık nesli tanıtmak için geliştirmeyi hızlandırdı: MTIA 300, 400, 450 ve 500. Bu çipler ya zaten üretimde ya da 2026 ve 2027'de toplu dağıtım için planlandı. Bu hızlı ardışıklık, Meta'nın MTIA'nın iş yükü kapsamını önemli ölçüde genişletmesine olanak tanıdı; başlangıçtaki sıralama ve öneri (R&R) çıkarımından R&R eğitimine, genel Üretken Yapay Zeka (GenAI) iş yüklerine ve yüksek düzeyde optimize edilmiş GenAI çıkarımına doğru ilerledi.

MTIA 300: Yapay Zeka İş Yükleri İçin Temel Oluşturma

MTIA 300, Meta'nın özel silikon yolculuğunda önemli bir adımı işaret etti. Başlangıçta Meta'nın GenAI patlamasından önceki baskın iş yükleri olan R&R modelleri için optimize edilmiş mimari yapı taşları, sonraki çipler için sağlam bir temel oluşturdu. MTIA 300'ün temel ayırt edici özellikleri arasında entegre NIC çipletleri, iletişim kolektiflerini boşaltmak için özel mesaj motorları ve indirgeme tabanlı kolektifler için tasarlanmış belleğe yakın hesaplama yetenekleri bulunur. Bu düşük gecikmeli, yüksek bant genişlikli iletişim bileşenleri, sonraki nesillerde verimli GenAI çıkarımı ve eğitimi sağlamada etkili oldu.

MTIA 300, bir hesaplama çipletinden, iki ağ çipletinden ve birkaç Yüksek Bant Genişlikli Bellek (HBM) yığınından oluşur. Her hesaplama çipleti, verimi artırmak için yedek PE'lerle stratejik olarak tasarlanmış bir işleme elemanları (PE'ler) ızgarasına sahiptir. Her PE, iki RISC-V vektör çekirdeği, matris çarpımı için bir Nokta Çarpım Motoru, aktivasyonlar ve eleman bazlı işlemler için Özel Fonksiyon Birimi, birikim ve PE'ler arası iletişim için bir İndirgeme Motoru ve yerel geçici bellek içinde verimli veri hareketi için bir DMA motoru içeren sofistike bir birimdir. Bu karmaşık tasarım, Meta'nın temel yapay zeka görevleri için son derece verimli ve maliyet etkin bir çözüm yaratma taahhüdünün altını çizdi.

MTIA 400: Rekabetçi Üretken Yapay Zeka Performansı Elde Etme

Üretken Yapay Zeka'daki benzeri görülmemiş yükselişle birlikte Meta, mevcut R&R yeteneklerinin yanı sıra GenAI iş yükleri için sağlam destek sağlamak amacıyla MTIA 300'ü hızla MTIA 400'e dönüştürdü. MTIA 400, selefine göre %400 daha yüksek FP8 FLOPS ve HBM bant genişliğinde %51'lik bir artış sunarak önemli bir ilerlemeyi temsil ediyor. MTIA 300 maliyet etkinliğine odaklanırken, MTIA 400 önde gelen ticari yapay zeka hızlandırıcılarıyla rekabet edebilecek ham performans sunmak üzere tasarlandı.

Bunu, hesaplama yoğunluğunu etkin bir şekilde iki katına çıkarmak için iki hesaplama çipletini birleştirerek ve verimli GenAI çıkarımı için kritik olan MX8 ve MX4'ün geliştirilmiş sürümlerini destekleyerek başarır. Anahtarlı bir arka panel aracılığıyla birbirine bağlanan 72 MTIA 400 cihazıyla donatılmış tek bir raf, güçlü bir ölçek büyütme alanı oluşturur. Bu sistemler, gelişmiş hava destekli sıvı soğutma (AALC) rafları ile desteklenerek, eski veri merkezlerinde bile hızlı dağıtımı kolaylaştırır ve Meta'nın yapay zeka altyapısını küresel olarak ölçeklendirmeye yönelik pratik yaklaşımını sergiler.

MTIA 450 ve 500: Üretken Yapay Zeka Çıkarımı İçin Uzmanlaşmış

GenAI çıkarım talebindeki devam eden üstel büyümeyi öngören Meta, MTIA 400'ü daha da geliştirerek MTIA 450'nin ve ardından MTIA 500'ün geliştirilmesine yol açtı. Bu nesiller, GenAI çıkarımının benzersiz zorlukları için özel olarak optimize edilmiştir ve bellek ve hesaplamadaki kritik gelişmelere odaklanmaktadır.

MTIA 450 önemli adımlar attı:

  1. GenAI modellerindeki kod çözme aşamasını hızlandırmak için kritik olan HBM bant genişliğini önceki sürüme göre iki katına çıkarmak.
  2. MX4 FLOPS'u %75 artırarak, büyük dil modellerinde yaygın olan uzman karışımı (MoE) ileri beslemeli ağ (FFN) hesaplamalarını hızlandırmak.
  3. Softmax ve FlashAttention ile ilişkili darboğazları hafifleterek, dikkat ve FFN hesaplamalarını daha verimli hale getirmek için donanım hızlandırmayı tanıtmak.
  4. Düşük hassasiyetli veri tiplerinde yenilik yapmak, FP8/MX8'in ötesine geçerek FP16/BF16'nın MX4 FLOPS'unun 6 katını sunmak, model kalitesini koruyan ve minimal çip alanı etkisiyle FLOPS'u artıran özel veri tipi yenilikleriyle.

MTIA 500, 450'nin başarısının üzerine inşa ederek, HBM bant genişliğini ek %50 artırdı ve düşük hassasiyetli veri tiplerinde daha fazla yenilik sunarak Meta'nın GenAI çıkarım performansının sınırlarını zorlama taahhüdünü pekiştirdi. Bu amansız iyileştirme çabası, Meta'nın yapay zeka deneyimlerinin en ileri düzeyde kalmasını sağlıyor.

Bu nesiller boyunca elde edilen kümülatif gelişmeler çarpıcıdır. MTIA 300'den MTIA 500'e kadar HBM bant genişliği etkileyici bir şekilde 4.5 kat artarken, hesaplama FLOPS'u şaşırtıcı bir şekilde 25 kat artış gösterdi (MTIA 300'ün MX8'inden MTIA 500'ün MX4'üne). İki yıl içinde gerçekleşen bu hızlı hızlanma, Meta'nın hız stratejisinin ve özel silikonunu sürekli geliştirme yeteneğinin bir kanıtıdır. Bu evrim, ajanssal yapay zekayı işler hale getirme ve diğer karmaşık modelleri büyük ölçekte çalıştırmanın merkezindedir.

İşte MTIA ailesindeki temel özelliklerin bir dökümü:

ÖzellikMTIA 300MTIA 400MTIA 450MTIA 500
Hesaplama Kalıbı1222
HBM Yığınları4488
HBM Bant Genişliği (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Ölçek Büyütme Alan Boyutu18 devices**72 devices72 devices72 devices
Temel OptimizasyonR&R eğitimi, düşük gecikmeli iletişimGenel GenAI, rekabetçi ham performansGenAI çıkarımı, HBM, özel düşük hassasiyetGenAI çıkarımı, HBM, özel düşük hassasiyet

*Bazı satıcılar çift yönlü bant genişliği bildirir. Karşılık gelen çift yönlü bant genişliğini elde etmek için tablodaki değeri ikiyle çarpın. **MTIA 300, nispeten küçük ölçek büyütme alanı boyutu ve hedeflenen R&R iş yükleri nedeniyle daha yüksek bant genişliğine (200 GB/s) sahip bir ölçek genişletme ağı ile yapılandırılmıştır.

Bu özellikler, bellek bant genişliği ve hesaplama gücündeki dramatik iyileştirmeleri vurgulayarak, her MTIA neslinin mevcut ve gelecekteki yapay zeka uygulamalarının, özellikle de kaynak yoğun GenAI modellerinin en acil taleplerini karşılamak üzere nasıl titizlikle tasarlandığını göstermektedir.

Meta'nın MTIA ailesi aracılığıyla özel silikon çözümlerini amansızca takip etmesi, milyarlarca dünya çapındaki kullanıcıya en yeni yapay zeka deneyimlerini sunma taahhüdünün altını çizmektedir. Dahili yeniliği stratejik ortaklıklarla birleştirerek Meta, ölçeklenebilir ve maliyet etkin yapay zeka altyapısının imkanlarını yeniden tanımlamaya devam ediyor.

Sık Sorulan Sorular

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Güncel Kalın

En son yapay zeka haberlerini e-postanıza alın.

Paylaş