What are Meta MTIA chips and what is their purpose?

Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.

How many generations of MTIA chips has Meta developed in recent years?

Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.

What is Meta's 'velocity strategy' for AI chip development?

Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.

How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?

As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.

What are the key performance advancements from MTIA 300 to MTIA 500?

The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.

Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?

High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

تراشه‌های MTIA متا، هوش مصنوعی را برای میلیاردها نفر توسعه می‌دهند

توسعه تجربیات هوش مصنوعی با تراشه‌های MTIA متا

هر روز، میلیاردها نفر در سراسر پلتفرم‌های متنوع متا با مجموعه‌ای از ویژگی‌های مبتنی بر هوش مصنوعی، از توصیه‌های محتوای شخصی‌سازی‌شده گرفته تا دستیاران هوش مصنوعی پیشرفته، تعامل دارند. چالش اصلی برای متا و در واقع برای صنعت، در استقرار و بهبود مستمر این مدل‌های پیچیده هوش مصنوعی در مقیاس جهانی، ضمن حفظ کارایی هزینه بهینه، نهفته است. این وظیفه زیرساختی پرتقاضا با سرمایه‌گذاری استراتژیک متا در راه‌حل‌های انعطاف‌پذیر و در حال تکامل مداوم، که محور اصلی آن‌ها تراشه‌های هوش مصنوعی سفارشی‌سازی شده‌اش: خانواده Meta Training and Inference Accelerator (MTIA) هستند، برآورده می‌شود.

در حالی که متا به سبد متنوعی از سیلیکون متعهد است که از راه‌حل‌های داخلی و خارجی بهره می‌برد، تراشه‌های MTIA که با همکاری نزدیک با Broadcom توسعه یافته‌اند، جزء لاینفک استراتژی زیرساخت هوش مصنوعی متا هستند. این شتاب‌دهنده‌های بومی برای تامین انرژی مقرون‌به‌صرفه تجربیات هوش مصنوعی که به میلیاردها نفر می‌رسد، و انطباق مداوم با چشم‌انداز سریع در حال تحول مدل‌های هوش مصنوعی، حیاتی هستند.

تکامل تکرار شونده تراشه‌های MTIA متا

چشم‌انداز مدل‌های هوش مصنوعی در حال تغییر دائمی است و با سرعتی تکامل می‌یابد که اغلب از چرخه‌های سنتی توسعه تراشه پیشی می‌گیرد. متا با درک این موضوع که طراحی تراشه‌ها بر اساس بارهای کاری پیش‌بینی‌شده ممکن است تا زمان رسیدن سخت‌افزار به تولید منسوخ شوند، یک "استراتژی سرعت" نوآورانه را برای MTIA در پیش گرفته است. به جای دوره‌های توسعه طولانی و گمانه‌زنی، متا رویکردی تکرار شونده را اتخاذ می‌کند که در آن هر نسل MTIA بر اساس نسل قبلی ساخته می‌شود. این شامل استفاده از چیپلت‌های ماژولار، ادغام آخرین بینش‌ها در مورد بارهای کاری هوش مصنوعی و استقرار فناوری‌های سخت‌افزاری جدید در یک ریتم به طور قابل توجهی کوتاه‌تر است. این حلقه بازخورد محکم‌تر تضمین می‌کند که سیلیکون سفارشی متا با نیازهای پویا مدل‌های هوش مصنوعی همسو باقی می‌ماند و پذیرش سریع‌تر پیشرفت‌های جدید را تقویت می‌کند.

متا قبلاً دو نسل اول، MTIA 100 و MTIA 200 را در مقالات آکادمیک شرح داده است. بر اساس این پایه، متا توسعه را تسریع بخشیده تا چهار نسل متوالی جدید را معرفی کند: MTIA 300، 400، 450 و 500. این تراشه‌ها یا در حال تولید هستند یا برای استقرار انبوه در سال‌های 2026 و 2027 برنامه‌ریزی شده‌اند. این توالی سریع به متا اجازه داده است تا پوشش بارهای کاری MTIA را به طور قابل توجهی گسترش دهد، از استنتاج اولیه رتبه‌بندی و توصیه (R&R) به آموزش R&R، بارهای کاری عمومی هوش مصنوعی مولد (GenAI) و استنتاج GenAI بسیار بهینه شده منتقل شود.

MTIA 300: پایه و اساس بارهای کاری هوش مصنوعی را می‌گذارد

MTIA 300 گامی محوری در مسیر سیلیکون سفارشی متا بود. این تراشه که در ابتدا برای مدل‌های R&R بهینه شده بود (که قبل از رونق GenAI، بارهای کاری غالب متا بودند)، بلوک‌های ساختاری معماری آن، پایه‌ای محکم برای تراشه‌های بعدی ایجاد کرد. ویژگی‌های متمایز کننده MTIA 300 شامل چیپلت‌های NIC یکپارچه، موتورهای پیام اختصاصی برای تخلیه مجموعه‌های ارتباطی، و قابلیت‌های محاسباتی نزدیک به حافظه است که برای مجموعه‌های مبتنی بر کاهش طراحی شده‌اند. این اجزای ارتباطی با تأخیر کم و پهنای باند بالا در فعال‌سازی استنتاج و آموزش کارآمد GenAI در نسل‌های بعدی، نقش مهمی ایفا کردند.

MTIA 300 شامل یک چیپلت محاسباتی، دو چیپلت شبکه و چندین پشته حافظه با پهنای باند بالا (HBM) است. هر چیپلت محاسباتی دارای شبکه‌ای از عناصر پردازشی (PEs) است که به صورت استراتژیک با PEs اضافی برای افزایش بازدهی طراحی شده‌اند. هر PE یک واحد پیچیده است که شامل دو هسته برداری RISC-V، یک موتور ضرب نقطه‌ای برای ضرب ماتریس، یک واحد عملکرد ویژه برای فعال‌سازی‌ها و عملیات عنصر به عنصر، یک موتور کاهش برای انباشت و ارتباط بین PEs، و یک موتور DMA برای حرکت کارآمد داده در حافظه موقت محلی است. این طراحی پیچیده بر تعهد متا به ایجاد یک راه‌حل بسیار کارآمد و مقرون‌به‌صرفه برای وظایف اصلی هوش مصنوعی خود تأکید می‌کند.

MTIA 400: دستیابی به عملکرد رقابتی GenAI

با افزایش بی‌سابقه هوش مصنوعی مولد، متا به سرعت MTIA 300 را به MTIA 400 تکامل داد تا پشتیبانی قوی از بارهای کاری GenAI را در کنار قابلیت‌های موجود R&R خود فراهم کند. MTIA 400 نشان‌دهنده یک جهش قابل توجه است که 400% FP8 FLOPS بالاتر و 51% افزایش در پهنای باند HBM را در مقایسه با نسل قبلی خود ارائه می‌دهد. در حالی که MTIA 300 بر کارایی هزینه متمرکز بود، MTIA 400 برای ارائه عملکرد خام رقابتی با شتاب‌دهنده‌های هوش مصنوعی تجاری پیشرو طراحی شد.

این امر با ترکیب دو چیپلت محاسباتی برای دو برابر کردن مؤثر چگالی محاسباتی و با پشتیبانی از نسخه‌های پیشرفته MX8 و MX4، فرمت‌های حیاتی با دقت پایین برای استنتاج کارآمد GenAI، حاصل می‌شود. یک رک واحد مجهز به 72 دستگاه MTIA 400، که از طریق یک بک‌پلین سوئیچ‌شده به هم متصل شده‌اند، یک دامنه قدرتمند مقیاس‌پذیری را تشکیل می‌دهد. این سیستم‌ها توسط رک‌های پیشرفته خنک‌کننده مایع با کمک هوا (AALC) پشتیبانی می‌شوند که استقرار سریع را حتی در مراکز داده قدیمی تسهیل می‌کند و رویکرد عملی متا را برای مقیاس‌گذاری زیرساخت هوش مصنوعی خود در سطح جهانی به نمایش می‌گذارد.

MTIA 450 و 500: تخصصی‌شده برای استنتاج GenAI

متا با پیش‌بینی رشد تصاعدی مداوم در تقاضای استنتاج GenAI، MTIA 400 را بیشتر اصلاح کرد که منجر به توسعه MTIA 450 و متعاقباً MTIA 500 شد. این نسل‌ها به طور خاص برای چالش‌های منحصر به فرد استنتاج GenAI، با تمرکز بر پیشرفت‌های حیاتی در حافظه و محاسبات، بهینه شده‌اند.

MTIA 450 با انجام موارد زیر گام‌های بلندی برداشت:

دو برابر کردن پهنای باند HBM نسبت به نسخه قبلی، که برای تسریع مرحله رمزگشایی در مدل‌های GenAI حیاتی است.
افزایش 75 درصدی MX4 FLOPS، تسریع محاسبات شبکه پیش‌خور (FFN) ترکیب متخصصین (MoE) که در مدل‌های زبانی بزرگ رایج هستند.
معرفی شتاب‌دهنده سخت‌افزاری برای کارآمدتر کردن محاسبات توجه و FFN، و رفع تنگناهای مرتبط با Softmax و FlashAttention.
نوآوری در انواع داده با دقت پایین، فراتر رفتن از FP8/MX8 برای ارائه 6 برابر MX4 FLOPS نسبت به FP16/BF16، با نوآوری‌های سفارشی در نوع داده که کیفیت مدل را حفظ کرده و FLOPS را با حداقل تأثیر بر مساحت تراشه افزایش می‌دهد.

MTIA 500، با تکیه بر موفقیت 450، پهنای باند HBM را 50% دیگر افزایش داد و نوآوری‌های بیشتری در انواع داده با دقت پایین معرفی کرد، که تعهد متا به پیشبرد مرزهای عملکرد استنتاج GenAI را تقویت می‌کند. این تلاش بی‌وقفه برای بهبود تضمین می‌کند که تجربیات هوش مصنوعی متا در خط مقدم باقی بمانند.

پیشرفت‌های تجمعی در این نسل‌ها بسیار چشمگیر است. از MTIA 300 تا MTIA 500، پهنای باند HBM 4.5 برابر افزایش یافته است، در حالی که FLOPS محاسباتی 25 برابر افزایش خیره‌کننده‌ای داشته است (از MX8 در MTIA 300 به MX4 در MTIA 500). این شتاب سریع در عرض دو سال گواهی بر استراتژی سرعت متا و توانایی آن در ارتقای مستمر سیلیکون سفارشی خود است. این تکامل برای عملیاتی کردن هوش مصنوعی عامل‌گرا و سایر مدل‌های پیچیده در مقیاس وسیع، محوری است.

در اینجا تفکیکی از مشخصات کلیدی در خانواده MTIA آورده شده است:

ویژگی	MTIA 300	MTIA 400	MTIA 450	MTIA 500
هسته محاسباتی	1	2	2	2
پشته‌های HBM	4	4	8	8
پهنای باند HBM (GB/s)*	100	151	302	453
MX8 FLOPS (TFLOPS)	100	400	400	400
MX4 FLOPS (TFLOPS)	N/A	200	350	500
اندازه دامنه مقیاس‌پذیری	18 دستگاه**	72 دستگاه	72 دستگاه	72 دستگاه
بهینه‌سازی کلیدی	آموزش R&R، ارتباطات با تأخیر کم	GenAI عمومی، عملکرد خام رقابتی	استنتاج GenAI، HBM، دقت پایین سفارشی	استنتاج GenAI، HBM، دقت پایین سفارشی

*برخی از فروشندگان پهنای باند دوطرفه را گزارش می‌دهند. برای به دست آوردن پهنای باند دوطرفه مربوطه، مقدار موجود در جدول را در دو ضرب کنید. **MTIA 300 به دلیل اندازه دامنه مقیاس‌پذیری نسبتاً کوچک و بارهای کاری هدف R&R، با یک شبکه مقیاس‌پذیر با پهنای باند بالاتر (200 گیگابایت بر ثانیه) پیکربندی شده است.

تلاش بی‌وقفه متا برای یافتن راه‌حل‌های سیلیکونی سفارشی از طریق خانواده MTIA، تعهد این شرکت به ارائه تجربیات پیشرفته هوش مصنوعی به میلیاردها کاربر در سراسر جهان را نشان می‌دهد. متا با ترکیب نوآوری داخلی با همکاری‌های استراتژیک، همچنان به بازتعریف امکانات زیرساخت هوش مصنوعی مقیاس‌پذیر و مقرون‌به‌صرفه ادامه می‌دهد.