Code Velocity
Корпоративный ИИ

Чипы Meta MTIA масштабируют ИИ для миллиардов пользователей

·7 мин чтения·Meta·Первоисточник
Поделиться
Чипы ИИ Meta MTIA на серверной плате в стойке центра обработки данных

Масштабирование возможностей ИИ с помощью чипов MTIA от Meta

Ежедневно миллиарды людей на различных платформах Meta взаимодействуют с множеством функций на базе ИИ, от персонализированных рекомендаций контента до продвинутых ИИ-ассистентов. Основная задача для Meta, да и для всей индустрии, заключается в развертывании и постоянном улучшении этих сложных моделей ИИ в глобальном масштабе, при этом сохраняя оптимальную экономическую эффективность. Эта сложная инфраструктурная задача решается благодаря стратегическим инвестициям Meta в гибкие, постоянно развивающиеся решения, центральное место среди которых занимают их специализированные чипы ИИ: семейство Meta Training and Inference Accelerator (MTIA).

Приверженная разнообразному портфолио кремниевых решений, использующему как внутренние, так и внешние разработки, Meta производит чипы MTIA, разработанные в тесном партнерстве с Broadcom, которые являются незаменимым компонентом стратегии Meta в области ИИ-инфраструктуры. Эти собственные ускорители имеют решающее значение для экономически эффективного обеспечения работы ИИ-функций, которыми пользуются миллиарды людей, постоянно адаптируясь к быстро меняющемуся ландшафту моделей ИИ.

Итеративная эволюция чипов MTIA от Meta

Ландшафт моделей ИИ находится в состоянии постоянного изменения, развиваясь темпами, которые часто превосходят традиционные циклы разработки чипов. Признавая, что конструкции чипов, основанные на прогнозируемых рабочих нагрузках, могут устареть к моменту выхода аппаратного обеспечения в производство, Meta приняла инновационную «стратегию скорости» для MTIA. Вместо длительных, спекулятивных периодов разработки Meta применяет итеративный подход, при котором каждое поколение MTIA строится на основе предыдущего. Это включает использование модульных чиплетов, учет новейших данных о рабочих нагрузках ИИ и внедрение новых аппаратных технологий с значительно более короткой периодичностью. Эта более тесная обратная связь гарантирует, что специализированный кремний Meta остается тесно согласованным с динамичными требованиями моделей ИИ, способствуя более быстрому внедрению новых достижений.

Meta уже подробно описала первые два поколения, MTIA 100 и MTIA 200, в академических работах. Опираясь на эту основу, Meta ускорила разработку, чтобы представить четыре новых последовательных поколения: MTIA 300, 400, 450 и 500. Эти чипы либо уже находятся в производстве, либо запланированы к массовому развертыванию в 2026 и 2027 годах. Такая быстрая смена поколений позволила Meta значительно расширить область применения MTIA, перейдя от первоначального инференса ранжирования и рекомендаций (R&R) к обучению R&R, общим рабочим нагрузкам генеративного ИИ (GenAI) и высокооптимизированному инференсу GenAI.

MTIA 300: Закладывая основу для рабочих нагрузок ИИ

MTIA 300 ознаменовал собой переломный момент в развитии специализированного кремния Meta. Изначально оптимизированный для моделей R&R, которые были доминирующими рабочими нагрузками Meta до бурного развития GenAI, его архитектурные блоки заложили прочную основу для последующих чипов. Отличительные особенности MTIA 300 включают интегрированные чиплеты NIC, выделенные движки сообщений для разгрузки коммуникационных коллективов и возможности вычислений вблизи памяти, разработанные для коллективов на основе редукции. Эти компоненты связи с низкой задержкой и высокой пропускной способностью оказались инструментальными в обеспечении эффективного инференса и обучения GenAI в последующих поколениях.

MTIA 300 состоит из одного вычислительного чиплета, двух сетевых чиплетов и нескольких стеков памяти с высокой пропускной способностью (HBM). Каждый вычислительный чиплет содержит сетку процессорных элементов (PE), стратегически разработанную с резервными PE для повышения выхода годных кристаллов. Каждый PE представляет собой сложный блок, содержащий два векторных ядра RISC-V, движок точечного произведения для умножения матриц, специальный функциональный блок для активаций и поэлементных операций, движок редукции для накопления и межпроцессорной связи, а также движок DMA для эффективного перемещения данных в локальной кэш-памяти. Этот сложный дизайн подчеркивает приверженность Meta созданию высокоэффективного и экономически выгодного решения для своих основных задач ИИ.

MTIA 400: Достижение конкурентоспособной производительности GenAI

С беспрецедентным ростом генеративного ИИ Meta быстро развила MTIA 300 в MTIA 400, чтобы обеспечить надежную поддержку рабочих нагрузок GenAI наряду с существующими возможностями R&R. MTIA 400 представляет собой значительный скачок, предлагая на 400% больше операций FP8 FLOPS и увеличение пропускной способности HBM на 51% по сравнению со своим предшественником. В то время как MTIA 300 сосредоточился на экономической эффективности, MTIA 400 был разработан для обеспечения чистой производительности, конкурентоспособной с ведущими коммерческими ускорителями ИИ.

Это достигается за счет объединения двух вычислительных чиплетов для эффективного удвоения вычислительной плотности и поддержки улучшенных версий MX8 и MX4, критически важных форматов низкой точности для эффективного инференса GenAI. Одна стойка, оснащенная 72 устройствами MTIA 400, соединенными через коммутируемую объединительную плату, образует мощный домен масштабирования. Эти системы поддерживаются передовыми стойками с жидкостным охлаждением с воздушной поддержкой (AALC), что облегчает быстрое развертывание даже в устаревших центрах обработки данных, демонстрируя практический подход Meta к глобальному масштабированию своей ИИ-инфраструктуры.

MTIA 450 и 500: Специализированы для инференса GenAI

Предвидя продолжающийся экспоненциальный рост спроса на инференс GenAI, Meta усовершенствовала MTIA 400, что привело к разработке MTIA 450, а затем и MTIA 500. Эти поколения специально оптимизированы для уникальных задач инференса GenAI, сосредоточив внимание на критически важных достижениях в области памяти и вычислений.

MTIA 450 достиг значительных успехов благодаря:

  1. Удвоению пропускной способности HBM по сравнению с предыдущей версией, что критически важно для ускорения фазы декодирования в моделях GenAI.
  2. Увеличению MX4 FLOPS на 75%, ускоряя вычисления сетей прямого распространения (FFN) типа "смесь экспертов" (MoE), распространенные в больших языковых моделях.
  3. Внедрению аппаратного ускорения для повышения эффективности вычислений внимания и FFN, что устраняет узкие места, связанные с Softmax и FlashAttention.
  4. Инновациям в типах данных с низкой точностью, выходя за рамки FP8/MX8, чтобы обеспечить в 6 раз больше MX4 FLOPS, чем FP16/BF16, с пользовательскими инновациями в типах данных, которые сохраняют качество модели и увеличивают FLOPS с минимальным влиянием на площадь чипа.

MTIA 500, развивая успех 450-й серии, дополнительно увеличил пропускную способность HBM ещё на 50% и представил больше инноваций в типах данных с низкой точностью, подтверждая приверженность Meta расширению границ производительности инференса GenAI. Это неустанное стремление к совершенствованию гарантирует, что ИИ-возможности Meta остаются на передовом уровне.

Совокупные достижения по этим поколениям разительны. От MTIA 300 до MTIA 500 пропускная способность HBM увеличилась впечатляюще в 4,5 раза, а вычислительная мощность FLOPS показала поразительный 25-кратный рост (от MX8 в MTIA 300 до MX4 в MTIA 500). Это быстрое ускорение в течение двух лет является свидетельством «стратегии скорости» Meta и ее способности постоянно улучшать свой специализированный кремний. Эта эволюция является центральной для внедрения агентского ИИ и других сложных моделей в масштабе.

Вот разбивка ключевых спецификаций семейства MTIA:

FeatureMTIA 300MTIA 400MTIA 450MTIA 500
Compute Die1222
HBM Stacks4488
HBM Bandwidth (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
Scale-up Domain Size18 devices**72 devices72 devices72 devices
Key OptimizationR&R training, low-latency communicationGeneral GenAI, competitive raw perf.GenAI inference, HBM, custom low-prec.GenAI inference, HBM, custom low-prec.

*Некоторые поставщики сообщают двунаправленную пропускную способность. Умножьте значение в таблице на два, чтобы получить соответствующую двунаправленную пропускную способность. **MTIA 300 настроен с сетью масштабирования с более высокой пропускной способностью (200 ГБ/с) из-за относительно небольшого размера домена масштабирования и целевых рабочих нагрузок R&R.

Эти спецификации подчеркивают значительные улучшения в пропускной способности памяти и вычислительной мощности, демонстрируя, как каждое поколение MTIA тщательно спроектировано для удовлетворения самых насущных требований текущих и будущих ИИ-приложений, в особенности ресурсоемких моделей GenAI.

Неустанное стремление Meta к разработке пользовательских кремниевых решений через семейство MTIA подчеркивает ее приверженность предоставлению передовых ИИ-возможностей миллиардам пользователей по всему миру. Сочетая внутренние инновации со стратегическими партнерствами, Meta продолжает переосмысливать возможности масштабируемой и экономически эффективной ИИ-инфраструктуры.

Часто задаваемые вопросы

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Будьте в курсе

Получайте последние новости ИИ на почту.

Поделиться