Масштабирование возможностей ИИ с помощью чипов MTIA от Meta
Ежедневно миллиарды людей на различных платформах Meta взаимодействуют с множеством функций на базе ИИ, от персонализированных рекомендаций контента до продвинутых ИИ-ассистентов. Основная задача для Meta, да и для всей индустрии, заключается в развертывании и постоянном улучшении этих сложных моделей ИИ в глобальном масштабе, при этом сохраняя оптимальную экономическую эффективность. Эта сложная инфраструктурная задача решается благодаря стратегическим инвестициям Meta в гибкие, постоянно развивающиеся решения, центральное место среди которых занимают их специализированные чипы ИИ: семейство Meta Training and Inference Accelerator (MTIA).
Приверженная разнообразному портфолио кремниевых решений, использующему как внутренние, так и внешние разработки, Meta производит чипы MTIA, разработанные в тесном партнерстве с Broadcom, которые являются незаменимым компонентом стратегии Meta в области ИИ-инфраструктуры. Эти собственные ускорители имеют решающее значение для экономически эффективного обеспечения работы ИИ-функций, которыми пользуются миллиарды людей, постоянно адаптируясь к быстро меняющемуся ландшафту моделей ИИ.
Итеративная эволюция чипов MTIA от Meta
Ландшафт моделей ИИ находится в состоянии постоянного изменения, развиваясь темпами, которые часто превосходят традиционные циклы разработки чипов. Признавая, что конструкции чипов, основанные на прогнозируемых рабочих нагрузках, могут устареть к моменту выхода аппаратного обеспечения в производство, Meta приняла инновационную «стратегию скорости» для MTIA. Вместо длительных, спекулятивных периодов разработки Meta применяет итеративный подход, при котором каждое поколение MTIA строится на основе предыдущего. Это включает использование модульных чиплетов, учет новейших данных о рабочих нагрузках ИИ и внедрение новых аппаратных технологий с значительно более короткой периодичностью. Эта более тесная обратная связь гарантирует, что специализированный кремний Meta остается тесно согласованным с динамичными требованиями моделей ИИ, способствуя более быстрому внедрению новых достижений.
Meta уже подробно описала первые два поколения, MTIA 100 и MTIA 200, в академических работах. Опираясь на эту основу, Meta ускорила разработку, чтобы представить четыре новых последовательных поколения: MTIA 300, 400, 450 и 500. Эти чипы либо уже находятся в производстве, либо запланированы к массовому развертыванию в 2026 и 2027 годах. Такая быстрая смена поколений позволила Meta значительно расширить область применения MTIA, перейдя от первоначального инференса ранжирования и рекомендаций (R&R) к обучению R&R, общим рабочим нагрузкам генеративного ИИ (GenAI) и высокооптимизированному инференсу GenAI.
MTIA 300: Закладывая основу для рабочих нагрузок ИИ
MTIA 300 ознаменовал собой переломный момент в развитии специализированного кремния Meta. Изначально оптимизированный для моделей R&R, которые были доминирующими рабочими нагрузками Meta до бурного развития GenAI, его архитектурные блоки заложили прочную основу для последующих чипов. Отличительные особенности MTIA 300 включают интегрированные чиплеты NIC, выделенные движки сообщений для разгрузки коммуникационных коллективов и возможности вычислений вблизи памяти, разработанные для коллективов на основе редукции. Эти компоненты связи с низкой задержкой и высокой пропускной способностью оказались инструментальными в обеспечении эффективного инференса и обучения GenAI в последующих поколениях.
MTIA 300 состоит из одного вычислительного чиплета, двух сетевых чиплетов и нескольких стеков памяти с высокой пропускной способностью (HBM). Каждый вычислительный чиплет содержит сетку процессорных элементов (PE), стратегически разработанную с резервными PE для повышения выхода годных кристаллов. Каждый PE представляет собой сложный блок, содержащий два векторных ядра RISC-V, движок точечного произведения для умножения матриц, специальный функциональный блок для активаций и поэлементных операций, движок редукции для накопления и межпроцессорной связи, а также движок DMA для эффективного перемещения данных в локальной кэш-памяти. Этот сложный дизайн подчеркивает приверженность Meta созданию высокоэффективного и экономически выгодного решения для своих основных задач ИИ.
MTIA 400: Достижение конкурентоспособной производительности GenAI
С беспрецедентным ростом генеративного ИИ Meta быстро развила MTIA 300 в MTIA 400, чтобы обеспечить надежную поддержку рабочих нагрузок GenAI наряду с существующими возможностями R&R. MTIA 400 представляет собой значительный скачок, предлагая на 400% больше операций FP8 FLOPS и увеличение пропускной способности HBM на 51% по сравнению со своим предшественником. В то время как MTIA 300 сосредоточился на экономической эффективности, MTIA 400 был разработан для обеспечения чистой производительности, конкурентоспособной с ведущими коммерческими ускорителями ИИ.
Это достигается за счет объединения двух вычислительных чиплетов для эффективного удвоения вычислительной плотности и поддержки улучшенных версий MX8 и MX4, критически важных форматов низкой точности для эффективного инференса GenAI. Одна стойка, оснащенная 72 устройствами MTIA 400, соединенными через коммутируемую объединительную плату, образует мощный домен масштабирования. Эти системы поддерживаются передовыми стойками с жидкостным охлаждением с воздушной поддержкой (AALC), что облегчает быстрое развертывание даже в устаревших центрах обработки данных, демонстрируя практический подход Meta к глобальному масштабированию своей ИИ-инфраструктуры.
MTIA 450 и 500: Специализированы для инференса GenAI
Предвидя продолжающийся экспоненциальный рост спроса на инференс GenAI, Meta усовершенствовала MTIA 400, что привело к разработке MTIA 450, а затем и MTIA 500. Эти поколения специально оптимизированы для уникальных задач инференса GenAI, сосредоточив внимание на критически важных достижениях в области памяти и вычислений.
MTIA 450 достиг значительных успехов благодаря:
- Удвоению пропускной способности HBM по сравнению с предыдущей версией, что критически важно для ускорения фазы декодирования в моделях GenAI.
- Увеличению MX4 FLOPS на 75%, ускоряя вычисления сетей прямого распространения (FFN) типа "смесь экспертов" (MoE), распространенные в больших языковых моделях.
- Внедрению аппаратного ускорения для повышения эффективности вычислений внимания и FFN, что устраняет узкие места, связанные с Softmax и FlashAttention.
- Инновациям в типах данных с низкой точностью, выходя за рамки FP8/MX8, чтобы обеспечить в 6 раз больше MX4 FLOPS, чем FP16/BF16, с пользовательскими инновациями в типах данных, которые сохраняют качество модели и увеличивают FLOPS с минимальным влиянием на площадь чипа.
MTIA 500, развивая успех 450-й серии, дополнительно увеличил пропускную способность HBM ещё на 50% и представил больше инноваций в типах данных с низкой точностью, подтверждая приверженность Meta расширению границ производительности инференса GenAI. Это неустанное стремление к совершенствованию гарантирует, что ИИ-возможности Meta остаются на передовом уровне.
Совокупные достижения по этим поколениям разительны. От MTIA 300 до MTIA 500 пропускная способность HBM увеличилась впечатляюще в 4,5 раза, а вычислительная мощность FLOPS показала поразительный 25-кратный рост (от MX8 в MTIA 300 до MX4 в MTIA 500). Это быстрое ускорение в течение двух лет является свидетельством «стратегии скорости» Meta и ее способности постоянно улучшать свой специализированный кремний. Эта эволюция является центральной для внедрения агентского ИИ и других сложных моделей в масштабе.
Вот разбивка ключевых спецификаций семейства MTIA:
| Feature | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Compute Die | 1 | 2 | 2 | 2 |
| HBM Stacks | 4 | 4 | 8 | 8 |
| HBM Bandwidth (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | N/A | 200 | 350 | 500 |
| Scale-up Domain Size | 18 devices** | 72 devices | 72 devices | 72 devices |
| Key Optimization | R&R training, low-latency communication | General GenAI, competitive raw perf. | GenAI inference, HBM, custom low-prec. | GenAI inference, HBM, custom low-prec. |
*Некоторые поставщики сообщают двунаправленную пропускную способность. Умножьте значение в таблице на два, чтобы получить соответствующую двунаправленную пропускную способность. **MTIA 300 настроен с сетью масштабирования с более высокой пропускной способностью (200 ГБ/с) из-за относительно небольшого размера домена масштабирования и целевых рабочих нагрузок R&R.
Эти спецификации подчеркивают значительные улучшения в пропускной способности памяти и вычислительной мощности, демонстрируя, как каждое поколение MTIA тщательно спроектировано для удовлетворения самых насущных требований текущих и будущих ИИ-приложений, в особенности ресурсоемких моделей GenAI.
Неустанное стремление Meta к разработке пользовательских кремниевых решений через семейство MTIA подчеркивает ее приверженность предоставлению передовых ИИ-возможностей миллиардам пользователей по всему миру. Сочетая внутренние инновации со стратегическими партнерствами, Meta продолжает переосмысливать возможности масштабируемой и экономически эффективной ИИ-инфраструктуры.
Часто задаваемые вопросы
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Будьте в курсе
Получайте последние новости ИИ на почту.
