Code Velocity
Корпоративний ШІ

Чіпи Meta MTIA масштабують ШІ для мільярдів

·7 хв читання·Meta·Першоджерело
Поділитися
Чіпи ШІ Meta MTIA на серверній платі в стійці центру обробки даних

Масштабування можливостей ШІ за допомогою чіпів MTIA від Meta

Щодня мільярди людей на різних платформах Meta взаємодіють з безліччю функцій, що працюють на основі ШІ, від персоналізованих рекомендацій контенту до передових асистентів ШІ. Основна проблема для Meta, та й для галузі в цілому, полягає в розгортанні та постійному вдосконаленні цих складних моделей ШІ у глобальному масштабі, зберігаючи при цьому оптимальну економічну ефективність. Це складне інфраструктурне завдання вирішується за допомогою стратегічних інвестицій Meta у гнучкі, постійно розвиваючі рішення, центральне місце серед яких займають їхні власні чіпи ШІ: сімейство Meta Training and Inference Accelerator (MTIA).

Хоча Meta прагне до різноманітного портфоліо мікросхем, що використовує як внутрішні, так і зовнішні рішення, чіпи MTIA, розроблені у тісному партнерстві з Broadcom, є незамінним компонентом стратегії інфраструктури ШІ Meta. Ці власні прискорювачі мають вирішальне значення для економічно ефективного забезпечення можливостей ШІ, які охоплюють мільярди користувачів, постійно адаптуючись до швидко мінливого ландшафту моделей ШІ.

Ітеративна еволюція чіпів MTIA від Meta

Ландшафт моделей ШІ перебуває у стані постійних змін, розвиваючись зі швидкістю, яка часто випереджає традиційні цикли розробки чіпів. Визнаючи, що конструкції чіпів, засновані на прогнозованих робочих навантаженнях, можуть застаріти до моменту випуску апаратного забезпечення, Meta прийняла інноваційну "стратегію швидкості" для MTIA. Замість тривалих, спекулятивних періодів розробки, Meta застосовує ітеративний підхід, де кожне покоління MTIA ґрунтується на попередньому. Це передбачає використання модульних чіплетів, включення останніх знань про робочі навантаження ШІ та розгортання нових апаратних технологій зі значно коротшою періодичністю. Цей тісніший цикл зворотного зв'язку гарантує, що власні мікросхеми Meta залишаються тісно узгодженими з динамічними вимогами моделей ШІ, сприяючи швидшому впровадженню нових досягнень.

Meta вже докладно описала перші два покоління, MTIA 100 та MTIA 200, у наукових працях. Спираючись на цю основу, Meta прискорила розробку, щоб представити чотири нові послідовні покоління: MTIA 300, 400, 450 та 500. Ці чіпи вже перебувають у виробництві або заплановані до масового розгортання у 2026 та 2027 роках. Ця швидка послідовність дозволила Meta значно розширити охоплення робочих навантажень MTIA, перейшовши від початкового інференсу ранжування та рекомендацій (R&R) до навчання R&R, загальних робочих навантажень Генеративного ШІ (GenAI) та високооптимізованого інференсу GenAI.

MTIA 300: Закладення основи для робочих навантажень ШІ

MTIA 300 ознаменував поворотний крок у розвитку власних мікросхем Meta. Спочатку оптимізований для моделей R&R, які були домінуючими робочими навантаженнями Meta до буму GenAI, його архітектурні блоки заклали міцну основу для подальших чіпів. Ключові відмінні риси MTIA 300 включають інтегровані чіплети NIC, виділені механізми обміну повідомленнями для розвантаження комунікаційних колективів та обчислювальні можливості поблизу пам'яті, розроблені для колективів, що базуються на редукції. Ці компоненти зв'язку з низькою затримкою та високою пропускною здатністю виявилися інструментальними для забезпечення ефективного інференсу та навчання GenAI у наступних поколіннях.

MTIA 300 складається з одного обчислювального чіплета, двох мережевих чіплетів та кількох стеків High-Bandwidth Memory (HBM). Кожен обчислювальний чіплет має сітку обчислювальних елементів (PE), стратегічно розроблених з надлишковими PE для підвищення виходу продукції. Кожен PE є складною одиницею, що містить два векторні ядра RISC-V, Dot Product Engine для множення матриць, Special Function Unit для активацій та поелементних операцій, Reduction Engine для акумулювання та між-PE зв'язку, а також DMA engine для ефективного переміщення даних у локальній скретч-пам'яті. Цей складний дизайн підкреслив прагнення Meta створити високоефективне та економічно вигідне рішення для своїх основних завдань ШІ.

MTIA 400: Досягнення конкурентної продуктивності GenAI

З безпрецедентним зростанням Генеративного ШІ, Meta швидко розвинула MTIA 300 до MTIA 400, щоб забезпечити надійну підтримку робочих навантажень GenAI поряд зі своїми існуючими можливостями R&R. MTIA 400 являє собою значний стрибок, пропонуючи на 400% вищий показник FP8 FLOPS та збільшення пропускної здатності HBM на 51% порівняно зі своїм попередником. Якщо MTIA 300 зосереджувався на економічній ефективності, то MTIA 400 був розроблений для забезпечення сирої продуктивності, конкурентоспроможної з провідними комерційними прискорювачами ШІ.

Цього досягається завдяки поєднанню двох обчислювальних чіплетів для ефективного подвоєння обчислювальної щільності та підтримці покращених версій MX8 та MX4 – ключових форматів низької точності для ефективного інференсу GenAI. Єдина стійка, оснащена 72 пристроями MTIA 400, з'єднаними через комутовану об'єднувальну плату, утворює потужний домен масштабування. Ці системи підтримуються вдосконаленими стійками з рідинним охолодженням з повітряним піддувом (AALC), що сприяє швидкому розгортанню навіть у застарілих центрах обробки даних, демонструючи практичний підхід Meta до глобального масштабування своєї інфраструктури ШІ.

MTIA 450 та 500: Спеціалізовані для інференсу GenAI

Очікуючи подальшого експоненціального зростання попиту на інференс GenAI, Meta додатково вдосконалила MTIA 400, що призвело до розробки MTIA 450, а згодом і MTIA 500. Ці покоління спеціально оптимізовані для унікальних викликів інференсу GenAI, зосереджуючись на критично важливих досягненнях у сфері пам'яті та обчислень.

MTIA 450 зробив значні кроки вперед завдяки:

  1. Подвоєння пропускної здатності HBM порівняно з попередньою версією, що має вирішальне значення для прискорення фази декодування в моделях GenAI.
  2. Збільшення MX4 FLOPS на 75%, прискорюючи обчислення прямої мережі (FFN) з архітектурою "суміш експертів" (MoE), поширені у великих мовних моделях.
  3. Впровадження апаратного прискорення для підвищення ефективності обчислень уваги та FFN, усуваючи вузькі місця, пов'язані з Softmax та FlashAttention.
  4. Інновації у типах даних низької точності, виходячи за рамки FP8/MX8, щоб забезпечити 6-кратне збільшення MX4 FLOPS порівняно з FP16/BF16, з користувацькими інноваціями типів даних, які зберігають якість моделі та збільшують FLOPS з мінімальним впливом на площу чіпа.

MTIA 500, ґрунтуючись на успіху 450-ї версії, ще більше збільшив пропускну здатність HBM на додаткові 50% та представив більше інновацій у типах даних низької точності, підтверджуючи прагнення Meta розширювати межі продуктивності інференсу GenAI. Це невпинне прагнення до вдосконалення гарантує, що можливості ШІ Meta залишаються на передовому рівні.

Сукупні досягнення цих поколінь вражають. Від MTIA 300 до MTIA 500 пропускна здатність HBM зросла на вражаючі 4,5 рази, тоді як обчислювальні FLOPS збільшилися в приголомшливі 25 разів (від MX8 MTIA 300 до MX4 MTIA 500). Це швидке прискорення протягом двох років є свідченням стратегії швидкості Meta та її здатності постійно вдосконалювати свої власні мікросхеми. Ця еволюція є центральною для операціоналізації агентного ШІ та інших складних моделей у масштабі.

Ось розподіл ключових специфікацій по всьому сімейству MTIA:

ФункціяMTIA 300MTIA 400MTIA 450MTIA 500
Обчислювальні кристали1222
Стеки HBM4488
Пропускна здатність HBM (ГБ/с)*100151302453
MX8 FLOPS (ТФЛОПС)100400400400
MX4 FLOPS (ТФЛОПС)Н/Д200350500
Розмір домену масштабування18 пристроїв**72 пристрої72 пристрої72 пристрої
Ключова оптимізаціяНавчання R&R, зв'язок з низькою затримкоюЗагальний GenAI, конкурентна сира продуктивністьІнференс GenAI, HBM, власні низькоточніІнференс GenAI, HBM, власні низькоточні

*Деякі постачальники повідомляють двонаправлену пропускну здатність. Помножте значення в таблиці на два, щоб отримати відповідну двонаправлену пропускну здатність. **MTIA 300 налаштований на масштабовану мережу з вищою пропускною здатністю (200 ГБ/с) завдяки відносно невеликому розміру домену масштабування та цільовим робочим навантаженням R&R.

Ці специфікації підкреслюють драматичні покращення пропускної здатності пам'яті та обчислювальної потужності, демонструючи, як кожне покоління MTIA ретельно розробляється для вирішення найактуальніших вимог поточних та майбутніх додатків ШІ, особливо ресурсоємних моделей GenAI.

Невтомне прагнення Meta до власних кремнієвих рішень через сімейство MTIA підкреслює її відданість наданню передових можливостей ШІ мільярдам користувачів у всьому світі. Поєднуючи внутрішні інновації зі стратегічними партнерствами, Meta продовжує переосмислювати можливості масштабованої та економічно ефективної інфраструктури ШІ.

Поширені запитання

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Будьте в курсі

Отримуйте найсвіжіші новини ШІ на пошту.

Поділитися