Масштабування можливостей ШІ за допомогою чіпів MTIA від Meta
Щодня мільярди людей на різних платформах Meta взаємодіють з безліччю функцій, що працюють на основі ШІ, від персоналізованих рекомендацій контенту до передових асистентів ШІ. Основна проблема для Meta, та й для галузі в цілому, полягає в розгортанні та постійному вдосконаленні цих складних моделей ШІ у глобальному масштабі, зберігаючи при цьому оптимальну економічну ефективність. Це складне інфраструктурне завдання вирішується за допомогою стратегічних інвестицій Meta у гнучкі, постійно розвиваючі рішення, центральне місце серед яких займають їхні власні чіпи ШІ: сімейство Meta Training and Inference Accelerator (MTIA).
Хоча Meta прагне до різноманітного портфоліо мікросхем, що використовує як внутрішні, так і зовнішні рішення, чіпи MTIA, розроблені у тісному партнерстві з Broadcom, є незамінним компонентом стратегії інфраструктури ШІ Meta. Ці власні прискорювачі мають вирішальне значення для економічно ефективного забезпечення можливостей ШІ, які охоплюють мільярди користувачів, постійно адаптуючись до швидко мінливого ландшафту моделей ШІ.
Ітеративна еволюція чіпів MTIA від Meta
Ландшафт моделей ШІ перебуває у стані постійних змін, розвиваючись зі швидкістю, яка часто випереджає традиційні цикли розробки чіпів. Визнаючи, що конструкції чіпів, засновані на прогнозованих робочих навантаженнях, можуть застаріти до моменту випуску апаратного забезпечення, Meta прийняла інноваційну "стратегію швидкості" для MTIA. Замість тривалих, спекулятивних періодів розробки, Meta застосовує ітеративний підхід, де кожне покоління MTIA ґрунтується на попередньому. Це передбачає використання модульних чіплетів, включення останніх знань про робочі навантаження ШІ та розгортання нових апаратних технологій зі значно коротшою періодичністю. Цей тісніший цикл зворотного зв'язку гарантує, що власні мікросхеми Meta залишаються тісно узгодженими з динамічними вимогами моделей ШІ, сприяючи швидшому впровадженню нових досягнень.
Meta вже докладно описала перші два покоління, MTIA 100 та MTIA 200, у наукових працях. Спираючись на цю основу, Meta прискорила розробку, щоб представити чотири нові послідовні покоління: MTIA 300, 400, 450 та 500. Ці чіпи вже перебувають у виробництві або заплановані до масового розгортання у 2026 та 2027 роках. Ця швидка послідовність дозволила Meta значно розширити охоплення робочих навантажень MTIA, перейшовши від початкового інференсу ранжування та рекомендацій (R&R) до навчання R&R, загальних робочих навантажень Генеративного ШІ (GenAI) та високооптимізованого інференсу GenAI.
MTIA 300: Закладення основи для робочих навантажень ШІ
MTIA 300 ознаменував поворотний крок у розвитку власних мікросхем Meta. Спочатку оптимізований для моделей R&R, які були домінуючими робочими навантаженнями Meta до буму GenAI, його архітектурні блоки заклали міцну основу для подальших чіпів. Ключові відмінні риси MTIA 300 включають інтегровані чіплети NIC, виділені механізми обміну повідомленнями для розвантаження комунікаційних колективів та обчислювальні можливості поблизу пам'яті, розроблені для колективів, що базуються на редукції. Ці компоненти зв'язку з низькою затримкою та високою пропускною здатністю виявилися інструментальними для забезпечення ефективного інференсу та навчання GenAI у наступних поколіннях.
MTIA 300 складається з одного обчислювального чіплета, двох мережевих чіплетів та кількох стеків High-Bandwidth Memory (HBM). Кожен обчислювальний чіплет має сітку обчислювальних елементів (PE), стратегічно розроблених з надлишковими PE для підвищення виходу продукції. Кожен PE є складною одиницею, що містить два векторні ядра RISC-V, Dot Product Engine для множення матриць, Special Function Unit для активацій та поелементних операцій, Reduction Engine для акумулювання та між-PE зв'язку, а також DMA engine для ефективного переміщення даних у локальній скретч-пам'яті. Цей складний дизайн підкреслив прагнення Meta створити високоефективне та економічно вигідне рішення для своїх основних завдань ШІ.
MTIA 400: Досягнення конкурентної продуктивності GenAI
З безпрецедентним зростанням Генеративного ШІ, Meta швидко розвинула MTIA 300 до MTIA 400, щоб забезпечити надійну підтримку робочих навантажень GenAI поряд зі своїми існуючими можливостями R&R. MTIA 400 являє собою значний стрибок, пропонуючи на 400% вищий показник FP8 FLOPS та збільшення пропускної здатності HBM на 51% порівняно зі своїм попередником. Якщо MTIA 300 зосереджувався на економічній ефективності, то MTIA 400 був розроблений для забезпечення сирої продуктивності, конкурентоспроможної з провідними комерційними прискорювачами ШІ.
Цього досягається завдяки поєднанню двох обчислювальних чіплетів для ефективного подвоєння обчислювальної щільності та підтримці покращених версій MX8 та MX4 – ключових форматів низької точності для ефективного інференсу GenAI. Єдина стійка, оснащена 72 пристроями MTIA 400, з'єднаними через комутовану об'єднувальну плату, утворює потужний домен масштабування. Ці системи підтримуються вдосконаленими стійками з рідинним охолодженням з повітряним піддувом (AALC), що сприяє швидкому розгортанню навіть у застарілих центрах обробки даних, демонструючи практичний підхід Meta до глобального масштабування своєї інфраструктури ШІ.
MTIA 450 та 500: Спеціалізовані для інференсу GenAI
Очікуючи подальшого експоненціального зростання попиту на інференс GenAI, Meta додатково вдосконалила MTIA 400, що призвело до розробки MTIA 450, а згодом і MTIA 500. Ці покоління спеціально оптимізовані для унікальних викликів інференсу GenAI, зосереджуючись на критично важливих досягненнях у сфері пам'яті та обчислень.
MTIA 450 зробив значні кроки вперед завдяки:
- Подвоєння пропускної здатності HBM порівняно з попередньою версією, що має вирішальне значення для прискорення фази декодування в моделях GenAI.
- Збільшення MX4 FLOPS на 75%, прискорюючи обчислення прямої мережі (FFN) з архітектурою "суміш експертів" (MoE), поширені у великих мовних моделях.
- Впровадження апаратного прискорення для підвищення ефективності обчислень уваги та FFN, усуваючи вузькі місця, пов'язані з Softmax та FlashAttention.
- Інновації у типах даних низької точності, виходячи за рамки FP8/MX8, щоб забезпечити 6-кратне збільшення MX4 FLOPS порівняно з FP16/BF16, з користувацькими інноваціями типів даних, які зберігають якість моделі та збільшують FLOPS з мінімальним впливом на площу чіпа.
MTIA 500, ґрунтуючись на успіху 450-ї версії, ще більше збільшив пропускну здатність HBM на додаткові 50% та представив більше інновацій у типах даних низької точності, підтверджуючи прагнення Meta розширювати межі продуктивності інференсу GenAI. Це невпинне прагнення до вдосконалення гарантує, що можливості ШІ Meta залишаються на передовому рівні.
Сукупні досягнення цих поколінь вражають. Від MTIA 300 до MTIA 500 пропускна здатність HBM зросла на вражаючі 4,5 рази, тоді як обчислювальні FLOPS збільшилися в приголомшливі 25 разів (від MX8 MTIA 300 до MX4 MTIA 500). Це швидке прискорення протягом двох років є свідченням стратегії швидкості Meta та її здатності постійно вдосконалювати свої власні мікросхеми. Ця еволюція є центральною для операціоналізації агентного ШІ та інших складних моделей у масштабі.
Ось розподіл ключових специфікацій по всьому сімейству MTIA:
| Функція | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Обчислювальні кристали | 1 | 2 | 2 | 2 |
| Стеки HBM | 4 | 4 | 8 | 8 |
| Пропускна здатність HBM (ГБ/с)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (ТФЛОПС) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (ТФЛОПС) | Н/Д | 200 | 350 | 500 |
| Розмір домену масштабування | 18 пристроїв** | 72 пристрої | 72 пристрої | 72 пристрої |
| Ключова оптимізація | Навчання R&R, зв'язок з низькою затримкою | Загальний GenAI, конкурентна сира продуктивність | Інференс GenAI, HBM, власні низькоточні | Інференс GenAI, HBM, власні низькоточні |
*Деякі постачальники повідомляють двонаправлену пропускну здатність. Помножте значення в таблиці на два, щоб отримати відповідну двонаправлену пропускну здатність. **MTIA 300 налаштований на масштабовану мережу з вищою пропускною здатністю (200 ГБ/с) завдяки відносно невеликому розміру домену масштабування та цільовим робочим навантаженням R&R.
Ці специфікації підкреслюють драматичні покращення пропускної здатності пам'яті та обчислювальної потужності, демонструючи, як кожне покоління MTIA ретельно розробляється для вирішення найактуальніших вимог поточних та майбутніх додатків ШІ, особливо ресурсоємних моделей GenAI.
Невтомне прагнення Meta до власних кремнієвих рішень через сімейство MTIA підкреслює її відданість наданню передових можливостей ШІ мільярдам користувачів у всьому світі. Поєднуючи внутрішні інновації зі стратегічними партнерствами, Meta продовжує переосмислювати можливості масштабованої та економічно ефективної інфраструктури ШІ.
Поширені запитання
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Будьте в курсі
Отримуйте найсвіжіші новини ШІ на пошту.
