What are Meta MTIA chips and what is their purpose?

Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.

How many generations of MTIA chips has Meta developed in recent years?

Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.

What is Meta's 'velocity strategy' for AI chip development?

Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.

How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?

As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.

What are the key performance advancements from MTIA 300 to MTIA 500?

The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.

Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?

High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Meta MTIA 칩, 수십억 명을 위한 AI 확장

Meta MTIA 칩으로 AI 경험 확장

매일 수십억 명의 사람들이 Meta의 다양한 플랫폼에서 개인화된 콘텐츠 추천부터 고급 AI 비서에 이르기까지 수많은 AI 기반 기능과 상호작용합니다. Meta와 업계의 근본적인 과제는 이러한 정교한 AI 모델을 글로벌 규모로 배포하고 지속적으로 개선하는 동시에 최적의 비용 효율성을 유지하는 것입니다. 이러한 까다로운 인프라 작업은 유연하고 지속적으로 진화하는 솔루션에 대한 Meta의 전략적 투자로 충족되며, 그 중심에는 Meta의 맞춤형 AI 칩인 Meta Training and Inference Accelerator(MTIA) 제품군이 있습니다.

Meta는 내부 및 외부 솔루션을 모두 활용하는 다양한 실리콘 포트폴리오를 약속하고 있지만, Broadcom과의 긴밀한 파트너십을 통해 개발된 MTIA 칩은 Meta의 AI 인프라 전략의 필수 구성 요소입니다. 이러한 자체 개발 가속기는 수십억 명에게 도달하는 AI 경험을 비용 효율적으로 구동하는 데 중요하며, 빠르게 진화하는 AI 모델 환경에 끊임없이 적응하고 있습니다.

Meta MTIA 칩의 반복적인 진화

AI 모델 환경은 끊임없이 변화하며, 종종 전통적인 칩 개발 주기를 능가하는 속도로 진화하고 있습니다. Meta는 예상 워크로드를 기반으로 한 칩 설계가 하드웨어가 생산될 때쯤이면 구식화될 수 있음을 인식하고 MTIA를 위한 혁신적인 '속도 전략'을 채택했습니다. Meta는 길고 추측적인 개발 기간 대신, 각 MTIA 세대가 이전 세대를 기반으로 구축되는 반복적인 접근 방식을 채택합니다. 여기에는 모듈식 칩렛 사용, 최신 AI 워크로드 통찰력 통합, 훨씬 더 짧은 주기로 새로운 하드웨어 기술 배포가 포함됩니다. 이러한 긴밀한 피드백 루프는 Meta의 맞춤형 실리콘이 AI 모델의 동적 요구 사항과 밀접하게 일치하도록 보장하여 새로운 발전의 더 빠른 채택을 촉진합니다.

Meta는 이미 학술 논문에서 MTIA 100 및 MTIA 200의 처음 두 세대를 상세히 설명했습니다. 이 토대 위에 Meta는 MTIA 300, 400, 450, 500의 네 가지 새로운 연속 세대를 도입하기 위해 개발을 가속화했습니다. 이 칩들은 이미 생산 중이거나 2026년과 2027년에 대규모 배포될 예정입니다. 이러한 빠른 연속은 Meta가 MTIA의 워크로드 적용 범위를 초기 순위 및 추천(R&R) 추론에서 R&R 훈련, 일반 생성형 AI(GenAI) 워크로드, 고도로 최적화된 GenAI 추론으로 크게 확장할 수 있도록 했습니다.

MTIA 300: AI 워크로드의 기반 마련

MTIA 300은 Meta의 맞춤형 실리콘 여정에서 중추적인 단계였습니다. GenAI 붐 이전에 Meta의 주요 워크로드였던 R&R 모델에 처음 최적화되었으며, 그 아키텍처 구성 요소는 후속 칩을 위한 강력한 기반을 구축했습니다. MTIA 300의 주요 특징으로는 통합 NIC 칩렛, 통신 집합체 오프로드를 위한 전용 메시지 엔진, 감소 기반 집합체를 위해 설계된 니어-메모리 컴퓨팅 기능이 있습니다. 이러한 저지연, 고대역폭 통신 구성 요소는 후속 세대에서 효율적인 GenAI 추론 및 훈련을 가능하게 하는 데 중요한 역할을 했습니다.

MTIA 300은 하나의 컴퓨팅 칩렛, 두 개의 네트워크 칩렛, 그리고 여러 개의 고대역폭 메모리(HBM) 스택으로 구성됩니다. 각 컴퓨팅 칩렛은 처리 요소(PE) 그리드를 특징으로 하며, 수율 향상을 위해 중복 PE가 전략적으로 설계되었습니다. 각 PE는 두 개의 RISC-V 벡터 코어, 행렬 곱셈을 위한 Dot Product Engine, 활성화 및 요소별 연산을 위한 Special Function Unit, 누적 및 PE 간 통신을 위한 Reduction Engine, 로컬 스크래치 메모리 내에서 효율적인 데이터 이동을 위한 DMA 엔진을 포함하는 정교한 장치입니다. 이러한 복잡한 설계는 Meta가 핵심 AI 작업을 위한 고효율 및 비용 효율적인 솔루션을 만드는 데 대한 의지를 강조했습니다.

MTIA 400: 경쟁력 있는 GenAI 성능 달성

생성형 AI의 전례 없는 급증에 따라 Meta는 MTIA 300을 MTIA 400으로 빠르게 발전시켜 기존의 R&R 기능과 함께 GenAI 워크로드에 대한 강력한 지원을 제공했습니다. MTIA 400은 이전 모델에 비해 FP8 FLOPS가 400% 더 높고 HBM 대역폭이 51% 증가하는 상당한 도약을 나타냅니다. MTIA 300이 비용 효율성에 중점을 두었다면, MTIA 400은 선도적인 상용 AI 가속기와 경쟁할 수 있는 원시 성능을 제공하도록 설계되었습니다.

이는 두 개의 컴퓨팅 칩렛을 결합하여 컴퓨팅 밀도를 효과적으로 두 배로 늘리고, 효율적인 GenAI 추론에 중요한 저정밀 형식인 MX8 및 MX4의 향상된 버전을 지원함으로써 달성됩니다. 스위치 백플레인을 통해 상호 연결된 72개의 MTIA 400 장치로 구성된 단일 랙은 강력한 스케일업 도메인을 형성합니다. 이러한 시스템은 고급 공기 보조 액체 냉각(AALC) 랙으로 지원되어 기존 데이터 센터에서도 빠른 배포를 용이하게 하며, Meta가 AI 인프라를 전 세계적으로 확장하는 실용적인 접근 방식을 보여줍니다.

MTIA 450 및 500: GenAI 추론에 특화

GenAI 추론 수요의 지속적인 기하급수적 증가를 예상하여 Meta는 MTIA 400을 더욱 개선하여 MTIA 450을 개발하고 이어서 MTIA 500을 개발했습니다. 이 세대들은 메모리 및 컴퓨팅의 중요한 발전에 중점을 두어 GenAI 추론의 고유한 과제에 특별히 최적화되었습니다.

MTIA 450은 다음과 같은 중요한 발전을 이루었습니다:

이전 버전보다 HBM 대역폭을 두 배로 늘려, GenAI 모델의 디코딩 단계 가속화에 필수적입니다.
대규모 언어 모델에서 일반적인 혼합 전문가(MoE) 피드포워드 네트워크(FFN) 계산 속도를 높이기 위해 MX4 FLOPS를 75% 증가시켰습니다.
어텐션 및 FFN 계산을 더욱 효율적으로 만들기 위한 하드웨어 가속을 도입하여, Softmax 및 FlashAttention과 관련된 병목 현상을 완화했습니다.
저정밀도 데이터 유형에서 혁신을 이루어, FP8/MX8을 넘어 FP16/BF16의 6배에 달하는 MX4 FLOPS를 제공하며, 모델 품질을 유지하고 최소한의 칩 면적 영향으로 FLOPS를 높이는 맞춤형 데이터 유형 혁신을 선보였습니다.

MTIA 500은 450의 성공을 기반으로 HBM 대역폭을 추가로 50% 증가시켰고 저정밀도 데이터 유형에서 더 많은 혁신을 도입하여 GenAI 추론 성능의 한계를 뛰어넘으려는 Meta의 노력을 강화했습니다. 이러한 끊임없는 개선 노력은 Meta의 AI 경험이 항상 최첨단에 머무르도록 보장합니다.

이러한 세대들을 아우르는 누적된 발전은 확연합니다. MTIA 300에서 MTIA 500까지, HBM 대역폭은 인상적인 4.5배 증가했으며, 컴퓨팅 FLOPS는 놀라운 25배 증가했습니다(MTIA 300의 MX8에서 MTIA 500의 MX4로). 2년 이내에 이루어진 이러한 빠른 가속은 Meta의 속도 전략과 맞춤형 실리콘을 지속적으로 향상시키는 능력에 대한 증거입니다. 이러한 진화는 에이전트 AI 운영화 및 다른 복잡한 모델을 대규모로 구현하는 데 핵심입니다.

MTIA 제품군의 주요 사양은 다음과 같습니다.

특징	MTIA 300	MTIA 400	MTIA 450	MTIA 500
컴퓨팅 다이	1	2	2	2
HBM 스택	4	4	8	8
HBM 대역폭 (GB/s)*	100	151	302	453
MX8 FLOPS (TFLOPS)	100	400	400	400
MX4 FLOPS (TFLOPS)	N/A	200	350	500
스케일업 도메인 크기	18개 장치**	72개 장치	72개 장치	72개 장치
주요 최적화	R&R 훈련, 저지연 통신	일반 GenAI, 경쟁력 있는 원시 성능	GenAI 추론, HBM, 맞춤형 저정밀도	GenAI 추론, HBM, 맞춤형 저정밀도

*일부 공급업체는 양방향 대역폭을 보고합니다. 해당 양방향 대역폭을 얻으려면 표의 값에 2를 곱하십시오. **MTIA 300은 상대적으로 작은 스케일업 도메인 크기와 목표 R&R 워크로드로 인해 더 높은 대역폭(200 GB/s)의 스케일아웃 네트워크로 구성됩니다.

이러한 사양은 메모리 대역폭 및 컴퓨팅 성능의 극적인 개선을 강조하며, 각 MTIA 세대가 특히 리소스 집약적인 GenAI 모델과 같이 현재 및 미래 AI 애플리케이션의 가장 시급한 요구 사항을 해결하기 위해 어떻게 세심하게 설계되었는지 보여줍니다.

MTIA 제품군을 통한 Meta의 맞춤형 실리콘 솔루션에 대한 끊임없는 추구는 전 세계 수십억 명의 사용자에게 최첨단 AI 경험을 제공하겠다는 Meta의 의지를 강조합니다. Meta는 내부 혁신과 전략적 파트너십을 결합하여 확장 가능하고 비용 효율적인 AI 인프라의 가능성을 계속해서 재정의하고 있습니다.