title: "Meta MTIA 芯片助力AI规模化服务数十亿用户" slug: "meta-mtia-scale-ai-chips-for-billions" date: "2026-03-14" lang: "zh" source: "https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/" category: "企业AI" keywords:
- Meta
- MTIA
- AI芯片
- GenAI
- 推理硬件
- 定制芯片
- 数据中心
- Llama
- HBM带宽
- 低精度数据类型
- AI基础设施
- R&R工作负载 meta_description: "Meta 的 MTIA AI 芯片在两年内迭代了四代,正快速发展,旨在高效地为数十亿用户提供规模化的 GenAI 和 R&R 体验。" image: "/images/articles/meta-mtia-scale-ai-chips-for-billions.png" image_alt: "数据中心机架服务器板上的 Meta MTIA AI 芯片" quality_score: 94 content_score: 93 seo_score: 95 companies:
- Meta schema_type: "NewsArticle" reading_time: 7 faq:
- question: "Meta MTIA 芯片是什么?它的用途是什么?" answer: "Meta 训练和推理加速器 (MTIA) 芯片是 Meta 与 Broadcom 合作开发的定制 AI 加速器。它们的主要目的是为 Meta 平台上的数十亿用户提供各种 AI 驱动的体验。这包括从个性化推荐 (R&R) 到高级生成式 AI (GenAI) 助手的一切。通过开发自己的芯片,Meta 旨在经济高效地扩展 AI 工作负载,保持灵活性,并优化其特定基础设施需求的性能,确保 AI 硬件开发的持续创新。"
- question: "Meta 近年来开发了多少代 MTIA 芯片?" answer: "Meta 迅速加速了 MTIA 的开发,在不到两年的时间里推出了四代连续迭代:MTIA 300、MTIA 400、MTIA 450 和 MTIA 500。这些芯片要么已经部署,要么计划在 2026 年或 2027 年大规模部署。这种快速迭代展示了 Meta 的“速度策略”,旨在跟上 AI 模型异常快速的演进,并确保其硬件与当前和未来的工作负载需求保持一致,将其应用范围从最初的 R&R 任务扩展到通用 GenAI 和专业 GenAI 推理。"
- question: "Meta 的 AI 芯片开发“速度策略”是什么?" answer: "Meta 的“速度策略”是一种迭代的 AI 芯片开发方法,与传统较长的芯片设计周期形成对比。Meta 认识到 AI 模型演进速度快于典型的硬件开发,因此每代 MTIA 都基于前一代,采用模块化芯片设计。该策略融合了最新的 AI 工作负载洞察和硬件技术,从而能够以更短的周期进行部署。这种更紧密的反馈循环确保 Meta 的定制硬件与不断演进的 AI 模型保持紧密对齐,从而促进新技术的更快采用,并保持最佳性能和成本效率。"
- question: "较新的 MTIA 芯片(400、450、500)如何支持生成式 AI 工作负载?" answer: "随着 GenAI 的兴起,MTIA 芯片为支持这些高要求的工作负载而显著发展。MTIA 400 通过提高 400% 的 FP8 FLOPS 和增加 HBM 带宽来增强对 GenAI 的支持。MTIA 450 通过将 HBM 带宽翻倍、将 MX4 FLOPS 提高 75%、引入注意力计算和 FFN 计算的硬件加速以及创新定制低精度数据类型,专门优化了 GenAI 推理。MTIA 500 在此基础上进一步改进,将 HBM 带宽额外增加了 50%,并引入了更多低精度创新,直接解决了复杂 GenAI 模型的计算和内存需求。"
- question: "从 MTIA 300 到 MTIA 500 的主要性能提升是什么?" answer: "MTIA 芯片系列在不到两年的时间里,从 300 系列到 500 系列取得了显著进步。HBM 带宽增加了 4.5 倍,显著提升了对于大型 AI 模型至关重要的内存访问速度。计算 FLOPS(每秒浮点运算次数)惊人地增加了 25 倍,特别是从 MTIA 300 的 MX8 格式到 MTIA 500 的 MX4 格式。这些显著的改进突显了 Meta 快速增强其定制芯片原始处理能力和数据处理能力,以满足不断升级的先进 AI 模型需求的能力。"
- question: "为什么高带宽内存 (HBM) 对于 GenAI 推理性能至关重要?" answer: "高带宽内存 (HBM) 对于生成式 AI (GenAI) 推理性能至关重要,因为 GenAI 模型,特别是大型语言模型 (LLM),通常具有庞大的参数数量,并且需要大量的内存带宽才能在推理过程中高效地检索和处理这些参数。GenAI 推理中的解码步骤,即按顺序生成 token,通常受限于内存访问而非原始计算。将 HBM 带宽翻倍或显著增加,如 MTIA 450 和 500 中所示,直接转化为更快的 token 生成、更低的延迟和更高的吞吐量,从而使 AI 体验对用户而言更具响应性和效率。"
Meta MTIA 芯片助力 AI 体验规模化
每天,数十亿人在 Meta 的各种平台上与无数由 AI 驱动的功能互动,从个性化内容推荐到高级 AI 助手。Meta 以及整个行业面临的根本挑战在于,在全球范围内部署和持续改进这些复杂的 AI 模型,同时保持最佳的成本效益。Meta 通过对灵活、持续演进的解决方案进行战略投资来应对这项严苛的基础设施任务,其中核心是其定制设计的 AI 芯片:Meta 训练和推理加速器 (MTIA) 系列。
Meta 致力于构建多样化的芯片组合,该组合利用内部和外部解决方案。其中,与 Broadcom 紧密合作开发的 MTIA 芯片,是 Meta AI 基础设施战略中不可或缺的组成部分。这些自主研发的加速器对于经济高效地为数十亿用户提供 AI 体验至关重要,它们不断适应快速发展的 AI 模型格局。
Meta MTIA 芯片的迭代演进
AI 模型格局处于不断变化的永恒状态,其发展速度往往超过传统的芯片开发周期。Meta 认识到,基于预测工作负载的芯片设计在硬件投入生产时可能已经过时,因此为 MTIA 采用了创新的“速度策略”。Meta 没有采用漫长、投机的开发周期,而是采取了迭代方法,每代 MTIA 都以前一代为基础。这包括使用模块化芯片,整合最新的 AI 工作负载洞察,并以显著更短的周期部署新的硬件技术。这种更紧密的反馈循环确保 Meta 的定制芯片与 AI 模型的动态需求保持紧密对齐,从而促进新进展的更快采用。
Meta 已经在学术论文中详细介绍了前两代产品 MTIA 100 和 MTIA 200。在此基础上,Meta 加速了开发,推出了四代新的连续产品:MTIA 300、400、450 和 500。这些芯片要么已经投入生产,要么计划在 2026 年和 2027 年大规模部署。这种快速迭代使 Meta 能够显著扩展 MTIA 的工作负载覆盖范围,从最初的排名和推荐 (R&R) 推理扩展到 R&R 训练、通用生成式 AI (GenAI) 工作负载以及高度优化的 GenAI 推理。
MTIA 300:为 AI 工作负载奠定基础
MTIA 300 标志着 Meta 定制芯片之旅的关键一步。它最初为 R&R 模型优化,这些模型在 GenAI 爆发之前是 Meta 的主要工作负载,其架构构建块为后续芯片奠定了坚实的基础。MTIA 300 的主要突出特点包括集成的 NIC 芯片、用于卸载通信集合的专用消息引擎,以及专为基于归约的集合设计的近内存计算能力。这些低延迟、高带宽的通信组件在随后的几代中被证明对实现高效的 GenAI 推理和训练至关重要。
MTIA 300 包含一个计算芯片、两个网络芯片和多个高带宽内存 (HBM) 堆栈。每个计算芯片都带有一个处理单元 (PE) 网格,其设计具有战略性的冗余 PE,以提高良率。每个 PE 都是一个复杂的单元,包含两个 RISC-V 矢量核、一个用于矩阵乘法的点积引擎、一个用于激活和逐元素运算的专用功能单元、一个用于累积和 PE 间通信的归约引擎,以及一个用于本地暂存存储器内高效数据移动的 DMA 引擎。这种精巧的设计突显了 Meta 致力于为其核心 AI 任务创建高效且经济高效的解决方案。
MTIA 400:实现有竞争力的 GenAI 性能
随着生成式 AI 的空前激增,Meta 迅速将 MTIA 300 发展为 MTIA 400,以便在其现有 R&R 能力的基础上为 GenAI 工作负载提供强大的支持。MTIA 400 代表了重大飞跃,与前身相比,其 FP8 FLOPS 提高了 400%,HBM 带宽增加了 51%。虽然 MTIA 300 注重成本效益,但 MTIA 400 的设计旨在提供与领先商用 AI 加速器相媲美的原始性能。
它通过结合两个计算芯片来有效提高计算密度,并支持增强版的 MX8 和 MX4(用于高效 GenAI 推理的关键低精度格式)来实现这一点。一个配备 72 个 MTIA 400 设备并经由交换背板互连的机架,构成一个强大的规模扩展域。这些系统由先进的气辅液冷 (AALC) 机架支持,即使在传统数据中心也能实现快速部署,展示了 Meta 在全球范围内扩展其 AI 基础设施的实用方法。
MTIA 450 和 500:专为 GenAI 推理优化
预见到 GenAI 推理需求的持续指数级增长,Meta 进一步改进了 MTIA 400,从而促成了 MTIA 450 的开发,随后是 MTIA 500。这些迭代专门针对 GenAI 推理的独特挑战进行了优化,重点关注内存和计算的关键进展。
MTIA 450 通过以下方式取得了显著进步:
- 将 HBM 带宽比上一版本翻倍,这对于加速 GenAI 模型中的解码阶段至关重要。
- 将 MX4 FLOPS 提高了 75%,加速了大型语言模型中常见的混合专家 (MoE) 前馈网络 (FFN) 计算。
- 引入硬件加速,使注意力计算和 FFN 计算更高效,缓解了与 Softmax 和 FlashAttention 相关的瓶颈。
- 创新低精度数据类型,超越 FP8/MX8,提供 FP16/BF16 6 倍的 MX4 FLOPS,并采用定制数据类型创新,在最小化芯片面积影响的同时保持模型质量并提升 FLOPS。
MTIA 500 在 450 的成功基础上,进一步将 HBM 带宽额外增加了 50%,并引入了更多低精度数据类型创新,巩固了 Meta 致力于突破 GenAI 推理性能界限的承诺。这种不懈的改进动力确保了 Meta 的 AI 体验始终处于尖端水平。
这些迭代的累积进步是显著的。从 MTIA 300 到 MTIA 500,HBM 带宽增加了惊人的 4.5 倍,而计算 FLOPS 则实现了惊人的 25 倍增长(从 MTIA 300 的 MX8 到 MTIA 500 的 MX4)。这种在两年内的快速加速证明了 Meta 的速度策略及其持续增强定制芯片的能力。这种演进对于 大规模运营代理式 AI 和其他复杂模型至关重要。
以下是 MTIA 系列的关键规格明细:
| 特性 | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| 计算芯片 | 1 | 2 | 2 | 2 |
| HBM 堆栈 | 4 | 4 | 8 | 8 |
| HBM 带宽 (GB/s)* | 100 | 151 | 302 | 453 |
| MX8 FLOPS (TFLOPS) | 100 | 400 | 400 | 400 |
| MX4 FLOPS (TFLOPS) | 不适用 | 200 | 350 | 500 |
| 规模扩展域大小 | 18 个设备** | 72 个设备 | 72 个设备 | 72 个设备 |
| 关键优化 | R&R 训练,低延迟通信 | 通用 GenAI,有竞争力的原始性能 | GenAI 推理,HBM,定制低精度 | GenAI 推理,HBM,定制低精度 |
*有些供应商报告双向带宽。将表格中的值乘以二即可获得相应的双向带宽。 **MTIA 300 配置了具有更高带宽(200 GB/s)的横向扩展网络,因为其规模扩展域相对较小,且目标是 R&R 工作负载。
这些规格突出了内存带宽和计算能力的显著改进,展示了每代 MTIA 如何经过精心设计,以满足当前和未来 AI 应用(特别是资源密集型 GenAI 模型)最迫切的需求。
Meta 通过 MTIA 系列对定制芯片解决方案的不懈追求,凸显了其致力于为全球数十亿用户提供尖端 AI 体验的承诺。通过将内部创新与战略合作伙伴关系相结合,Meta 继续重新定义可扩展且经济高效的 AI 基础设施的可能性。
常见问题
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
保持更新
将最新AI新闻发送到您的收件箱。
