Code Velocity
エンタープライズAI

Meta MTIAチップが数十億人規模のAIを実現

·7 分で読めます·Meta·元の情報源
共有
データセンターラックのサーバーボードに搭載されたMeta MTIA AIチップ

MetaのMTIAチップでAIエクスペリエンスをスケールさせる

毎日、Metaの多様なプラットフォーム全体で、数十億人の人々がパーソナライズされたコンテンツレコメンデーションから高度なAIアシスタントに至るまで、無数のAI搭載機能とやり取りしています。Meta、そして業界全体の根底にある課題は、これらの洗練されたAIモデルをグローバル規模で展開し、継続的に改善しながら、最適なコスト効率を維持することです。この要求の厳しいインフラストラクチャタスクは、Metaが柔軟で継続的に進化するソリューションに戦略的に投資することで達成されており、その中心にあるのが、カスタム設計されたAIチップであるMeta Training and Inference Accelerator(MTIA)ファミリーです。

内部および外部ソリューションの両方を活用する多様なシリコンポートフォリオにコミットしている一方で、Broadcomとの密接な提携のもとで開発されたMTIAチップは、MetaのAIインフラ戦略に不可欠なコンポーネントです。これらの自社開発アクセラレーターは、数十億人に届くAIエクスペリエンスをコスト効率よく駆動し、急速に進化するAIモデルの状況に常に対応していく上で極めて重要です。

MetaのMTIAチップの反復的な進化

AIモデルの状況は絶えず変化しており、従来のチップ開発サイクルを上回るペースで進化しています。予想されるワークロードに基づいたチップ設計が、ハードウェアが生産段階に達する頃には時代遅れになる可能性があることを認識し、MetaはMTIAに対して革新的な「ベロシティ戦略」を採用しました。Metaは、長期的な投機的開発期間ではなく、各MTIA世代が前世代を基盤として構築される反復的なアプローチを採用しています。これには、モジュラーチップレットの使用、最新のAIワークロードの洞察の組み込み、そして大幅に短い期間での新しいハードウェア技術の展開が含まれます。このより緊密なフィードバックループにより、MetaのカスタムシリコンはAIモデルの動的な要求と密接に連携し続け、新しい進歩のより迅速な採用を促進します。

Metaはすでに、学術論文で最初の2世代、MTIA 100とMTIA 200について詳述しています。この基盤の上に、Metaは開発を加速させ、MTIA 300、400、450、500という4つの新しい後続世代を導入しました。これらのチップはすでに生産されているか、2026年および2027年に大規模展開が予定されています。この迅速な後継により、MetaはMTIAのワークロードカバレッジを大幅に拡大し、当初のランキングおよびレコメンデーション(R&R)推論から、R&Rトレーニング、一般的なGenerative AI(GenAI)ワークロード、そして高度に最適化されたGenAI推論へと移行しました。

MTIA 300: AIワークロードの基盤を築く

MTIA 300は、Metaのカスタムシリコンの道のりにおける重要な一歩となりました。GenAIブーム以前のMetaの主要なワークロードであったR&Rモデル向けに当初最適化されており、そのアーキテクチャのビルディングブロックは、その後のチップのための堅固な基盤を確立しました。MTIA 300の主要な特徴には、統合されたNICチップレット、通信コレクティブのオフロード用の専用メッセージエンジン、および削減ベースのコレクティブ用に設計されたニアメモリーコンピューティング機能が含まれます。これらの低レイテンシー、高帯域幅の通信コンポーネントは、その後の世代における効率的なGenAI推論とトレーニングを可能にする上で極めて重要であることが証明されました。

MTIA 300は、1つのコンピュートチップレット、2つのネットワークチップレット、および複数の高帯域幅メモリ(HBM)スタックで構成されています。各コンピュートチップレットは、歩留まりを向上させるために冗長なPEを戦略的に設計されたプロセッシングエレメント(PE)のグリッドを備えています。各PEは、2つのRISC-Vベクトルコア、行列乗算用のドットプロダクトエンジン、アクティベーションおよび要素ごとの操作用の特殊機能ユニット、アキュムレーションおよびPE間通信用の削減エンジン、およびローカルスクラッチメモリ内での効率的なデータ移動用のDMAエンジンを含む洗練されたユニットです。この複雑な設計は、MetaがそのコアAIタスク向けに高効率かつ費用対効果の高いソリューションを創造するというコミットメントを強調しています。

MTIA 400: 競争力のあるGenAIパフォーマンスの達成

Generative AIの未曾有の急増に伴い、MetaはMTIA 300をMTIA 400へと急速に進化させ、既存のR&R機能と並行してGenAIワークロードに対する堅牢なサポートを提供しました。MTIA 400は大幅な飛躍を遂げ、前身と比較してFP8 FLOPSを400%向上させ、HBM帯域幅を51%増加させました。MTIA 300がコスト効率に焦点を当てていたのに対し、MTIA 400は主要な商用AIアクセラレーターに匹敵する生性能を提供するために設計されました。

これは、2つのコンピュートチップレットを組み合わせて計算密度を効果的に2倍にし、効率的なGenAI推論にとって重要な低精度フォーマットであるMX8およびMX4の拡張バージョンをサポートすることで達成されます。スイッチドバックプレーンを介して相互接続された72台のMTIA 400デバイスを搭載した単一のラックは、強力なスケールアップドメインを形成します。これらのシステムは、高度な空冷式液冷(AALC)ラックによってサポートされており、レガシーデータセンターでも迅速な展開を容易にし、MetaのAIインフラをグローバルにスケールさせるための実践的なアプローチを示しています。

MTIA 450および500: GenAI推論に特化

GenAI推論需要の継続的な指数関数的成長を予測し、MetaはMTIA 400をさらに洗練させ、MTIA 450、そしてMTIA 500の開発へとつながりました。これらの世代は、GenAI推論の固有の課題向けに特別に最適化されており、メモリと計算における重要な進歩に焦点を当てています。

MTIA 450は以下の点で大きな進歩を遂げました。

  1. HBM帯域幅を以前のバージョンから2倍に。これはGenAIモデルのデコードフェーズを高速化するために極めて重要です。
  2. MX4 FLOPSを75%増加。大規模言語モデルで一般的なmixture-of-experts(MoE)フィードフォワードネットワーク(FFN)計算を高速化します。
  3. ハードウェアアクセラレーションを導入。アテンションおよびFFN計算をより効率的にし、SoftmaxおよびFlashAttentionに関連するボトルネックを軽減します。
  4. 低精度データ型における革新。FP8/MX8を超え、FP16/BF16のMX4 FLOPSの6倍を実現し、モデル品質を維持しつつチップ面積への影響を最小限に抑えながらFLOPSを向上させるカスタムデータ型革新を導入しました。

MTIA 500は、450の成功の上に構築され、HBM帯域幅をさらに50%増加させ、低精度データ型におけるさらなる革新を導入しました。これにより、GenAI推論パフォーマンスの限界を押し広げるというMetaのコミットメントが強化されています。この絶え間ない改善への推進力により、MetaのAIエクスペリエンスは最先端を走り続けています。

これらの世代にわたる累積的な進歩は明らかです。MTIA 300からMTIA 500にかけて、HBM帯域幅は驚異的な4.5倍に増加し、計算FLOPSは(MTIA 300のMX8からMTIA 500のMX4まで)驚くべき25倍の増加を見せました。2年以内でのこの急速な加速は、Metaのベロシティ戦略とカスタムシリコンを継続的に強化する能力の証です。この進化は、エージェントAIの運用化やその他の複雑なモデルを大規模に実現する上で中心的な役割を担っています。

MTIAファミリー全体の主要な仕様の内訳は以下の通りです。

特徴MTIA 300MTIA 400MTIA 450MTIA 500
コンピュートダイ1222
HBMスタック4488
HBM帯域幅 (GB/s)*100151302453
MX8 FLOPS (TFLOPS)100400400400
MX4 FLOPS (TFLOPS)N/A200350500
スケールアップドメインサイズ18デバイス**72デバイス72デバイス72デバイス
主要な最適化R&Rトレーニング、低レイテンシー通信汎用GenAI、競争力のある生性能GenAI推論、HBM、カスタム低精度GenAI推論、HBM、カスタム低精度

*一部のベンダーは双方向帯域幅を報告しています。対応する双方向帯域幅を得るには、表の値に2を掛けてください。
**MTIA 300は、比較的小さなスケールアップドメインサイズとターゲットR&Rワークロードのため、より高い帯域幅(200 GB/s)を持つスケールアウトネットワークで構成されています。

これらの仕様は、メモリ帯域幅と計算能力における劇的な改善を浮き彫りにしており、各MTIA世代が、現在および将来のAIアプリケーション、特にリソースを大量消費するGenAIモデルの最も喫緊の要求に対処するために、いかに綿密に設計されているかを示しています。MetaがMTIAファミリーを通じてカスタムシリコンソリューションを絶え間なく追求していることは、世界中の数十億人のユーザーに最先端のAIエクスペリエンスを提供するという同社のコミットメントを強調しています。内部イノベーションと戦略的パートナーシップを組み合わせることで、Metaはスケーラブルで費用対効果の高いAIインフラの可能性を再定義し続けています。

よくある質問

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

最新情報を入手

最新のAIニュースをメールでお届けします。

共有