Code Velocity
AI Doanh Nghiệp

Chip MTIA của Meta Nâng tầm AI cho Hàng Tỷ Người Dùng

·7 phút đọc·Meta·Nguồn gốc
Chia sẻ
Chip AI MTIA của Meta trên bo mạch chủ máy chủ trong một giá đỡ trung tâm dữ liệu

Nâng tầm Trải nghiệm AI với Chip MTIA của Meta

Hàng ngày, hàng tỷ người trên các nền tảng đa dạng của Meta tương tác với vô số tính năng được hỗ trợ bởi AI, từ các đề xuất nội dung được cá nhân hóa đến các trợ lý AI tiên tiến. Thách thức cơ bản đối với Meta, và thực sự là toàn ngành, nằm ở việc triển khai và liên tục cải thiện các mô hình AI phức tạp này trên quy mô toàn cầu, đồng thời duy trì hiệu quả chi phí tối ưu. Nhiệm vụ cơ sở hạ tầng đòi hỏi này được đáp ứng bởi khoản đầu tư chiến lược của Meta vào các giải pháp linh hoạt, không ngừng phát triển, trong đó trọng tâm là các chip AI được thiết kế tùy chỉnh của họ: dòng chip Meta Training and Inference Accelerator (MTIA).

Mặc dù cam kết với một danh mục chip đa dạng tận dụng cả giải pháp nội bộ và bên ngoài, các chip MTIA, được phát triển với sự hợp tác chặt chẽ của Broadcom, là một thành phần không thể thiếu trong chiến lược cơ sở hạ tầng AI của Meta. Các bộ tăng tốc 'cây nhà lá vườn' này rất quan trọng để cung cấp năng lượng hiệu quả về chi phí cho các trải nghiệm AI tiếp cận hàng tỷ người dùng, liên tục thích ứng với bối cảnh các mô hình AI đang phát triển nhanh chóng.

Sự Tiến hóa Lặp đi Lặp lại của Chip MTIA của Meta

Bối cảnh mô hình AI luôn thay đổi, phát triển với tốc độ thường vượt xa chu kỳ phát triển chip truyền thống. Nhận thấy rằng các thiết kế chip dựa trên khối lượng công việc dự kiến có thể trở nên lỗi thời vào thời điểm phần cứng được đưa vào sản xuất, Meta đã áp dụng một "chiến lược tốc độ" sáng tạo cho MTIA. Thay vì các khoảng thời gian phát triển dài, mang tính suy đoán, Meta áp dụng một phương pháp lặp đi lặp lại, trong đó mỗi thế hệ MTIA được xây dựng dựa trên thế hệ trước. Điều này bao gồm việc sử dụng các chiplet mô-đun, kết hợp các hiểu biết sâu sắc mới nhất về khối lượng công việc AI và triển khai các công nghệ phần cứng mới với nhịp độ ngắn hơn đáng kể. Vòng phản hồi chặt chẽ này đảm bảo chip tùy chỉnh của Meta luôn phù hợp chặt chẽ với các yêu cầu năng động của các mô hình AI, thúc đẩy việc áp dụng các tiến bộ mới nhanh hơn.

Meta đã trình bày chi tiết hai thế hệ đầu tiên, MTIA 100 và MTIA 200, trong các bài báo học thuật. Dựa trên nền tảng này, Meta đã đẩy nhanh quá trình phát triển để giới thiệu bốn thế hệ liên tiếp mới: MTIA 300, 400, 450 và 500. Các chip này đã được sản xuất hoặc dự kiến sẽ được triển khai hàng loạt vào năm 2026 và 2027. Sự kế thừa nhanh chóng này đã cho phép Meta mở rộng đáng kể phạm vi khối lượng công việc của MTIA, chuyển từ suy luận xếp hạng và đề xuất (R&R) ban đầu sang đào tạo R&R, khối lượng công việc AI Tạo Sinh (GenAI) nói chung và suy luận GenAI được tối ưu hóa cao.

MTIA 300: Đặt Nền tảng cho Khối lượng công việc AI

MTIA 300 đánh dấu một bước ngoặt quan trọng trong hành trình phát triển chip tùy chỉnh của Meta. Ban đầu được tối ưu hóa cho các mô hình R&R, vốn là khối lượng công việc chủ đạo của Meta trước khi GenAI bùng nổ, các khối kiến trúc của nó đã tạo nền tảng vững chắc cho các chip tiếp theo. Các tính năng nổi bật chính của MTIA 300 bao gồm các chiplet NIC tích hợp, các công cụ nhắn tin chuyên dụng để xử lý các tập hợp giao tiếp, và khả năng tính toán gần bộ nhớ được thiết kế cho các tập hợp dựa trên phép rút gọn. Các thành phần giao tiếp độ trễ thấp, băng thông cao này đã chứng tỏ vai trò quan trọng trong việc cho phép suy luận và đào tạo GenAI hiệu quả trong các thế hệ tiếp theo.

MTIA 300 bao gồm một chiplet tính toán, hai chiplet mạng và một số khối Bộ nhớ Băng thông Cao (HBM). Mỗi chiplet tính toán có một mạng lưới các phần tử xử lý (PE), được thiết kế chiến lược với các PE dự phòng để tăng cường hiệu suất. Mỗi PE là một đơn vị phức tạp chứa hai lõi vector RISC-V, một Công cụ Tích Vô Hướng (Dot Product Engine) để nhân ma trận, một Đơn vị Chức năng Đặc biệt (Special Function Unit) cho các phép kích hoạt và phép toán trên từng phần tử, một Công cụ Rút Gọn (Reduction Engine) để tích lũy và giao tiếp giữa các PE, và một công cụ DMA để di chuyển dữ liệu hiệu quả trong bộ nhớ đệm cục bộ. Thiết kế phức tạp này nhấn mạnh cam kết của Meta trong việc tạo ra một giải pháp hiệu quả cao và tiết kiệm chi phí cho các tác vụ AI cốt lõi của mình.

MTIA 400: Đạt được Hiệu suất GenAI Cạnh tranh

Với sự bùng nổ chưa từng có của AI Tạo Sinh, Meta đã nhanh chóng phát triển MTIA 300 thành MTIA 400 để cung cấp hỗ trợ mạnh mẽ cho các khối lượng công việc GenAI cùng với các khả năng R&R hiện có. MTIA 400 đại diện cho một bước nhảy vọt đáng kể, cung cấp FLOPS FP8 cao hơn 400% và tăng 51% băng thông HBM so với phiên bản trước. Trong khi MTIA 300 tập trung vào hiệu quả chi phí, MTIA 400 được thiết kế để mang lại hiệu suất thô cạnh tranh với các bộ tăng tốc AI thương mại hàng đầu.

Nó đạt được điều này bằng cách kết hợp hai chiplet tính toán để tăng gấp đôi mật độ tính toán một cách hiệu quả và bằng cách hỗ trợ các phiên bản nâng cao của MX8 và MX4, các định dạng độ chính xác thấp quan trọng cho suy luận GenAI hiệu quả. Một giá đỡ duy nhất được trang bị 72 thiết bị MTIA 400, được kết nối qua một bảng nối đa năng (switched backplane), tạo thành một miền mở rộng quy mô (scale-up domain) mạnh mẽ. Các hệ thống này được hỗ trợ bởi các giá đỡ làm mát bằng chất lỏng có hỗ trợ không khí (AALC) tiên tiến, tạo điều kiện triển khai nhanh chóng ngay cả trong các trung tâm dữ liệu cũ, thể hiện cách tiếp cận thực tế của Meta trong việc mở rộng cơ sở hạ tầng AI của mình trên toàn cầu.

MTIA 450 và 500: Chuyên biệt cho Suy luận GenAI

Dự đoán sự tăng trưởng theo cấp số nhân liên tục về nhu cầu suy luận GenAI, Meta đã tiếp tục tinh chỉnh MTIA 400, dẫn đến sự phát triển của MTIA 450 và sau đó là MTIA 500. Các thế hệ này được tối ưu hóa đặc biệt cho những thách thức riêng biệt của suy luận GenAI, tập trung vào những tiến bộ quan trọng về bộ nhớ và tính toán.

MTIA 450 đã đạt được những bước tiến đáng kể bằng cách:

  1. Tăng gấp đôi băng thông HBM so với phiên bản trước, điều này rất quan trọng để tăng tốc giai đoạn giải mã trong các mô hình GenAI.
  2. Tăng FLOPS MX4 lên 75%, đẩy nhanh các phép tính mạng chuyển tiếp (FFN) theo mô hình mixture-of-experts (MoE) thường thấy trong các mô hình ngôn ngữ lớn.
  3. Giới thiệu khả năng tăng tốc phần cứng để làm cho các phép tính attention và FFN hiệu quả hơn, giảm bớt các nút thắt cổ chai liên quan đến Softmax và FlashAttention.
  4. Đổi mới trong các kiểu dữ liệu độ chính xác thấp, vượt ra ngoài FP8/MX8 để cung cấp FLOPS MX4 gấp 6 lần so với FP16/BF16, với các đổi mới kiểu dữ liệu tùy chỉnh giúp duy trì chất lượng mô hình và tăng FLOPS với tác động tối thiểu đến diện tích chip.

MTIA 500, dựa trên thành công của 450, đã tăng thêm 50% băng thông HBM và giới thiệu nhiều đổi mới hơn về các kiểu dữ liệu độ chính xác thấp, củng cố cam kết của Meta trong việc vượt qua các giới hạn về hiệu suất suy luận GenAI. Nỗ lực cải tiến không ngừng này đảm bảo rằng các trải nghiệm AI của Meta luôn dẫn đầu.

Những tiến bộ tích lũy qua các thế hệ này rất rõ rệt. Từ MTIA 300 đến MTIA 500, băng thông HBM đã tăng ấn tượng 4,5 lần, trong khi FLOPS tính toán đã tăng đáng kinh ngạc 25 lần (từ MX8 của MTIA 300 lên MX4 của MTIA 500). Sự tăng tốc nhanh chóng này trong vòng hai năm là minh chứng cho chiến lược tốc độ của Meta và khả năng liên tục nâng cao chip tùy chỉnh của mình. Sự phát triển này là trọng tâm để vận hành AI tác nhân và các mô hình phức tạp khác ở quy mô lớn.

Dưới đây là bảng phân tích các thông số kỹ thuật chính trong dòng MTIA:

Tính năngMTIA 300MTIA 400MTIA 450MTIA 500
Số die tính toán1222
Số khối HBM4488
Băng thông HBM (GB/s)*100151302453
FLOPS MX8 (TFLOPS)100400400400
FLOPS MX4 (TFLOPS)N/A200350500
Kích thước miền mở rộng quy mô18 thiết bị**72 thiết bị72 thiết bị72 thiết bị
Tối ưu hóa chínhĐào tạo R&R, giao tiếp độ trễ thấpGenAI chung, hiệu suất thô cạnh tranh.Suy luận GenAI, HBM, độ chính xác thấp tùy chỉnh.Suy luận GenAI, HBM, độ chính xác thấp tùy chỉnh.

*Một số nhà cung cấp báo cáo băng thông hai chiều. Nhân giá trị trong bảng với hai để có được băng thông hai chiều tương ứng. **MTIA 300 được cấu hình với mạng mở rộng quy mô (scale-out network) có băng thông cao hơn (200 GB/s) do kích thước miền mở rộng quy mô tương đối nhỏ và các khối lượng công việc R&R mục tiêu.

Những thông số kỹ thuật này làm nổi bật những cải tiến đáng kể về băng thông bộ nhớ và sức mạnh tính toán, thể hiện cách mỗi thế hệ MTIA được thiết kế tỉ mỉ để giải quyết những nhu cầu cấp bách nhất của các ứng dụng AI hiện tại và tương lai, đặc biệt là các mô hình GenAI đòi hỏi nhiều tài nguyên.

Việc Meta không ngừng theo đuổi các giải pháp chip tùy chỉnh thông qua dòng MTIA nhấn mạnh cam kết của họ trong việc mang đến những trải nghiệm AI tiên tiến cho hàng tỷ người dùng trên toàn thế giới. Bằng cách kết hợp đổi mới nội bộ với các mối quan hệ đối tác chiến lược, Meta tiếp tục định nghĩa lại những khả năng của cơ sở hạ tầng AI có khả năng mở rộng và hiệu quả về chi phí.

Câu hỏi thường gặp

What are Meta MTIA chips and what is their purpose?
Meta Training and Inference Accelerator (MTIA) chips are custom-designed AI accelerators developed by Meta in partnership with Broadcom. Their primary purpose is to power the vast array of AI-driven experiences across Meta's platforms for billions of users. This includes everything from personalized recommendations (R&R) to advanced Generative AI (GenAI) assistants. By developing its own silicon, Meta aims to cost-effectively scale AI workloads, maintain flexibility, and optimize performance for its specific infrastructure needs, ensuring continuous innovation in AI hardware development.
How many generations of MTIA chips has Meta developed in recent years?
Meta has rapidly accelerated MTIA development, introducing four successive generations in under two years: MTIA 300, MTIA 400, MTIA 450, and MTIA 500. These chips have either already been deployed or are scheduled for mass deployment in 2026 or 2027. This rapid iteration showcases Meta's 'velocity strategy,' designed to keep pace with the extraordinarily fast evolution of AI models and ensure their hardware remains aligned with current and future workload demands, expanding beyond initial R&R tasks to encompass general GenAI and specialized GenAI inference.
What is Meta's 'velocity strategy' for AI chip development?
Meta's 'velocity strategy' is an iterative approach to AI chip development that contrasts with traditional, longer chip design cycles. Recognizing that AI models evolve faster than typical hardware development, Meta designs each MTIA generation to build on the last using modular chiplets. This strategy incorporates the latest AI workload insights and hardware technologies, enabling deployment on a shorter cadence. This tighter feedback loop ensures Meta's custom hardware remains closely aligned with evolving AI models, facilitating faster adoption of new technologies and maintaining optimal performance and cost-efficiency.
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
As GenAI surged, MTIA chips evolved significantly to support these demanding workloads. MTIA 400 enhanced support for GenAI with 400% higher FP8 FLOPS and increased HBM bandwidth. MTIA 450 specifically optimized for GenAI inference by doubling HBM bandwidth, increasing MX4 FLOPS by 75%, introducing hardware acceleration for attention and FFN computations, and innovating with custom low-precision data types. MTIA 500 further improved on this, increasing HBM bandwidth by an additional 50% and introducing more low-precision innovations, directly addressing the compute and memory demands of complex GenAI models.
What are the key performance advancements from MTIA 300 to MTIA 500?
The MTIA chip family has seen remarkable advancements from the 300 series to the 500 series in less than two years. The HBM bandwidth has increased by 4.5 times, significantly boosting memory access speed crucial for large AI models. The compute FLOPS (Floating Point Operations Per Second) have seen an astounding 25-fold increase, particularly from MTIA 300's MX8 to MTIA 500's MX4 formats. These dramatic improvements underscore Meta's ability to rapidly enhance its custom silicon's raw processing power and data handling capabilities to meet the escalating demands of advanced AI models.
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
High-Bandwidth Memory (HBM) is critically important for Generative AI (GenAI) inference performance because GenAI models, especially large language models (LLMs), typically have massive parameter counts and require extensive memory bandwidth to efficiently retrieve and process these parameters during inference. The decoder step in GenAI inference, which generates tokens sequentially, is often bottlenecked by memory access rather than raw compute. Doubling or significantly increasing HBM bandwidth, as seen in MTIA 450 and 500, directly translates to faster token generation, lower latency, and higher throughput, making the AI experiences more responsive and efficient for users.

Cập nhật tin tức

Nhận tin tức AI mới nhất qua email.

Chia sẻ