Nâng tầm Trải nghiệm AI với Chip MTIA của Meta
Hàng ngày, hàng tỷ người trên các nền tảng đa dạng của Meta tương tác với vô số tính năng được hỗ trợ bởi AI, từ các đề xuất nội dung được cá nhân hóa đến các trợ lý AI tiên tiến. Thách thức cơ bản đối với Meta, và thực sự là toàn ngành, nằm ở việc triển khai và liên tục cải thiện các mô hình AI phức tạp này trên quy mô toàn cầu, đồng thời duy trì hiệu quả chi phí tối ưu. Nhiệm vụ cơ sở hạ tầng đòi hỏi này được đáp ứng bởi khoản đầu tư chiến lược của Meta vào các giải pháp linh hoạt, không ngừng phát triển, trong đó trọng tâm là các chip AI được thiết kế tùy chỉnh của họ: dòng chip Meta Training and Inference Accelerator (MTIA).
Mặc dù cam kết với một danh mục chip đa dạng tận dụng cả giải pháp nội bộ và bên ngoài, các chip MTIA, được phát triển với sự hợp tác chặt chẽ của Broadcom, là một thành phần không thể thiếu trong chiến lược cơ sở hạ tầng AI của Meta. Các bộ tăng tốc 'cây nhà lá vườn' này rất quan trọng để cung cấp năng lượng hiệu quả về chi phí cho các trải nghiệm AI tiếp cận hàng tỷ người dùng, liên tục thích ứng với bối cảnh các mô hình AI đang phát triển nhanh chóng.
Sự Tiến hóa Lặp đi Lặp lại của Chip MTIA của Meta
Bối cảnh mô hình AI luôn thay đổi, phát triển với tốc độ thường vượt xa chu kỳ phát triển chip truyền thống. Nhận thấy rằng các thiết kế chip dựa trên khối lượng công việc dự kiến có thể trở nên lỗi thời vào thời điểm phần cứng được đưa vào sản xuất, Meta đã áp dụng một "chiến lược tốc độ" sáng tạo cho MTIA. Thay vì các khoảng thời gian phát triển dài, mang tính suy đoán, Meta áp dụng một phương pháp lặp đi lặp lại, trong đó mỗi thế hệ MTIA được xây dựng dựa trên thế hệ trước. Điều này bao gồm việc sử dụng các chiplet mô-đun, kết hợp các hiểu biết sâu sắc mới nhất về khối lượng công việc AI và triển khai các công nghệ phần cứng mới với nhịp độ ngắn hơn đáng kể. Vòng phản hồi chặt chẽ này đảm bảo chip tùy chỉnh của Meta luôn phù hợp chặt chẽ với các yêu cầu năng động của các mô hình AI, thúc đẩy việc áp dụng các tiến bộ mới nhanh hơn.
Meta đã trình bày chi tiết hai thế hệ đầu tiên, MTIA 100 và MTIA 200, trong các bài báo học thuật. Dựa trên nền tảng này, Meta đã đẩy nhanh quá trình phát triển để giới thiệu bốn thế hệ liên tiếp mới: MTIA 300, 400, 450 và 500. Các chip này đã được sản xuất hoặc dự kiến sẽ được triển khai hàng loạt vào năm 2026 và 2027. Sự kế thừa nhanh chóng này đã cho phép Meta mở rộng đáng kể phạm vi khối lượng công việc của MTIA, chuyển từ suy luận xếp hạng và đề xuất (R&R) ban đầu sang đào tạo R&R, khối lượng công việc AI Tạo Sinh (GenAI) nói chung và suy luận GenAI được tối ưu hóa cao.
MTIA 300: Đặt Nền tảng cho Khối lượng công việc AI
MTIA 300 đánh dấu một bước ngoặt quan trọng trong hành trình phát triển chip tùy chỉnh của Meta. Ban đầu được tối ưu hóa cho các mô hình R&R, vốn là khối lượng công việc chủ đạo của Meta trước khi GenAI bùng nổ, các khối kiến trúc của nó đã tạo nền tảng vững chắc cho các chip tiếp theo. Các tính năng nổi bật chính của MTIA 300 bao gồm các chiplet NIC tích hợp, các công cụ nhắn tin chuyên dụng để xử lý các tập hợp giao tiếp, và khả năng tính toán gần bộ nhớ được thiết kế cho các tập hợp dựa trên phép rút gọn. Các thành phần giao tiếp độ trễ thấp, băng thông cao này đã chứng tỏ vai trò quan trọng trong việc cho phép suy luận và đào tạo GenAI hiệu quả trong các thế hệ tiếp theo.
MTIA 300 bao gồm một chiplet tính toán, hai chiplet mạng và một số khối Bộ nhớ Băng thông Cao (HBM). Mỗi chiplet tính toán có một mạng lưới các phần tử xử lý (PE), được thiết kế chiến lược với các PE dự phòng để tăng cường hiệu suất. Mỗi PE là một đơn vị phức tạp chứa hai lõi vector RISC-V, một Công cụ Tích Vô Hướng (Dot Product Engine) để nhân ma trận, một Đơn vị Chức năng Đặc biệt (Special Function Unit) cho các phép kích hoạt và phép toán trên từng phần tử, một Công cụ Rút Gọn (Reduction Engine) để tích lũy và giao tiếp giữa các PE, và một công cụ DMA để di chuyển dữ liệu hiệu quả trong bộ nhớ đệm cục bộ. Thiết kế phức tạp này nhấn mạnh cam kết của Meta trong việc tạo ra một giải pháp hiệu quả cao và tiết kiệm chi phí cho các tác vụ AI cốt lõi của mình.
MTIA 400: Đạt được Hiệu suất GenAI Cạnh tranh
Với sự bùng nổ chưa từng có của AI Tạo Sinh, Meta đã nhanh chóng phát triển MTIA 300 thành MTIA 400 để cung cấp hỗ trợ mạnh mẽ cho các khối lượng công việc GenAI cùng với các khả năng R&R hiện có. MTIA 400 đại diện cho một bước nhảy vọt đáng kể, cung cấp FLOPS FP8 cao hơn 400% và tăng 51% băng thông HBM so với phiên bản trước. Trong khi MTIA 300 tập trung vào hiệu quả chi phí, MTIA 400 được thiết kế để mang lại hiệu suất thô cạnh tranh với các bộ tăng tốc AI thương mại hàng đầu.
Nó đạt được điều này bằng cách kết hợp hai chiplet tính toán để tăng gấp đôi mật độ tính toán một cách hiệu quả và bằng cách hỗ trợ các phiên bản nâng cao của MX8 và MX4, các định dạng độ chính xác thấp quan trọng cho suy luận GenAI hiệu quả. Một giá đỡ duy nhất được trang bị 72 thiết bị MTIA 400, được kết nối qua một bảng nối đa năng (switched backplane), tạo thành một miền mở rộng quy mô (scale-up domain) mạnh mẽ. Các hệ thống này được hỗ trợ bởi các giá đỡ làm mát bằng chất lỏng có hỗ trợ không khí (AALC) tiên tiến, tạo điều kiện triển khai nhanh chóng ngay cả trong các trung tâm dữ liệu cũ, thể hiện cách tiếp cận thực tế của Meta trong việc mở rộng cơ sở hạ tầng AI của mình trên toàn cầu.
MTIA 450 và 500: Chuyên biệt cho Suy luận GenAI
Dự đoán sự tăng trưởng theo cấp số nhân liên tục về nhu cầu suy luận GenAI, Meta đã tiếp tục tinh chỉnh MTIA 400, dẫn đến sự phát triển của MTIA 450 và sau đó là MTIA 500. Các thế hệ này được tối ưu hóa đặc biệt cho những thách thức riêng biệt của suy luận GenAI, tập trung vào những tiến bộ quan trọng về bộ nhớ và tính toán.
MTIA 450 đã đạt được những bước tiến đáng kể bằng cách:
- Tăng gấp đôi băng thông HBM so với phiên bản trước, điều này rất quan trọng để tăng tốc giai đoạn giải mã trong các mô hình GenAI.
- Tăng FLOPS MX4 lên 75%, đẩy nhanh các phép tính mạng chuyển tiếp (FFN) theo mô hình mixture-of-experts (MoE) thường thấy trong các mô hình ngôn ngữ lớn.
- Giới thiệu khả năng tăng tốc phần cứng để làm cho các phép tính attention và FFN hiệu quả hơn, giảm bớt các nút thắt cổ chai liên quan đến Softmax và FlashAttention.
- Đổi mới trong các kiểu dữ liệu độ chính xác thấp, vượt ra ngoài FP8/MX8 để cung cấp FLOPS MX4 gấp 6 lần so với FP16/BF16, với các đổi mới kiểu dữ liệu tùy chỉnh giúp duy trì chất lượng mô hình và tăng FLOPS với tác động tối thiểu đến diện tích chip.
MTIA 500, dựa trên thành công của 450, đã tăng thêm 50% băng thông HBM và giới thiệu nhiều đổi mới hơn về các kiểu dữ liệu độ chính xác thấp, củng cố cam kết của Meta trong việc vượt qua các giới hạn về hiệu suất suy luận GenAI. Nỗ lực cải tiến không ngừng này đảm bảo rằng các trải nghiệm AI của Meta luôn dẫn đầu.
Những tiến bộ tích lũy qua các thế hệ này rất rõ rệt. Từ MTIA 300 đến MTIA 500, băng thông HBM đã tăng ấn tượng 4,5 lần, trong khi FLOPS tính toán đã tăng đáng kinh ngạc 25 lần (từ MX8 của MTIA 300 lên MX4 của MTIA 500). Sự tăng tốc nhanh chóng này trong vòng hai năm là minh chứng cho chiến lược tốc độ của Meta và khả năng liên tục nâng cao chip tùy chỉnh của mình. Sự phát triển này là trọng tâm để vận hành AI tác nhân và các mô hình phức tạp khác ở quy mô lớn.
Dưới đây là bảng phân tích các thông số kỹ thuật chính trong dòng MTIA:
| Tính năng | MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 |
|---|---|---|---|---|
| Số die tính toán | 1 | 2 | 2 | 2 |
| Số khối HBM | 4 | 4 | 8 | 8 |
| Băng thông HBM (GB/s)* | 100 | 151 | 302 | 453 |
| FLOPS MX8 (TFLOPS) | 100 | 400 | 400 | 400 |
| FLOPS MX4 (TFLOPS) | N/A | 200 | 350 | 500 |
| Kích thước miền mở rộng quy mô | 18 thiết bị** | 72 thiết bị | 72 thiết bị | 72 thiết bị |
| Tối ưu hóa chính | Đào tạo R&R, giao tiếp độ trễ thấp | GenAI chung, hiệu suất thô cạnh tranh. | Suy luận GenAI, HBM, độ chính xác thấp tùy chỉnh. | Suy luận GenAI, HBM, độ chính xác thấp tùy chỉnh. |
*Một số nhà cung cấp báo cáo băng thông hai chiều. Nhân giá trị trong bảng với hai để có được băng thông hai chiều tương ứng. **MTIA 300 được cấu hình với mạng mở rộng quy mô (scale-out network) có băng thông cao hơn (200 GB/s) do kích thước miền mở rộng quy mô tương đối nhỏ và các khối lượng công việc R&R mục tiêu.
Những thông số kỹ thuật này làm nổi bật những cải tiến đáng kể về băng thông bộ nhớ và sức mạnh tính toán, thể hiện cách mỗi thế hệ MTIA được thiết kế tỉ mỉ để giải quyết những nhu cầu cấp bách nhất của các ứng dụng AI hiện tại và tương lai, đặc biệt là các mô hình GenAI đòi hỏi nhiều tài nguyên.
Việc Meta không ngừng theo đuổi các giải pháp chip tùy chỉnh thông qua dòng MTIA nhấn mạnh cam kết của họ trong việc mang đến những trải nghiệm AI tiên tiến cho hàng tỷ người dùng trên toàn thế giới. Bằng cách kết hợp đổi mới nội bộ với các mối quan hệ đối tác chiến lược, Meta tiếp tục định nghĩa lại những khả năng của cơ sở hạ tầng AI có khả năng mở rộng và hiệu quả về chi phí.
Câu hỏi thường gặp
What are Meta MTIA chips and what is their purpose?
How many generations of MTIA chips has Meta developed in recent years?
What is Meta's 'velocity strategy' for AI chip development?
How do the newer MTIA chips (400, 450, 500) support Generative AI workloads?
What are the key performance advancements from MTIA 300 to MTIA 500?
Why is High-Bandwidth Memory (HBM) important for GenAI inference performance?
Cập nhật tin tức
Nhận tin tức AI mới nhất qua email.
