Các phiên bản G7e: Một kỷ nguyên mới cho suy luận AI trên SageMaker
Bức tranh AI tạo sinh đang phát triển với tốc độ chưa từng có, thúc đẩy nhu cầu liên tục về cơ sở hạ tầng mạnh mẽ hơn, linh hoạt hơn và hiệu quả chi phí hơn. Hôm nay, Code Velocity vui mừng báo cáo về một tiến bộ đáng kể từ AWS: các phiên bản G7e đã chính thức có mặt trên Amazon SageMaker AI. Được hỗ trợ bởi GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, các phiên bản mới này được thiết lập để định nghĩa lại các tiêu chuẩn cho suy luận AI tạo sinh, mang đến cho các nhà phát triển và doanh nghiệp hiệu suất và dung lượng bộ nhớ vượt trội.
Amazon SageMaker AI là một dịch vụ được quản lý toàn diện, cung cấp cho các nhà phát triển và nhà khoa học dữ liệu các công cụ để xây dựng, huấn luyện và triển khai các mô hình học máy ở quy mô lớn. Việc giới thiệu các phiên bản G7e đánh dấu một thời điểm quan trọng đối với các tác vụ AI tạo sinh trên nền tảng này. Các phiên bản này tận dụng GPU NVIDIA RTX PRO 6000 Blackwell tiên tiến, mỗi GPU tự hào có bộ nhớ GDDR7 ấn tượng 96 GB. Sự gia tăng bộ nhớ đáng kể này cho phép triển khai các mô hình nền tảng (FM) lớn hơn đáng kể trực tiếp trên SageMaker AI, giải quyết một nhu cầu cấp thiết cho các ứng dụng AI tiên tiến.
Giờ đây, các tổ chức có thể triển khai các mô hình như GPT-OSS-120B, Nemotron-3-Super-120B-A12B (biến thể NVFP4) và Qwen3.5-35B-A3B với hiệu quả đáng kinh ngạc. Phiên bản G7e.2xlarge, có một GPU duy nhất, có thể lưu trữ các mô hình 35 tỷ tham số, trong khi G7e.48xlarge, với tám GPU, có thể mở rộng lên đến các mô hình 300 tỷ tham số. Sự linh hoạt này mang lại những lợi ích hữu hình: giảm độ phức tạp vận hành, độ trễ thấp hơn và tiết kiệm chi phí đáng kể cho các tác vụ suy luận.
Mở khóa bước nhảy vọt hiệu suất thế hệ của G7e
Các phiên bản G7e đại diện cho một bước nhảy vọt vượt trội so với các phiên bản tiền nhiệm, G6e và G5, mang lại hiệu suất suy luận nhanh hơn tới 2.3 lần so với G6e. Các thông số kỹ thuật nhấn mạnh sự tiến bộ thế hệ này. Mỗi GPU G7e cung cấp băng thông đáng kinh ngạc 1.597 GB/s, tăng gấp đôi bộ nhớ trên mỗi GPU của G6e và gấp bốn lần của G5. Hơn nữa, khả năng mạng được cải thiện đáng kể, mở rộng lên tới 1.600 Gbps với EFA trên kích thước G7e lớn nhất. Mức tăng gấp 4 lần so với G6e và gấp 16 lần so với G5 này mở khóa tiềm năng cho các tình huống suy luận đa nút có độ trễ thấp và tinh chỉnh mà trước đây được coi là không thực tế.
Dưới đây là bảng so sánh làm nổi bật sự tiến bộ qua các thế hệ ở cấp độ 8-GPU:
| Thông số | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| Bộ nhớ GPU trên mỗi GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Tổng bộ nhớ GPU | 192 GB | 384 GB | 768 GB |
| Băng thông bộ nhớ GPU | 600 GB/s trên mỗi GPU | 864 GB/s trên mỗi GPU | 1.597 GB/s trên mỗi GPU |
| vCPU | 192 | 192 | 192 |
| Bộ nhớ hệ thống | 768 GiB | 1.536 GiB | 2.048 GiB |
| Băng thông mạng | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| Bộ nhớ NVMe cục bộ | 7.6 TB | 7.6 TB | 15.2 TB |
| Suy luận so với G6e | Nền tảng | ~1x | Lên đến 2.3x |
Với tổng bộ nhớ GPU khổng lồ 768 GB trên một phiên bản G7e duy nhất, các mô hình mà trước đây yêu cầu cấu hình đa nút phức tạp trên các phiên bản cũ hơn giờ đây có thể được triển khai với sự đơn giản đáng kể. Điều này giúp giảm đáng kể độ trễ giữa các nút và chi phí vận hành. Kết hợp với sự hỗ trợ cho độ chính xác FP4 thông qua Tensor Cores thế hệ thứ năm và NVIDIA GPUDirect RDMA qua EFAv4, các phiên bản G7e được thiết kế rõ ràng cho các tác vụ LLM, AI đa phương thức đòi hỏi cao và quy trình làm việc suy luận tác tử phức tạp trên AWS.
Các trường hợp sử dụng AI tạo sinh đa dạng phát triển mạnh trên G7e
Sự kết hợp mạnh mẽ giữa mật độ bộ nhớ, băng thông và khả năng mạng tiên tiến làm cho các phiên bản G7e trở nên lý tưởng cho nhiều loại tác vụ AI tạo sinh hiện đại. Từ việc nâng cao AI đàm thoại đến cung cấp năng lượng cho các mô phỏng vật lý phức tạp, G7e mang lại những lợi thế hữu hình:
- Chatbot và AI Đàm thoại: Thời gian ra token đầu tiên (TTFT) thấp và thông lượng cao của các phiên bản G7e đảm bảo trải nghiệm tương tác nhanh nhạy và liền mạch, ngay cả khi đối mặt với lượng người dùng đồng thời lớn. Điều này rất quan trọng để duy trì sự tương tác và hài lòng của người dùng trong các tương tác AI thời gian thực.
- Quy trình làm việc tác tử và gọi công cụ: Đối với các pipeline Retrieval Augmented Generation (RAG) và hệ thống tác tử, việc chèn ngữ cảnh nhanh chóng từ các kho truy xuất là tối quan trọng. Sự cải thiện 4 lần về băng thông CPU-sang-GPU trong các phiên bản G7e giúp chúng đặc biệt hiệu quả cho các hoạt động quan trọng này, cho phép các tác tử AI thông minh và năng động hơn.
- Tạo văn bản, Tóm tắt và Suy luận ngữ cảnh dài: Với 96 GB bộ nhớ trên mỗi GPU, các phiên bản G7e xử lý hiệu quả các bộ nhớ đệm Key-Value (KV) lớn. Điều này cho phép mở rộng ngữ cảnh tài liệu, giảm đáng kể nhu cầu cắt bớt văn bản và tạo điều kiện cho việc lập luận phong phú hơn, nhiều sắc thái hơn trên các đầu vào lớn.
- Tạo hình ảnh và Mô hình thị giác: Trong khi các phiên bản thế hệ trước thường xuyên gặp lỗi hết bộ nhớ với các mô hình đa phương thức lớn hơn, dung lượng bộ nhớ gấp đôi của G7e khắc phục nhẹ nhàng những hạn chế này, mở đường cho các ứng dụng AI hình ảnh và thị giác tinh vi hơn, độ phân giải cao hơn.
- AI vật lý và Điện toán khoa học: Ngoài AI tạo sinh truyền thống, khả năng tính toán thế hệ Blackwell của G7e, hỗ trợ FP4 và khả năng tính toán không gian (bao gồm DLSS 4.0 và RT cores thế hệ thứ 4) mở rộng tiện ích của nó cho các cặp song sinh kỹ thuật số, mô phỏng 3D và suy luận mô hình AI vật lý tiên tiến, mở ra những chân trời mới trong nghiên cứu khoa học và ứng dụng công nghiệp.
Triển khai hợp lý và kiểm tra hiệu suất
Việc triển khai các mô hình AI tạo sinh trên các phiên bản G7e thông qua Amazon SageMaker AI được thiết kế để đơn giản. Người dùng có thể truy cập một sổ tay mẫu tại đây giúp hợp lý hóa quy trình. Các điều kiện tiên quyết thường bao gồm một tài khoản AWS, một vai trò IAM để truy cập SageMaker, và Amazon SageMaker Studio hoặc một phiên bản sổ tay SageMaker cho môi trường phát triển. Quan trọng là, người dùng nên yêu cầu một hạn ngạch thích hợp cho các phiên bản ml.g7e.2xlarge hoặc lớn hơn để sử dụng điểm cuối SageMaker AI thông qua bảng điều khiển Service Quotas.
Để chứng minh những cải tiến đáng kể về hiệu suất, AWS đã kiểm tra Qwen3-32B (BF16) trên cả các phiên bản G6e và G7e. Tác vụ liên quan đến khoảng 1.000 token đầu vào và 560 token đầu ra trên mỗi yêu cầu, mô phỏng các tác vụ tóm tắt tài liệu phổ biến. Cả hai cấu hình đều sử dụng container vLLM gốc với tính năng bộ nhớ đệm tiền tố được bật, đảm bảo so sánh công bằng.
Kết quả rất thuyết phục. Trong khi nền tảng G6e (ml.g6e.12xlarge với 4 GPU L40S với giá 13.12 USD/giờ) cho thấy thông lượng trên mỗi yêu cầu mạnh mẽ, thì G7e (ml.g7e.2xlarge với 1 RTX PRO 6000 Blackwell với giá 4.20 USD/giờ) lại kể một câu chuyện chi phí hoàn toàn khác. Ở mức đồng thời trong sản xuất (C=32), G7e đạt mức đáng kinh ngạc 0.79 USD cho mỗi triệu token đầu ra. Điều này thể hiện mức giảm chi phí 2.6 lần so với 2.06 USD của G6e, do mức giá theo giờ thấp hơn của G7e và khả năng duy trì thông lượng ổn định dưới tải, chứng minh rằng hiệu suất cao không nhất thiết phải đi kèm với chi phí đắt đỏ.
Tương lai của suy luận AI tạo sinh hiệu quả chi phí
Việc giới thiệu các phiên bản G7e trên Amazon SageMaker AI không chỉ là một bản nâng cấp nhỏ; đó là một bước đi chiến lược của AWS để dân chủ hóa quyền truy cập vào AI tạo sinh hiệu suất cao. Bằng cách kết hợp sức mạnh thô của GPU NVIDIA RTX PRO 6000 Blackwell với khả năng mở rộng và quản lý của SageMaker, AWS đang trao quyền cho các tổ chức thuộc mọi quy mô để triển khai các mô hình AI lớn hơn, phức tạp hơn với hiệu quả và chi phí chưa từng có. Sự phát triển này đảm bảo rằng những tiến bộ trong AI tạo sinh có thể được chuyển đổi thành các ứng dụng thực tế, sẵn sàng cho sản xuất trên nhiều ngành công nghiệp, củng cố vị trí của SageMaker AI như một nền tảng hàng đầu cho đổi mới AI.
Câu hỏi thường gặp
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Cập nhật tin tức
Nhận tin tức AI mới nhất qua email.
