Suy luận AI tạo sinh: Tăng tốc trên SageMaker với các phiên bản G7e

Các phiên bản G7e: Một kỷ nguyên mới cho suy luận AI trên SageMaker

Bức tranh AI tạo sinh đang phát triển với tốc độ chưa từng có, thúc đẩy nhu cầu liên tục về cơ sở hạ tầng mạnh mẽ hơn, linh hoạt hơn và hiệu quả chi phí hơn. Hôm nay, Code Velocity vui mừng báo cáo về một tiến bộ đáng kể từ AWS: các phiên bản G7e đã chính thức có mặt trên Amazon SageMaker AI. Được hỗ trợ bởi GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, các phiên bản mới này được thiết lập để định nghĩa lại các tiêu chuẩn cho suy luận AI tạo sinh, mang đến cho các nhà phát triển và doanh nghiệp hiệu suất và dung lượng bộ nhớ vượt trội.

Amazon SageMaker AI là một dịch vụ được quản lý toàn diện, cung cấp cho các nhà phát triển và nhà khoa học dữ liệu các công cụ để xây dựng, huấn luyện và triển khai các mô hình học máy ở quy mô lớn. Việc giới thiệu các phiên bản G7e đánh dấu một thời điểm quan trọng đối với các tác vụ AI tạo sinh trên nền tảng này. Các phiên bản này tận dụng GPU NVIDIA RTX PRO 6000 Blackwell tiên tiến, mỗi GPU tự hào có bộ nhớ GDDR7 ấn tượng 96 GB. Sự gia tăng bộ nhớ đáng kể này cho phép triển khai các mô hình nền tảng (FM) lớn hơn đáng kể trực tiếp trên SageMaker AI, giải quyết một nhu cầu cấp thiết cho các ứng dụng AI tiên tiến.

Giờ đây, các tổ chức có thể triển khai các mô hình như GPT-OSS-120B, Nemotron-3-Super-120B-A12B (biến thể NVFP4) và Qwen3.5-35B-A3B với hiệu quả đáng kinh ngạc. Phiên bản G7e.2xlarge, có một GPU duy nhất, có thể lưu trữ các mô hình 35 tỷ tham số, trong khi G7e.48xlarge, với tám GPU, có thể mở rộng lên đến các mô hình 300 tỷ tham số. Sự linh hoạt này mang lại những lợi ích hữu hình: giảm độ phức tạp vận hành, độ trễ thấp hơn và tiết kiệm chi phí đáng kể cho các tác vụ suy luận.

Mở khóa bước nhảy vọt hiệu suất thế hệ của G7e

Các phiên bản G7e đại diện cho một bước nhảy vọt vượt trội so với các phiên bản tiền nhiệm, G6e và G5, mang lại hiệu suất suy luận nhanh hơn tới 2.3 lần so với G6e. Các thông số kỹ thuật nhấn mạnh sự tiến bộ thế hệ này. Mỗi GPU G7e cung cấp băng thông đáng kinh ngạc 1.597 GB/s, tăng gấp đôi bộ nhớ trên mỗi GPU của G6e và gấp bốn lần của G5. Hơn nữa, khả năng mạng được cải thiện đáng kể, mở rộng lên tới 1.600 Gbps với EFA trên kích thước G7e lớn nhất. Mức tăng gấp 4 lần so với G6e và gấp 16 lần so với G5 này mở khóa tiềm năng cho các tình huống suy luận đa nút có độ trễ thấp và tinh chỉnh mà trước đây được coi là không thực tế.

Dưới đây là bảng so sánh làm nổi bật sự tiến bộ qua các thế hệ ở cấp độ 8-GPU:

Thông số	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Bộ nhớ GPU trên mỗi GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Tổng bộ nhớ GPU	192 GB	384 GB	768 GB
Băng thông bộ nhớ GPU	600 GB/s trên mỗi GPU	864 GB/s trên mỗi GPU	1.597 GB/s trên mỗi GPU
vCPU	192	192	192
Bộ nhớ hệ thống	768 GiB	1.536 GiB	2.048 GiB
Băng thông mạng	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Bộ nhớ NVMe cục bộ	7.6 TB	7.6 TB	15.2 TB
Suy luận so với G6e	Nền tảng	~1x	Lên đến 2.3x

Với tổng bộ nhớ GPU khổng lồ 768 GB trên một phiên bản G7e duy nhất, các mô hình mà trước đây yêu cầu cấu hình đa nút phức tạp trên các phiên bản cũ hơn giờ đây có thể được triển khai với sự đơn giản đáng kể. Điều này giúp giảm đáng kể độ trễ giữa các nút và chi phí vận hành. Kết hợp với sự hỗ trợ cho độ chính xác FP4 thông qua Tensor Cores thế hệ thứ năm và NVIDIA GPUDirect RDMA qua EFAv4, các phiên bản G7e được thiết kế rõ ràng cho các tác vụ LLM, AI đa phương thức đòi hỏi cao và quy trình làm việc suy luận tác tử phức tạp trên AWS.

Các trường hợp sử dụng AI tạo sinh đa dạng phát triển mạnh trên G7e

Sự kết hợp mạnh mẽ giữa mật độ bộ nhớ, băng thông và khả năng mạng tiên tiến làm cho các phiên bản G7e trở nên lý tưởng cho nhiều loại tác vụ AI tạo sinh hiện đại. Từ việc nâng cao AI đàm thoại đến cung cấp năng lượng cho các mô phỏng vật lý phức tạp, G7e mang lại những lợi thế hữu hình:

Chatbot và AI Đàm thoại: Thời gian ra token đầu tiên (TTFT) thấp và thông lượng cao của các phiên bản G7e đảm bảo trải nghiệm tương tác nhanh nhạy và liền mạch, ngay cả khi đối mặt với lượng người dùng đồng thời lớn. Điều này rất quan trọng để duy trì sự tương tác và hài lòng của người dùng trong các tương tác AI thời gian thực.
Quy trình làm việc tác tử và gọi công cụ: Đối với các pipeline Retrieval Augmented Generation (RAG) và hệ thống tác tử, việc chèn ngữ cảnh nhanh chóng từ các kho truy xuất là tối quan trọng. Sự cải thiện 4 lần về băng thông CPU-sang-GPU trong các phiên bản G7e giúp chúng đặc biệt hiệu quả cho các hoạt động quan trọng này, cho phép các tác tử AI thông minh và năng động hơn.
Tạo văn bản, Tóm tắt và Suy luận ngữ cảnh dài: Với 96 GB bộ nhớ trên mỗi GPU, các phiên bản G7e xử lý hiệu quả các bộ nhớ đệm Key-Value (KV) lớn. Điều này cho phép mở rộng ngữ cảnh tài liệu, giảm đáng kể nhu cầu cắt bớt văn bản và tạo điều kiện cho việc lập luận phong phú hơn, nhiều sắc thái hơn trên các đầu vào lớn.
Tạo hình ảnh và Mô hình thị giác: Trong khi các phiên bản thế hệ trước thường xuyên gặp lỗi hết bộ nhớ với các mô hình đa phương thức lớn hơn, dung lượng bộ nhớ gấp đôi của G7e khắc phục nhẹ nhàng những hạn chế này, mở đường cho các ứng dụng AI hình ảnh và thị giác tinh vi hơn, độ phân giải cao hơn.
AI vật lý và Điện toán khoa học: Ngoài AI tạo sinh truyền thống, khả năng tính toán thế hệ Blackwell của G7e, hỗ trợ FP4 và khả năng tính toán không gian (bao gồm DLSS 4.0 và RT cores thế hệ thứ 4) mở rộng tiện ích của nó cho các cặp song sinh kỹ thuật số, mô phỏng 3D và suy luận mô hình AI vật lý tiên tiến, mở ra những chân trời mới trong nghiên cứu khoa học và ứng dụng công nghiệp.

Triển khai hợp lý và kiểm tra hiệu suất

Việc triển khai các mô hình AI tạo sinh trên các phiên bản G7e thông qua Amazon SageMaker AI được thiết kế để đơn giản. Người dùng có thể truy cập một sổ tay mẫu tại đây giúp hợp lý hóa quy trình. Các điều kiện tiên quyết thường bao gồm một tài khoản AWS, một vai trò IAM để truy cập SageMaker, và Amazon SageMaker Studio hoặc một phiên bản sổ tay SageMaker cho môi trường phát triển. Quan trọng là, người dùng nên yêu cầu một hạn ngạch thích hợp cho các phiên bản ml.g7e.2xlarge hoặc lớn hơn để sử dụng điểm cuối SageMaker AI thông qua bảng điều khiển Service Quotas.

Để chứng minh những cải tiến đáng kể về hiệu suất, AWS đã kiểm tra Qwen3-32B (BF16) trên cả các phiên bản G6e và G7e. Tác vụ liên quan đến khoảng 1.000 token đầu vào và 560 token đầu ra trên mỗi yêu cầu, mô phỏng các tác vụ tóm tắt tài liệu phổ biến. Cả hai cấu hình đều sử dụng container vLLM gốc với tính năng bộ nhớ đệm tiền tố được bật, đảm bảo so sánh công bằng.

Kết quả rất thuyết phục. Trong khi nền tảng G6e (ml.g6e.12xlarge với 4 GPU L40S với giá 13.12 USD/giờ) cho thấy thông lượng trên mỗi yêu cầu mạnh mẽ, thì G7e (ml.g7e.2xlarge với 1 RTX PRO 6000 Blackwell với giá 4.20 USD/giờ) lại kể một câu chuyện chi phí hoàn toàn khác. Ở mức đồng thời trong sản xuất (C=32), G7e đạt mức đáng kinh ngạc 0.79 USD cho mỗi triệu token đầu ra. Điều này thể hiện mức giảm chi phí 2.6 lần so với 2.06 USD của G6e, do mức giá theo giờ thấp hơn của G7e và khả năng duy trì thông lượng ổn định dưới tải, chứng minh rằng hiệu suất cao không nhất thiết phải đi kèm với chi phí đắt đỏ.

Tương lai của suy luận AI tạo sinh hiệu quả chi phí

Việc giới thiệu các phiên bản G7e trên Amazon SageMaker AI không chỉ là một bản nâng cấp nhỏ; đó là một bước đi chiến lược của AWS để dân chủ hóa quyền truy cập vào AI tạo sinh hiệu suất cao. Bằng cách kết hợp sức mạnh thô của GPU NVIDIA RTX PRO 6000 Blackwell với khả năng mở rộng và quản lý của SageMaker, AWS đang trao quyền cho các tổ chức thuộc mọi quy mô để triển khai các mô hình AI lớn hơn, phức tạp hơn với hiệu quả và chi phí chưa từng có. Sự phát triển này đảm bảo rằng những tiến bộ trong AI tạo sinh có thể được chuyển đổi thành các ứng dụng thực tế, sẵn sàng cho sản xuất trên nhiều ngành công nghiệp, củng cố vị trí của SageMaker AI như một nền tảng hàng đầu cho đổi mới AI.

Nguồn gốc

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Câu hỏi thường gặp

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Cập nhật tin tức

Nhận tin tức AI mới nhất qua email.

Chia sẻ