Inferensi AI Generatif: Percepatan di SageMaker dengan Instans G7e

Instans G7e: Era Baru untuk Inferensi AI di SageMaker

Lanskap AI generatif berkembang dengan kecepatan yang belum pernah terjadi sebelumnya, mendorong permintaan berkelanjutan untuk infrastruktur yang lebih kuat, fleksibel, dan hemat biaya. Hari ini, Code Velocity dengan gembira melaporkan kemajuan signifikan dari AWS: ketersediaan umum instans G7e di Amazon SageMaker AI. Didukung oleh GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, instans baru ini akan mendefinisikan ulang tolok ukur untuk inferensi AI generatif, menawarkan kinerja dan kapasitas memori yang tak tertandingi kepada pengembang dan perusahaan.

Amazon SageMaker AI adalah layanan yang dikelola sepenuhnya yang menyediakan alat bagi pengembang dan ilmuwan data untuk membangun, melatih, dan menerapkan model pembelajaran mesin dalam skala besar. Pengenalan instans G7e menandai momen penting untuk beban kerja AI generatif pada platform ini. Instans ini memanfaatkan GPU NVIDIA RTX PRO 6000 Blackwell yang canggih, masing-masing memiliki memori GDDR7 96 GB yang mengesankan. Peningkatan memori yang substansial ini memungkinkan penerapan model dasar (FM) yang jauh lebih besar langsung di SageMaker AI, addressing a critical need for advanced AI applications.

Organisasi sekarang dapat menerapkan model seperti GPT-OSS-120B, Nemotron-3-Super-120B-A12B (varian NVFP4), dan Qwen3.5-35B-A3B dengan efisiensi yang luar biasa. Instans G7e.2xlarge, yang menampilkan satu GPU, dapat menghosting model parameter 35B, sementara G7e.48xlarge, dengan delapan GPU, menskalakan hingga model parameter 300B. Fleksibilitas ini menghasilkan manfaat nyata: kompleksitas operasional yang berkurang, latensi yang lebih rendah, dan penghematan biaya yang substansial untuk beban kerja inferensi.

Mengungkap Lompatan Kinerja Generasi G7e

Instans G7e mewakili lompatan monumental dibandingkan pendahulunya, G6e dan G5, memberikan kinerja inferensi hingga 2,3 kali lebih cepat dibandingkan G6e. Spesifikasi teknis menggarisbawahi kemajuan generasi ini. Setiap GPU G7e menyediakan bandwidth 1.597 GB/s yang mencengangkan, secara efektif menggandakan memori per GPU G6e dan melipatgandakan G5. Selanjutnya, kemampuan jaringan ditingkatkan secara dramatis, penskalaan hingga 1.600 Gbps dengan EFA pada ukuran G7e terbesar. Peningkatan 4x dibandingkan G6e dan 16x dibandingkan G5 ini membuka potensi untuk inferensi multi-node latensi rendah dan skenario fine-tuning yang sebelumnya dianggap tidak praktis.

Berikut adalah perbandingan yang menyoroti perkembangan di seluruh generasi pada tingkat 8-GPU:

Spec	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Memori GPU per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Total Memori GPU	192 GB	384 GB	768 GB
Bandwidth Memori GPU	600 GB/s per GPU	864 GB/s per GPU	1.597 GB/s per GPU
vCPU	192	192	192
Memori Sistem	768 GiB	1.536 GiB	2.048 GiB
Bandwidth Jaringan	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Penyimpanan NVMe Lokal	7.6 TB	7.6 TB	15.2 TB
Inferensi vs. G6e	Baseline	~1x	Hingga 2.3x

Dengan total memori GPU 768 GB yang kolosal pada satu instans G7e, model yang dulunya membutuhkan konfigurasi multi-node yang kompleks pada instans yang lebih lama kini dapat diterapkan dengan kesederhanaan yang luar biasa. Ini secara signifikan mengurangi latensi antar-node dan overhead operasional. Ditambah dengan dukungan untuk presisi FP4 melalui Tensor Cores generasi kelima dan NVIDIA GPUDirect RDMA melalui EFAv4, instans G7e secara tegas dirancang untuk LLM yang menuntut, AI multimodal, dan alur kerja inferensi agentic yang canggih di AWS.

Beragam Kasus Penggunaan AI Generatif Berkembang dengan G7e

Kombinasi kuat antara kepadatan memori, bandwidth, dan kemampuan jaringan canggih menjadikan instans G7e ideal untuk spektrum luas beban kerja AI generatif kontemporer. Dari meningkatkan AI percakapan hingga mendukung simulasi fisik yang kompleks, G7e menawarkan keuntungan nyata:

Chatbot dan AI Percakapan: Waktu Sampai Token Pertama (TTFT) yang rendah dan throughput tinggi dari instans G7e memastikan pengalaman interaktif yang responsif dan mulus, bahkan ketika dihadapkan pada beban pengguna konkuren yang tinggi. Ini sangat penting untuk menjaga keterlibatan dan kepuasan pengguna dalam interaksi AI waktu nyata.
Alur Kerja Agentic dan Panggilan Alat: Untuk pipeline Retrieval Augmented Generation (RAG) dan sistem agentic, injeksi konteks cepat dari penyimpanan pengambilan sangat penting. Peningkatan 4x dalam bandwidth CPU-ke-GPU dalam instans G7e menjadikannya sangat efektif untuk operasi kritis ini, memungkinkan agen AI yang lebih cerdas dan dinamis.
Pembuatan Teks, Rangkuman, dan Inferensi Konteks Panjang: Dengan memori 96 GB per GPU, instans G7e dengan mahir menangani cache Key-Value (KV) yang besar. Ini memungkinkan konteks dokumen yang diperluas, secara signifikan mengurangi kebutuhan pemotongan teks dan memfasilitasi penalaran yang lebih kaya dan lebih bernuansa atas input yang luas.
Pembuatan Gambar dan Model Visi: Di mana instans generasi sebelumnya sering mengalami kesalahan kehabisan memori dengan model multimodal yang lebih besar, kapasitas memori G7e yang dua kali lipat dengan anggun menyelesaikan batasan ini, membuka jalan bagi aplikasi AI gambar dan visi yang lebih canggih dan beresolusi lebih tinggi.
AI Fisik dan Komputasi Ilmiah: Di luar AI generatif tradisional, komputasi generasi Blackwell G7e, dukungan FP4, dan kemampuan komputasi spasial (termasuk DLSS 4.0 dan RT core generasi ke-4) memperluas kegunaannya ke kembaran digital, simulasi 3D, dan inferensi model AI fisik canggih, membuka batasan baru dalam penelitian ilmiah dan aplikasi industri.

Penerapan yang Efisien dan Tolok Ukur Kinerja

Menerapkan model AI generatif pada instans G7e melalui Amazon SageMaker AI dirancang agar mudah. Pengguna dapat mengakses contoh notebook di sini yang menyederhanakan proses. Prasyarat biasanya termasuk akun AWS, peran IAM untuk akses SageMaker, dan Amazon SageMaker Studio atau instans notebook SageMaker untuk lingkungan pengembangan. Yang penting, pengguna harus meminta kuota yang sesuai untuk ml.g7e.2xlarge atau instans yang lebih besar untuk penggunaan titik akhir SageMaker AI melalui konsol Service Quotas.

Untuk menunjukkan peningkatan kinerja yang signifikan, AWS meneliti Qwen3-32B (BF16) pada instans G6e dan G7e. Beban kerja melibatkan sekitar 1.000 token masukan dan 560 token keluaran per permintaan, meniru tugas peringkasan dokumen umum. Kedua konfigurasi menggunakan kontainer vLLM asli dengan prefix caching diaktifkan, memastikan perbandingan yang seimbang (apples-to-apples).

Hasilnya sangat meyakinkan. Sementara baseline G6e (ml.g6e.12xlarge dengan 4x GPU L40S seharga $13,12/jam) menunjukkan throughput per permintaan yang kuat, G7e (ml.g7e.2xlarge dengan 1x RTX PRO 6000 Blackwell seharga $4,20/jam) menceritakan kisah biaya yang sangat berbeda. Pada konkurensi produksi (C=32), G7e mencapai $0,79 per juta token keluaran yang mencengangkan. Ini merupakan pengurangan biaya sebesar 2,6x dibandingkan G6e yang $2,06, didorong oleh tarif per jam G7e yang lebih rendah dan kemampuannya untuk mempertahankan throughput yang konsisten di bawah beban, membuktikan bahwa kinerja tinggi tidak harus datang dengan biaya premium.

Masa Depan Inferensi AI Generatif yang Hemat Biaya

Pengenalan instans G7e di Amazon SageMaker AI lebih dari sekadar peningkatan inkremental; ini adalah langkah strategis oleh AWS untuk mendemokratisasikan akses ke AI generatif berkinerja tinggi. Dengan menggabungkan kekuatan mentah GPU NVIDIA RTX PRO 6000 Blackwell dengan skalabilitas dan kemampuan manajemen SageMaker, AWS memberdayakan organisasi dari semua ukuran untuk menerapkan model AI yang lebih besar dan lebih kompleks dengan efisiensi dan efektivitas biaya yang belum pernah terjadi sebelumnya. Perkembangan ini memastikan bahwa kemajuan dalam AI generatif dapat diterjemahkan ke dalam aplikasi yang praktis dan siap produksi di berbagai industri, mengukuhkan posisi SageMaker AI sebagai platform terkemuka untuk inovasi AI.

Sumber asli

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Pertanyaan yang Sering Diajukan

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.