Instans G7e: Era Baru untuk Inferensi AI di SageMaker
Lanskap AI generatif berkembang dengan kecepatan yang belum pernah terjadi sebelumnya, mendorong permintaan berkelanjutan untuk infrastruktur yang lebih kuat, fleksibel, dan hemat biaya. Hari ini, Code Velocity dengan gembira melaporkan kemajuan signifikan dari AWS: ketersediaan umum instans G7e di Amazon SageMaker AI. Didukung oleh GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, instans baru ini akan mendefinisikan ulang tolok ukur untuk inferensi AI generatif, menawarkan kinerja dan kapasitas memori yang tak tertandingi kepada pengembang dan perusahaan.
Amazon SageMaker AI adalah layanan yang dikelola sepenuhnya yang menyediakan alat bagi pengembang dan ilmuwan data untuk membangun, melatih, dan menerapkan model pembelajaran mesin dalam skala besar. Pengenalan instans G7e menandai momen penting untuk beban kerja AI generatif pada platform ini. Instans ini memanfaatkan GPU NVIDIA RTX PRO 6000 Blackwell yang canggih, masing-masing memiliki memori GDDR7 96 GB yang mengesankan. Peningkatan memori yang substansial ini memungkinkan penerapan model dasar (FM) yang jauh lebih besar langsung di SageMaker AI, addressing a critical need for advanced AI applications.
Organisasi sekarang dapat menerapkan model seperti GPT-OSS-120B, Nemotron-3-Super-120B-A12B (varian NVFP4), dan Qwen3.5-35B-A3B dengan efisiensi yang luar biasa. Instans G7e.2xlarge, yang menampilkan satu GPU, dapat menghosting model parameter 35B, sementara G7e.48xlarge, dengan delapan GPU, menskalakan hingga model parameter 300B. Fleksibilitas ini menghasilkan manfaat nyata: kompleksitas operasional yang berkurang, latensi yang lebih rendah, dan penghematan biaya yang substansial untuk beban kerja inferensi.
Mengungkap Lompatan Kinerja Generasi G7e
Instans G7e mewakili lompatan monumental dibandingkan pendahulunya, G6e dan G5, memberikan kinerja inferensi hingga 2,3 kali lebih cepat dibandingkan G6e. Spesifikasi teknis menggarisbawahi kemajuan generasi ini. Setiap GPU G7e menyediakan bandwidth 1.597 GB/s yang mencengangkan, secara efektif menggandakan memori per GPU G6e dan melipatgandakan G5. Selanjutnya, kemampuan jaringan ditingkatkan secara dramatis, penskalaan hingga 1.600 Gbps dengan EFA pada ukuran G7e terbesar. Peningkatan 4x dibandingkan G6e dan 16x dibandingkan G5 ini membuka potensi untuk inferensi multi-node latensi rendah dan skenario fine-tuning yang sebelumnya dianggap tidak praktis.
Berikut adalah perbandingan yang menyoroti perkembangan di seluruh generasi pada tingkat 8-GPU:
| Spec | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| Memori GPU per GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Total Memori GPU | 192 GB | 384 GB | 768 GB |
| Bandwidth Memori GPU | 600 GB/s per GPU | 864 GB/s per GPU | 1.597 GB/s per GPU |
| vCPU | 192 | 192 | 192 |
| Memori Sistem | 768 GiB | 1.536 GiB | 2.048 GiB |
| Bandwidth Jaringan | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| Penyimpanan NVMe Lokal | 7.6 TB | 7.6 TB | 15.2 TB |
| Inferensi vs. G6e | Baseline | ~1x | Hingga 2.3x |
Dengan total memori GPU 768 GB yang kolosal pada satu instans G7e, model yang dulunya membutuhkan konfigurasi multi-node yang kompleks pada instans yang lebih lama kini dapat diterapkan dengan kesederhanaan yang luar biasa. Ini secara signifikan mengurangi latensi antar-node dan overhead operasional. Ditambah dengan dukungan untuk presisi FP4 melalui Tensor Cores generasi kelima dan NVIDIA GPUDirect RDMA melalui EFAv4, instans G7e secara tegas dirancang untuk LLM yang menuntut, AI multimodal, dan alur kerja inferensi agentic yang canggih di AWS.
Beragam Kasus Penggunaan AI Generatif Berkembang dengan G7e
Kombinasi kuat antara kepadatan memori, bandwidth, dan kemampuan jaringan canggih menjadikan instans G7e ideal untuk spektrum luas beban kerja AI generatif kontemporer. Dari meningkatkan AI percakapan hingga mendukung simulasi fisik yang kompleks, G7e menawarkan keuntungan nyata:
- Chatbot dan AI Percakapan: Waktu Sampai Token Pertama (TTFT) yang rendah dan throughput tinggi dari instans G7e memastikan pengalaman interaktif yang responsif dan mulus, bahkan ketika dihadapkan pada beban pengguna konkuren yang tinggi. Ini sangat penting untuk menjaga keterlibatan dan kepuasan pengguna dalam interaksi AI waktu nyata.
- Alur Kerja Agentic dan Panggilan Alat: Untuk pipeline Retrieval Augmented Generation (RAG) dan sistem agentic, injeksi konteks cepat dari penyimpanan pengambilan sangat penting. Peningkatan 4x dalam bandwidth CPU-ke-GPU dalam instans G7e menjadikannya sangat efektif untuk operasi kritis ini, memungkinkan agen AI yang lebih cerdas dan dinamis.
- Pembuatan Teks, Rangkuman, dan Inferensi Konteks Panjang: Dengan memori 96 GB per GPU, instans G7e dengan mahir menangani cache Key-Value (KV) yang besar. Ini memungkinkan konteks dokumen yang diperluas, secara signifikan mengurangi kebutuhan pemotongan teks dan memfasilitasi penalaran yang lebih kaya dan lebih bernuansa atas input yang luas.
- Pembuatan Gambar dan Model Visi: Di mana instans generasi sebelumnya sering mengalami kesalahan kehabisan memori dengan model multimodal yang lebih besar, kapasitas memori G7e yang dua kali lipat dengan anggun menyelesaikan batasan ini, membuka jalan bagi aplikasi AI gambar dan visi yang lebih canggih dan beresolusi lebih tinggi.
- AI Fisik dan Komputasi Ilmiah: Di luar AI generatif tradisional, komputasi generasi Blackwell G7e, dukungan FP4, dan kemampuan komputasi spasial (termasuk DLSS 4.0 dan RT core generasi ke-4) memperluas kegunaannya ke kembaran digital, simulasi 3D, dan inferensi model AI fisik canggih, membuka batasan baru dalam penelitian ilmiah dan aplikasi industri.
Penerapan yang Efisien dan Tolok Ukur Kinerja
Menerapkan model AI generatif pada instans G7e melalui Amazon SageMaker AI dirancang agar mudah. Pengguna dapat mengakses contoh notebook di sini yang menyederhanakan proses. Prasyarat biasanya termasuk akun AWS, peran IAM untuk akses SageMaker, dan Amazon SageMaker Studio atau instans notebook SageMaker untuk lingkungan pengembangan. Yang penting, pengguna harus meminta kuota yang sesuai untuk ml.g7e.2xlarge atau instans yang lebih besar untuk penggunaan titik akhir SageMaker AI melalui konsol Service Quotas.
Untuk menunjukkan peningkatan kinerja yang signifikan, AWS meneliti Qwen3-32B (BF16) pada instans G6e dan G7e. Beban kerja melibatkan sekitar 1.000 token masukan dan 560 token keluaran per permintaan, meniru tugas peringkasan dokumen umum. Kedua konfigurasi menggunakan kontainer vLLM asli dengan prefix caching diaktifkan, memastikan perbandingan yang seimbang (apples-to-apples).
Hasilnya sangat meyakinkan. Sementara baseline G6e (ml.g6e.12xlarge dengan 4x GPU L40S seharga $13,12/jam) menunjukkan throughput per permintaan yang kuat, G7e (ml.g7e.2xlarge dengan 1x RTX PRO 6000 Blackwell seharga $4,20/jam) menceritakan kisah biaya yang sangat berbeda. Pada konkurensi produksi (C=32), G7e mencapai $0,79 per juta token keluaran yang mencengangkan. Ini merupakan pengurangan biaya sebesar 2,6x dibandingkan G6e yang $2,06, didorong oleh tarif per jam G7e yang lebih rendah dan kemampuannya untuk mempertahankan throughput yang konsisten di bawah beban, membuktikan bahwa kinerja tinggi tidak harus datang dengan biaya premium.
Masa Depan Inferensi AI Generatif yang Hemat Biaya
Pengenalan instans G7e di Amazon SageMaker AI lebih dari sekadar peningkatan inkremental; ini adalah langkah strategis oleh AWS untuk mendemokratisasikan akses ke AI generatif berkinerja tinggi. Dengan menggabungkan kekuatan mentah GPU NVIDIA RTX PRO 6000 Blackwell dengan skalabilitas dan kemampuan manajemen SageMaker, AWS memberdayakan organisasi dari semua ukuran untuk menerapkan model AI yang lebih besar dan lebih kompleks dengan efisiensi dan efektivitas biaya yang belum pernah terjadi sebelumnya. Perkembangan ini memastikan bahwa kemajuan dalam AI generatif dapat diterjemahkan ke dalam aplikasi yang praktis dan siap produksi di berbagai industri, mengukuhkan posisi SageMaker AI sebagai platform terkemuka untuk inovasi AI.
Pertanyaan yang Sering Diajukan
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Tetap Update
Dapatkan berita AI terbaru di inbox Anda.
