Inferens AI Generatif: Mempercepatkan di SageMaker dengan Instans G7e

Instans G7e: Era Baharu untuk Inferens AI di SageMaker

Landskap AI generatif berkembang pada kadar yang tidak pernah berlaku sebelum ini, mendorong permintaan berterusan untuk infrastruktur yang lebih berkuasa, fleksibel dan berkesan kos. Hari ini, Code Velocity teruja untuk melaporkan kemajuan signifikan daripada AWS: ketersediaan umum instans G7e di Amazon SageMaker AI. Dikuasakan oleh GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, instans baharu ini dijangka mentakrifkan semula penanda aras untuk inferens AI generatif, menawarkan prestasi dan kapasiti memori yang tiada tandingan kepada pembangun dan perusahaan.

Amazon SageMaker AI ialah perkhidmatan terurus sepenuhnya yang menyediakan pembangun dan saintis data dengan alat untuk membina, melatih dan melaksanakan model pembelajaran mesin pada skala besar. Pengenalan instans G7e menandakan detik penting bagi beban kerja AI generatif pada platform ini. Instans ini memanfaatkan GPU canggih NVIDIA RTX PRO 6000 Blackwell, setiap satunya mempunyai memori GDDR7 96 GB yang mengagumkan. Peningkatan memori yang besar ini membolehkan pelaksanaan model asas (FM) yang jauh lebih besar secara langsung di SageMaker AI, menangani keperluan kritikal untuk aplikasi AI canggih.

Organisasi kini boleh melaksanakan model seperti GPT-OSS-120B, Nemotron-3-Super-120B-A12B (varian NVFP4), dan Qwen3.5-35B-A3B dengan kecekapan yang luar biasa. Instans G7e.2xlarge, menampilkan satu GPU, boleh mengehos model parameter 35B, manakala G7e.48xlarge, dengan lapan GPU, boleh berskala sehingga model parameter 300B. Fleksibiliti ini diterjemahkan kepada faedah ketara: kerumitan operasi yang berkurangan, kependaman yang lebih rendah, dan penjimatan kos yang besar untuk beban kerja inferens.

Menganalisis Lonjakan Prestasi Generasi G7e

Instans G7e mewakili lonjakan monumental berbanding pendahulunya, G6e dan G5, menyampaikan prestasi inferens sehingga 2.3 kali lebih pantas berbanding G6e. Spesifikasi teknikal menggariskan kemajuan generasi ini. Setiap GPU G7e menyediakan lebar jalur 1,597 GB/s yang menakjubkan, secara efektif menggandakan memori per-GPU G6e dan melipatgandakan empat kali ganda memori G5. Tambahan pula, keupayaan rangkaian dipertingkatkan secara mendadak, berskala sehingga 1,600 Gbps dengan EFA pada saiz G7e terbesar. Peningkatan 4x berbanding G6e dan 16x berbanding G5 ini membuka potensi untuk inferens berbilang nod kependaman rendah dan senario penalaan halus yang sebelum ini dianggap tidak praktikal.

Berikut adalah perbandingan yang menyerlahkan perkembangan merentasi generasi pada peringkat 8-GPU:

Spesifikasi	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Memori GPU setiap GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Jumlah Memori GPU	192 GB	384 GB	768 GB
Lebar Jalur Memori GPU	600 GB/s setiap GPU	864 GB/s setiap GPU	1,597 GB/s setiap GPU
vCPU	192	192	192
Memori Sistem	768 GiB	1,536 GiB	2,048 GiB
Lebar Jalur Rangkaian	100 Gbps	400 Gbps	1,600 Gbps (EFA)
Storan NVMe Tempatan	7.6 TB	7.6 TB	15.2 TB
Inferens vs. G6e	Garis Dasar	~1x	Sehingga 2.3x

Dengan memori GPU agregat sebesar 768 GB pada satu instans G7e, model yang dahulunya memerlukan konfigurasi berbilang nod yang kompleks pada instans lama kini boleh dilaksanakan dengan kesederhanaan yang luar biasa. Ini secara signifikan mengurangkan kependaman antara nod dan beban operasi. Digabungkan dengan sokongan untuk ketepatan FP4 melalui Teras Tensor generasi kelima dan NVIDIA GPUDirect RDMA melalui EFAv4, instans G7e secara mutlak direka untuk LLM yang mencabar, AI multimodal, dan aliran kerja inferens agen yang canggih di AWS.

Pelbagai Kes Penggunaan AI Generatif Berjaya dengan G7e

Gabungan padu kepadatan memori, lebar jalur, dan keupayaan rangkaian canggih menjadikan instans G7e sesuai untuk spektrum luas beban kerja AI generatif kontemporari. Daripada meningkatkan AI perbualan hingga menggerakkan simulasi fizikal yang kompleks, G7e menawarkan kelebihan ketara:

Chatbot dan AI Perbualan: Masa ke Token Pertama (TTFT) yang rendah dan daya pemprosesan tinggi instans G7e memastikan pengalaman interaktif yang responsif dan lancar, walaupun menghadapi beban pengguna serentak yang tinggi. Ini adalah penting untuk mengekalkan penglibatan dan kepuasan pengguna dalam interaksi AI masa nyata.
Aliran Kerja Agen dan Panggilan Alat: Untuk saluran paip Retrieval Augmented Generation (RAG) dan sistem agen, suntikan konteks pantas daripada storan capaian adalah yang terpenting. Peningkatan 4x dalam lebar jalur CPU-ke-GPU dalam instans G7e menjadikannya sangat berkesan untuk operasi kritikal ini, membolehkan ejen AI yang lebih pintar dan dinamik.
Penjanaan Teks, Ringkasan, dan Inferens Konteks Panjang: Dengan memori per-GPU 96 GB, instans G7e cekap mengendalikan cache Key-Value (KV) yang besar. Ini membolehkan konteks dokumen yang lebih luas, mengurangkan keperluan pemotongan teks secara signifikan dan memudahkan penaakulan yang lebih kaya serta lebih bernuansa ke atas input yang luas.
Penjanaan Imej dan Model Penglihatan: Di mana instans generasi sebelumnya sering mengalami ralat kehabisan memori dengan model multimodal yang lebih besar, kapasiti memori G7e yang digandakan dengan anggun menyelesaikan batasan ini, membuka jalan untuk aplikasi AI imej dan penglihatan yang lebih canggih dan resolusi lebih tinggi.
AI Fizikal dan Pengkomputeran Saintifik: Di luar AI generatif tradisional, pengkomputeran generasi Blackwell G7e, sokongan FP4, dan keupayaan pengkomputeran spatial (termasuk DLSS 4.0 dan teras RT generasi ke-4) memperluas kegunaannya kepada kembar digital, simulasi 3D, dan inferens model AI fizikal lanjutan, membuka sempadan baharu dalam penyelidikan saintifik dan aplikasi industri.

Pelaksanaan Dipermudah dan Penandaarasan Prestasi

Pelaksanaan model AI generatif pada instans G7e melalui Amazon SageMaker AI direka untuk menjadi mudah. Pengguna boleh mengakses buku nota sampel di sini yang memudahkan proses tersebut. Prasyarat biasanya termasuk akaun AWS, peranan IAM untuk akses SageMaker, dan sama ada Amazon SageMaker Studio atau instans notebook SageMaker untuk persekitaran pembangunan. Yang penting, pengguna harus meminta kuota yang sesuai untuk instans ml.g7e.2xlarge atau yang lebih besar untuk penggunaan titik akhir SageMaker AI melalui konsol Kuota Perkhidmatan.

Untuk menunjukkan peningkatan prestasi yang signifikan, AWS menanda aras Qwen3-32B (BF16) pada kedua-dua instans G6e dan G7e. Beban kerja melibatkan kira-kira 1,000 token input dan 560 token output setiap permintaan, meniru tugas ringkasan dokumen biasa. Kedua-dua konfigurasi menggunakan kontena vLLM asli dengan pengaktifan cache awalan, memastikan perbandingan setanding.

Keputusan adalah menarik. Walaupun garis dasar G6e (ml.g6e.12xlarge dengan 4x GPU L40S pada $13.12/jam) menunjukkan daya pemprosesan per-permintaan yang kukuh, G7e (ml.g7e.2xlarge dengan 1x RTX PRO 6000 Blackwell pada $4.20/jam) menceritakan kisah kos yang sangat berbeza. Pada keserentakan pengeluaran (C=32), G7e mencapai $0.79 yang menakjubkan bagi setiap juta token output. Ini mewakili pengurangan kos 2.6x berbanding G6e yang berharga $2.06, didorong oleh kadar jam G7e yang lebih rendah dan keupayaannya untuk mengekalkan daya pemprosesan yang konsisten di bawah beban, membuktikan bahawa prestasi tinggi tidak semestinya datang dengan kos premium.

Masa Depan Inferens AI Generatif Berkesan Kos

Pengenalan instans G7e di Amazon SageMaker AI adalah lebih daripada sekadar peningkatan tambahan; ia adalah langkah strategik oleh AWS untuk mendemokrasikan akses kepada AI generatif berprestasi tinggi. Dengan menggabungkan kuasa mentah GPU NVIDIA RTX PRO 6000 Blackwell dengan keupayaan skalabiliti dan pengurusan SageMaker, AWS memperkasakan organisasi dari semua saiz untuk melaksanakan model AI yang lebih besar dan kompleks dengan kecekapan dan keberkesanan kos yang belum pernah terjadi sebelumnya. Pembangunan ini memastikan bahawa kemajuan dalam AI generatif boleh diterjemahkan ke dalam aplikasi praktikal dan sedia untuk pengeluaran di pelbagai industri, mengukuhkan kedudukan SageMaker AI sebagai platform utama untuk inovasi AI.

Sumber asal

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Soalan Lazim

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Kekal Dikemas Kini

Dapatkan berita AI terkini dalam peti masuk anda.

Kongsi