Generatieve AI-inferentie: Versnellen op SageMaker met G7e-instanties

G7e-instanties: Een Nieuw Tijdperk voor AI-inferentie op SageMaker

Het landschap van generatieve AI evolueert in een ongekend tempo, wat leidt tot een voortdurende vraag naar krachtigere, flexibelere en kosteneffectievere infrastructuur. Vandaag rapporteert Code Velocity met enthousiasme over een belangrijke vooruitgang van AWS: de algemene beschikbaarheid van G7e-instanties op Amazon SageMaker AI. Aangedreven door NVIDIA RTX PRO 6000 Blackwell Server Edition GPU's, zullen deze nieuwe instanties de benchmarks voor generatieve AI-inferentie herdefiniëren, door ontwikkelaars en bedrijven ongekende prestaties en geheugencapaciteit te bieden.

Amazon SageMaker AI is een volledig beheerde service die ontwikkelaars en datawetenschappers de tools biedt om machine learning-modellen op schaal te bouwen, te trainen en te implementeren. De introductie van G7e-instanties markeert een cruciaal moment voor generatieve AI-workloads op dit platform. Deze instanties maken gebruik van de geavanceerde NVIDIA RTX PRO 6000 Blackwell GPU's, elk met een indrukwekkende 96 GB GDDR7-geheugen. Deze aanzienlijke geheugenvergroting maakt de implementatie van aanzienlijk grotere fundamentele modellen (FM's) rechtstreeks op SageMaker AI mogelijk, wat een cruciale behoefte voor geavanceerde AI-toepassingen aanpakt.

Organisaties kunnen nu modellen zoals GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variant) en Qwen3.5-35B-A3B met opmerkelijke efficiëntie implementeren. De G7e.2xlarge-instantie, met één enkele GPU, kan 35B-parametermodellen hosten, terwijl de G7e.48xlarge, met acht GPU's, schaalt tot 300B-parametermodellen. Deze flexibiliteit vertaalt zich in tastbare voordelen: verminderde operationele complexiteit, lagere latentie en aanzienlijke kostenbesparingen voor inferentieworkloads.

Het Ontrafelen van de Generatieve Prestatiesprong van G7e

G7e-instanties vertegenwoordigen een monumentale sprong ten opzichte van hun voorgangers, G6e en G5, en leveren tot 2,3 keer snellere inferentieprestaties vergeleken met G6e. De technische specificaties onderstrepen deze generatieve vooruitgang. Elke G7e GPU biedt een verbazingwekkende bandbreedte van 1.597 GB/s, waardoor het geheugen per GPU van G6e effectief wordt verdubbeld en dat van G5 wordt verviervoudigd. Bovendien zijn de netwerkmogelijkheden dramatisch verbeterd, met een schaalbaarheid tot 1.600 Gbps met EFA op de grootste G7e-grootte. Deze 4x toename ten opzichte van G6e en 16x ten opzichte van G5 ontsluit het potentieel voor multi-node-inferentie met lage latentie en fine-tuning-scenario's die voorheen als onpraktisch werden beschouwd.

Hier is een vergelijking die de progressie over generaties heen op het 8-GPU-niveau belicht:

Specificatie	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU-geheugen per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Totaal GPU-geheugen	192 GB	384 GB	768 GB
GPU-geheugenbandbreedte	600 GB/s per GPU	864 GB/s per GPU	1.597 GB/s per GPU
vCPUs	192	192	192
Systeemgeheugen	768 GiB	1.536 GiB	2.048 GiB
Netwerkbandbreedte	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Lokale NVMe-opslag	7.6 TB	7.6 TB	15.2 TB
Inferentie vs. G6e	Basislijn	~1x	Tot 2.3x

Met een kolossale 768 GB aan geaggregeerd GPU-geheugen op één enkele G7e-instantie, kunnen modellen die voorheen complexe multi-node-configuraties op oudere instanties vereisten, nu met opmerkelijke eenvoud worden geïmplementeerd. Dit vermindert aanzienlijk de inter-node latentie en operationele overhead. Gekoppeld aan ondersteuning voor FP4-precisie via vijfde-generatie Tensor Cores en NVIDIA GPUDirect RDMA over EFAv4, zijn G7e-instanties onmiskenbaar ontworpen voor veeleisende LLM, multimodale AI en geavanceerde agentische inferentieworkflows op AWS.

Diverse Generatieve AI-gebruiksscenario's Floreren op G7e

De robuuste combinatie van geheugendichtheid, bandbreedte en geavanceerde netwerkmogelijkheden maakt G7e-instanties ideaal voor een breed scala aan hedendaagse generatieve AI-workloads. Van het verbeteren van conversationele AI tot het aandrijven van complexe fysieke simulaties, G7e biedt tastbare voordelen:

Chatbots en Conversationele AI: De lage Time To First Token (TTFT) en hoge doorvoer van G7e-instanties garanderen responsieve en naadloze interactieve ervaringen, zelfs bij zware gelijktijdige gebruikersbelasting. Dit is cruciaal voor het behouden van gebruikersbetrokkenheid en -tevredenheid in real-time AI-interacties.
Agentische en Tool-Calling Workflows: Voor Retrieval Augmented Generation (RAG)-pipelines en agentische systemen is snelle contextinjectie vanuit retrieval-opslag van het grootste belang. De 4x verbetering in CPU-naar-GPU-bandbreedte binnen G7e-instanties maakt ze uitzonderlijk effectief voor deze cruciale operaties, waardoor intelligentere en dynamischere AI-agenten mogelijk worden.
Tekstgeneratie, Samenvatting en Long-Context Inferentie: Met 96 GB geheugen per GPU verwerken G7e-instanties moeiteloos grote Key-Value (KV)-caches. Dit maakt uitgebreide documentcontexten mogelijk, waardoor de noodzaak voor teksttruncatie aanzienlijk wordt verminderd en rijkere, meer genuanceerde redenering over enorme inputs wordt vergemakkelijkt.
Beeldgeneratie en Visuele Modellen: Waar instanties van de vorige generatie vaak 'out-of-memory'-fouten ondervonden met grotere multimodale modellen, lost de verdubbelde geheugencapaciteit van G7e deze beperkingen elegant op, wat de weg vrijmaakt voor geavanceerdere en hogere-resolutie beeld- en visuele AI-toepassingen.
Fysieke AI en Wetenschappelijke Computing: Naast traditionele generatieve AI, breiden G7e’s Blackwell-generatie computing, FP4-ondersteuning en ruimtelijke computingmogelijkheden (inclusief DLSS 4.0 en 4e-generatie RT-cores) de bruikbaarheid ervan uit naar digitale tweelingen, 3D-simulatie en geavanceerde fysieke AI-modelinferentie, waardoor nieuwe grenzen worden geopend in wetenschappelijk onderzoek en industriële toepassingen.

Gestroomlijnde Implementatie en Prestatiebenchmarking

Het implementeren van generatieve AI-modellen op G7e-instanties via Amazon SageMaker AI is ontworpen om eenvoudig te zijn. Gebruikers kunnen hier een voorbeeldnotitieboekje vinden (hier) dat het proces stroomlijnt. Vereisten omvatten doorgaans een AWS-account, een IAM-rol voor SageMaker-toegang, en ofwel Amazon SageMaker Studio of een SageMaker-notebookinstantie voor de ontwikkelomgeving. Belangrijk is dat gebruikers een passend quotum moeten aanvragen voor 'ml.g7e.2xlarge' of grotere instanties voor SageMaker AI-endpointgebruik via de Service Quotas-console.

Om de aanzienlijke prestatiewinsten aan te tonen, heeft AWS Qwen3-32B (BF16) gebenchmarkt op zowel G6e- als G7e-instanties. De workload omvatte ongeveer 1.000 inputtokens en 560 outputtokens per verzoek, wat veelvoorkomende document-samenvattings taken nabootste. Beide configuraties maakten gebruik van de native vLLM-container met prefixcaching ingeschakeld, wat zorgde voor een één-op-één vergelijking.

De resultaten zijn overtuigend. Terwijl de G6e-basislijn (ml.g6e.12xlarge met 4x L40S GPU's à $13,12/uur) een sterke doorvoer per verzoek liet zien, vertelt de G7e (ml.g7e.2xlarge met 1x RTX PRO 6000 Blackwell à $4,20/uur) een dramatisch ander kostenverhaal. Bij productiedoorvoer (C=32) behaalde G7e een verbazingwekkende $0,79 per miljoen outputtokens. Dit vertegenwoordigt een kostenreductie van 2,6x vergeleken met G6e’s $2,06, gedreven door G7e’s lagere uurprijs en het vermogen om consistente doorvoer te behouden onder belasting, wat bewijst dat hoge prestaties niet tegen een premium prijs hoeven te komen.

De Toekomst van Kostenefficiënte Generatieve AI-inferentie

De introductie van G7e-instanties op Amazon SageMaker AI is meer dan alleen een incrementele upgrade; het is een strategische zet van AWS om de toegang tot krachtige generatieve AI te democratiseren. Door de ruwe kracht van NVIDIA RTX PRO 6000 Blackwell GPU's te combineren met de schaalbaarheids- en beheermogelijkheden van SageMaker, stelt AWS organisaties van elke omvang in staat om grotere, complexere AI-modellen te implementeren met ongekende efficiëntie en kosteneffectiviteit. Deze ontwikkeling zorgt ervoor dat de vooruitgang in generatieve AI kan worden vertaald naar praktische, productieklare toepassingen in een breed scala aan industrieën, waardoor de positie van SageMaker AI als een toonaangevend platform voor AI-innovatie wordt verstevigd.

Originele bron

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Veelgestelde vragen

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Blijf op de hoogte

Ontvang het laatste AI-nieuws in je inbox.