Generativ AI-inferens: Akselererer på SageMaker med G7e-instanser

G7e-instanser: En ny æra for AI-inferens på SageMaker

Landskapet for generativ AI utvikler seg i et enestående tempo, noe som driver en kontinuerlig etterspørsel etter kraftigere, mer fleksibel og kostnadseffektiv infrastruktur. I dag er Code Velocity glade for å rapportere om et betydelig fremskritt fra AWS: den generelle tilgjengeligheten av G7e-instanser på Amazon SageMaker AI. Drevet av NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-er, er disse nye instansene satt til å redefinere referansepunktet for generativ AI-inferens, og tilbyr utviklere og bedrifter uovertruffen ytelse og minnekapasitet.

Amazon SageMaker AI er en fullt administrert tjeneste som gir utviklere og datavitere verktøyene for å bygge, trene og distribuere maskinlæringsmodeller i stor skala. Introduksjonen av G7e-instanser markerer et sentralt øyeblikk for generative AI-arbeidsbelastninger på denne plattformen. Disse instansene utnytter de banebrytende NVIDIA RTX PRO 6000 Blackwell GPU-ene, hver med imponerende 96 GB GDDR7-minne. Denne betydelige minneøkningen muliggjør distribusjon av betydelig større grunnleggende modeller (FMs) direkte på SageMaker AI, og adresserer et kritisk behov for avanserte AI-applikasjoner.

Organisasjoner kan nå distribuere modeller som GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variant), og Qwen3.5-35B-A3B med bemerkelsesverdig effektivitet. G7e.2xlarge-instansen, med en enkelt GPU, kan være vert for 35B parameter-modeller, mens G7e.48xlarge, med åtte GPU-er, skalerer opp til 300B parameter-modeller. Denne fleksibiliteten oversettes til konkrete fordeler: redusert operasjonell kompleksitet, lavere latens og betydelige kostnadsbesparelser for inferensarbeidsbelastninger.

Avdekker G7es generasjonsmessige ytelseshopp

G7e-instanser representerer et monumentalt hopp over sine forgjengere, G6e og G5, og leverer opptil 2,3 ganger raskere inferensytelse sammenlignet med G6e. De tekniske spesifikasjonene understreker dette generasjonsmessige fremskrittet. Hver G7e GPU gir en forbløffende båndbredde på 1 597 GB/s, noe som effektivt dobler per-GPU-minnet til G6e og firedobler det til G5. Videre er nettverksmulighetene dramatisk forbedret, og skalerer opptil 1 600 Gbps med EFA på den største G7e-størrelsen. Denne 4x økningen over G6e og 16x over G5 låser opp potensialet for flernode-inferens med lav latens og finjusteringsscenarioer som tidligere ble ansett som upraktiske.

Her er en sammenligning som fremhever progresjonen på tvers av generasjoner på 8-GPU-nivå:

Spesifikasjon	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU-minne per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Totalt GPU-minne	192 GB	384 GB	768 GB
GPU-minnebåndbredde	600 GB/s per GPU	864 GB/s per GPU	1 597 GB/s per GPU
vCPU-er	192	192	192
Systemminne	768 GiB	1 536 GiB	2 048 GiB
Nettverksbåndbredde	100 Gbps	400 Gbps	1 600 Gbps (EFA)
Lokal NVMe-lagring	7,6 TB	7,6 TB	15,2 TB
Inferens vs. G6e	Baseline	~1x	Opptil 2,3x

Med hele 768 GB samlet GPU-minne på en enkelt G7e-instans, kan modeller som en gang krevde komplekse flernodekonfigurasjoner på eldre instanser nå distribueres med bemerkelsesverdig enkelhet. Dette reduserer inter-node-latens og operasjonelle omkostninger betydelig. Kombinert med støtte for FP4-presisjon via femtegenerasjons Tensor Cores og NVIDIA GPUDirect RDMA over EFAv4, er G7e-instanser utvetydig designet for krevende LLM, multimodal AI og sofistikerte agentiske inferensarbeidsflyter på AWS.

Diverse Generative AI-bruksområder blomstrer på G7e

Den robuste kombinasjonen av minnetetthet, båndbredde og avanserte nettverksmuligheter gjør G7e-instanser ideelle for et bredt spekter av moderne generative AI-arbeidsbelastninger. Fra å forbedre konversasjons-AI til å drive komplekse fysiske simuleringer, tilbyr G7e konkrete fordeler:

Chatboter og Konversasjons-AI: Den lave Time To First Token (TTFT) og høye gjennomstrømningen til G7e-instanser sikrer responsive og sømløse interaktive opplevelser, selv når man står overfor store samtidige brukerbelastninger. Dette er avgjørende for å opprettholde brukerengasjement og tilfredshet i sanntids AI-interaksjoner.
Agentiske og Verktøy-kallende Arbeidsflyter: For Retrieval Augmented Generation (RAG)-pipelines og agentiske systemer er rask kontekstinnsprøytning fra gjenfinningslagre avgjørende. Den 4x forbedringen i CPU-til-GPU-båndbredde innen G7e-instanser gjør dem eksepsjonelt effektive for disse kritiske operasjonene, og muliggjør mer intelligente og dynamiske AI-agenter.
Tekstgenerering, Oppsummering og Inferens med lang kontekst: Med 96 GB per-GPU-minne håndterer G7e-instanser store Key-Value (KV)-cacher dyktig. Dette muliggjør utvidede dokumentkontekster, reduserer behovet for tekstavkorting betydelig og letter rikere, mer nyansert resonnement over store inndata.
Bildegenerering og Visjonsmodeller: Der tidligere generasjons instanser ofte støtte på 'out-of-memory'-feil med større multimodale modeller, løser G7es doblede minnekapasitet disse begrensningene elegant, og baner vei for mer sofistikerte bilde- og visjons-AI-applikasjoner med høyere oppløsning.
Fysisk AI og Vitenskapelig Databehandling: Utover tradisjonell generativ AI, utvider G7es Blackwell-generasjons databehandling, FP4-støtte og romlige databehandlingsmuligheter (inkludert DLSS 4.0 og 4. generasjons RT-kjerner) dens nytteverdi til digitale tvillinger, 3D-simulering og avansert fysisk AI-modellinferens, og åpner nye grenser innen vitenskapelig forskning og industrielle applikasjoner.

Strømlinjeformet distribusjon og ytelsesreferansetesting

Distribusjon av generative AI-modeller på G7e-instanser via Amazon SageMaker AI er designet for å være enkel. Brukere kan få tilgang til en eksempelsnotatbok her som effektiviserer prosessen. Forutsetninger inkluderer vanligvis en AWS-konto, en IAM-rolle for SageMaker-tilgang, og enten Amazon SageMaker Studio eller en SageMaker notatbokinstans for utviklingsmiljøet. Viktigst er det at brukere bør be om en passende kvote for ml.g7e.2xlarge eller større instanser for bruk av SageMaker AI-endepunkter via Service Quotas-konsollen.

For å demonstrere de betydelige ytelsesgevinstene, utførte AWS referansetesting av Qwen3-32B (BF16) på både G6e- og G7e-instanser. Arbeidsbelastningen involverte omtrent 1 000 inndata-tokens og 560 utdata-tokens per forespørsel, noe som etterligner vanlige dokumentoppsummeringsoppgaver. Begge konfigurasjonene brukte den native vLLM-containeren med prefikscaching aktivert, noe som sikrer en direkte sammenligning.

Resultatene er overbevisende. Mens G6e-referansepunktet (ml.g6e.12xlarge med 4x L40S GPU-er til $13,12/time) viste sterk gjennomstrømning per forespørsel, forteller G7e (ml.g7e.2xlarge med 1x RTX PRO 6000 Blackwell til $4,20/time) en dramatisk annerledes kostnadshistorie. Ved produksjonskonkurranse (C=32) oppnådde G7e forbløffende $0,79 per million utgående tokens. Dette representerer en bemerkelsesverdig 2,6x kostnadsreduksjon sammenlignet med G6es $2,06, drevet av G7es lavere timepris og dens evne til å opprettholde konsistent gjennomstrømning under belastning, noe som beviser at høy ytelse ikke trenger å komme til en høy pris.

Fremtiden for kostnadseffektiv generativ AI-inferens

Introduksjonen av G7e-instanser på Amazon SageMaker AI er mer enn bare en inkrementell oppgradering; det er et strategisk trekk fra AWS for å demokratisere tilgangen til høyytelses generativ AI. Ved å kombinere den rå kraften til NVIDIA RTX PRO 6000 Blackwell GPU-er med skalerbarheten og administrasjonsmulighetene til SageMaker, styrker AWS organisasjoner av alle størrelser til å distribuere større, mer komplekse AI-modeller med enestående effektivitet og kostnadseffektivitet. Denne utviklingen sikrer at fremskrittene innen generativ AI kan oversettes til praktiske, produksjonsklare applikasjoner på tvers av et bredt spekter av bransjer, og befester SageMaker AIs posisjon som en ledende plattform for AI-innovasjon.

Opprinnelig kilde

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Ofte stilte spørsmål

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Hold deg oppdatert

Få de siste AI-nyhetene i innboksen din.

Del