Generativ AI-inferens: Fremskyndelse på SageMaker med G7e-instanser

G7e-instanser: En ny æra for AI-inferens på SageMaker

Landskabet for generativ AI udvikler sig med en hidtil uset hastighed, hvilket driver en kontinuerlig efterspørgsel efter mere kraftfuld, fleksibel og omkostningseffektiv infrastruktur. I dag er Code Velocity begejstrede for at rapportere om et betydeligt fremskridt fra AWS: den generelle tilgængelighed af G7e-instanser på Amazon SageMaker AI. Drevet af NVIDIA RTX PRO 6000 Blackwell Server Edition GPU'er er disse nye instanser sat til at omdefinere benchmarks for generativ AI-inferens og tilbyder udviklere og virksomheder uovertruffen ydeevne og hukommelseskapacitet.

Amazon SageMaker AI er en fuldt administreret tjeneste, der giver udviklere og dataforskere værktøjerne til at bygge, træne og implementere maskinlæringsmodeller i stor skala. Introduktionen af G7e-instanser markerer et afgørende øjeblik for generative AI-arbejdsbyrder på denne platform. Disse instanser udnytter de banebrydende NVIDIA RTX PRO 6000 Blackwell GPU'er, der hver især kan prale af en imponerende 96 GB GDDR7-hukommelse. Denne betydelige hukommelsesforøgelse muliggør implementering af betydeligt større fundamentale modeller (FM'er) direkte på SageMaker AI, hvilket adresserer et kritisk behov for avancerede AI-applikationer.

Organisationer kan nu implementere modeller som GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variant) og Qwen3.5-35B-A3B med bemærkelsesværdig effektivitet. G7e.2xlarge-instansen, med en enkelt GPU, kan hoste 35B parametermodeller, mens G7e.48xlarge, med otte GPU'er, skaleres op til 300B parametermodeller. Denne fleksibilitet omsættes til konkrete fordele: reduceret operationel kompleksitet, lavere latenstid og betydelige omkostningsbesparelser for inferensarbejdsbyrder.

Udvikling af G7e's generationsmæssige ydelsesspring

G7e-instanser repræsenterer et monumentalt spring i forhold til deres forgængere, G6e og G5, og leverer op til 2,3 gange hurtigere inferensydeevne sammenlignet med G6e. De tekniske specifikationer understreger dette generationsmæssige fremskridt. Hver G7e GPU leverer en forbløffende båndbredde på 1.597 GB/s, hvilket effektivt fordobler hukommelsen pr. GPU for G6e og firdobler den for G5. Desuden er netværkskapaciteten dramatisk forbedret, idet den skalerer op til 1.600 Gbps med EFA på den største G7e-størrelse. Denne 4x forøgelse i forhold til G6e og 16x i forhold til G5 låser op for potentialet for lav-latency multi-node inferens og finjusteringsscenarier, der tidligere blev anset for upraktiske.

Her er en sammenligning, der fremhæver udviklingen på tværs af generationer på 8-GPU-niveau:

Specifikation	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU-hukommelse pr. GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Samlet GPU-hukommelse	192 GB	384 GB	768 GB
GPU-hukommelsesbåndbredde	600 GB/s pr. GPU	864 GB/s pr. GPU	1.597 GB/s pr. GPU
vCPU'er	192	192	192
Systemhukommelse	768 GiB	1.536 GiB	2.048 GiB
Netværksbåndbredde	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Lokal NVMe-lager	7,6 TB	7,6 TB	15,2 TB
Inferens vs. G6e	Baseline	~1x	Op til 2,3x

Med en kolossal 768 GB samlet GPU-hukommelse på en enkelt G7e-instans kan modeller, der engang krævede komplekse multi-node konfigurationer på ældre instanser, nu implementeres med bemærkelsesværdig enkelhed. Dette reducerer betydeligt inter-node latenstid og operationelle omkostninger. Koblet med understøttelse af FP4-præcision via femte generations Tensor Cores og NVIDIA GPUDirect RDMA over EFAv4, er G7e-instanser utvetydigt designet til krævende LLM, multimodal AI og sofistikerede agentiske inferensarbejdsgange på AWS.

Diverse generative AI-brugssager trives på G7e

Den robuste kombination af hukommelsestæthed, båndbredde og avancerede netværkskapaciteter gør G7e-instanser ideelle til et bredt spektrum af moderne generative AI-arbejdsbyrder. Fra forbedring af konversations-AI til drift af komplekse fysiske simulationer tilbyder G7e håndgribelige fordele:

Chatbots og Konversations-AI: Den lave 'Time To First Token' (TTFT) og det høje gennemløb for G7e-instanser sikrer lydhøre og sømløse interaktive oplevelser, selv når de står over for tunge samtidige brugerbelastninger. Dette er afgørende for at opretholde brugerengagement og -tilfredshed i realtids AI-interaktioner.
Agentiske og Værktøjskaldende Arbejdsgange: For 'Retrieval Augmented Generation' (RAG) pipelines og agentiske systemer er hurtig kontekst-injektion fra retrieval stores altafgørende. Den 4x forbedring i CPU-til-GPU båndbredde inden for G7e-instanser gør dem usædvanligt effektive til disse kritiske operationer, hvilket muliggør mere intelligente og dynamiske AI-agenter.
Tekstgenerering, Resumé og Inferens med lang kontekst: Med 96 GB hukommelse pr. GPU håndterer G7e-instanser dygtigt store Key-Value (KV) caches. Dette muliggør udvidede dokumentkontekster, hvilket betydeligt reducerer behovet for teksttrunkering og letter en rigere, mere nuanceret ræsonnement over store input.
Billedgenerering og Visionsmodeller: Hvor tidligere generationers instanser ofte løb ind i 'out-of-memory'-fejl med større multimodale modeller, løser G7e's fordoblede hukommelseskapacitet elegant disse begrænsninger og baner vejen for mere sofistikerede og højere opløselige billed- og visions-AI-applikationer.
Fysisk AI og Videnskabelig Computing: Ud over traditionel generativ AI udvider G7e's Blackwell-generations computing, FP4-understøttelse og rumlige computing-kapaciteter (inklusive DLSS 4.0 og 4. generations RT-kerner) dens anvendelighed til digitale tvillinger, 3D-simulering og avanceret fysisk AI-modelinferens, hvilket åbner nye grænser inden for videnskabelig forskning og industrielle applikationer.

Strømlinet implementering og ydeevne-benchmarking

Implementering af generative AI-modeller på G7e-instanser via Amazon SageMaker AI er designet til at være ligetil. Brugere kan få adgang til en eksempel-notebook her, der strømliner processen. Forudsætninger omfatter typisk en AWS-konto, en IAM-rolle for SageMaker-adgang og enten Amazon SageMaker Studio eller en SageMaker notebook-instans til udviklingsmiljøet. Vigtigt er det, at brugere bør anmode om en passende kvote for ml.g7e.2xlarge eller større instanser til SageMaker AI endpoint-brug via Service Quotas-konsollen.

For at demonstrere de betydelige ydeevnegevinster benchmarkede AWS Qwen3-32B (BF16) på både G6e- og G7e-instanser. Arbejdsbyrden involverede cirka 1.000 input-tokens og 560 output-tokens pr. anmodning, hvilket efterlignede almindelige dokumentresuméopgaver. Begge konfigurationer brugte den native vLLM container med prefix-caching aktiveret, hvilket sikrede en direkte sammenligning.

Resultaterne er overbevisende. Mens G6e-baselinen (ml.g6e.12xlarge med 4x L40S GPU'er til $13,12/time) viste et stærkt gennemløb pr. anmodning, fortæller G7e (ml.g7e.2xlarge med 1x RTX PRO 6000 Blackwell til $4,20/time) en dramatisk anderledes omkostningshistorie. Ved produktions-konkurrence (C=32) opnåede G7e forbløffende $0,79 pr. million output-tokens. Dette repræsenterer en bemærkelsesværdig 2,6x omkostningsreduktion sammenlignet med G6e’s $2,06, drevet af G7e’s lavere timepris og dens evne til at opretholde et ensartet gennemløb under belastning, hvilket beviser, at høj ydeevne ikke behøver at komme til en premium pris.

Fremtiden for omkostningseffektiv generativ AI-inferens

Introduktionen af G7e-instanser på Amazon SageMaker AI er mere end blot en trinvis opgradering; det er et strategisk træk fra AWS for at demokratisere adgangen til højtydende generativ AI. Ved at kombinere den rå kraft fra NVIDIA RTX PRO 6000 Blackwell GPU'er med SageMakers skalerbarheds- og administrationskapaciteter, giver AWS organisationer i alle størrelser mulighed for at implementere større, mere komplekse AI-modeller med hidtil uset effektivitet og omkostningsbesparelse. Denne udvikling sikrer, at fremskridtene inden for generativ AI kan omsættes til praktiske, produktionsklare applikationer på tværs af en bred vifte af industrier, hvilket cementerer SageMaker AI's position som en førende platform for AI-innovation.

Original kilde

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Ofte stillede spørgsmål

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Hold dig opdateret

Få de seneste AI-nyheder i din indbakke.

Del