Generativ AI-inferens: Accelererar på SageMaker med G7e-instanser

G7e-instanser: En ny era för AI-inferens på SageMaker

Landskapet för generativ AI utvecklas i en oöverträffad takt, vilket driver en ständig efterfrågan på mer kraftfull, flexibel och kostnadseffektiv infrastruktur. Idag är Code Velocity glada att rapportera om ett betydande framsteg från AWS: den allmänna tillgängligheten av G7e-instanser på Amazon SageMaker AI. Drivna av NVIDIA RTX PRO 6000 Blackwell Server Edition GPU:er, är dessa nya instanser redo att omdefiniera riktmärkena för generativ AI-inferens, och erbjuder utvecklare och företag oöverträffad prestanda och minneskapacitet.

Amazon SageMaker AI är en fullt hanterad tjänst som förser utvecklare och datavetare med verktyg för att bygga, träna och distribuera maskininlärningsmodeller i stor skala. Introduktionen av G7e-instanser markerar ett avgörande ögonblick för generativa AI-arbetslaster på denna plattform. Dessa instanser utnyttjar de banbrytande NVIDIA RTX PRO 6000 Blackwell GPU:erna, var och en med imponerande 96 GB GDDR7-minne. Denna betydande minnesökning möjliggör distribution av betydligt större grundmodeller (FMs) direkt på SageMaker AI, vilket tillgodoser ett kritiskt behov för avancerade AI-applikationer.

Organisationer kan nu distribuera modeller som GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variant), och Qwen3.5-35B-A3B med anmärkningsvärd effektivitet. G7e.2xlarge-instansen, med en enda GPU, kan hosta 35 miljarder parametermodeller, medan G7e.48xlarge, med åtta GPU:er, skalar upp till 300 miljarder parametermodeller. Denna flexibilitet omsätts i påtagliga fördelar: minskad operativ komplexitet, lägre latens och betydande kostnadsbesparingar för inferensarbetslaster.

Avslöjar G7e:s generationshopp i prestanda

G7e-instanser representerar ett monumentalt språng över sina föregångare, G6e och G5, och levererar upp till 2,3 gånger snabbare inferensprestanda jämfört med G6e. De tekniska specifikationerna understryker detta generationsframsteg. Varje G7e GPU tillhandahåller en förbluffande bandbredd på 1 597 GB/s, vilket effektivt fördubblar minnet per GPU jämfört med G6e och fyrdubblar det jämfört med G5. Dessutom förbättras nätverkskapaciteten dramatiskt, och skalar upp till 1 600 Gbps med EFA på den största G7e-storleken. Denna 4x ökning jämfört med G6e och 16x jämfört med G5 låser upp potentialen för inferens med låg latens i flera noder och finjusteringsscenarier som tidigare ansågs opraktiska.

Här är en jämförelse som belyser utvecklingen över generationer på 8-GPU-nivån:

Specifikation	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU-minne per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Totalt GPU-minne	192 GB	384 GB	768 GB
GPU-minnesbandbredd	600 GB/s per GPU	864 GB/s per GPU	1 597 GB/s per GPU
vCPUs	192	192	192
Systemminne	768 GiB	1 536 GiB	2 048 GiB
Nätverksbandbredd	100 Gbps	400 Gbps	1 600 Gbps (EFA)
Lokalt NVMe-lagringsutrymme	7.6 TB	7.6 TB	15.2 TB
Inferens jämfört med G6e	Baslinje	~1x	Upp till 2.3x

Med kolossala 768 GB aggregerat GPU-minne på en enda G7e-instans kan modeller som en gång krävde komplexa flernodskonfigurationer på äldre instanser nu distribueras med anmärkningsvärd enkelhet. Detta minskar betydligt latensen mellan noder och den operativa omkostnaden. I kombination med stöd för FP4-precision via femte generationens Tensor Cores och NVIDIA GPUDirect RDMA över EFAv4 är G7e-instanser otvetydigt utformade för krävande LLM, multimodal AI och sofistikerade agentiska inferensarbetsflöden på AWS.

Mångsidiga generativa AI-användningsfall blomstrar med G7e

Den robusta kombinationen av minnesdensitet, bandbredd och avancerade nätverkskapaciteter gör G7e-instanser idealiska för ett brett spektrum av samtida generativa AI-arbetslaster. Från att förbättra konversationell AI till att driva komplexa fysiska simuleringar erbjuder G7e påtagliga fördelar:

Chatbotar och konversationell AI: Den låga Time To First Token (TTFT) och höga genomströmningen hos G7e-instanser säkerställer responsiva och sömlösa interaktiva upplevelser, även vid tunga samtidiga användarlaster. Detta är avgörande för att bibehålla användarengagemang och tillfredsställelse i AI-interaktioner i realtid.
Agentiska och verktygsanropande arbetsflöden: För Retrieval Augmented Generation (RAG)-pipelines och agentiska system är snabb kontextinjektion från hämtningslager av största vikt. Den 4x förbättrade CPU-till-GPU-bandbredden inom G7e-instanser gör dem exceptionellt effektiva för dessa kritiska operationer, vilket möjliggör mer intelligenta och dynamiska AI-agenter.
Textgenerering, sammanfattning och inferens med lång kontext: Med 96 GB minne per GPU hanterar G7e-instanser skickligt stora Key-Value (KV) cacheminnen. Detta möjliggör utökade dokumentkontexter, vilket avsevärt minskar behovet av texttrunkering och underlättar rikare, mer nyanserade resonemang över omfattande indata.
Bildgenerering och visionsmodeller: Där tidigare generationers instanser ofta stötte på 'out-of-memory'-fel med större multimodala modeller, löser G7e:s fördubblade minneskapacitet elegant dessa begränsningar, vilket banar väg för mer sofistikerade och högupplösta bild- och visions-AI-applikationer.
Fysisk AI och vetenskaplig beräkning: Utöver traditionell generativ AI, utökar G7e:s Blackwell-generationens beräkningskraft, FP4-stöd och rumsliga beräkningsförmågor (inklusive DLSS 4.0 och 4:e generationens RT-kärnor) dess användbarhet till digitala tvillingar, 3D-simulering och avancerad inferens av fysiska AI-modeller, vilket öppnar nya gränser inom vetenskaplig forskning och industriella applikationer.

Effektiviserad distribution och prestandajämförelse

Att distribuera generativa AI-modeller på G7e-instanser via Amazon SageMaker AI är utformat för att vara enkelt. Användare kan få tillgång till en exempelfil här som effektiviserar processen. Förutsättningarna inkluderar typiskt sett ett AWS-konto, en IAM-roll för SageMaker-åtkomst, och antingen Amazon SageMaker Studio eller en SageMaker notebook-instans för utvecklingsmiljön. Viktigt är att användare bör begära en lämplig kvot för ml.g7e.2xlarge eller större instanser för SageMaker AI-slutpunktsanvändning via Service Quotas-konsolen.

För att demonstrera de betydande prestandaförbättringarna benchmarkade AWS Qwen3-32B (BF16) på både G6e- och G7e-instanser. Arbetsbelastningen involverade cirka 1 000 ingångstokens och 560 utgångstokens per förfrågan, vilket imiterar vanliga dokumentsammanfattningsuppgifter. Båda konfigurationerna använde den inbyggda vLLM-containern med prefixcaching aktiverat, vilket säkerställde en jämförelse på lika villkor.

Resultaten är övertygande. Medan G6e-baslinjen (ml.g6e.12xlarge med 4x L40S GPU:er till 13,12 USD/timme) visade stark genomströmning per förfrågan, berättar G7e (ml.g7e.2xlarge med 1x RTX PRO 6000 Blackwell till 4,20 USD/timme) en dramatiskt annorlunda kostnadshistoria. Vid produktionskonkurrens (C=32) uppnådde G7e förvånande 0,79 USD per miljon utdata-tokens. Detta representerar en 2,6x kostnadsminskning jämfört med G6e:s 2,06 USD, driven av G7e:s lägre timpris och dess förmåga att bibehålla konsekvent genomströmning under belastning, vilket bevisar att hög prestanda inte behöver komma till en premiumkostnad.

Framtiden för kostnadseffektiv generativ AI-inferens

Introduktionen av G7e-instanser på Amazon SageMaker AI är mer än bara en inkrementell uppgradering; det är ett strategiskt drag från AWS för att demokratisera tillgången till högpresterande generativ AI. Genom att kombinera den råa kraften hos NVIDIA RTX PRO 6000 Blackwell GPU:er med SageMaker:s skalbarhets- och hanteringsfunktioner, ger AWS organisationer av alla storlekar möjlighet att distribuera större, mer komplexa AI-modeller med oöverträffad effektivitet och kostnadseffektivitet. Denna utveckling säkerställer att framstegen inom generativ AI kan omvandlas till praktiska, produktionsfärdiga applikationer inom ett stort antal branscher, vilket befäster SageMaker AI:s position som en ledande plattform för AI-innovation.

Originalkälla

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Vanliga frågor

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela