G7e-instanser: En ny æra for AI-inferens på SageMaker
Landskabet for generativ AI udvikler sig med en hidtil uset hastighed, hvilket driver en kontinuerlig efterspørgsel efter mere kraftfuld, fleksibel og omkostningseffektiv infrastruktur. I dag er Code Velocity begejstrede for at rapportere om et betydeligt fremskridt fra AWS: den generelle tilgængelighed af G7e-instanser på Amazon SageMaker AI. Drevet af NVIDIA RTX PRO 6000 Blackwell Server Edition GPU'er er disse nye instanser sat til at omdefinere benchmarks for generativ AI-inferens og tilbyder udviklere og virksomheder uovertruffen ydeevne og hukommelseskapacitet.
Amazon SageMaker AI er en fuldt administreret tjeneste, der giver udviklere og dataforskere værktøjerne til at bygge, træne og implementere maskinlæringsmodeller i stor skala. Introduktionen af G7e-instanser markerer et afgørende øjeblik for generative AI-arbejdsbyrder på denne platform. Disse instanser udnytter de banebrydende NVIDIA RTX PRO 6000 Blackwell GPU'er, der hver især kan prale af en imponerende 96 GB GDDR7-hukommelse. Denne betydelige hukommelsesforøgelse muliggør implementering af betydeligt større fundamentale modeller (FM'er) direkte på SageMaker AI, hvilket adresserer et kritisk behov for avancerede AI-applikationer.
Organisationer kan nu implementere modeller som GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variant) og Qwen3.5-35B-A3B med bemærkelsesværdig effektivitet. G7e.2xlarge-instansen, med en enkelt GPU, kan hoste 35B parametermodeller, mens G7e.48xlarge, med otte GPU'er, skaleres op til 300B parametermodeller. Denne fleksibilitet omsættes til konkrete fordele: reduceret operationel kompleksitet, lavere latenstid og betydelige omkostningsbesparelser for inferensarbejdsbyrder.
Udvikling af G7e's generationsmæssige ydelsesspring
G7e-instanser repræsenterer et monumentalt spring i forhold til deres forgængere, G6e og G5, og leverer op til 2,3 gange hurtigere inferensydeevne sammenlignet med G6e. De tekniske specifikationer understreger dette generationsmæssige fremskridt. Hver G7e GPU leverer en forbløffende båndbredde på 1.597 GB/s, hvilket effektivt fordobler hukommelsen pr. GPU for G6e og firdobler den for G5. Desuden er netværkskapaciteten dramatisk forbedret, idet den skalerer op til 1.600 Gbps med EFA på den største G7e-størrelse. Denne 4x forøgelse i forhold til G6e og 16x i forhold til G5 låser op for potentialet for lav-latency multi-node inferens og finjusteringsscenarier, der tidligere blev anset for upraktiske.
Her er en sammenligning, der fremhæver udviklingen på tværs af generationer på 8-GPU-niveau:
| Specifikation | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU-hukommelse pr. GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Samlet GPU-hukommelse | 192 GB | 384 GB | 768 GB |
| GPU-hukommelsesbåndbredde | 600 GB/s pr. GPU | 864 GB/s pr. GPU | 1.597 GB/s pr. GPU |
| vCPU'er | 192 | 192 | 192 |
| Systemhukommelse | 768 GiB | 1.536 GiB | 2.048 GiB |
| Netværksbåndbredde | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| Lokal NVMe-lager | 7,6 TB | 7,6 TB | 15,2 TB |
| Inferens vs. G6e | Baseline | ~1x | Op til 2,3x |
Med en kolossal 768 GB samlet GPU-hukommelse på en enkelt G7e-instans kan modeller, der engang krævede komplekse multi-node konfigurationer på ældre instanser, nu implementeres med bemærkelsesværdig enkelhed. Dette reducerer betydeligt inter-node latenstid og operationelle omkostninger. Koblet med understøttelse af FP4-præcision via femte generations Tensor Cores og NVIDIA GPUDirect RDMA over EFAv4, er G7e-instanser utvetydigt designet til krævende LLM, multimodal AI og sofistikerede agentiske inferensarbejdsgange på AWS.
Diverse generative AI-brugssager trives på G7e
Den robuste kombination af hukommelsestæthed, båndbredde og avancerede netværkskapaciteter gør G7e-instanser ideelle til et bredt spektrum af moderne generative AI-arbejdsbyrder. Fra forbedring af konversations-AI til drift af komplekse fysiske simulationer tilbyder G7e håndgribelige fordele:
- Chatbots og Konversations-AI: Den lave 'Time To First Token' (TTFT) og det høje gennemløb for G7e-instanser sikrer lydhøre og sømløse interaktive oplevelser, selv når de står over for tunge samtidige brugerbelastninger. Dette er afgørende for at opretholde brugerengagement og -tilfredshed i realtids AI-interaktioner.
- Agentiske og Værktøjskaldende Arbejdsgange: For 'Retrieval Augmented Generation' (RAG) pipelines og agentiske systemer er hurtig kontekst-injektion fra retrieval stores altafgørende. Den 4x forbedring i CPU-til-GPU båndbredde inden for G7e-instanser gør dem usædvanligt effektive til disse kritiske operationer, hvilket muliggør mere intelligente og dynamiske AI-agenter.
- Tekstgenerering, Resumé og Inferens med lang kontekst: Med 96 GB hukommelse pr. GPU håndterer G7e-instanser dygtigt store Key-Value (KV) caches. Dette muliggør udvidede dokumentkontekster, hvilket betydeligt reducerer behovet for teksttrunkering og letter en rigere, mere nuanceret ræsonnement over store input.
- Billedgenerering og Visionsmodeller: Hvor tidligere generationers instanser ofte løb ind i 'out-of-memory'-fejl med større multimodale modeller, løser G7e's fordoblede hukommelseskapacitet elegant disse begrænsninger og baner vejen for mere sofistikerede og højere opløselige billed- og visions-AI-applikationer.
- Fysisk AI og Videnskabelig Computing: Ud over traditionel generativ AI udvider G7e's Blackwell-generations computing, FP4-understøttelse og rumlige computing-kapaciteter (inklusive DLSS 4.0 og 4. generations RT-kerner) dens anvendelighed til digitale tvillinger, 3D-simulering og avanceret fysisk AI-modelinferens, hvilket åbner nye grænser inden for videnskabelig forskning og industrielle applikationer.
Strømlinet implementering og ydeevne-benchmarking
Implementering af generative AI-modeller på G7e-instanser via Amazon SageMaker AI er designet til at være ligetil. Brugere kan få adgang til en eksempel-notebook her, der strømliner processen. Forudsætninger omfatter typisk en AWS-konto, en IAM-rolle for SageMaker-adgang og enten Amazon SageMaker Studio eller en SageMaker notebook-instans til udviklingsmiljøet. Vigtigt er det, at brugere bør anmode om en passende kvote for ml.g7e.2xlarge eller større instanser til SageMaker AI endpoint-brug via Service Quotas-konsollen.
For at demonstrere de betydelige ydeevnegevinster benchmarkede AWS Qwen3-32B (BF16) på både G6e- og G7e-instanser. Arbejdsbyrden involverede cirka 1.000 input-tokens og 560 output-tokens pr. anmodning, hvilket efterlignede almindelige dokumentresuméopgaver. Begge konfigurationer brugte den native vLLM container med prefix-caching aktiveret, hvilket sikrede en direkte sammenligning.
Resultaterne er overbevisende. Mens G6e-baselinen (ml.g6e.12xlarge med 4x L40S GPU'er til $13,12/time) viste et stærkt gennemløb pr. anmodning, fortæller G7e (ml.g7e.2xlarge med 1x RTX PRO 6000 Blackwell til $4,20/time) en dramatisk anderledes omkostningshistorie. Ved produktions-konkurrence (C=32) opnåede G7e forbløffende $0,79 pr. million output-tokens. Dette repræsenterer en bemærkelsesværdig 2,6x omkostningsreduktion sammenlignet med G6e’s $2,06, drevet af G7e’s lavere timepris og dens evne til at opretholde et ensartet gennemløb under belastning, hvilket beviser, at høj ydeevne ikke behøver at komme til en premium pris.
Fremtiden for omkostningseffektiv generativ AI-inferens
Introduktionen af G7e-instanser på Amazon SageMaker AI er mere end blot en trinvis opgradering; det er et strategisk træk fra AWS for at demokratisere adgangen til højtydende generativ AI. Ved at kombinere den rå kraft fra NVIDIA RTX PRO 6000 Blackwell GPU'er med SageMakers skalerbarheds- og administrationskapaciteter, giver AWS organisationer i alle størrelser mulighed for at implementere større, mere komplekse AI-modeller med hidtil uset effektivitet og omkostningsbesparelse. Denne udvikling sikrer, at fremskridtene inden for generativ AI kan omsættes til praktiske, produktionsklare applikationer på tværs af en bred vifte af industrier, hvilket cementerer SageMaker AI's position som en førende platform for AI-innovation.
Original kilde
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Ofte stillede spørgsmål
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Hold dig opdateret
Få de seneste AI-nyheder i din indbakke.
