G7e-instanser: En ny æra for AI-inferens på SageMaker
Landskapet for generativ AI utvikler seg i et enestående tempo, noe som driver en kontinuerlig etterspørsel etter kraftigere, mer fleksibel og kostnadseffektiv infrastruktur. I dag er Code Velocity glade for å rapportere om et betydelig fremskritt fra AWS: den generelle tilgjengeligheten av G7e-instanser på Amazon SageMaker AI. Drevet av NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-er, er disse nye instansene satt til å redefinere referansepunktet for generativ AI-inferens, og tilbyr utviklere og bedrifter uovertruffen ytelse og minnekapasitet.
Amazon SageMaker AI er en fullt administrert tjeneste som gir utviklere og datavitere verktøyene for å bygge, trene og distribuere maskinlæringsmodeller i stor skala. Introduksjonen av G7e-instanser markerer et sentralt øyeblikk for generative AI-arbeidsbelastninger på denne plattformen. Disse instansene utnytter de banebrytende NVIDIA RTX PRO 6000 Blackwell GPU-ene, hver med imponerende 96 GB GDDR7-minne. Denne betydelige minneøkningen muliggjør distribusjon av betydelig større grunnleggende modeller (FMs) direkte på SageMaker AI, og adresserer et kritisk behov for avanserte AI-applikasjoner.
Organisasjoner kan nå distribuere modeller som GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variant), og Qwen3.5-35B-A3B med bemerkelsesverdig effektivitet. G7e.2xlarge-instansen, med en enkelt GPU, kan være vert for 35B parameter-modeller, mens G7e.48xlarge, med åtte GPU-er, skalerer opp til 300B parameter-modeller. Denne fleksibiliteten oversettes til konkrete fordeler: redusert operasjonell kompleksitet, lavere latens og betydelige kostnadsbesparelser for inferensarbeidsbelastninger.
Avdekker G7es generasjonsmessige ytelseshopp
G7e-instanser representerer et monumentalt hopp over sine forgjengere, G6e og G5, og leverer opptil 2,3 ganger raskere inferensytelse sammenlignet med G6e. De tekniske spesifikasjonene understreker dette generasjonsmessige fremskrittet. Hver G7e GPU gir en forbløffende båndbredde på 1 597 GB/s, noe som effektivt dobler per-GPU-minnet til G6e og firedobler det til G5. Videre er nettverksmulighetene dramatisk forbedret, og skalerer opptil 1 600 Gbps med EFA på den største G7e-størrelsen. Denne 4x økningen over G6e og 16x over G5 låser opp potensialet for flernode-inferens med lav latens og finjusteringsscenarioer som tidligere ble ansett som upraktiske.
Her er en sammenligning som fremhever progresjonen på tvers av generasjoner på 8-GPU-nivå:
| Spesifikasjon | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU-minne per GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Totalt GPU-minne | 192 GB | 384 GB | 768 GB |
| GPU-minnebåndbredde | 600 GB/s per GPU | 864 GB/s per GPU | 1 597 GB/s per GPU |
| vCPU-er | 192 | 192 | 192 |
| Systemminne | 768 GiB | 1 536 GiB | 2 048 GiB |
| Nettverksbåndbredde | 100 Gbps | 400 Gbps | 1 600 Gbps (EFA) |
| Lokal NVMe-lagring | 7,6 TB | 7,6 TB | 15,2 TB |
| Inferens vs. G6e | Baseline | ~1x | Opptil 2,3x |
Med hele 768 GB samlet GPU-minne på en enkelt G7e-instans, kan modeller som en gang krevde komplekse flernodekonfigurasjoner på eldre instanser nå distribueres med bemerkelsesverdig enkelhet. Dette reduserer inter-node-latens og operasjonelle omkostninger betydelig. Kombinert med støtte for FP4-presisjon via femtegenerasjons Tensor Cores og NVIDIA GPUDirect RDMA over EFAv4, er G7e-instanser utvetydig designet for krevende LLM, multimodal AI og sofistikerte agentiske inferensarbeidsflyter på AWS.
Diverse Generative AI-bruksområder blomstrer på G7e
Den robuste kombinasjonen av minnetetthet, båndbredde og avanserte nettverksmuligheter gjør G7e-instanser ideelle for et bredt spekter av moderne generative AI-arbeidsbelastninger. Fra å forbedre konversasjons-AI til å drive komplekse fysiske simuleringer, tilbyr G7e konkrete fordeler:
- Chatboter og Konversasjons-AI: Den lave Time To First Token (TTFT) og høye gjennomstrømningen til G7e-instanser sikrer responsive og sømløse interaktive opplevelser, selv når man står overfor store samtidige brukerbelastninger. Dette er avgjørende for å opprettholde brukerengasjement og tilfredshet i sanntids AI-interaksjoner.
- Agentiske og Verktøy-kallende Arbeidsflyter: For Retrieval Augmented Generation (RAG)-pipelines og agentiske systemer er rask kontekstinnsprøytning fra gjenfinningslagre avgjørende. Den 4x forbedringen i CPU-til-GPU-båndbredde innen G7e-instanser gjør dem eksepsjonelt effektive for disse kritiske operasjonene, og muliggjør mer intelligente og dynamiske AI-agenter.
- Tekstgenerering, Oppsummering og Inferens med lang kontekst: Med 96 GB per-GPU-minne håndterer G7e-instanser store Key-Value (KV)-cacher dyktig. Dette muliggjør utvidede dokumentkontekster, reduserer behovet for tekstavkorting betydelig og letter rikere, mer nyansert resonnement over store inndata.
- Bildegenerering og Visjonsmodeller: Der tidligere generasjons instanser ofte støtte på 'out-of-memory'-feil med større multimodale modeller, løser G7es doblede minnekapasitet disse begrensningene elegant, og baner vei for mer sofistikerte bilde- og visjons-AI-applikasjoner med høyere oppløsning.
- Fysisk AI og Vitenskapelig Databehandling: Utover tradisjonell generativ AI, utvider G7es Blackwell-generasjons databehandling, FP4-støtte og romlige databehandlingsmuligheter (inkludert DLSS 4.0 og 4. generasjons RT-kjerner) dens nytteverdi til digitale tvillinger, 3D-simulering og avansert fysisk AI-modellinferens, og åpner nye grenser innen vitenskapelig forskning og industrielle applikasjoner.
Strømlinjeformet distribusjon og ytelsesreferansetesting
Distribusjon av generative AI-modeller på G7e-instanser via Amazon SageMaker AI er designet for å være enkel. Brukere kan få tilgang til en eksempelsnotatbok her som effektiviserer prosessen. Forutsetninger inkluderer vanligvis en AWS-konto, en IAM-rolle for SageMaker-tilgang, og enten Amazon SageMaker Studio eller en SageMaker notatbokinstans for utviklingsmiljøet. Viktigst er det at brukere bør be om en passende kvote for ml.g7e.2xlarge eller større instanser for bruk av SageMaker AI-endepunkter via Service Quotas-konsollen.
For å demonstrere de betydelige ytelsesgevinstene, utførte AWS referansetesting av Qwen3-32B (BF16) på både G6e- og G7e-instanser. Arbeidsbelastningen involverte omtrent 1 000 inndata-tokens og 560 utdata-tokens per forespørsel, noe som etterligner vanlige dokumentoppsummeringsoppgaver. Begge konfigurasjonene brukte den native vLLM-containeren med prefikscaching aktivert, noe som sikrer en direkte sammenligning.
Resultatene er overbevisende. Mens G6e-referansepunktet (ml.g6e.12xlarge med 4x L40S GPU-er til $13,12/time) viste sterk gjennomstrømning per forespørsel, forteller G7e (ml.g7e.2xlarge med 1x RTX PRO 6000 Blackwell til $4,20/time) en dramatisk annerledes kostnadshistorie. Ved produksjonskonkurranse (C=32) oppnådde G7e forbløffende $0,79 per million utgående tokens. Dette representerer en bemerkelsesverdig 2,6x kostnadsreduksjon sammenlignet med G6es $2,06, drevet av G7es lavere timepris og dens evne til å opprettholde konsistent gjennomstrømning under belastning, noe som beviser at høy ytelse ikke trenger å komme til en høy pris.
Fremtiden for kostnadseffektiv generativ AI-inferens
Introduksjonen av G7e-instanser på Amazon SageMaker AI er mer enn bare en inkrementell oppgradering; det er et strategisk trekk fra AWS for å demokratisere tilgangen til høyytelses generativ AI. Ved å kombinere den rå kraften til NVIDIA RTX PRO 6000 Blackwell GPU-er med skalerbarheten og administrasjonsmulighetene til SageMaker, styrker AWS organisasjoner av alle størrelser til å distribuere større, mer komplekse AI-modeller med enestående effektivitet og kostnadseffektivitet. Denne utviklingen sikrer at fremskrittene innen generativ AI kan oversettes til praktiske, produksjonsklare applikasjoner på tvers av et bredt spekter av bransjer, og befester SageMaker AIs posisjon som en ledende plattform for AI-innovasjon.
Opprinnelig kilde
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Ofte stilte spørsmål
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Hold deg oppdatert
Få de siste AI-nyhetene i innboksen din.
