Generatiewe KI-afleiding: Versnelling op SageMaker met G7e-instansies

title: "Generatiewe KI-afleiding: Versnelling op SageMaker met G7e-instansies" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "af" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Ondernemings-KI" keywords:

Generatiewe KI
KI-afleiding
Amazon SageMaker
AWS G7e-instansies
NVIDIA RTX PRO 6000
LLM-ontplooiing
Koste-effektiewe KI
GPU-geheue
Blackwell
vLLM
Grondslagmodelle
Agentiese Werkvloei meta_description: "Versnel generatiewe KI-afleiding op Amazon SageMaker KI met die nuwe G7e-instansies, aangedryf deur NVIDIA RTX PRO 6000 Blackwell GPU's, wat 2.3x werkverrigting en kostebesparings bied." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker KI G7e-instansies wat generatiewe KI-afleiding versnel met NVIDIA RTX PRO 6000 Blackwell GPU's." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "Wat is G7e-instansies en hoe bevoordeel dit generatiewe KI-afleiding?" answer: "G7e-instansies is die nuutste generasie GPU-versnelde rekenaarinstansies wat op Amazon SageMaker KI beskikbaar is, spesifiek ontwerp om generatiewe KI-afleiding werkslaste te versnel. Hulle word aangedryf deur NVIDIA RTX PRO 6000 Blackwell Server Edition GPU's, wat beduidende vooruitgang bied in geheuekapasiteit, bandwydte en algehele afleidingswerkverrigting. Vir generatiewe KI beteken G7e-instansies vinniger Tyd tot Eerste Teken (TTFT), hoër deurset, en die vermoë om veel groter grondslagmodelle (FMs) binne 'n enkele instansie, of selfs op 'n enkele GPU, te huisves. Dit vertaal na meer responsiewe KI-toepassings, verminderde operasionele kompleksiteit, en aansienlike kostebesparings vir die ontplooiing en bestuur van groot taalmodelle (LLM's), multimodale KI, en agentiese werkvloei. Hul verbeterde vermoëns maak hulle ideaal vir interaktiewe toepassings wat hoë-prestasie, koste-effektiewe afleiding benodig."
question: "Watter NVIDIA GPU dryf die nuwe G7e-instansies aan, en wat is die sleutelkenmerke daarvan?" answer: "Die nuwe G7e-instansies op Amazon SageMaker KI word aangedryf deur die NVIDIA RTX PRO 6000 Blackwell Server Edition GPU's. Elkeen van hierdie voorpunt-GPU's bied 'n indrukwekkende 96 GB GDDR7-geheue, wat dubbel die geheuekapasiteit per GPU is in vergelyking met die vorige G6e-instansies. Sleutelkenmerke sluit ook 1,597 GB/s GPU-geheuebandwydte per GPU in, ondersteuning vir FP4-presisie deur vyfde-generasie Tensor Cores, en NVIDIA GPUDirect RDMA oor EFAv4. Hierdie kenmerke dra gesamentlik by tot die G7e-instansies se voortreflike afleidingswerkverrigting, geheuedigtheid en lae-latency netwerk, wat hulle uitsonderlik bekwaam maak vir veeleisende generatiewe KI-take."
question: "Hoe vergelyk G7e-instansies met vorige generasies (G6e, G5) in terme van werkverrigting en geheue?" answer: "G7e-instansies toon 'n beduidende generasie-sprong oor G6e en G5. Hulle lewer tot 2.3x afleidingswerkverrigting in vergelyking met G6e-instansies. Wat geheue betref, bied elke G7e GPU 96 GB GDDR7-geheue, wat die per-GPU-geheue van G6e effektief verdubbel en dié van G5 verviervoudig. 'n Topvlak G7e.48xlarge-instansie bied 'n totaal van 768 GB totale GPU-geheue. Verder skaal netwerkbandwydte tot 1,600 Gbps met EFA op die grootste G7e-grootte, 'n 4x sprong oor G6e en 16x oor G5. Hierdie groot verbetering in geheue, bandwydte en netwerk stel G7e-instansies in staat om modelle te huisves wat voorheen multi-knoop-opstellings op ouer instansies vereis het, wat ontplooiing vereenvoudig en latensie verminder."
question: "Watter tipes generatiewe KI-werkslaste is die beste geskik vir ontplooiing op G7e-instansies?" answer: "G7e-instansies is uitsonderlik goed geskik vir 'n wye reeks moderne generatiewe KI-werkslaste as gevolg van hul hoë geheuedigtheid, bandwydte en gevorderde netwerk. Dit sluit in: Kletsprogramme en Gespreks-KI, wat lae Tyd tot Eerste Teken (TTFT) en hoë deurset verseker vir responsiewe interaktiewe ervarings; Agentiese en Hulproep-werkvloei, wat voordeel trek uit 4x verbeterde SVE-na-GPU-bandwydte vir vinnige konteksinspuiting in RAG-pypleidings; Teksgenerering, Opsomming en Langkonteks-afleiding, wat groot KV-kasgeheue vir uitgebreide dokumentkontekste met 96 GB per-GPU-geheue akkommodeer; Beeldgenerering en Visie-modelle, wat uit-geheue-foute oorkom vir groter multimodale modelle wat op vorige instansies gesukkel het; en Fisiese KI en Wetenskaplike Rekenaarkunde, wat Blackwell-generasie-rekenaar, FP4-ondersteuning en ruimtelike rekenaarkundige vermoëns vir digitale tweelinge en 3D-simulasie benut."
question: "Wat is die koste-doeltreffendheid van G7e-instansies in vergelyking met G6e vir generatiewe KI-afleiding?" answer: "G7e-instansies bied aansienlik verbeterde koste-doeltreffendheid vir generatiewe KI-afleiding in vergelyking met G6e-instansies. maatstawwe wat Qwen3-32B ontplooi het, het getoon dat G7e $0.79 per miljoen uitsetteken behaal het teen produksie-gelyktydigheid (C=32). Dit verteenwoordig 'n merkwaardige 2.6x kostevermindering in vergelyking met G6e se $2.06 per miljoen uitsetteken vir 'n soortgelyke werkslas. Hierdie kostebesparing word hoofsaaklik gedryf deur G7e se aansienlik laer uurlikse tarief (bv. $4.20/uur vir ml.g7e.2xlarge vs. $13.12/uur vir ml.g6e.12xlarge) gekombineer met sy vermoë om konstante en hoë deurset onder las te handhaaf, wat dit 'n meer ekonomiese keuse vir grootskaalse ontplooiings maak."
question: "Wat is die geheuekapasiteite vir die ontplooiing van LLM's op enkel- en multi-GPU G7e-instansies?" answer: "G7e-instansies bied aansienlike geheuekapasiteite vir die ontplooiing van groot taalmodelle (LLM's). 'n Enkel-knoop GPU, spesifiek 'n G7e.2xlarge-instansie, kan grondslagmodelle met tot 35 miljard parameters in FP16-presisie effektief huisves. Vir groter modelle verhoog die skaal oor veelvuldige GPU's binne 'n enkele instansie die kapasiteit dramaties: 'n 4-GPU-knoop (G7e.24xlarge) kan modelle tot 150 miljard parameters ontplooi, terwyl 'n 8-GPU-knoop (G7e.48xlarge) modelle so groot soos 300 miljard parameters kan hanteer. Hierdie indrukwekkende skaalbaarheid bied organisasies die buigsaamheid om 'n wye reeks LLM's te ontplooi sonder die kompleksiteite van multi-instansie verspreide opstellings."
question: "Wat is die voorvereistes vir die ontplooiing van oplossings met behulp van G7e-instansies op Amazon SageMaker KI?" answer: "Om generatiewe KI-oplossings met behulp van G7e-instansies op Amazon SageMaker KI te ontplooi, moet verskeie voorvereistes nagekom word. Jy benodig 'n aktiewe AWS-rekening om jou hulpbronne te huisves en 'n AWS Identity and Access Management (IAM) rol wat gekonfigureer is met toepaslike toestemmings om toegang tot Amazon SageMaker KI-dienste te verkry. Vir ontwikkeling en ontplooiing word toegang tot Amazon SageMaker Studio of 'n SageMaker notaboek-instansie aanbeveel, hoewel ander interaktiewe ontwikkelingsomgewings soos PyCharm of Visual Studio Code ook lewensvatbaar is. Krities is dat jy 'n kwota vir ten minste een ml.g7e.2xlarge-instansie (of 'n groter G7e-instansietipe) vir Amazon SageMaker KI-eindpuntgebruik moet aanvra deur die AWS Service Quotas-konsole, aangesien dit nuwe en gespesialiseerde instansietipes is."

G7e-instansies: 'n Nuwe Era vir KI-afleiding op SageMaker

Die landskap van generatiewe KI ontwikkel teen 'n ongekende tempo, wat 'n voortdurende vraag na kragtiger, buigbaarder en koste-effektiewe infrastruktuur dryf. Vandag is Code Velocity opgewonde om verslag te doen oor 'n beduidende vooruitgang van AWS: die algemene beskikbaarheid van G7e-instansies op Amazon SageMaker KI. Aangedryf deur NVIDIA RTX PRO 6000 Blackwell Server Edition GPU's, is hierdie nuwe instansies ingestel om die maatstawwe vir generatiewe KI-afleiding te herdefinieer, wat ontwikkelaars en ondernemings ongeëwenaarde werkverrigting en geheuekapasiteit bied.

Amazon SageMaker KI is 'n ten volle bestuurde diens wat ontwikkelaars en datawetenskaplikes van die gereedskap voorsien om masjienleermodelle op skaal te bou, op te lei en te ontplooi. Die bekendstelling van G7e-instansies merk 'n deurslaggewende oomblik vir generatiewe KI-werkslaste op hierdie platform. Hierdie instansies benut die voorpunt NVIDIA RTX PRO 6000 Blackwell GPU's, elk met 'n indrukwekkende 96 GB GDDR7-geheue. Hierdie aansienlike geheueverhoging maak die ontplooiing van aansienlik groter grondslagmodelle (FMs) direk op SageMaker KI moontlik, wat 'n kritieke behoefte vir gevorderde KI-toepassings aanspreek.

Organisasies kan nou modelle soos GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variant), en Qwen3.5-35B-A3B met merkwaardige doeltreffendheid ontplooi. Die G7e.2xlarge-instansie, met 'n enkele GPU, kan 35B parametermodelle huisves, terwyl die G7e.48xlarge, met agt GPU's, skaal tot 300B parametermodelle. Hierdie buigsaamheid vertaal na tasbare voordele: verminderde operasionele kompleksiteit, laer latensie, en aansienlike kostebesparings vir afleidingswerkslaste.

Die Generasie-sprong in Werkverrigting van G7e Onthul

G7e-instansies verteenwoordig 'n monumentale sprong oor hul voorgangers, G6e en G5, en lewer tot 2.3 keer vinniger afleidingswerkverrigting in vergelyking met G6e. Die tegniese spesifikasies onderstreep hierdie generasie-vooruitgang. Elke G7e GPU bied 'n verstommende 1,597 GB/s bandwydte, wat die per-GPU-geheue van G6e effektief verdubbel en dié van G5 verviervoudig. Verder is netwerkvermoëns dramaties verbeter, en skaal tot 1,600 Gbps met EFA op die grootste G7e-grootte. Hierdie 4x toename oor G6e en 16x oor G5 ontsluit die potensiaal vir lae-latency multi-knoop-afleiding en verfyning-scenario's wat voorheen as onprakties beskou is.

Hier is 'n vergelyking wat die vordering oor generasies by die 8-GPU-vlak uitlig:

Spesifikasie	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU Geheue per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Totale GPU Geheue	192 GB	384 GB	768 GB
GPU Geheue Bandwydte	600 GB/s per GPU	864 GB/s per GPU	1,597 GB/s per GPU
vSVE's	192	192	192
Stelselgeheue	768 GiB	1,536 GiB	2,048 GiB
Netwerkbandwydte	100 Gbps	400 Gbps	1,600 Gbps (EFA)
Plaaslike NVMe Berging	7.6 TB	7.6 TB	15.2 TB
Afleiding vs. G6e	Basislyn	~1x	Tot 2.3x

Met 'n kolossale 768 GB van totale GPU-geheue op 'n enkele G7e-instansie, kan modelle wat eens komplekse multi-knoop-konfigurasies op ouer instansies vereis het, nou met merkwaardige eenvoud ontplooi word. Dit verminder inter-knoop-latensie en operasionele oorhoofse koste aansienlik. Gekoppel aan ondersteuning vir FP4-presisie via vyfde-generasie Tensor Cores en NVIDIA GPUDirect RDMA oor EFAv4, is G7e-instansies onteenseglik ontwerp vir veeleisende LLM, multimodale KI, en gesofistikeerde agentiese afleidingswerkvloei op AWS.

Diverse Generatiewe KI-gebruiksgevalle Floreer op G7e

Die robuuste kombinasie van geheuedigtheid, bandwydte en gevorderde netwerkvermoëns maak G7e-instansies ideaal vir 'n wye spektrum van hedendaagse generatiewe KI-werkslaste. Van die verbetering van gespreks-KI tot die aandryf van komplekse fisiese simulasies, bied G7e tasbare voordele:

Kletsprogramme en Gespreks-KI: Die lae Tyd tot Eerste Teken (TTFT) en hoë deurset van G7e-instansies verseker responsiewe en naatlose interaktiewe ervarings, selfs wanneer swaar gelyktydige gebruikerslading ondervind word. Dit is deurslaggewend vir die handhawing van gebruikersbetrokkenheid en tevredenheid in intydse KI-interaksies.
Agentiese en Hulproep-werkvloei: Vir Herwinning-Aangevulde Generasie (RAG)-pypleidings en agentiese stelsels is vinnige konteksinspuiting vanaf herwinningsdatabasisse van uiterste belang. Die 4x verbetering in SVE-na-GPU-bandwydte binne G7e-instansies maak hulle uitsonderlik effektief vir hierdie kritieke bedrywighede, wat meer intelligente en dinamiese KI-agente moontlik maak.
Teksgenerering, Opsomming en Langkonteks-afleiding: Met 96 GB per-GPU-geheue hanteer G7e-instansies groot Sleutel-Waarde (KV)-kasgeheue vaardig. Dit maak uitgebreide dokumentkontekste moontlik, wat die behoefte aan teksafkorting aansienlik verminder en ryker, meer genuanseerde redenasie oor groot insette vergemaklik.
Beeldgenerering en Visie-modelle: Waar vorige-generasie-instansies gereeld uit-geheue-foute ondervind het met groter multimodale modelle, los G7e se verdubbelde geheuekapasiteit hierdie beperkings grasieus op, wat die weg baan vir meer gesofistikeerde en hoër-resolusie beeld- en visie-KI-toepassings.
Fisiese KI en Wetenskaplike Rekenaarkunde: Behalwe vir tradisionele generatiewe KI, brei G7e se Blackwell-generasie-rekenaar, FP4-ondersteuning, en ruimtelike rekenaarkundige vermoëns (insluitend DLSS 4.0 en 4de-generasie RT-kerns) sy nut uit na digitale tweelinge, 3D-simulasie, en gevorderde fisiese KI-modelafleiding, wat nuwe grense in wetenskaplike navorsing en industriële toepassings oopmaak.

Vereenvoudigde Ontplooiing en Prestasie-maatstawwe

Die ontplooiing van generatiewe KI-modelle op G7e-instansies via Amazon SageMaker KI is ontwerp om eenvoudig te wees. Gebruikers kan 'n voorbeeldnotaboek hier verkry wat die proses stroomlyn. Voorvereistes sluit tipies 'n AWS-rekening, 'n IAM-rol vir SageMaker-toegang, en óf Amazon SageMaker Studio óf 'n SageMaker-notaboek-instansie vir die ontwikkelingsomgewing in. Belangrik is dat gebruikers 'n toepaslike kwota vir ml.g7e.2xlarge of groter instansies vir SageMaker KI-eindpuntgebruik via die Service Quotas-konsole moet aanvra.

Om die beduidende prestasieverhogings te demonstreer, het AWS Qwen3-32B (BF16) op beide G6e- en G7e-instansies gemeet. Die werkslas het ongeveer 1,000 invoerteken en 560 uitsetteken per versoek behels, wat algemene dokumentsommeringstake naboots. Beide konfigurasies het die oorspronklike vLLM-houer met voorspellingkas (prefix caching) geaktiveer gebruik, wat 'n appel-met-appel vergelyking verseker het.

Die resultate is dwingend. Terwyl die G6e-basislyn (ml.g6e.12xlarge met 4x L40S GPU's teen $13.12/uur) sterk per-versoek deurset getoon het, vertel die G7e (ml.g7e.2xlarge met 1x RTX PRO 6000 Blackwell teen $4.20/uur) 'n dramaties ander kosteverhaal. By produksie-gelyktydigheid (C=32) het G7e 'n verstommende $0.79 per miljoen uitsetteken behaal. Dit verteenwoordig 'n 2.6x kostevermindering in vergelyking met G6e se $2.06, gedryf deur G7e se laer uurlikse tarief en sy vermoë om konstante deurset onder las te handhaaf, wat bewys dat hoë werkverrigting nie teen 'n premiumkoste hoef te kom nie.

Die Toekoms van Koste-effektiewe Generatiewe KI-afleiding

Die bekendstelling van G7e-instansies op Amazon SageMaker KI is meer as net 'n inkrementele opgradering; dit is 'n strategiese skuif deur AWS om toegang tot hoë-prestasie generatiewe KI te demokratiseer. Deur die rou krag van NVIDIA RTX PRO 6000 Blackwell GPU's te kombineer met die skaalbaarheid en bestuursvermoëns van SageMaker, bemagtig AWS organisasies van alle groottes om groter, meer komplekse KI-modelle met ongekende doeltreffendheid en koste-effektiwiteit te ontplooi. Hierdie ontwikkeling verseker dat die vooruitgang in generatiewe KI vertaal kan word in praktiese, produksiegereed toepassings oor 'n wye verskeidenheid industrieë, wat SageMaker KI se posisie as 'n toonaangewende platform vir KI-innovasie versterk.

Oorspronklike bron

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Gereelde Vrae

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Bly op hoogte

Kry die nuutste KI-nuus in jou inkassie.

Deel