title: "Generatiewe KI-afleiding: Versnelling op SageMaker met G7e-instansies" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "af" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Ondernemings-KI" keywords:
- Generatiewe KI
- KI-afleiding
- Amazon SageMaker
- AWS G7e-instansies
- NVIDIA RTX PRO 6000
- LLM-ontplooiing
- Koste-effektiewe KI
- GPU-geheue
- Blackwell
- vLLM
- Grondslagmodelle
- Agentiese Werkvloei meta_description: "Versnel generatiewe KI-afleiding op Amazon SageMaker KI met die nuwe G7e-instansies, aangedryf deur NVIDIA RTX PRO 6000 Blackwell GPU's, wat 2.3x werkverrigting en kostebesparings bied." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker KI G7e-instansies wat generatiewe KI-afleiding versnel met NVIDIA RTX PRO 6000 Blackwell GPU's." quality_score: 94 content_score: 93 seo_score: 95 companies:
- AWS schema_type: "NewsArticle" reading_time: 4 faq:
- question: "Wat is G7e-instansies en hoe bevoordeel dit generatiewe KI-afleiding?" answer: "G7e-instansies is die nuutste generasie GPU-versnelde rekenaarinstansies wat op Amazon SageMaker KI beskikbaar is, spesifiek ontwerp om generatiewe KI-afleiding werkslaste te versnel. Hulle word aangedryf deur NVIDIA RTX PRO 6000 Blackwell Server Edition GPU's, wat beduidende vooruitgang bied in geheuekapasiteit, bandwydte en algehele afleidingswerkverrigting. Vir generatiewe KI beteken G7e-instansies vinniger Tyd tot Eerste Teken (TTFT), hoër deurset, en die vermoë om veel groter grondslagmodelle (FMs) binne 'n enkele instansie, of selfs op 'n enkele GPU, te huisves. Dit vertaal na meer responsiewe KI-toepassings, verminderde operasionele kompleksiteit, en aansienlike kostebesparings vir die ontplooiing en bestuur van groot taalmodelle (LLM's), multimodale KI, en agentiese werkvloei. Hul verbeterde vermoëns maak hulle ideaal vir interaktiewe toepassings wat hoë-prestasie, koste-effektiewe afleiding benodig."
- question: "Watter NVIDIA GPU dryf die nuwe G7e-instansies aan, en wat is die sleutelkenmerke daarvan?" answer: "Die nuwe G7e-instansies op Amazon SageMaker KI word aangedryf deur die NVIDIA RTX PRO 6000 Blackwell Server Edition GPU's. Elkeen van hierdie voorpunt-GPU's bied 'n indrukwekkende 96 GB GDDR7-geheue, wat dubbel die geheuekapasiteit per GPU is in vergelyking met die vorige G6e-instansies. Sleutelkenmerke sluit ook 1,597 GB/s GPU-geheuebandwydte per GPU in, ondersteuning vir FP4-presisie deur vyfde-generasie Tensor Cores, en NVIDIA GPUDirect RDMA oor EFAv4. Hierdie kenmerke dra gesamentlik by tot die G7e-instansies se voortreflike afleidingswerkverrigting, geheuedigtheid en lae-latency netwerk, wat hulle uitsonderlik bekwaam maak vir veeleisende generatiewe KI-take."
- question: "Hoe vergelyk G7e-instansies met vorige generasies (G6e, G5) in terme van werkverrigting en geheue?" answer: "G7e-instansies toon 'n beduidende generasie-sprong oor G6e en G5. Hulle lewer tot 2.3x afleidingswerkverrigting in vergelyking met G6e-instansies. Wat geheue betref, bied elke G7e GPU 96 GB GDDR7-geheue, wat die per-GPU-geheue van G6e effektief verdubbel en dié van G5 verviervoudig. 'n Topvlak G7e.48xlarge-instansie bied 'n totaal van 768 GB totale GPU-geheue. Verder skaal netwerkbandwydte tot 1,600 Gbps met EFA op die grootste G7e-grootte, 'n 4x sprong oor G6e en 16x oor G5. Hierdie groot verbetering in geheue, bandwydte en netwerk stel G7e-instansies in staat om modelle te huisves wat voorheen multi-knoop-opstellings op ouer instansies vereis het, wat ontplooiing vereenvoudig en latensie verminder."
- question: "Watter tipes generatiewe KI-werkslaste is die beste geskik vir ontplooiing op G7e-instansies?" answer: "G7e-instansies is uitsonderlik goed geskik vir 'n wye reeks moderne generatiewe KI-werkslaste as gevolg van hul hoë geheuedigtheid, bandwydte en gevorderde netwerk. Dit sluit in: Kletsprogramme en Gespreks-KI, wat lae Tyd tot Eerste Teken (TTFT) en hoë deurset verseker vir responsiewe interaktiewe ervarings; Agentiese en Hulproep-werkvloei, wat voordeel trek uit 4x verbeterde SVE-na-GPU-bandwydte vir vinnige konteksinspuiting in RAG-pypleidings; Teksgenerering, Opsomming en Langkonteks-afleiding, wat groot KV-kasgeheue vir uitgebreide dokumentkontekste met 96 GB per-GPU-geheue akkommodeer; Beeldgenerering en Visie-modelle, wat uit-geheue-foute oorkom vir groter multimodale modelle wat op vorige instansies gesukkel het; en Fisiese KI en Wetenskaplike Rekenaarkunde, wat Blackwell-generasie-rekenaar, FP4-ondersteuning en ruimtelike rekenaarkundige vermoëns vir digitale tweelinge en 3D-simulasie benut."
- question: "Wat is die koste-doeltreffendheid van G7e-instansies in vergelyking met G6e vir generatiewe KI-afleiding?" answer: "G7e-instansies bied aansienlik verbeterde koste-doeltreffendheid vir generatiewe KI-afleiding in vergelyking met G6e-instansies. maatstawwe wat Qwen3-32B ontplooi het, het getoon dat G7e $0.79 per miljoen uitsetteken behaal het teen produksie-gelyktydigheid (C=32). Dit verteenwoordig 'n merkwaardige 2.6x kostevermindering in vergelyking met G6e se $2.06 per miljoen uitsetteken vir 'n soortgelyke werkslas. Hierdie kostebesparing word hoofsaaklik gedryf deur G7e se aansienlik laer uurlikse tarief (bv. $4.20/uur vir ml.g7e.2xlarge vs. $13.12/uur vir ml.g6e.12xlarge) gekombineer met sy vermoë om konstante en hoë deurset onder las te handhaaf, wat dit 'n meer ekonomiese keuse vir grootskaalse ontplooiings maak."
- question: "Wat is die geheuekapasiteite vir die ontplooiing van LLM's op enkel- en multi-GPU G7e-instansies?" answer: "G7e-instansies bied aansienlike geheuekapasiteite vir die ontplooiing van groot taalmodelle (LLM's). 'n Enkel-knoop GPU, spesifiek 'n G7e.2xlarge-instansie, kan grondslagmodelle met tot 35 miljard parameters in FP16-presisie effektief huisves. Vir groter modelle verhoog die skaal oor veelvuldige GPU's binne 'n enkele instansie die kapasiteit dramaties: 'n 4-GPU-knoop (G7e.24xlarge) kan modelle tot 150 miljard parameters ontplooi, terwyl 'n 8-GPU-knoop (G7e.48xlarge) modelle so groot soos 300 miljard parameters kan hanteer. Hierdie indrukwekkende skaalbaarheid bied organisasies die buigsaamheid om 'n wye reeks LLM's te ontplooi sonder die kompleksiteite van multi-instansie verspreide opstellings."
- question: "Wat is die voorvereistes vir die ontplooiing van oplossings met behulp van G7e-instansies op Amazon SageMaker KI?"
answer: "Om generatiewe KI-oplossings met behulp van G7e-instansies op Amazon SageMaker KI te ontplooi, moet verskeie voorvereistes nagekom word. Jy benodig 'n aktiewe AWS-rekening om jou hulpbronne te huisves en 'n AWS Identity and Access Management (IAM) rol wat gekonfigureer is met toepaslike toestemmings om toegang tot Amazon SageMaker KI-dienste te verkry. Vir ontwikkeling en ontplooiing word toegang tot Amazon SageMaker Studio of 'n SageMaker notaboek-instansie aanbeveel, hoewel ander interaktiewe ontwikkelingsomgewings soos PyCharm of Visual Studio Code ook lewensvatbaar is. Krities is dat jy 'n kwota vir ten minste een
ml.g7e.2xlarge-instansie (of 'n groter G7e-instansietipe) vir Amazon SageMaker KI-eindpuntgebruik moet aanvra deur die AWS Service Quotas-konsole, aangesien dit nuwe en gespesialiseerde instansietipes is."
G7e-instansies: 'n Nuwe Era vir KI-afleiding op SageMaker
Die landskap van generatiewe KI ontwikkel teen 'n ongekende tempo, wat 'n voortdurende vraag na kragtiger, buigbaarder en koste-effektiewe infrastruktuur dryf. Vandag is Code Velocity opgewonde om verslag te doen oor 'n beduidende vooruitgang van AWS: die algemene beskikbaarheid van G7e-instansies op Amazon SageMaker KI. Aangedryf deur NVIDIA RTX PRO 6000 Blackwell Server Edition GPU's, is hierdie nuwe instansies ingestel om die maatstawwe vir generatiewe KI-afleiding te herdefinieer, wat ontwikkelaars en ondernemings ongeëwenaarde werkverrigting en geheuekapasiteit bied.
Amazon SageMaker KI is 'n ten volle bestuurde diens wat ontwikkelaars en datawetenskaplikes van die gereedskap voorsien om masjienleermodelle op skaal te bou, op te lei en te ontplooi. Die bekendstelling van G7e-instansies merk 'n deurslaggewende oomblik vir generatiewe KI-werkslaste op hierdie platform. Hierdie instansies benut die voorpunt NVIDIA RTX PRO 6000 Blackwell GPU's, elk met 'n indrukwekkende 96 GB GDDR7-geheue. Hierdie aansienlike geheueverhoging maak die ontplooiing van aansienlik groter grondslagmodelle (FMs) direk op SageMaker KI moontlik, wat 'n kritieke behoefte vir gevorderde KI-toepassings aanspreek.
Organisasies kan nou modelle soos GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4-variant), en Qwen3.5-35B-A3B met merkwaardige doeltreffendheid ontplooi. Die G7e.2xlarge-instansie, met 'n enkele GPU, kan 35B parametermodelle huisves, terwyl die G7e.48xlarge, met agt GPU's, skaal tot 300B parametermodelle. Hierdie buigsaamheid vertaal na tasbare voordele: verminderde operasionele kompleksiteit, laer latensie, en aansienlike kostebesparings vir afleidingswerkslaste.
Die Generasie-sprong in Werkverrigting van G7e Onthul
G7e-instansies verteenwoordig 'n monumentale sprong oor hul voorgangers, G6e en G5, en lewer tot 2.3 keer vinniger afleidingswerkverrigting in vergelyking met G6e. Die tegniese spesifikasies onderstreep hierdie generasie-vooruitgang. Elke G7e GPU bied 'n verstommende 1,597 GB/s bandwydte, wat die per-GPU-geheue van G6e effektief verdubbel en dié van G5 verviervoudig. Verder is netwerkvermoëns dramaties verbeter, en skaal tot 1,600 Gbps met EFA op die grootste G7e-grootte. Hierdie 4x toename oor G6e en 16x oor G5 ontsluit die potensiaal vir lae-latency multi-knoop-afleiding en verfyning-scenario's wat voorheen as onprakties beskou is.
Hier is 'n vergelyking wat die vordering oor generasies by die 8-GPU-vlak uitlig:
| Spesifikasie | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| GPU Geheue per GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Totale GPU Geheue | 192 GB | 384 GB | 768 GB |
| GPU Geheue Bandwydte | 600 GB/s per GPU | 864 GB/s per GPU | 1,597 GB/s per GPU |
| vSVE's | 192 | 192 | 192 |
| Stelselgeheue | 768 GiB | 1,536 GiB | 2,048 GiB |
| Netwerkbandwydte | 100 Gbps | 400 Gbps | 1,600 Gbps (EFA) |
| Plaaslike NVMe Berging | 7.6 TB | 7.6 TB | 15.2 TB |
| Afleiding vs. G6e | Basislyn | ~1x | Tot 2.3x |
Met 'n kolossale 768 GB van totale GPU-geheue op 'n enkele G7e-instansie, kan modelle wat eens komplekse multi-knoop-konfigurasies op ouer instansies vereis het, nou met merkwaardige eenvoud ontplooi word. Dit verminder inter-knoop-latensie en operasionele oorhoofse koste aansienlik. Gekoppel aan ondersteuning vir FP4-presisie via vyfde-generasie Tensor Cores en NVIDIA GPUDirect RDMA oor EFAv4, is G7e-instansies onteenseglik ontwerp vir veeleisende LLM, multimodale KI, en gesofistikeerde agentiese afleidingswerkvloei op AWS.
Diverse Generatiewe KI-gebruiksgevalle Floreer op G7e
Die robuuste kombinasie van geheuedigtheid, bandwydte en gevorderde netwerkvermoëns maak G7e-instansies ideaal vir 'n wye spektrum van hedendaagse generatiewe KI-werkslaste. Van die verbetering van gespreks-KI tot die aandryf van komplekse fisiese simulasies, bied G7e tasbare voordele:
- Kletsprogramme en Gespreks-KI: Die lae Tyd tot Eerste Teken (TTFT) en hoë deurset van G7e-instansies verseker responsiewe en naatlose interaktiewe ervarings, selfs wanneer swaar gelyktydige gebruikerslading ondervind word. Dit is deurslaggewend vir die handhawing van gebruikersbetrokkenheid en tevredenheid in intydse KI-interaksies.
- Agentiese en Hulproep-werkvloei: Vir Herwinning-Aangevulde Generasie (RAG)-pypleidings en agentiese stelsels is vinnige konteksinspuiting vanaf herwinningsdatabasisse van uiterste belang. Die 4x verbetering in SVE-na-GPU-bandwydte binne G7e-instansies maak hulle uitsonderlik effektief vir hierdie kritieke bedrywighede, wat meer intelligente en dinamiese KI-agente moontlik maak.
- Teksgenerering, Opsomming en Langkonteks-afleiding: Met 96 GB per-GPU-geheue hanteer G7e-instansies groot Sleutel-Waarde (KV)-kasgeheue vaardig. Dit maak uitgebreide dokumentkontekste moontlik, wat die behoefte aan teksafkorting aansienlik verminder en ryker, meer genuanseerde redenasie oor groot insette vergemaklik.
- Beeldgenerering en Visie-modelle: Waar vorige-generasie-instansies gereeld uit-geheue-foute ondervind het met groter multimodale modelle, los G7e se verdubbelde geheuekapasiteit hierdie beperkings grasieus op, wat die weg baan vir meer gesofistikeerde en hoër-resolusie beeld- en visie-KI-toepassings.
- Fisiese KI en Wetenskaplike Rekenaarkunde: Behalwe vir tradisionele generatiewe KI, brei G7e se Blackwell-generasie-rekenaar, FP4-ondersteuning, en ruimtelike rekenaarkundige vermoëns (insluitend DLSS 4.0 en 4de-generasie RT-kerns) sy nut uit na digitale tweelinge, 3D-simulasie, en gevorderde fisiese KI-modelafleiding, wat nuwe grense in wetenskaplike navorsing en industriële toepassings oopmaak.
Vereenvoudigde Ontplooiing en Prestasie-maatstawwe
Die ontplooiing van generatiewe KI-modelle op G7e-instansies via Amazon SageMaker KI is ontwerp om eenvoudig te wees. Gebruikers kan 'n voorbeeldnotaboek hier verkry wat die proses stroomlyn. Voorvereistes sluit tipies 'n AWS-rekening, 'n IAM-rol vir SageMaker-toegang, en óf Amazon SageMaker Studio óf 'n SageMaker-notaboek-instansie vir die ontwikkelingsomgewing in. Belangrik is dat gebruikers 'n toepaslike kwota vir ml.g7e.2xlarge of groter instansies vir SageMaker KI-eindpuntgebruik via die Service Quotas-konsole moet aanvra.
Om die beduidende prestasieverhogings te demonstreer, het AWS Qwen3-32B (BF16) op beide G6e- en G7e-instansies gemeet. Die werkslas het ongeveer 1,000 invoerteken en 560 uitsetteken per versoek behels, wat algemene dokumentsommeringstake naboots. Beide konfigurasies het die oorspronklike vLLM-houer met voorspellingkas (prefix caching) geaktiveer gebruik, wat 'n appel-met-appel vergelyking verseker het.
Die resultate is dwingend. Terwyl die G6e-basislyn (ml.g6e.12xlarge met 4x L40S GPU's teen $13.12/uur) sterk per-versoek deurset getoon het, vertel die G7e (ml.g7e.2xlarge met 1x RTX PRO 6000 Blackwell teen $4.20/uur) 'n dramaties ander kosteverhaal. By produksie-gelyktydigheid (C=32) het G7e 'n verstommende $0.79 per miljoen uitsetteken behaal. Dit verteenwoordig 'n 2.6x kostevermindering in vergelyking met G6e se $2.06, gedryf deur G7e se laer uurlikse tarief en sy vermoë om konstante deurset onder las te handhaaf, wat bewys dat hoë werkverrigting nie teen 'n premiumkoste hoef te kom nie.
Die Toekoms van Koste-effektiewe Generatiewe KI-afleiding
Die bekendstelling van G7e-instansies op Amazon SageMaker KI is meer as net 'n inkrementele opgradering; dit is 'n strategiese skuif deur AWS om toegang tot hoë-prestasie generatiewe KI te demokratiseer. Deur die rou krag van NVIDIA RTX PRO 6000 Blackwell GPU's te kombineer met die skaalbaarheid en bestuursvermoëns van SageMaker, bemagtig AWS organisasies van alle groottes om groter, meer komplekse KI-modelle met ongekende doeltreffendheid en koste-effektiwiteit te ontplooi. Hierdie ontwikkeling verseker dat die vooruitgang in generatiewe KI vertaal kan word in praktiese, produksiegereed toepassings oor 'n wye verskeidenheid industrieë, wat SageMaker KI se posisie as 'n toonaangewende platform vir KI-innovasie versterk.
Oorspronklike bron
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Gereelde Vrae
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Bly op hoogte
Kry die nuutste KI-nuus in jou inkassie.
