Generativna AI inferenca: Pospeševanje na SageMakerju z instancami G7e

title: "Generativna AI inferenca: Pospeševanje na SageMakerju z instancami G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "sl" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "AI za podjetja" keywords:

Generativna AI
AI inferenca
Amazon SageMaker
AWS G7e instance
NVIDIA RTX PRO 6000
Namestitev LLM
Stroškovno učinkovita AI
GPU pomnilnik
Blackwell
vLLM
Temeljni modeli
Agentski delovni procesi meta_description: "Pospešite generativno AI inferenco na Amazon SageMaker AI z novimi instancami G7e, ki jih poganjajo GPE-ji NVIDIA RTX PRO 6000 Blackwell, kar prinaša 2,3-kratno zmogljivost in prihranke stroškov." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Instance Amazon SageMaker AI G7e pospešujejo generativno AI inferenco z GPE-ji NVIDIA RTX PRO 6000 Blackwell." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "Kaj so instance G7e in kako koristijo generativni AI inferenci?" answer: "Instance G7e so najnovejša generacija računskih instanc, pospešenih z GPE-ji, ki so na voljo na Amazon SageMaker AI, posebej zasnovane za pospeševanje delovnih obremenitev generativne AI inference. Poganjajo jih GPE-ji NVIDIA RTX PRO 6000 Blackwell Server Edition, ki ponujajo pomembne izboljšave v pomnilniški zmogljivosti, pasovni širini in splošni zmogljivosti inference. Za generativno AI instance G7e pomenijo hitrejši čas do prvega žetona (TTFT), večjo prepustnost in zmožnost gostovanja veliko večjih temeljnih modelov (FM) znotraj ene instance ali celo na enem GPE-ju. To se prevede v bolj odzivne aplikacije AI, zmanjšano operativno kompleksnost in znatne prihranke stroškov pri nameščanju in delovanju velikih jezikovnih modelov (LLM), multimodalne AI in agentskih delovnih procesov. Njihove izboljšane zmogljivosti jih delajo idealne za interaktivne aplikacije, ki zahtevajo visoko zmogljivost in stroškovno učinkovito inferenco."
question: "Kateri GPE NVIDIA poganja nove instance G7e in katere so njegove ključne značilnosti?" answer: "Nove instance G7e na Amazon SageMaker AI poganjajo GPE-ji NVIDIA RTX PRO 6000 Blackwell Server Edition. Vsak od teh vrhunskih GPE-jev zagotavlja impresivnih 96 GB pomnilnika GDDR7, kar je dvakratna pomnilniška zmogljivost na GPE v primerjavi s prejšnjimi instancami G6e. Ključne značilnosti vključujejo tudi 1.597 GB/s pasovne širine pomnilnika GPE na GPE, podporo za natančnost FP4 prek pete generacije Tensor Cores in NVIDIA GPUDirect RDMA prek EFAv4. Te značilnosti skupaj prispevajo k vrhunski zmogljivosti inference, gostoti pomnilnika in nizkolatentnemu omrežju instanc G7e, zaradi česar so izjemno sposobne za zahtevne naloge generativne AI."
question: "Kako se instance G7e primerjajo s prejšnjimi generacijami (G6e, G5) glede zmogljivosti in pomnilnika?" answer: "Instance G7e kažejo pomemben generacijski preskok v primerjavi z G6e in G5. Zagotavljajo do 2,3-kratno zmogljivost inference v primerjavi z instancami G6e. Kar zadeva pomnilnik, vsak GPE G7e ponuja 96 GB pomnilnika GDDR7, kar dejansko podvoji pomnilnik na GPE pri G6e in početveri pri G5. Vrhunska instanca G7e.48xlarge zagotavlja skupno 768 GB skupnega pomnilnika GPE. Poleg tega se pasovna širina omrežja pri največji velikosti G7e z EFA poveča do 1.600 Gbps, kar je 4-kratni skok v primerjavi z G6e in 16-kratni v primerjavi z G5. Ta velika izboljšava pomnilnika, pasovne širine in omrežja omogoča instancam G7e gostovanje modelov, ki so prej zahtevali večvozliščne nastavitve na starejših instancah, kar poenostavlja namestitev in zmanjšuje latenco."
question: "Katere vrste generativnih AI delovnih obremenitev so najprimernejše za namestitev na instancah G7e?" answer: "Instance G7e so izjemno primerne za širok spekter sodobnih generativnih AI delovnih obremenitev zaradi visoke gostote pomnilnika, pasovne širine in naprednega omrežja. Sem spadajo: klepetalni roboti in konverzacijska AI, ki zagotavljajo nizek čas do prvega žetona (TTFT) in visoko prepustnost za odzivne interaktivne izkušnje; agentski in klicni delovni procesi, ki izkoriščajo 4-krat izboljšano pasovno širino med CPE-jem in GPE-jem za hitro injekcijo konteksta v RAG ceveh; generiranje besedila, povzemanje in inferenca dolgega konteksta, ki omogoča velike KV predpomnilnike za razširjene kontekste dokumentov z 96 GB pomnilnika na GPE; generiranje slik in vizualni modeli, ki premagujejo napake pomanjkanja pomnilnika za večje multimodalne modele, ki so se borili na prejšnjih instancah; in fizična AI ter znanstveno računalništvo, ki izkoriščajo Blackwell-generacijo računanja, podporo za FP4 in zmogljivosti prostorskega računanja za digitalne dvojčke in 3D simulacijo."
question: "Kakšna je stroškovna učinkovitost instanc G7e v primerjavi z G6e za generativno AI inferenco?" answer: "Instance G7e ponujajo bistveno izboljšano stroškovno učinkovitost za generativno AI inferenco v primerjavi z instancami G6e. Merila, ki so nameščala Qwen3-32B, so pokazala, da je G7e dosegel 0,79 $ na milijon izhodnih žetonov pri produkcijski sočasnosti (C=32). To predstavlja izjemno 2,6-kratno zmanjšanje stroškov v primerjavi z G6e, ki je znašalo 2,06 $ na milijon izhodnih žetonov za podobno delovno obremenitev. Ta prihranek stroškov je v glavnem posledica bistveno nižje urne postavke G7e (npr. 4,20 $/uro za ml.g7e.2xlarge v primerjavi z 13,12 $/uro za ml.g6e.12xlarge) v kombinaciji z njegovo zmožnostjo ohranjanja dosledne in visoke prepustnosti pod obremenitvijo, zaradi česar je bolj ekonomična izbira za obsežne namestitve."
question: "Kakšne so pomnilniške zmogljivosti za namestitev LLM-jev na eno- in več-GPE instancah G7e?" answer: "Instance G7e ponujajo znatne pomnilniške zmogljivosti za namestitev velikih jezikovnih modelov (LLM). Enojni GPE, natančneje instanca G7e.2xlarge, lahko učinkovito gosti temeljne modele z do 35 milijardami parametrov v natančnosti FP16. Za večje modele skaliranje preko več GPE-jev znotraj ene instance dramatično poveča zmogljivost: vozlišče s 4 GPE-ji (G7e.24xlarge) lahko namesti modele do 150 milijard parametrov, medtem ko vozlišče z 8 GPE-ji (G7e.48xlarge) lahko obravnava modele do 300 milijard parametrov. Ta impresivna razširljivost organizacijam zagotavlja prilagodljivost za namestitev širokega nabora LLM-jev brez kompleksnosti porazdeljenih nastavitev z več instancami."
question: "Kakšni so predpogoji za namestitev rešitev z uporabo instanc G7e na Amazon SageMaker AI?" answer: "Za namestitev rešitev generativne AI z uporabo instanc G7e na Amazon SageMaker AI je treba izpolniti več predpogojev. Potrebujete aktiven račun AWS za gostovanje vaših virov in vlogo AWS Identity and Access Management (IAM), konfigurirano z ustreznimi dovoljenji za dostop do storitev Amazon SageMaker AI. Za razvoj in namestitev je priporočljiv dostop do Amazon SageMaker Studio ali SageMaker prenosnega računalnika, čeprav so izvedljiva tudi druga interaktivna razvojna okolja, kot sta PyCharm ali Visual Studio Code. Ključno je, da zahtevate kvoto za vsaj eno instanco ml.g7e.2xlarge (ali večjo vrsto instance G7e) za uporabo končnih točk Amazon SageMaker AI prek konzole AWS Service Quotas, saj gre za nove in specializirane vrste instanc."

Instance G7e: Nova doba za AI inferenco na SageMakerju

Pokrajina generativne AI se razvija z izjemno hitrostjo, kar poganja nenehno povpraševanje po zmogljivejši, prilagodljivejši in stroškovno učinkovitejši infrastrukturi. Danes Code Velocity z navdušenjem poroča o pomembnem napredku podjetja AWS: splošni razpoložljivosti instanc G7e na Amazon SageMaker AI. Te nove instance, ki jih poganjajo GPE-ji NVIDIA RTX PRO 6000 Blackwell Server Edition, bodo na novo definirale merila za generativno AI inferenco, saj ponujajo razvijalcem in podjetjem neprimerljivo zmogljivost in pomnilniško kapaciteto.

Amazon SageMaker AI je popolnoma upravljana storitev, ki razvijalcem in podatkovnim znanstvenikom ponuja orodja za gradnjo, usposabljanje in nameščanje modelov strojnega učenja v obsegu. Uvedba instanc G7e predstavlja ključen trenutek za generativne AI delovne obremenitve na tej platformi. Te instance izkoriščajo najsodobnejše GPE-je NVIDIA RTX PRO 6000 Blackwell, vsak se ponaša z impresivnimi 96 GB pomnilnika GDDR7. To znatno povečanje pomnilnika omogoča namestitev bistveno večjih temeljnih modelov (FM) neposredno na SageMaker AI, s čimer se odziva na kritično potrebo po naprednih aplikacijah AI.

Organizacije lahko zdaj z izjemno učinkovitostjo nameščajo modele, kot so GPT-OSS-120B, Nemotron-3-Super-120B-A12B (različica NVFP4) in Qwen3.5-35B-A3B. Instanca G7e.2xlarge, ki vključuje en GPE, lahko gosti modele s 35 milijardami parametrov, medtem ko se G7e.48xlarge z osmimi GPE-ji skalira do modelov s 300 milijardami parametrov. Ta prilagodljivost se prevede v oprijemljive koristi: zmanjšano operativno kompleksnost, nižjo latenco in znatne prihranke stroškov za inferenčne delovne obremenitve.

Razkrivanje generacijskega preskoka zmogljivosti G7e

Instance G7e predstavljajo monumentalni preskok v primerjavi s svojimi predhodnicami, G6e in G5, saj zagotavljajo do 2,3-krat hitrejšo inferenco v primerjavi z G6e. Tehnične specifikacije poudarjajo ta generacijski napredek. Vsak GPE G7e zagotavlja osupljivih 1.597 GB/s pasovne širine, kar dejansko podvoji pomnilnik na GPE pri G6e in početveri pri G5. Poleg tega so omrežne zmogljivosti dramatično izboljšane, saj se pri največji velikosti G7e z EFA povečajo do 1.600 Gbps. To 4-kratno povečanje v primerjavi z G6e in 16-kratno v primerjavi z G5 odpira potencial za nizkolatentno večvozliščno inferenco in scenarije finega uglaševanja, ki so bili prej neizvedljivi.

Tukaj je primerjava, ki poudarja napredek med generacijami na ravni 8-GPE:

Specifikacija	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPE	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Pomnilnik GPE na GPE	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Skupni pomnilnik GPE	192 GB	384 GB	768 GB
Pasovna širina pomnilnika GPE	600 GB/s na GPE	864 GB/s na GPE	1.597 GB/s na GPE
vCPE-ji	192	192	192
Sistemski pomnilnik	768 GiB	1.536 GiB	2.048 GiB
Omrežna pasovna širina	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Lokalni pomnilnik NVMe	7,6 TB	7,6 TB	15,2 TB
Inferenca v primerjavi z G6e	Izhodišče	~1x	Do 2,3x

Z ogromnimi 768 GB skupnega pomnilnika GPE na eni instanci G7e je mogoče modele, ki so nekoč zahtevali kompleksne večvozliščne konfiguracije na starejših instancah, zdaj namestiti z izjemno preprostostjo. To znatno zmanjšuje latenco med vozlišči in operativne stroške. Skupaj s podporo za natančnost FP4 prek pete generacije Tensor Cores in NVIDIA GPUDirect RDMA prek EFAv4 so instance G7e nedvoumno zasnovane za zahtevne LLM, multimodalne AI in sofisticirane agentske inferenčne delovne procese na AWS.

Različni primeri uporabe generativne AI uspevajo na G7e

Robustna kombinacija gostote pomnilnika, pasovne širine in naprednih omrežnih zmogljivosti dela instance G7e idealne za širok spekter sodobnih generativnih AI delovnih obremenitev. Od izboljšanja konverzacijske AI do poganjanja kompleksnih fizikalnih simulacij, G7e ponuja oprijemljive prednosti:

Klepetalni roboti in konverzacijska AI: Nizek čas do prvega žetona (TTFT) in visoka prepustnost instanc G7e zagotavljata odzivne in brezhibne interaktivne izkušnje, tudi ob velikih sočasnih obremenitvah uporabnikov. To je ključnega pomena za ohranjanje angažiranosti in zadovoljstva uporabnikov v AI interakcijah v realnem času.
Agentski in klicni delovni procesi: Za RAG cevi (Retrieval Augmented Generation) in agentske sisteme je hitra injekcija konteksta iz zbirk za pridobivanje ključnega pomena. 4-kratna izboljšava pasovne širine med CPE-jem in GPE-jem znotraj instanc G7e jih dela izjemno učinkovite za te kritične operacije, kar omogoča bolj inteligentne in dinamične AI agente.
Generiranje besedila, povzemanje in inferenca dolgega konteksta: Z 96 GB pomnilnika na GPE instance G7e spretno obravnavajo velike Key-Value (KV) predpomnilnike. To omogoča razširjene kontekste dokumentov, kar bistveno zmanjšuje potrebo po skrajševanju besedila in omogoča bogatejše, bolj niansirano sklepanje na podlagi obsežnih vnosov.
Generiranje slik in vizualni modeli: Kjer so se prejšnje generacije instanc pogosto srečevale z napakami pomanjkanja pomnilnika pri večjih multimodalnih modelih, G7e-jeva podvojena pomnilniška zmogljivost elegantno rešuje te omejitve, kar odpira pot za bolj sofisticirane in višjeresolucijske aplikacije AI za slike in vid.
Fizična AI in znanstveno računalništvo: Poleg tradicionalne generativne AI se Blackwell-generacija računanja G7e, podpora za FP4 in zmogljivosti prostorskega računanja (vključno z DLSS 4.0 in 4. generacijo RT jeder) razširjajo na digitalne dvojčke, 3D simulacijo in napredno inferenco modelov fizične AI, kar odpira nove meje v znanstvenih raziskavah in industrijskih aplikacijah.

Poenostavljena namestitev in merjenje zmogljivosti

Namestitev generativnih AI modelov na instance G7e prek Amazon SageMaker AI je zasnovana tako, da je preprosta. Uporabniki lahko dostopajo do vzorčnega zvezka tukaj, ki poenostavlja postopek. Predpogoji običajno vključujejo račun AWS, vlogo IAM za dostop do SageMakerja in bodisi Amazon SageMaker Studio bodisi SageMaker instanco zvezka za razvojno okolje. Pomembno je, da uporabniki prek konzole Service Quotas zahtevajo ustrezno kvoto za ml.g7e.2xlarge ali večje instance za uporabo končnih točk SageMaker AI.

Za prikaz pomembnih izboljšav zmogljivosti je AWS meril Qwen3-32B (BF16) na instancah G6e in G7e. Delovna obremenitev je vključevala približno 1.000 vhodnih žetonov in 560 izhodnih žetonov na zahtevo, kar posnema običajne naloge povzemanja dokumentov. Obe konfiguraciji sta uporabljali izvorni vLLM kontejner z omogočenim predpomnjenjem predpon, kar zagotavlja primerjavo 'jabolko na jabolko'.

Rezultati so prepričljivi. Medtem ko je izhodišče G6e (ml.g6e.12xlarge s 4x GPE-ji L40S po ceni 13,12 $/uro) pokazalo močno prepustnost na zahtevo, G7e (ml.g7e.2xlarge z 1x GPE-jem RTX PRO 6000 Blackwell po ceni 4,20 $/uro) pripoveduje dramatično drugačno zgodbo o stroških. Pri produkcijski sočasnosti (C=32) je G7e dosegel neverjetnih 0,79 $ na milijon izhodnih žetonov. To predstavlja 2,6-kratno zmanjšanje stroškov v primerjavi z G6e, ki je znašalo 2,06 $, kar je posledica nižje urne postavke G7e in njegove zmožnosti ohranjanja dosledne prepustnosti pod obremenitvijo, kar dokazuje, da visoka zmogljivost ne pomeni nujno visoke cene.

Prihodnost stroškovno učinkovite generativne AI inference

Uvedba instanc G7e na Amazon SageMaker AI je več kot le inkrementalna nadgradnja; to je strateška poteza AWS za demokratizacijo dostopa do visoko zmogljive generativne AI. Z združitvijo surove moči GPE-jev NVIDIA RTX PRO 6000 Blackwell z razširljivostjo in zmogljivostmi upravljanja SageMakerja AWS omogoča organizacijam vseh velikosti, da namestijo večje, kompleksnejše AI modele z izjemno učinkovitostjo in stroškovno učinkovitostjo. Ta razvoj zagotavlja, da se napredki v generativni AI lahko prevedejo v praktične aplikacije, pripravljene za produkcijo, v širokem spektru industrij, s čimer se utrjuje položaj SageMaker AI kot vodilne platforme za inovacije na področju AI.

Izvirni vir

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Pogosta vprašanja

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Bodite na tekočem

Prejemajte najnovejše AI novice po e-pošti.

Deli