Inferenca generativne veštačke inteligencije: Ubrzanje na SageMaker-u sa G7e instancama

title: "Inferenca generativne veštačke inteligencije: Ubrzanje na SageMaker-u sa G7e instancama" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "sr" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "AI za preduzeća" keywords:

Generativna veštačka inteligencija
AI inferenca
Amazon SageMaker
AWS G7e instance
NVIDIA RTX PRO 6000
Implementacija LLM-a
Isplativa veštačka inteligencija
GPU memorija
Blackwell
vLLM
Osnovni modeli
Agentni tokovi posla meta_description: "Ubrzajte inferencu generativne veštačke inteligencije na Amazon SageMaker AI pomoću novih G7e instanci, koje pokreću NVIDIA RTX PRO 6000 Blackwell GPU-ovi, nudeći 2,3x performanse i uštedu troškova." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker AI G7e instance ubrzavaju inferencu generativne veštačke inteligencije sa NVIDIA RTX PRO 6000 Blackwell GPU-ovima." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "Šta su G7e instance i kako doprinose inferenci generativne veštačke inteligencije?" answer: "G7e instance su najnovija generacija računarskih instanci ubrzanih pomoću GPU-a dostupnih na Amazon SageMaker AI, posebno dizajnirane za ubrzanje radnih opterećenja inference generativne veštačke inteligencije. Pokreću ih NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ovi, nudeći značajan napredak u kapacitetu memorije, propusnom opsegu i ukupnim performansama inference. Za generativnu veštačku inteligenciju, G7e instance znače brže vreme do prvog tokena (TTFT), veći protok i mogućnost hostovanja mnogo većih osnovnih modela (FM) unutar jedne instance, ili čak na jednom GPU-u. Ovo se prevodi u brže AI aplikacije, smanjenu operativnu složenost i značajne uštede troškova za implementaciju i pokretanje velikih jezičkih modela (LLM), multimodalne AI i agentnih tokova posla. Njihove poboljšane mogućnosti čine ih idealnim za interaktivne aplikacije koje zahtevaju visoke performanse i isplativu inferencu."
question: "Koji NVIDIA GPU pokreće nove G7e instance i koje su njegove ključne karakteristike?" answer: "Nove G7e instance na Amazon SageMaker AI pokreću NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ovi. Svaki od ovih najsavremenijih GPU-a obezbeđuje impresivnih 96 GB GDDR7 memorije, što je dvostruko veći kapacitet memorije po GPU-u u poređenju sa prethodnim G6e instancama. Ključne karakteristike takođe uključuju 1.597 GB/s propusnog opsega GPU memorije po GPU-u, podršku za FP4 preciznost putem Tensor jezgara pete generacije i NVIDIA GPUDirect RDMA preko EFAv4. Ove karakteristike zajedno doprinose superiornim performansama inference G7e instanci, gustini memorije i umrežavanju sa niskom latencijom, čineći ih izuzetno sposobnim za zahtevne zadatke generativne veštačke inteligencije."
question: "Kako se G7e instance porede sa prethodnim generacijama (G6e, G5) u pogledu performansi i memorije?" answer: "G7e instance pokazuju značajan generacijski skok u odnosu na G6e i G5. One pružaju do 2,3x bolje performanse inference u poređenju sa G6e instancama. Što se tiče memorije, svaki G7e GPU nudi 96 GB GDDR7 memorije, efikasno udvostručujući memoriju po GPU-u G6e i učetvorostručujući onu G5. Najkvalitetnija G7e.48xlarge instanca obezbeđuje ukupno 768 GB GPU memorije. Nadalje, propusni opseg mreže skalira se do 1.600 Gbps sa EFA na najvećoj G7e veličini, što je 4x skok u odnosu na G6e i 16x u odnosu na G5. Ovo ogromno poboljšanje memorije, propusnog opsega i umrežavanja omogućava G7e instancama da hostuju modele koji su prethodno zahtevali višenodne postavke na starijim instancama, pojednostavljujući implementaciju i smanjujući latenciju."
question: "Koje vrste radnih opterećenja generativne veštačke inteligencije su najprikladnije za implementaciju na G7e instancama?" answer: "G7e instance su izuzetno dobro prilagođene za širok spektar savremenih radnih opterećenja generativne veštačke inteligencije zbog svoje visoke gustine memorije, propusnog opsega i naprednog umrežavanja. To uključuje: četbotove i konverzacijsku veštačku inteligenciju, obezbeđujući nisko vreme do prvog tokena (TTFT) i visok protok za brza interaktivna iskustva; agentne i tokove posla pozivanja alata, koji imaju koristi od 4x poboljšanog propusnog opsega CPU-a do GPU-a za brzo ubacivanje konteksta u RAG cevovodima; generisanje teksta, sumiranje i inferencu dugog konteksta, smeštajući velike KV keš memorije za proširene kontekste dokumenata sa 96 GB memorije po GPU-u; generisanje slika i vizuelne modele, prevazilazeći greške zbog nedostatka memorije za veće multimodalne modele koji su se mučili na prethodnim instancama; i fizičku veštačku inteligenciju i naučno računarstvo, koristeći računarske performanse Blackwell generacije, FP4 podršku i mogućnosti prostornog računarstva za digitalne blizance i 3D simulaciju."
question: "Koja je isplativost G7e instanci u poređenju sa G6e za inferencu generativne veštačke inteligencije?" answer: "G7e instance nude značajno poboljšanu isplativost za inferencu generativne veštačke inteligencije u poređenju sa G6e instancama. Benchmarking implementacije Qwen3-32B pokazao je da je G7e postigao 0,79 USD po milionu izlaznih tokena pri proizvodnoj konkurentnosti (C=32). Ovo predstavlja izvanredno smanjenje troškova za 2,6x u poređenju sa 2,06 USD po milionu izlaznih tokena za G6e za slično radno opterećenje. Ova ušteda troškova je prvenstveno posledica značajno niže satnice G7e (npr. 4,20 USD/h za ml.g7e.2xlarge naspram 13,12 USD/h za ml.g6e.12xlarge) u kombinaciji sa njegovom sposobnošću da održi dosledan i visok protok pod opterećenjem, što ga čini ekonomičnijim izborom za velika implementacije."
question: "Koji su memorijski kapaciteti za implementaciju LLM-ova na single-GPU i multi-GPU G7e instancama?" answer: "G7e instance nude značajne memorijske kapacitete za implementaciju velikih jezičkih modela (LLM). Jedan GPU, konkretno instanca G7e.2xlarge, može efikasno da hostuje osnovne modele sa do 35 milijardi parametara u FP16 preciznosti. Za veće modele, skaliranje preko više GPU-a unutar jedne instance dramatično povećava kapacitet: čvor sa 4 GPU-a (G7e.24xlarge) može da implementira modele do 150 milijardi parametara, dok čvor sa 8 GPU-a (G7e.48xlarge) može da se nosi sa modelima veličine do 300 milijardi parametara. Ova impresivna skalabilnost pruža organizacijama fleksibilnost za implementaciju širokog spektra LLM-ova bez složenosti distribuiranih postavki sa više instanci."
question: "Koji su preduslovi za implementaciju rešenja korišćenjem G7e instanci na Amazon SageMaker AI?" answer: "Za implementaciju rešenja generativne veštačke inteligencije korišćenjem G7e instanci na Amazon SageMaker AI, mora biti ispunjeno nekoliko preduslova. Potreban vam je aktivan AWS nalog za hostovanje vaših resursa i AWS Identity and Access Management (IAM) uloga konfigurisana sa odgovarajućim dozvolama za pristup Amazon SageMaker AI uslugama. Za razvoj i implementaciju, preporučuje se pristup Amazon SageMaker Studio ili SageMaker notebook instanci, mada su i druga interaktivna razvojna okruženja poput PyCharm-a ili Visual Studio Code-a takođe izvodljiva. Ključno je da morate zatražiti kvotu za najmanje jednu instancu ml.g7e.2xlarge (ili veći tip G7e instance) za korišćenje Amazon SageMaker AI krajnje tačke putem AWS Service Quotas konzole, jer su ovo novi i specijalizovani tipovi instanci."


## G7e Instance: Nova era za AI inferencu na SageMakeru

Pejzaž generativne veštačke inteligencije razvija se neviđenom brzinom, pokrećući kontinuiranu potražnju za moćnijom, fleksibilnijom i isplativijom infrastrukturom. Danas, Code Velocity sa uzbuđenjem izveštava o značajnom napretku od AWS-a: opštoj dostupnosti G7e instanci na Amazon SageMaker AI. Pokrenute NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ovima, ove nove instance su postavljene da redefinišu standarde za inferencu generativne veštačke inteligencije, nudeći programerima i preduzećima neuporedive performanse i memorijski kapacitet.

Amazon SageMaker AI je potpuno upravljana usluga koja programerima i naučnicima za podatke pruža alate za izgradnju, obuku i implementaciju modela mašinskog učenja u velikom obimu. Uvođenje G7e instanci označava ključni trenutak za radna opterećenja generativne veštačke inteligencije na ovoj platformi. Ove instance koriste najsavremenije NVIDIA RTX PRO 6000 Blackwell GPU-ove, od kojih svaki poseduje impresivnih 96 GB GDDR7 memorije. Ovo značajno povećanje memorije omogućava implementaciju znatno većih osnovnih modela (FM) direktno na SageMaker AI, rešavajući kritičnu potrebu za naprednim AI aplikacijama.

Organizacije sada mogu implementirati modele poput GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 varijanta) i Qwen3.5-35B-A3B sa izvanrednom efikasnošću. Instanca G7e.2xlarge, koja sadrži jedan GPU, može da hostuje modele sa 35 milijardi parametara, dok G7e.48xlarge, sa osam GPU-ova, skalira do modela sa 300 milijardi parametara. Ova fleksibilnost se prevodi u opipljive prednosti: smanjenu operativnu složenost, nižu latenciju i značajne uštede troškova za radna opterećenja inference.

## Razotkrivanje generacijskog skoka u performansama G7e

G7e instance predstavljaju ogroman iskorak u odnosu na svoje prethodnike, G6e i G5, pružajući do 2,3 puta brže performanse inference u poređenju sa G6e. Tehničke specifikacije naglašavaju ovaj generacijski napredak. Svaki G7e GPU obezbeđuje zapanjujućih 1.597 GB/s propusnog opsega, efikasno udvostručujući memoriju po GPU-u G6e i učetvorostručujući onu G5. Nadalje, mogućnosti umrežavanja su dramatično poboljšane, skalirajući do 1.600 Gbps sa EFA na najvećoj G7e veličini. Ovo 4x povećanje u odnosu na G6e i 16x u odnosu na G5 otključava potencijal za inferencu sa niskom latencijom na više čvorova i scenarije finog podešavanja koji su ranije smatrani nepraktičnim.

Evo poređenja koje ističe napredak kroz generacije na nivou od 8 GPU-ova:

| Spec | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
| --- | --- | --- | --- |
| **GPU** | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| **GPU Memory per GPU** | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| **Total GPU Memory** | 192 GB | 384 GB | 768 GB |
| **GPU Memory Bandwidth** | 600 GB/s per GPU | 864 GB/s per GPU | 1,597 GB/s per GPU |
| **vCPUs** | 192 | 192 | 192 |
| **System Memory** | 768 GiB | 1,536 GiB | 2,048 GiB |
| **Network Bandwidth** | 100 Gbps | 400 Gbps | 1,600 Gbps (EFA) |
| **Local NVMe Storage** | 7.6 TB | 7.6 TB | 15.2 TB |
| **Inference vs. G6e** | Baseline | ~1x | Up to 2.3x |

Sa kolosalnih 768 GB ukupne GPU memorije na jednoj G7e instanci, modeli koji su nekada zahtevali složene konfiguracije sa više čvorova na starijim instancama sada se mogu implementirati sa izvanrednom jednostavnošću. Ovo značajno smanjuje latenciju između čvorova i operativne troškove. Zajedno sa podrškom za FP4 preciznost putem Tensor jezgara pete generacije i NVIDIA GPUDirect RDMA preko EFAv4, G7e instance su nedvosmisleno dizajnirane za zahtevne LLM, multimodalne AI i sofisticirane [agentne tokove posla inference](/sr/operationalizing-agentic-ai-part-1-a-stakeholders-guide) na AWS-u.

## Različiti slučajevi upotrebe generativne veštačke inteligencije napreduju na G7e

Robusna kombinacija gustine memorije, propusnog opsega i naprednih mrežnih mogućnosti čini G7e instance idealnim za širok spektar savremenih radnih opterećenja generativne veštačke inteligencije. Od poboljšanja konverzacijske veštačke inteligencije do pokretanja složenih fizičkih simulacija, G7e nudi opipljive prednosti:

*   **Četbotovi i konverzaciona veštačka inteligencija**: Nisko vreme do prvog tokena (TTFT) i visok protok G7e instanci obezbeđuju brza i besprekorna interaktivna iskustva, čak i kada se suočavaju sa velikim opterećenjem istovremenih korisnika. Ovo je ključno za održavanje angažovanja i zadovoljstva korisnika u AI interakcijama u realnom vremenu.
*   **Agentni tokovi posla i pozivanje alata**: Za RAG (Retrieval Augmented Generation) cevovode i agentne sisteme, brzo ubacivanje konteksta iz skladišta za preuzimanje je od presudnog značaja. 4x poboljšanje propusnog opsega CPU-a do GPU-a unutar G7e instanci čini ih izuzetno efikasnim za ove kritične operacije, omogućavajući inteligentnije i dinamičnije AI agente.
*   **Generisanje teksta, sumiranje i inferenca dugog konteksta**: Sa 96 GB memorije po GPU-u, G7e instance vešto rukuju velikim Key-Value (KV) keš memorijama. Ovo omogućava proširene kontekste dokumenata, značajno smanjujući potrebu za skraćivanjem teksta i olakšavajući bogatije, nijansiranije zaključivanje nad ogromnim ulazima.
*   **Generisanje slika i vizuelni modeli**: Tamo gde su instance prethodnih generacija često nailazile na greške zbog nedostatka memorije sa većim multimodalnim modelima, udvostručeni memorijski kapacitet G7e elegantno rešava ova ograničenja, otvarajući put sofisticiranijim AI aplikacijama za slike i viziju veće rezolucije.
*   **Fizička AI i naučno računarstvo**: Iznad tradicionalne generativne veštačke inteligencije, Blackwell-generacija računarstva G7e, FP4 podrška i mogućnosti prostornog računarstva (uključujući DLSS 4.0 i RT jezgra 4. generacije) proširuju njenu korisnost na digitalne blizance, 3D simulaciju i naprednu inferencu fizičkih AI modela, otvarajući nove granice u naučnim istraživanjima i industrijskim primenama.

## Pojednostavljena implementacija i testiranje performansi

Implementacija modela generativne veštačke inteligencije na G7e instancama putem Amazon SageMaker AI osmišljena je da bude jednostavna. Korisnici mogu pristupiti primeru sveske [ovde](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main/03-features/instances/g7e) koja pojednostavljuje proces. Preduslovi obično uključuju AWS nalog, IAM ulogu za pristup SageMaker-u i ili Amazon SageMaker Studio ili SageMaker notebook instancu za razvojno okruženje. Važno je da korisnici treba da zatraže odgovarajuću kvotu za `ml.g7e.2xlarge` ili veće instance za korišćenje SageMaker AI krajnje tačke putem konzole Service Quotas.

Da bi se demonstrirala značajna poboljšanja performansi, AWS je testirao Qwen3-32B (BF16) na G6e i G7e instancama. Radno opterećenje je uključivalo približno 1.000 ulaznih tokena i 560 izlaznih tokena po zahtevu, oponašajući uobičajene zadatke sumiranja dokumenata. Obe konfiguracije su koristile izvorni [vLLM](https://github.com/vllm-project/vllm) kontejner sa omogućenim keširanjem prefiksa, obezbeđujući uporedivost.

Rezultati su ubedljivi. Dok je G6e bazna linija (ml.g6e.12xlarge sa 4x L40S GPU-a po ceni od 13,12 USD/h) pokazala snažan protok po zahtevu, G7e (ml.g7e.2xlarge sa 1x RTX PRO 6000 Blackwell po ceni od 4,20 USD/h) priča dramatično drugačiju priču o troškovima. Pri proizvodnoj konkurentnosti (C=32), G7e je postigao zapanjujućih 0,79 USD po milionu izlaznih tokena. Ovo predstavlja smanjenje troškova za 2,6x u poređenju sa G6e-ovih 2,06 USD, vođeno nižom satnicom G7e i njegovom sposobnošću da održi dosledan protok pod opterećenjem, dokazujući da visoke performanse ne moraju da dolaze po visokoj ceni.

## Budućnost isplative inference generativne veštačke inteligencije

Uvođenje G7e instanci na Amazon SageMaker AI je više od samog inkrementalnog unapređenja; to je strateški potez AWS-a da demokratizuje pristup generativnoj veštačkoj inteligenciji visokih performansi. Kombinovanjem sirove snage NVIDIA RTX PRO 6000 Blackwell GPU-ova sa skalabilnošću i mogućnostima upravljanja SageMaker-om, AWS osnažuje organizacije svih veličina da implementiraju veće, složenije AI modele sa neviđenom efikasnošću i isplativošću. Ovaj razvoj osigurava da se napredak u generativnoj veštačkoj inteligenciji može prevesti u praktične aplikacije spremne za proizvodnju u širokom spektru industrija, učvršćujući poziciju SageMaker AI kao vodeće platforme za AI inovacije.

Originalni izvor

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Često postavljana pitanja

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Будите у току

Примајте најновије AI вести на имејл.

Podeli