Zaključivanje generativne umjetne inteligencije: Ubrzanje na SageMakeru s instancama G7e

title: "Zaključivanje generativne umjetne inteligencije: Ubrzanje na SageMakeru s instancama G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "hr" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "Enterprise AI" keywords:

Generativna umjetna inteligencija
AI zaključivanje
Amazon SageMaker
AWS G7e instance
NVIDIA RTX PRO 6000
Implementacija LLM-ova
Troškovno učinkovita umjetna inteligencija
GPU memorija
Blackwell
vLLM
Temeljni modeli
Agentni tijekovi rada meta_description: "Ubrzajte zaključivanje generativne umjetne inteligencije na Amazon SageMaker AI s novim instancama G7e, pogonjenim NVIDIA RTX PRO 6000 Blackwell GPU-ovima, nudeći 2.3x bolje performanse i uštedu troškova." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Amazon SageMaker AI G7e instance ubrzavaju zaključivanje generativne umjetne inteligencije s NVIDIA RTX PRO 6000 Blackwell GPU-ovima." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "Što su G7e instance i kako koriste zaključivanju generativne umjetne inteligencije?" answer: "G7e instance su najnovija generacija računalnih instanci ubrzanih GPU-om dostupnih na Amazon SageMaker AI, posebno dizajniranih za ubrzavanje radnih opterećenja zaključivanja generativne umjetne inteligencije. Pokreću ih NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ovi, nudeći značajan napredak u kapacitetu memorije, propusnosti i ukupnim performansama zaključivanja. Za generativnu umjetnu inteligenciju, G7e instance znače brže vrijeme do prvog tokena (TTFT), veću propusnost i mogućnost smještaja znatno većih temeljnih modela (FM-ova) unutar jedne instance, ili čak na jednom GPU-u. To rezultira responzivnijim AI aplikacijama, smanjenom operativnom složenošću i značajnim uštedama troškova za implementaciju i pokretanje velikih jezičnih modela (LLM-ova), multimodalne umjetne inteligencije i agentnih tijekova rada. Njihove poboljšane mogućnosti čine ih idealnim za interaktivne aplikacije koje zahtijevaju visokoučinkovito, troškovno učinkovito zaključivanje."
question: "Koji NVIDIA GPU pokreće nove G7e instance i koje su njegove ključne značajke?" answer: "Nove G7e instance na Amazon SageMaker AI pokreću NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ovi. Svaki od ovih vrhunskih GPU-ova pruža impresivnih 96 GB GDDR7 memorije, što je dvostruko veći kapacitet memorije po GPU-u u usporedbi s prethodnim G6e instancama. Ključne značajke također uključuju 1.597 GB/s propusnosti GPU memorije po GPU-u, podršku za FP4 preciznost putem Tensor jezgri pete generacije i NVIDIA GPUDirect RDMA putem EFAv4. Ove značajke zajedno doprinose superiornim performansama zaključivanja G7e instanci, gustoći memorije i mrežnoj propusnosti s niskom latencijom, što ih čini iznimno sposobnima za zahtjevne zadatke generativne umjetne inteligencije."
question: "Kako se G7e instance uspoređuju s prethodnim generacijama (G6e, G5) u smislu performansi i memorije?" answer: "G7e instance pokazuju značajan generacijski skok u odnosu na G6e i G5. One donose do 2.3 puta bolje performanse zaključivanja u usporedbi s G6e instancama. Što se tiče memorije, svaki G7e GPU nudi 96 GB GDDR7 memorije, učinkovito udvostručujući memoriju po GPU-u G6e i učetverostručujući onu G5. Vrhunska instanca G7e.48xlarge pruža ukupno 768 GB ukupne GPU memorije. Nadalje, mrežna propusnost se povećava do 1.600 Gbps s EFA na najvećoj G7e veličini, što je 4x skok u odnosu na G6e i 16x u odnosu na G5. Ovo veliko poboljšanje memorije, propusnosti i umrežavanja omogućuje G7e instancama smještaj modela koji su prethodno zahtijevali višečvorne postavke na starijim instancama, pojednostavljujući implementaciju i smanjujući latenciju."
question: "Koje vrste radnih opterećenja generativne umjetne inteligencije najbolje odgovaraju implementaciji na G7e instancama?" answer: "G7e instance izuzetno su pogodne za širok raspon modernih radnih opterećenja generativne umjetne inteligencije zbog svoje visoke gustoće memorije, propusnosti i naprednog umrežavanja. To uključuje: Chatbotove i konverzacijsku umjetnu inteligenciju, osiguravajući nisko vrijeme do prvog tokena (TTFT) i visoku propusnost za responzivna interaktivna iskustva; Agentne i pozivne tijekove rada, koji koriste 4x poboljšanu propusnost CPU-a prema GPU-u za brzo ubrizgavanje konteksta u RAG cjevovodima; Generiranje teksta, sažimanje i zaključivanje dugog konteksta, smještajući velike KV predmemorije za proširene kontekste dokumenata s 96 GB memorije po GPU-u; Generiranje slika i vizualne modele, prevladavajući pogreške zbog nedostatka memorije za veće multimodalne modele koji su se mučili na prethodnim instancama; i Fizičku umjetnu inteligenciju i znanstveno računarstvo, koristeći Blackwell-generacijsko računalstvo, FP4 podršku i prostorne računalne mogućnosti za digitalne blizance i 3D simulaciju."
question: "Kakva je troškovna učinkovitost G7e instanci u usporedbi s G6e za zaključivanje generativne umjetne inteligencije?" answer: "G7e instance nude značajno poboljšanu troškovnu učinkovitost za zaključivanje generativne umjetne inteligencije u usporedbi s G6e instancama. Usporedni testovi implementacije Qwen3-32B pokazali su da je G7e postigao 0,79 USD po milijunu izlaznih tokena pri proizvodnoj konkurentnosti (C=32). To predstavlja izvanredno smanjenje troškova za 2,6x u usporedbi s 2,06 USD po milijunu izlaznih tokena za G6e za slično radno opterećenje. Ova ušteda troškova uglavnom je potaknuta značajno nižom satnicom G7e-a (npr. 4,20 USD/sat za ml.g7e.2xlarge naspram 13,12 USD/sat za ml.g6e.12xlarge) u kombinaciji s njegovom sposobnošću održavanja dosljedne i visoke propusnosti pod opterećenjem, što ga čini ekonomičnijim izborom za velika implementacije."
question: "Koji su kapaciteti memorije za implementaciju LLM-ova na jedno-GPU i više-GPU G7e instancama?" answer: "G7e instance nude značajne kapacitete memorije za implementaciju velikih jezičnih modela (LLM-ova). Jednostruki GPU čvor, specifično instanca G7e.2xlarge, može učinkovito smjestiti temeljne modele s do 35 milijardi parametara u FP16 preciznosti. Za veće modele, skaliranje preko više GPU-ova unutar jedne instance dramatično povećava kapacitet: 4-GPU čvor (G7e.24xlarge) može implementirati modele do 150 milijardi parametara, dok 8-GPU čvor (G7e.48xlarge) može rukovati modelima velikim čak 300 milijardi parametara. Ova impresivna skalabilnost pruža organizacijama fleksibilnost za implementaciju širokog raspona LLM-ova bez složenosti distribuiranih postavki s više instanci."
question: "Koji su preduvjeti za implementaciju rješenja pomoću G7e instanci na Amazon SageMaker AI?" answer: "Za implementaciju rješenja generativne umjetne inteligencije pomoću G7e instanci na Amazon SageMaker AI, mora biti ispunjeno nekoliko preduvjeta. Potreban vam je aktivan AWS račun za smještaj vaših resursa i AWS Identity and Access Management (IAM) uloga konfigurirana s odgovarajućim dozvolama za pristup uslugama Amazon SageMaker AI. Za razvoj i implementaciju, preporučuje se pristup Amazon SageMaker Studiju ili SageMaker instanci bilježnice, iako su i druga interaktivna razvojna okruženja poput PyCharma ili Visual Studio Codea također izvediva. Ključno je da morate zatražiti kvotu za najmanje jednu instancu 'ml.g7e.2xlarge' (ili veću G7e vrstu instance) za korištenje krajnje točke Amazon SageMaker AI putem konzole AWS Service Quotas, budući da su to nove i specijalizirane vrste instanci."


## G7e instance: Nova era za AI zaključivanje na SageMakeru

Pejzaž generativne umjetne inteligencije razvija se neviđenom brzinom, potičući kontinuiranu potražnju za snažnijom, fleksibilnijom i troškovno učinkovitijom infrastrukturom. Danas, Code Velocity s uzbuđenjem izvještava o značajnom napretku od AWS-a: općoj dostupnosti G7e instanci na Amazon SageMaker AI. Pokrenute NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-ovima, ove nove instance redefinirat će standarde za zaključivanje generativne umjetne inteligencije, nudeći programerima i poduzećima neusporedive performanse i kapacitet memorije.

Amazon SageMaker AI je potpuno upravljana usluga koja programerima i znanstvenicima podataka pruža alate za izgradnju, obuku i implementaciju modela strojnog učenja u velikom opsegu. Uvođenje G7e instanci označava ključni trenutak za radna opterećenja generativne umjetne inteligencije na ovoj platformi. Ove instance koriste vrhunske NVIDIA RTX PRO 6000 Blackwell GPU-ove, svaki s impresivnih 96 GB GDDR7 memorije. Ovo značajno povećanje memorije omogućuje implementaciju znatno većih temeljnih modela (FM-ova) izravno na SageMaker AI, rješavajući kritičnu potrebu za naprednim AI aplikacijama.

Organizacije sada mogu implementirati modele poput GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 varijanta) i Qwen3.5-35B-A3B s izvanrednom učinkovitošću. Instanca G7e.2xlarge, s jednim GPU-om, može smjestiti modele s 35B parametara, dok G7e.48xlarge, s osam GPU-ova, skalira do modela s 300B parametara. Ova fleksibilnost pretvara se u opipljive prednosti: smanjenu operativnu složenost, nižu latenciju i značajne uštede troškova za radna opterećenja zaključivanja.

## Razotkrivanje generacijskog skoka u performansama G7e

G7e instance predstavljaju monumentalni skok u odnosu na svoje prethodnike, G6e i G5, donoseći do 2.3 puta brže performanse zaključivanja u usporedbi s G6e. Tehničke specifikacije naglašavaju ovaj generacijski napredak. Svaki G7e GPU pruža nevjerojatnih 1.597 GB/s propusnosti, učinkovito udvostručujući memoriju po GPU-u G6e i učetverostručujući onu G5. Nadalje, mrežne mogućnosti dramatično su poboljšane, skalirajući do 1.600 Gbps s EFA na najvećoj G7e veličini. Ovo 4x povećanje u odnosu na G6e i 16x u odnosu na G5 otključava potencijal za višečvorno zaključivanje s niskom latencijom i scenarije finog podešavanja koji su se prethodno smatrali nepraktičnima.

Ovdje je usporedba koja naglašava napredak kroz generacije na razini od 8 GPU-ova:

| Specifikacija | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
| --- | --- | --- | --- |
| **GPU** | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| **GPU memorija po GPU-u** | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| **Ukupna GPU memorija** | 192 GB | 384 GB | 768 GB |
| **Propusnost GPU memorije** | 600 GB/s po GPU-u | 864 GB/s po GPU-u | 1.597 GB/s po GPU-u |
| **vCPU-i** | 192 | 192 | 192 |
| **Sustavna memorija** | 768 GiB | 1.536 GiB | 2.048 GiB |
| **Mrežna propusnost** | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| **Lokalna NVMe pohrana** | 7.6 TB | 7.6 TB | 15.2 TB |
| **Zaključivanje u usporedbi s G6e** | Polazna vrijednost | ~1x | Do 2.3x |

S kolosalnih 768 GB agregirane GPU memorije na jednoj G7e instanci, modeli koji su nekoć zahtijevali složene višečvorne konfiguracije na starijim instancama sada se mogu implementirati s izvanrednom jednostavnošću. To značajno smanjuje međučvornu latenciju i operativne troškove. Zajedno s podrškom za FP4 preciznost putem Tensor jezgri pete generacije i NVIDIA GPUDirect RDMA putem EFAv4, G7e instance su nedvosmisleno dizajnirane za zahtjevne LLM, multimodalne AI i sofisticirane [agentne procese zaključivanja](/hr/operationalizing-agentic-ai-part-1-a-stakeholders-guide) na AWS-u.

## Različiti slučajevi upotrebe generativne umjetne inteligencije napreduju na G7e

Robusna kombinacija gustoće memorije, propusnosti i naprednih mrežnih mogućnosti čini G7e instance idealnim za širok spektar suvremenih radnih opterećenja generativne umjetne inteligencije. Od poboljšanja konverzacijske umjetne inteligencije do pokretanja složenih fizičkih simulacija, G7e nudi opipljive prednosti:

*   **Chatbotovi i konverzacijska umjetna inteligencija**: Nisko vrijeme do prvog tokena (TTFT) i visoka propusnost G7e instanci osiguravaju responzivna i besprijekorna interaktivna iskustva, čak i kada su suočeni s velikim brojem istovremenih korisnika. To je ključno za održavanje angažmana i zadovoljstva korisnika u AI interakcijama u stvarnom vremenu.
*   **Agentni i pozivni tijekovi rada**: Za RAG (Retrieval Augmented Generation) cjevovode i agentne sustave, brzo ubrizgavanje konteksta iz dohvatnih spremišta je najvažnije. 4x poboljšanje propusnosti CPU-a prema GPU-u unutar G7e instanci čini ih iznimno učinkovitima za ove kritične operacije, omogućujući inteligentnije i dinamičnije AI agente.
*   **Generiranje teksta, sažimanje i zaključivanje dugog konteksta**: S 96 GB memorije po GPU-u, G7e instance spretno rukuju velikim Key-Value (KV) predmemorijama. To omogućuje proširene kontekste dokumenata, značajno smanjujući potrebu za skraćivanjem teksta i olakšavajući bogatije, nijansiranije zaključivanje nad ogromnim ulazima.
*   **Generiranje slika i vizualni modeli**: Dok su instance prethodne generacije često nailazile na pogreške zbog nedostatka memorije s većim multimodalnim modelima, udvostručeni memorijski kapacitet G7e-a elegantno rješava ta ograničenja, otvarajući put sofisticiranijim i višim rezolucijama slika i vizualnih AI aplikacija.
*   **Fizička umjetna inteligencija i znanstveno računalstvo**: Osim tradicionalne generativne umjetne inteligencije, Blackwell-generacijsko računalstvo G7e-a, podrška za FP4 i prostorne računalne mogućnosti (uključujući DLSS 4.0 i 4. generaciju RT jezgri) proširuju njegovu primjenu na digitalne blizance, 3D simulaciju i napredno zaključivanje fizičkih AI modela, otvarajući nove granice u znanstvenom istraživanju i industrijskim primjenama.

## Pojednostavljena implementacija i mjerenje performansi

Implementacija modela generativne umjetne inteligencije na G7e instancama putem Amazon SageMaker AI-a dizajnirana je da bude jednostavna. Korisnici mogu pristupiti primjeru bilježnice [ovdje](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main/03-features/instances/g7e) koja pojednostavljuje proces. Preduvjeti obično uključuju AWS račun, IAM ulogu za pristup SageMakeru i Amazon SageMaker Studio ili SageMaker instancu bilježnice za razvojno okruženje. Važno je da korisnici zatraže odgovarajuću kvotu za `ml.g7e.2xlarge` ili veće instance za korištenje krajnje točke SageMaker AI putem konzole Service Quotas.

Kako bi se demonstrirale značajne performanse, AWS je testirao Qwen3-32B (BF16) na G6e i G7e instancama. Radno opterećenje uključivalo je otprilike 1.000 ulaznih tokena i 560 izlaznih tokena po zahtjevu, oponašajući uobičajene zadatke sažimanja dokumenata. Obje konfiguracije koristile su izvorni [vLLM](https://github.com/vllm-project/vllm) spremnik s omogućenim predmemoriranjem prefiksa, osiguravajući usporedbu 'jabuka s jabukama'.

Rezultati su uvjerljivi. Dok je G6e polazna vrijednost (ml.g6e.12xlarge s 4x L40S GPU-a po cijeni od 13,12 USD/sat) pokazala jaku propusnost po zahtjevu, G7e (ml.g7e.2xlarge s 1x RTX PRO 6000 Blackwell po cijeni od 4,20 USD/sat) donosi dramatično drugačiju priču o troškovima. Pri proizvodnoj konkurentnosti (C=32), G7e je postigao nevjerojatnih 0,79 USD po milijunu izlaznih tokena. To predstavlja 2,6x smanjenje troškova u usporedbi s 2,06 USD G6e-a, potaknuto nižom satnicom G7e-a i njegovom sposobnošću održavanja dosljedne propusnosti pod opterećenjem, dokazujući da visoke performanse ne moraju dolaziti s visokom cijenom.

## Budućnost troškovno učinkovitog zaključivanja generativne umjetne inteligencije

Uvođenje G7e instanci na Amazon SageMaker AI više je od puke inkrementalne nadogradnje; to je strateški potez AWS-a za demokratizaciju pristupa generativnoj umjetnoj inteligenciji visokih performansi. Kombinirajući sirovu snagu NVIDIA RTX PRO 6000 Blackwell GPU-ova sa skalabilnošću i mogućnostima upravljanja SageMakerom, AWS osnažuje organizacije svih veličina da implementiraju veće, složenije AI modele s neviđenom učinkovitošću i troškovnom isplativosti. Ovaj razvoj osigurava da se napredak u generativnoj umjetnoj inteligenciji može prevesti u praktične, spremne za proizvodnju aplikacije u širokom rasponu industrija, učvršćujući poziciju SageMaker AI-a kao vodeće platforme za AI inovacije.

Izvorni izvor

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Često postavljana pitanja

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Budite u toku

Primajte najnovije AI vijesti na e-mail.

Podijeli