Ģeneratīvā AI secinājumi: Paātrināšana pakalpojumā SageMaker ar G7e instancēm

G7e instances: Jauna ēra AI secinājumiem pakalpojumā SageMaker

Ģeneratīvā AI ainava attīstās nepieredzētā tempā, radot nepārtrauktu pieprasījumu pēc jaudīgākas, elastīgākas un izmaksu ziņā efektīvākas infrastruktūras. Šodien Code Velocity ar sajūsmu ziņo par ievērojamu AWS sasniegumu: G7e instanču vispārējo pieejamību pakalpojumā Amazon SageMaker AI. Darbinātas ar NVIDIA RTX PRO 6000 Blackwell Server Edition GPU, šīs jaunās instances ir gatavas no jauna definēt ģeneratīvā AI secinājumu etalonus, piedāvājot izstrādātājiem un uzņēmumiem nepārspējamu veiktspēju un atmiņas kapacitāti.

Amazon SageMaker AI ir pilnībā pārvaldīts pakalpojums, kas nodrošina izstrādātājiem un datu zinātniekiem rīkus mašīnmācīšanās modeļu izveidei, apmācībai un izvietošanai lielā mērogā. G7e instanču ieviešana iezīmē būtisku brīdi ģeneratīvā AI darba slodzēm šajā platformā. Šīs instances izmanto vismodernākos NVIDIA RTX PRO 6000 Blackwell GPU, katrs ar iespaidīgiem 96 GB GDDR7 atmiņas. Šis ievērojamais atmiņas palielinājums ļauj izvietot ievērojami lielākus pamatmodeļus (FM) tieši pakalpojumā SageMaker AI, apmierinot kritisko vajadzību pēc progresīvām AI lietojumprogrammām.

Organizācijas tagad var izvietot tādus modeļus kā GPT-OSS-120B, Nemotron-3-Super-120B-A12B (NVFP4 variants) un Qwen3.5-35B-A3B ar ievērojamu efektivitāti. G7e.2xlarge instance, kas aprīkota ar vienu GPU, var uzņemt 35B parametru modeļus, savukārt G7e.48xlarge, ar astoņiem GPU, mērogojas līdz 300B parametru modeļiem. Šī elastība sniedz taustāmus ieguvumus: samazināta darbības sarežģītība, mazāks latentums un ievērojami izmaksu ietaupījumi secinājumu darba slodzēm.

G7e paaudžu veiktspējas lēciena izpakošana

G7e instances ir milzīgs lēciens salīdzinājumā ar saviem priekšgājējiem G6e un G5, nodrošinot līdz pat 2,3 reizēm ātrāku secinājumu veiktspēju salīdzinājumā ar G6e. Tehniskās specifikācijas uzsver šo paaudžu progresu. Katrs G7e GPU nodrošina pārsteidzošu 1597 GB/s joslas platumu, efektīvi dubultojot G6e GPU atmiņu un četrkāršojot G5. Turklāt tīkla iespējas ir dramatiski uzlabotas, mērogojoties līdz 1600 Gbps ar EFA lielākajā G7e izmērā. Šis 4 reizes pieaugums salīdzinājumā ar G6e un 16 reizes salīdzinājumā ar G5 atklāj potenciālu zema latentuma vairāku mezglu secinājumiem un precizēšanas scenārijiem, kas iepriekš tika uzskatīti par nepraktiskiem.

Šeit ir salīdzinājums, kas izceļ progresu pa paaudzēm 8 GPU līmenī:

Specifikācija	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU atmiņa katram GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Kopējā GPU atmiņa	192 GB	384 GB	768 GB
GPU atmiņas joslas platums	600 GB/s katram GPU	864 GB/s katram GPU	1597 GB/s katram GPU
vCPU	192	192	192
Sistēmas atmiņa	768 GiB	1536 GiB	2048 GiB
Tīkla joslas platums	100 Gbps	400 Gbps	1600 Gbps (EFA)
Lokālā NVMe krātuve	7.6 TB	7.6 TB	15.2 TB
Secinājumi salīdzinājumā ar G6e	Bāzes līnija	~1x	Līdz 2.3x

Ar milzīgajiem 768 GB kopējās GPU atmiņas vienā G7e instancē modeļus, kuriem agrāk bija nepieciešamas sarežģītas vairāku mezglu konfigurācijas vecākās instancēs, tagad var izvietot ar ievērojamu vienkāršību. Tas ievērojami samazina starpmezglu latentumu un darbības izmaksas. Apvienojumā ar FP4 precizitātes atbalstu, izmantojot piektās paaudzes Tensor Cores un NVIDIA GPUDirect RDMA, izmantojot EFAv4, G7e instances ir nepārprotami paredzētas sarežģītām LVM, multimodālā AI un sarežģītām aģentiskajiem secinājumu darbplūsmām AWS.

Dažādi ģeneratīvā AI lietošanas gadījumi veiksmīgi attīstās uz G7e

Izturīgā atmiņas blīvuma, joslas platuma un progresīvo tīkla iespēju kombinācija padara G7e instances ideāli piemērotas plašam mūsdienu ģeneratīvā AI darba slodžu klāstam. No sarunvalodas AI uzlabošanas līdz sarežģītu fizisko simulāciju darbināšanai, G7e piedāvā taustāmas priekšrocības:

Tērzēšanas roboti un sarunvalodas AI: Zems pirmā marķiera laiks (TTFT) un augsta G7e instanču caurlaides spēja nodrošina atsaucīgu un vienmērīgu interaktīvu pieredzi pat pie lielām vienlaicīgām lietotāju slodzēm. Tas ir būtiski, lai saglabātu lietotāju iesaisti un apmierinātību reāllaika AI mijiedarbībā.
Aģentiskas un rīku izsaukšanas darbplūsmas: Retrieval Augmented Generation (RAG) cauruļvadiem un aģentiskām sistēmām ātra konteksta injekcija no iegūšanas krātuvēm ir vissvarīgākā. G7e instanču 4 reizes uzlabotais CPU-GPU joslas platums padara tās ārkārtīgi efektīvas šīm kritiskajām operācijām, ļaujot izveidot inteliģentākus un dinamiskākus AI aģentus.
Teksta ģenerēšana, kopsavilkumu veidošana un garu kontekstu secinājumi: Ar 96 GB atmiņas katram GPU, G7e instances veiksmīgi apstrādā lielas Key-Value (KV) kešatmiņas. Tas ļauj izmantot paplašinātus dokumentu kontekstus, ievērojami samazinot vajadzību pēc teksta saīsināšanas un veicinot bagātīgāku, niansētāku spriedumu par plašiem ievadiem.
Attēlu ģenerēšana un redzes modeļi: Tur, kur iepriekšējās paaudzes instances bieži saskārās ar atmiņas trūkuma kļūdām lielākiem multimodāliem modeļiem, G7e dubultotā atmiņas kapacitāte graciozi atrisina šos ierobežojumus, paverot ceļu sarežģītākām un augstākas izšķirtspējas attēlu un redzes AI lietojumprogrammām.
Fiziskais AI un zinātniskā skaitļošana: Papildus tradicionālajam ģeneratīvajam AI, G7e Blackwell paaudzes skaitļošana, FP4 atbalsts un telpiskās skaitļošanas iespējas (ieskaitot DLSS 4.0 un 4. paaudzes RT kodolus) paplašina tās lietderību digitālajiem dvīņiem, 3D simulācijai un progresīvu fiziskā AI modeļu secinājumiem, atverot jaunas robežas zinātniskajā pētniecībā un rūpnieciskajās lietojumprogrammās.

Vienkāršota izvietošana un veiktspējas etalonu noteikšana

Ģeneratīvā AI modeļu izvietošana uz G7e instancēm, izmantojot Amazon SageMaker AI, ir izstrādāta, lai būtu vienkārša. Lietotāji var piekļūt parauga piezīmju grāmatiņai šeit, kas vienkāršo procesu. Priekšnoteikumi parasti ietver AWS kontu, IAM lomu SageMaker piekļuvei un vai nu Amazon SageMaker Studio, vai SageMaker piezīmjdatora instanci izstrādes videi. Svarīgi ir, ka lietotājiem ir jāpieprasa atbilstoša kvota ml.g7e.2xlarge vai lielākām instancēm SageMaker AI gala punkta izmantošanai, izmantojot pakalpojumu kvotu konsoli.

Lai demonstrētu ievērojamos veiktspējas ieguvumus, AWS veica Qwen3-32B (BF16) etalonu testēšanu gan uz G6e, gan G7e instancēm. Darba slodze ietvēra aptuveni 1000 ievades marķierus un 560 izvades marķierus uz pieprasījumu, imitējot tipiskus dokumentu kopsavilkuma uzdevumus. Abas konfigurācijas izmantoja natīvo vLLM konteineru ar prefiksa kešatmiņas iespējošanu, nodrošinot salīdzinājumu 'ābols pret ābolu'.

Rezultāti ir pārliecinoši. Lai gan G6e bāzes līnija (ml.g6e.12xlarge ar 4x L40S GPU par 13,12 ASV dolāriem/stundā) parādīja spēcīgu caurlaides spēju uz pieprasījumu, G7e (ml.g7e.2xlarge ar 1x RTX PRO 6000 Blackwell par 4,20 ASV dolāriem/stundā) stāsta dramatiski atšķirīgu izmaksu stāstu. Pie ražošanas paralēlās izpildes (C=32), G7e sasniedza pārsteidzošus 0,79 ASV dolārus par miljonu izvades marķieru. Tas ir 2,6 reizes izmaksu samazinājums salīdzinājumā ar G6e 2,06 ASV dolāriem, ko veicināja G7e zemākā stundas likme un spēja uzturēt konsekventu caurlaides spēju zem slodzes, pierādot, ka augsta veiktspēja nav jānodrošina par paaugstinātu cenu.

Izmaksu ziņā efektīvu ģeneratīvā AI secinājumu nākotne

G7e instanču ieviešana pakalpojumā Amazon SageMaker AI ir vairāk nekā tikai pakāpenisks jauninājums; tas ir AWS stratēģisks solis, lai demokratizētu piekļuvi augstas veiktspējas ģeneratīvajam AI. Apvienojot NVIDIA RTX PRO 6000 Blackwell GPU neapstrādāto jaudu ar SageMaker mērogojamības un pārvaldības iespējām, AWS dod iespēju visu izmēru organizācijām izvietot lielākus, sarežģītākus AI modeļus ar nepieredzētu efektivitāti un izmaksu lietderību. Šī attīstība nodrošina, ka ģeneratīvā AI sasniegumus var pārvērst praktiskās, ražošanai gatavās lietojumprogrammās plašā nozaru spektrā, nostiprinot SageMaker AI pozīciju kā vadošajai AI inovāciju platformai.

Sākotnējais avots

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Bieži uzdotie jautājumi

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Esiet informēti

Saņemiet jaunākās AI ziņas savā e-pastā.

Dalīties