Inferenčná generatívna AI: Akcelerácia na SageMakeri s inštanciami G7e

Inštancie G7e: Nová éra pre inferenciu AI na SageMakeri

Krajina generatívnej AI sa vyvíja bezprecedentným tempom, čo vedie k neustálemu dopytu po výkonnejšej, flexibilnejšej a nákladovo efektívnejšej infraštruktúre. Dnes je Code Velocity nadšený, že môže informovať o významnom pokroku od AWS: všeobecnej dostupnosti inštancií G7e na Amazon SageMaker AI. Poháňané GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, tieto nové inštancie sú pripravené predefinovať štandardy pre inferenciu generatívnej AI, ponúkajúc vývojárom a podnikom bezkonkurenčný výkon a kapacitu pamäte.

Amazon SageMaker AI je plne spravovaná služba, ktorá poskytuje vývojárom a dátovým vedcom nástroje na vytváranie, trénovanie a nasadzovanie modelov strojového učenia vo veľkom rozsahu. Zavedenie inštancií G7e znamená kľúčový moment pre pracovné záťaže generatívnej AI na tejto platforme. Tieto inštancie využívajú špičkové GPU NVIDIA RTX PRO 6000 Blackwell, z ktorých každý sa pýši pôsobivými 96 GB pamäte GDDR7. Toto podstatné zvýšenie pamäte umožňuje nasadenie výrazne väčších základných modelov (FM) priamo na SageMaker AI, čím sa rieši kritická potreba pre pokročilé aplikácie AI.

Organizácie môžu teraz nasadiť modely ako GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variant NVFP4) a Qwen3.5-35B-A3B s pozoruhodnou efektivitou. Inštancia G7e.2xlarge, s jedným GPU, dokáže hostiť modely s 35B parametrami, zatiaľ čo G7e.48xlarge, s ôsmimi GPU, škáluje až na modely s 300B parametrami. Táto flexibilita sa premieta do hmatateľných výhod: znížená prevádzková zložitosť, nižšia latencia a podstatné úspory nákladov pre inferenčné pracovné záťaže.

Odhalenie generačného skoku vo výkone G7e

Inštancie G7e predstavujú monumentálny skok oproti svojim predchodcom, G6e a G5, poskytujúc až 2,3-krát rýchlejší inferenčný výkon v porovnaní s G6e. Technické špecifikácie podčiarkujú tento generačný pokrok. Každý GPU G7e poskytuje ohromujúcu šírku pásma 1 597 GB/s, čím efektívne zdvojnásobuje pamäť na GPU oproti G6e a zoštvornásobuje oproti G5. Okrem toho sú sieťové možnosti dramaticky vylepšené, škálujúce až na 1 600 Gbps s EFA pri najväčšej veľkosti G7e. Toto 4-násobné zvýšenie oproti G6e a 16-násobné oproti G5 odomyká potenciál pre multi-uzlovú inferenciu s nízkou latenciou a scenáre jemného dolaďovania, ktoré boli predtým považované za nepraktické.

Tu je porovnanie zdôrazňujúce pokrok naprieč generáciami na úrovni 8-GPU:

Špecifikácia	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Pamäť GPU na GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Celková pamäť GPU	192 GB	384 GB	768 GB
Šírka pásma pamäte GPU	600 GB/s na GPU	864 GB/s na GPU	1 597 GB/s na GPU
vCPU	192	192	192
Systémová pamäť	768 GiB	1 536 GiB	2 048 GiB
Šírka pásma siete	100 Gbps	400 Gbps	1 600 Gbps (EFA)
Lokálne NVMe úložisko	7.6 TB	7.6 TB	15.2 TB
Inferencia vs. G6e	Základná úroveň	~1x	Až 2.3x

S obrovskou celkovou pamäťou GPU 768 GB na jednej inštancii G7e môžu byť modely, ktoré kedysi vyžadovali zložité multi-uzlové konfigurácie na starších inštanciách, teraz nasadené s pozoruhodnou jednoduchosťou. To výrazne znižuje latenciu medzi uzlami a prevádzkovú réžiu. Spolu s podporou presnosti FP4 prostredníctvom Tensor Cores piatej generácie a NVIDIA GPUDirect RDMA cez EFAv4 sú inštancie G7e jednoznačne navrhnuté pre náročné pracovné postupy LLM, multimodálnej AI a sofistikované agentné inferenčné pracovné postupy na AWS.

Rôznorodé prípady použitia generatívnej AI prosperujú na G7e

Robustná kombinácia hustoty pamäte, šírky pásma a pokročilých sieťových možností robí inštancie G7e ideálnymi pre široké spektrum súčasných pracovných záťaží generatívnej AI. Od vylepšenia konverzačnej AI po napájanie komplexných fyzických simulácií ponúka G7e hmatateľné výhody:

Chatboti a konverzačná AI: Nízky čas do prvého tokenu (TTFT) a vysoká priepustnosť inštancií G7e zabezpečujú citlivé a plynulé interaktívne zážitky, dokonca aj pri veľkom počte súbežných používateľov. To je kľúčové pre udržanie angažovanosti a spokojnosti používateľov v interakciách AI v reálnom čase.
Agentné a nástrojové pracovné postupy: Pre RAG (Retrieval Augmented Generation) pipeline a agentné systémy je rýchla injekcia kontextu z dátových úložísk mimoriadne dôležitá. 4-násobné zlepšenie šírky pásma CPU-to-GPU v rámci inštancií G7e ich robí výnimočne efektívnymi pre tieto kritické operácie, čo umožňuje inteligentnejšie a dynamickejšie AI agenty.
Generovanie textu, sumarizácia a inferencia s dlhým kontextom: S 96 GB pamäte na GPU inštancie G7e obratne zvládajú veľké Key-Value (KV) vyrovnávacie pamäte. To umožňuje rozšírené kontexty dokumentov, výrazne znižuje potrebu skracovania textu a uľahčuje bohatšie a nuansovanejšie uvažovanie nad rozsiahlymi vstupmi.
Generovanie obrázkov a vizuálne modely: Tam, kde predchádzajúce generácie inštancií často narazili na chyby 'nedostatku pamäte' pri väčších multimodálnych modeloch, zdvojnásobená kapacita pamäte G7e elegantne rieši tieto obmedzenia, čím otvára cestu k sofistikovanejším a vyššie rozlíšeným aplikáciám AI pre obrázky a vizuálne modely.
Fyzická AI a vedecké výpočty: Okrem tradičnej generatívnej AI, výpočty generácie Blackwell, podpora FP4 a možnosti priestorových výpočtov (vrátane DLSS 4.0 a 4. generácie RT jadier) inštancií G7e rozširujú ich užitočnosť na digitálne dvojičky, 3D simulácie a pokročilé inferencie fyzických modelov AI, otvárajúc nové hranice vo vedeckom výskume a priemyselných aplikáciách.

Zjednodušené nasadenie a výkonnostné benchmarky

Nasadenie generatívnych modelov AI na inštancie G7e prostredníctvom Amazon SageMaker AI je navrhnuté tak, aby bolo priame. Používatelia môžu pristupovať k vzorovému notebooku tu, ktorý zjednodušuje proces. Predpoklady zvyčajne zahŕňajú AWS účet, rolu IAM pre prístup k SageMaker a buď Amazon SageMaker Studio alebo inštanciu notebooku SageMaker pre vývojové prostredie. Dôležité je, že používatelia by mali požiadať o príslušnú kvótu pre 'ml.g7e.2xlarge' alebo väčšie inštancie pre používanie koncového bodu SageMaker AI prostredníctvom konzoly Service Quotas.

Na demonštráciu významných prírastkov výkonu AWS benchmarkovalo Qwen3-32B (BF16) na inštanciách G6e aj G7e. Pracovná záťaž zahŕňala približne 1 000 vstupných tokenov a 560 výstupných tokenov na požiadavku, simulujúc bežné úlohy sumarizácie dokumentov. Obe konfigurácie využívali natívny kontajner vLLM s povoleným ukladaním predpon do vyrovnávacej pamäte, čím sa zabezpečilo porovnanie 'apple-to-apple'.

Výsledky sú presvedčivé. Zatiaľ čo základná úroveň G6e (ml.g6e.12xlarge so 4x L40S GPU za 13,12 USD/hod.) ukázala silnú priepustnosť na požiadavku, G7e (ml.g7e.2xlarge s 1x RTX PRO 6000 Blackwell za 4,20 USD/hod.) rozpráva dramaticky odlišný príbeh o nákladoch. Pri produkčnej súbežnosti (C=32) G7e dosiahla úžasných 0,79 USD za milión výstupných tokenov. To predstavuje 2,6-násobné zníženie nákladov v porovnaní s 2,06 USD pre G6e, čo je spôsobené nižšou hodinovou sadzbou G7e a jej schopnosťou udržiavať konzistentnú priepustnosť pri zaťažení, čo dokazuje, že vysoký výkon nemusí prichádzať za prémiovú cenu.

Budúcnosť nákladovo efektívnej inferencie generatívnej AI

Predstavenie inštancií G7e na Amazon SageMaker AI je viac než len inkrementálne vylepšenie; je to strategický krok zo strany AWS k demokratizácii prístupu k vysokovýkonnej generatívnej AI. Kombináciou surovej sily GPU NVIDIA RTX PRO 6000 Blackwell so škálovateľnosťou a možnosťami správy SageMakeru, AWS umožňuje organizáciám všetkých veľkostí nasadzovať väčšie, komplexnejšie AI modely s bezprecedentnou efektivitou a nákladovou efektívnosťou. Tento vývoj zabezpečuje, že pokroky v generatívnej AI sa môžu preložiť do praktických, produkčne pripravených aplikácií naprieč širokou škálou odvetví, čím sa upevňuje pozícia SageMaker AI ako poprednej platformy pre inovácie v oblasti AI.

Pôvodný zdroj

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Často kladené otázky

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Buďte informovaní

Dostávajte najnovšie AI správy do schránky.

Zdieľať