Inference generativní AI: Zrychlení na SageMakeru s instancemi G7e

Instance G7e: Nová éra pro inferenci AI na SageMakeru

Prostředí generativní AI se vyvíjí bezprecedentním tempem, což vede k neustálé poptávce po výkonnější, flexibilnější a nákladově efektivnější infrastruktuře. Dnes s potěšením informujeme o významném pokroku ze strany AWS: všeobecná dostupnost instancí G7e na Amazon SageMaker AI. Tyto nové instance, poháněné GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, jsou připraveny předefinovat benchmarky pro inferenci generativní AI a nabízejí vývojářům a podnikům bezkonkurenční výkon a kapacitu paměti.

Amazon SageMaker AI je plně spravovaná služba, která poskytuje vývojářům a datovým vědcům nástroje pro vytváření, trénování a nasazování modelů strojového učení ve velkém měřítku. Zavedení instancí G7e představuje klíčový okamžik pro úlohy generativní AI na této platformě. Tyto instance využívají špičkové GPU NVIDIA RTX PRO 6000 Blackwell, z nichž každý se pyšní působivou pamětí GDDR7 o velikosti 96 GB. Toto podstatné zvýšení paměti umožňuje nasazení výrazně větších základních modelů (FMs) přímo na SageMaker AI, čímž se řeší kritická potřeba pokročilých AI aplikací.

Organizace nyní mohou nasazovat modely jako GPT-OSS-120B, Nemotron-3-Super-120B-A12B (varianta NVFP4) a Qwen3.5-35B-A3B s pozoruhodnou efektivitou. Instance G7e.2xlarge, s jedním GPU, může hostovat modely s 35 miliardami parametrů, zatímco G7e.48xlarge, s osmi GPU, škáluje až na modely s 300 miliardami parametrů. Tato flexibilita se promítá do hmatatelných výhod: snížená provozní složitost, nižší latence a podstatné úspory nákladů pro inferenční úlohy.

Rozbalení generačního výkonnostního skoku G7e

Instance G7e představují monumentální skok oproti svým předchůdcům, G6e a G5, a poskytují až 2,3krát rychlejší inferenční výkon ve srovnání s G6e. Technické specifikace podtrhují tento generační pokrok. Každý G7e GPU poskytuje ohromující šířku pásma 1 597 GB/s, což efektivně zdvojnásobuje paměť na GPU u G6e a zčtyřnásobuje u G5. Navíc jsou dramaticky vylepšeny síťové schopnosti, škálování až na 1 600 Gbps s EFA u největší velikosti G7e. Toto 4x zvýšení oproti G6e a 16x oproti G5 odemyká potenciál pro nízkolatenční inferenci s více uzly a scénáře jemného ladění, které byly dříve považovány za nepraktické.

Zde je srovnání, které zdůrazňuje pokrok napříč generacemi v úrovni 8-GPU:

Specifikace	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Paměť GPU na GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Celková paměť GPU	192 GB	384 GB	768 GB
Šířka pásma paměti GPU	600 GB/s na GPU	864 GB/s na GPU	1 597 GB/s na GPU
vCPU	192	192	192
Systémová paměť	768 GiB	1 536 GiB	2 048 GiB
Šířka pásma sítě	100 Gbps	400 Gbps	1 600 Gbps (EFA)
Lokální úložiště NVMe	7.6 TB	7.6 TB	15.2 TB
Inference vs. G6e	Základ	~1x	Až 2.3x

S obrovskou celkovou pamětí GPU o velikosti 768 GB na jedné instanci G7e lze modely, které dříve vyžadovaly složité konfigurace s více uzly na starších instancích, nyní nasadit s pozoruhodnou jednoduchostí. To výrazně snižuje latenci mezi uzly a provozní náklady. Ve spojení s podporou přesnosti FP4 prostřednictvím Tensor Cores páté generace a NVIDIA GPUDirect RDMA přes EFAv4 jsou instance G7e jednoznačně navrženy pro náročné LLM, multimodální AI a sofistikované pracovní postupy agentní inference na AWS.

Rozmanité případy použití generativní AI prosperují na G7e

Robustní kombinace hustoty paměti, šířky pásma a pokročilých síťových schopností činí instance G7e ideálními pro široké spektrum současných úloh generativní AI. Od vylepšení konverzační AI po napájení komplexních fyzických simulací, G7e nabízí hmatatelné výhody:

Chatboti a konverzační AI: Nízký čas do prvního tokenu (TTFT) a vysoká propustnost instancí G7e zajišťují citlivé a plynulé interaktivní zážitky, i při vysokém zatížení souběžnými uživateli. To je klíčové pro udržení zapojení uživatelů a spokojenosti v interakcích s AI v reálném čase.
Agentní a volání nástrojů (Tool-Calling) pracovní postupy: Pro pipeline Retrieval Augmented Generation (RAG) a agentní systémy je klíčové rychlé vkládání kontextu z úložišť pro vyhledávání. 4x zlepšení šířky pásma mezi CPU a GPU v instancích G7e je činí výjimečně efektivními pro tyto kritické operace, což umožňuje inteligentnější a dynamičtější AI agenty.
Generování textu, shrnování a inference s dlouhým kontextem: S 96 GB paměti na GPU instance G7e obratně zpracovávají velké Key-Value (KV) cache. To umožňuje rozšířené kontexty dokumentů, výrazně snižuje potřebu zkracování textu a usnadňuje bohatší, nuancovanější uvažování nad rozsáhlými vstupy.
Generování obrázků a vizuální modely: Tam, kde předchozí generace instancí často narážely na chyby nedostatku paměti u větších multimodálních modelů, zdvojnásobená kapacita paměti G7e elegantně řeší tato omezení a otevírá cestu sofistikovanějším a vyšším rozlišením pro AI aplikace pro obrázky a vidění.
Fyzická AI a vědecké výpočty: Kromě tradiční generativní AI rozšiřují výpočty generace Blackwell G7e, podpora FP4 a schopnosti prostorových výpočtů (včetně DLSS 4.0 a RT jader 4. generace) její využitelnost na digitální dvojčata, 3D simulace a pokročilou inferenci fyzických AI modelů, čímž otevírají nové hranice ve vědeckém výzkumu a průmyslových aplikacích.

Zjednodušené nasazení a srovnávání výkonu

Nasazení modelů generativní AI na instancích G7e prostřednictvím Amazon SageMaker AI je navrženo tak, aby bylo přímočaré. Uživatelé mají přístup k ukázkovému notebooku zde, který tento proces zjednodušuje. Předpoklady obvykle zahrnují účet AWS, IAM roli pro přístup k SageMakeru a buď Amazon SageMaker Studio, nebo instanci notebooku SageMaker pro vývojové prostředí. Důležité je, aby uživatelé požádali o vhodnou kvótu pro instance ml.g7e.2xlarge nebo větší pro použití koncového bodu SageMaker AI prostřednictvím konzole Service Quotas.

Pro demonstraci významných zisků výkonu AWS benchmarkovalo Qwen3-32B (BF16) na instancích G6e i G7e. Úloha zahrnovala přibližně 1 000 vstupních tokenů a 560 výstupních tokenů na požadavek, což napodobuje běžné úlohy shrnování dokumentů. Obě konfigurace využívaly nativní kontejner vLLM s povoleným prefix cachingem, což zajišťovalo srovnání "apples-to-apples".

Výsledky jsou přesvědčivé. Zatímco základní G6e (ml.g6e.12xlarge se 4x L40S GPU za 13,12 USD/hod) vykazoval silnou propustnost na požadavek, G7e (ml.g7e.2xlarge s 1x RTX PRO 6000 Blackwell za 4,20 USD/hod) vypráví dramaticky odlišný příběh o nákladech. Při produkční souběžnosti (C=32) dosáhl G7e úžasných 0,79 USD za milion výstupních tokenů. To představuje 2,6x snížení nákladů ve srovnání s 2,06 USD u G6e, což je způsobeno nižší hodinovou sazbou G7e a jeho schopností udržet konzistentní propustnost při zatížení, což dokazuje, že vysoký výkon nemusí jít za prémiovou cenu.

Budoucnost nákladově efektivní inference generativní AI

Zavedení instancí G7e na Amazon SageMaker AI je více než jen inkrementální upgrade; je to strategický krok AWS k demokratizaci přístupu k vysoce výkonné generativní AI. Spojením surové síly GPU NVIDIA RTX PRO 6000 Blackwell se škálovatelností a správními schopnostmi SageMakeru, AWS umožňuje organizacím všech velikostí nasazovat větší, složitější AI modely s bezprecedentní efektivitou a nákladovou úsporou. Tento vývoj zajišťuje, že pokroky v generativní AI mohou být převedeny do praktických, produkčně připravených aplikací napříč širokou škálou průmyslových odvětví, čímž se upevňuje pozice SageMaker AI jako přední platformy pro inovace v AI.

Původní zdroj

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Často kladené dotazy

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Buďte v obraze

Dostávejte nejnovější AI zprávy do schránky.

Sdílet