Generatív AI következtetés: Gyorsítás SageMakeren G7e-példányokkal

G7e-példányok: A mesterséges intelligencia következtetés új korszaka a SageMakeren

A generatív mesterséges intelligencia világa soha nem látott ütemben fejlődik, ami folyamatos igényt teremt erősebb, rugalmasabb és költséghatékonyabb infrastruktúra iránt. Ma a Code Velocity izgatottan számol be egy jelentős AWS fejlesztésről: a G7e-példányok általános elérhetőségéről az Amazon SageMaker AI-n. Az NVIDIA RTX PRO 6000 Blackwell Server Edition GPU-k által hajtott új példányok újradefiniálják a generatív AI következtetés benchmarkjait, páratlan teljesítményt és memóriakapacitást kínálva a fejlesztőknek és vállalatoknak.

Az Amazon SageMaker AI egy teljesen menedzselt szolgáltatás, amely eszközöket biztosít a fejlesztőknek és adatkutatóknak a gépi tanulási modellek nagyszabású építéséhez, betanításához és telepítéséhez. A G7e-példányok bevezetése mérföldkőnek számít a generatív AI munkafolyamatok számára ezen a platformon. Ezek a példányok a legmodernebb NVIDIA RTX PRO 6000 Blackwell GPU-kat használják, amelyek mindegyike lenyűgöző 96 GB GDDR7 memóriával büszkélkedhet. Ez a jelentős memóriabővítés lehetővé teszi lényegesen nagyobb alapmodellek (FM-ek) közvetlen telepítését a SageMaker AI-n, kielégítve a fejlett AI-alkalmazások kritikus igényét.

A szervezetek mostantól olyan modelleket telepíthetnek, mint a GPT-OSS-120B, a Nemotron-3-Super-120B-A12B (NVFP4 változat) és a Qwen3.5-35B-A3B figyelemre méltó hatékonysággal. A G7e.2xlarge példány, egyetlen GPU-val, 35B paraméteres modelleket képes tárolni, míg a G7e.48xlarge, nyolc GPU-val, akár 300B paraméteres modelleket is kezel. Ez a rugalmasság kézzelfogható előnyökkel jár: csökkentett működési komplexitás, alacsonyabb késleltetés és jelentős költségmegtakarítás a következtetési feladatoknál.

A G7e generációs teljesítményugrásának részletei

A G7e-példányok hatalmas ugrást jelentenek elődjeik, a G6e és G5 modellekhez képest, akár 2,3-szor gyorsabb következtetési teljesítményt nyújtva a G6e-hez viszonyítva. A technikai specifikációk alátámasztják ezt a generációs fejlődést. Minden G7e GPU elképesztő 1597 GB/s sávszélességet biztosít, hatékonyan megduplázva a G6e GPU-nkénti memóriáját, és megnégyszerezve a G5-ét. Továbbá, a hálózati képességek drámai módon javultak, a legnagyobb G7e méretben az EFA-val akár 1600 Gbps-ra skálázódva. Ez a G6e-hez képest 4-szeres, a G5-höz képest pedig 16-szoros növekedés felszabadítja az alacsony késleltetésű többcsomópontos következtetés és finomhangolás potenciálját, amely korábban kivitelezhetetlennek számított.

Íme egy összehasonlítás, amely a generációk közötti fejlődést emeli ki a 8-GPU-s szinten:

Specifikáció	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU memória GPU-nként	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Teljes GPU memória	192 GB	384 GB	768 GB
GPU memória sávszélesség	600 GB/s GPU-nként	864 GB/s GPU-nként	1597 GB/s GPU-nként
vCPU-k	192	192	192
Rendszermemória	768 GiB	1536 GiB	2048 GiB
Hálózati sávszélesség	100 Gbps	400 Gbps	1600 Gbps (EFA)
Helyi NVMe tárhely	7,6 TB	7,6 TB	15,2 TB
Következtetés a G6e-hez képest	Alapvonal	~1x	Akár 2,3x

Egyetlen G7e-példányon található hatalmas, 768 GB összesített GPU memóriával olyan modellek, amelyek korábban összetett többcsomópontos konfigurációkat igényeltek a régebbi példányokon, mostanra figyelemre méltó egyszerűséggel telepíthetők. Ez jelentősen csökkenti a csomópontok közötti késleltetést és az operatív terheket. Az ötödik generációs Tensor Cores FP4 precíziós támogatásával és az EFAv4-en keresztüli NVIDIA GPUDirect RDMA-val párosulva a G7e-példányok egyértelműen a nagy igénybevételű LLM, multimodális AI és kifinomult ügynöki következtetési munkafolyamatok számára lettek tervezve az AWS-en.

Különféle generatív AI felhasználási esetek virágoznak a G7e-n

A memóriasűrűség, sávszélesség és fejlett hálózati képességek robusztus kombinációja a G7e-példányokat ideálissá teszi a kortárs generatív AI munkafolyamatok széles skálájához. A konverzációs AI javításától a komplex fizikai szimulációk meghajtásáig a G7e kézzelfogható előnyöket kínál:

Chatbotok és konverzációs AI: A G7e-példányok alacsony Első Token Válaszideje (TTFT) és magas áteresztőképessége érzékeny és zökkenőmentes interaktív élményeket biztosít, még nagy egyidejű felhasználói terhelés esetén is. Ez kulcsfontosságú a felhasználói elkötelezettség és elégedettség fenntartásához a valós idejű AI interakciókban.
Ügynöki és eszközhívó munkafolyamatok: A Lekérdezés-kiegészített Generálás (RAG) pipeline-ok és az ügynöki rendszerek esetében a gyors kontextusinjektálás a lekérdezési tárolókból alapvető fontosságú. A G7e-példányokon belüli CPU-GPU sávszélesség 4-szeres javulása kivételesen hatékonnyá teszi őket ezekben a kritikus műveletekben, lehetővé téve intelligensebb és dinamikusabb AI ügynököket.
Szöveggenerálás, összefoglalás és hosszú kontextusú következtetés: A 96 GB GPU-nkénti memóriával a G7e-példányok ügyesen kezelik a nagy Key-Value (KV) gyorsítótárakat. Ez kiterjesztett dokumentumkontextusokat tesz lehetővé, jelentősen csökkentve a szövegcsonkolás szükségességét, és elősegítve a gazdagabb, árnyaltabb érvelést hatalmas bemenetek felett.
Képgenerálás és látásmodellek: Míg a korábbi generációs példányok gyakran találkoztak memóriakifutási hibákkal nagyobb multimodális modellekkel, a G7e megduplázott memóriakapacitása elegánsan megoldja ezeket a korlátokat, utat nyitva a kifinomultabb és nagyobb felbontású kép- és látás AI alkalmazások számára.
Fizikai AI és tudományos számítástechnika: A hagyományos generatív AI-n túl a G7e Blackwell-generációs számítási teljesítménye, az FP4 támogatás és a térbeli számítási képességei (beleértve a DLSS 4.0-t és a 4. generációs RT magokat) kiterjesztik hasznosságát a digitális ikrek, a 3D szimuláció és a fejlett fizikai AI modell következtetések területére, új határokat nyitva a tudományos kutatásban és az ipari alkalmazásokban.

Egyszerűsített telepítés és teljesítmény-benchmarkok

A generatív AI modellek telepítése G7e-példányokon az Amazon SageMaker AI-n keresztül egyszerűre lett tervezve. A felhasználók itt találhatnak egy minta notebookot, amely egyszerűsíti a folyamatot. Az előfeltételek jellemzően egy AWS-fiókot, egy IAM szerepkört a SageMaker hozzáféréshez, és az Amazon SageMaker Studio-t vagy egy SageMaker notebook példányt tartalmaznak a fejlesztői környezethez. Fontos, hogy a felhasználóknak megfelelő kvótát kell kérniük az ml.g7e.2xlarge vagy nagyobb példányokhoz a SageMaker AI végpont használatához a Service Quotas konzolon keresztül.

A jelentős teljesítménynövekedés bemutatására az AWS benchmarkolta a Qwen3-32B (BF16) modelleket mind a G6e, mind a G7e példányokon. A munkafolyamat körülbelül 1000 bemeneti tokent és 560 kimeneti tokent tartalmazott kérésenként, szimulálva a gyakori dokumentum-összefoglalási feladatokat. Mindkét konfiguráció a natív vLLM konténert használta előtag-gyorsítótárazással, biztosítva az "alma-az-almával" összehasonlítást.

Az eredmények meggyőzőek. Míg a G6e alapvonal (ml.g6e.12xlarge 4x L40S GPU-val, 13,12 dollár/óra áron) erős kérésenkénti áteresztőképességet mutatott, a G7e (ml.g7e.2xlarge 1x RTX PRO 6000 Blackwell-lel, 4,20 dollár/óra áron) drámai módon eltérő költségtörténetet mesél. Éles üzemi egyidejűség (C=32) mellett a G7e elképesztő 0,79 dollárt ért el egymillió kimeneti tokenenként. Ez 2,6-szoros költségcsökkenést jelent a G6e 2,06 dollárjához képest, amit a G7e alacsonyabb óradíja és az a képessége hajt, hogy terhelés alatt is fenntartja az állandó áteresztőképességet, bizonyítva, hogy a nagy teljesítménynek nem kell prémium áron jönnie.

A költséghatékony generatív AI következtetés jövője

A G7e-példányok bevezetése az Amazon SageMaker AI-n több, mint csupán egy apró fejlesztés; ez egy stratégiai lépés az AWS részéről a nagy teljesítményű generatív AI-hoz való hozzáférés demokratizálására. Az NVIDIA RTX PRO 6000 Blackwell GPU-k nyers erejét a SageMaker skálázhatósági és felügyeleti képességeivel ötvözve az AWS minden méretű szervezetet képessé tesz arra, hogy nagyobb, komplexebb AI modelleket telepítsen példátlan hatékonysággal és költséghatékonysággal. Ez a fejlesztés biztosítja, hogy a generatív AI területén elért előrelépéseket gyakorlati, éles környezetben is használható alkalmazásokká lehessen alakítani számos iparágban, megszilárdítva a SageMaker AI vezető pozícióját az AI innováció terén.

Eredeti forrás

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Gyakran ismételt kérdések

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Maradjon naprakész

Kapja meg a legfrissebb AI híreket e-mailben.

Megosztás