Inferența AI Generativă: Accelerare pe SageMaker cu instanțe G7e

Instanțele G7e: O Nouă Eră pentru Inferența AI pe SageMaker

Peisajul AI generative evoluează într-un ritm fără precedent, generând o cerere continuă pentru o infrastructură mai puternică, flexibilă și rentabilă. Astăzi, Code Velocity este încântat să anunțe un progres semnificativ din partea AWS: disponibilitatea generală a instanțelor G7e pe Amazon SageMaker AI. Alimentate de GPU-urile NVIDIA RTX PRO 6000 Blackwell Server Edition, aceste noi instanțe sunt setate să redefinească standardele pentru inferența AI generativă, oferind dezvoltatorilor și întreprinderilor performanță și capacitate de memorie de neegalat.

Amazon SageMaker AI este un serviciu complet gestionat care oferă dezvoltatorilor și oamenilor de știință în date instrumentele necesare pentru a construi, antrena și implementa modele de învățare automată la scară. Introducerea instanțelor G7e marchează un moment crucial pentru sarcinile de lucru AI generativă pe această platformă. Aceste instanțe valorifică GPU-urile de ultimă generație NVIDIA RTX PRO 6000 Blackwell, fiecare lăudându-se cu o memorie GDDR7 impresionantă de 96 GB. Această creștere substanțială a memoriei permite implementarea de modele fundație (FM) semnificativ mai mari direct pe SageMaker AI, răspunzând unei nevoi critice pentru aplicațiile AI avansate.

Organizațiile pot implementa acum modele precum GPT-OSS-120B, Nemotron-3-Super-120B-A12B (varianta NVFP4) și Qwen3.5-35B-A3B cu o eficiență remarcabilă. Instanța G7e.2xlarge, având un singur GPU, poate găzdui modele cu 35 de miliarde de parametri, în timp ce G7e.48xlarge, cu opt GPU-uri, scalează până la modele cu 300 de miliarde de parametri. Această flexibilitate se traduce prin beneficii tangibile: complexitate operațională redusă, latență mai mică și economii substanțiale de costuri pentru sarcinile de lucru de inferență.

Analiza Saltului Generațional de Performanță al G7e

Instanțele G7e reprezintă un salt monumental față de predecesoarele lor, G6e și G5, oferind o performanță de inferență de până la 2,3 ori mai rapidă comparativ cu G6e. Specificațiile tehnice subliniază acest avans generațional. Fiecare GPU G7e oferă o lățime de bandă uimitoare de 1.597 GB/s, dublând efectiv memoria per-GPU a G6e și cvadruplând-o pe cea a G5. Mai mult, capacitățile de rețea sunt îmbunătățite dramatic, scalând până la 1.600 Gbps cu EFA pe cea mai mare dimensiune G7e. Această creștere de 4 ori față de G6e și de 16 ori față de G5 deblochează potențialul pentru inferență multi-nod cu latență redusă și scenarii de reglare fină considerate anterior impracticabile.

Iată o comparație care evidențiază progresul între generații la nivelul de 8 GPU-uri:

Specificație	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Memorie GPU per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Memorie Totală GPU	192 GB	384 GB	768 GB
Lățime de Bandă Memorie GPU	600 GB/s per GPU	864 GB/s per GPU	1,597 GB/s per GPU
vCPU-uri	192	192	192
Memorie Sistem	768 GiB	1,536 GiB	2,048 GiB
Lățime de Bandă Rețea	100 Gbps	400 Gbps	1,600 Gbps (EFA)
Stocare NVMe Locală	7.6 TB	7.6 TB	15.2 TB
Inferență vs. G6e	Linie de bază	~1x	Până la 2.3x

Cu o memorie GPU agregată colosală de 768 GB pe o singură instanță G7e, modelele care odinioară necesitau configurații complexe multi-nod pe instanțe mai vechi pot fi acum implementate cu o simplitate remarcabilă. Acest lucru reduce semnificativ latența inter-nod și costurile operaționale. Cuplat cu suportul pentru precizia FP4 prin intermediul Tensor Cores de a cincea generație și NVIDIA GPUDirect RDMA peste EFAv4, instanțele G7e sunt concepute fără echivoc pentru LLM-uri solicitante, AI multimodală și fluxuri de lucru sofisticate de inferență agentică pe AWS.

Cazuri de Utilizare Diverse ale AI Generative Prosperează pe G7e

Combinația robustă de densitate a memoriei, lățime de bandă și capacități avansate de rețea face ca instanțele G7e să fie ideale pentru un spectru larg de sarcini de lucru AI generativă contemporane. De la îmbunătățirea AI conversaționale până la alimentarea simulărilor fizice complexe, G7e oferă avantaje tangibile:

Chatbot-uri și AI Conversațională: Timpul scăzut până la primul token (TTFT) și debitul ridicat al instanțelor G7e asigură experiențe interactive receptive și fără întreruperi, chiar și în cazul unor sarcini mari de utilizatori concurenți. Acest lucru este crucial pentru menținerea angajamentului și satisfacției utilizatorilor în interacțiunile AI în timp real.
Fluxuri de lucru Agentice și de Apelare a Instrumentelor: Pentru conductele Retrieval Augmented Generation (RAG) și sistemele agentice, injectarea rapidă a contextului din depozitele de recuperare este primordială. Îmbunătățirea de 4 ori a lățimii de bandă CPU-GPU în cadrul instanțelor G7e le face excepțional de eficiente pentru aceste operațiuni critice, permițând agenți AI mai inteligenți și mai dinamici.
Generare de Text, Rezumat și Inferență pe Context Lung: Cu 96 GB de memorie per-GPU, instanțele G7e gestionează cu ușurință cache-uri mari de tip Key-Value (KV). Acest lucru permite contexte de documente extinse, reducând semnificativ nevoia de trunchiere a textului și facilitând un raționament mai bogat și mai nuanțat asupra unor intrări vaste.
Generare de Imagini și Modele de Viziune: Acolo unde instanțele din generațiile anterioare se confruntau frecvent cu erori de memorie insuficientă la modele multimodale mai mari, capacitatea dublă de memorie a G7e rezolvă cu grație aceste limitări, deschizând calea către aplicații AI de imagine și viziune mai sofisticate și de rezoluție mai înaltă.
AI Fizică și Calcul Științific: Dincolo de AI generativă tradițională, capacitățile de calcul de generație Blackwell ale G7e, suportul FP4 și capacitățile de calcul spațial (inclusiv DLSS 4.0 și nucleele RT de a 4-a generație) își extind utilitatea la gemeni digitali, simulare 3D și inferența avansată a modelelor AI fizice, deschizând noi frontiere în cercetarea științifică și aplicațiile industriale.

Implementare Simplificată și Testare de Performanță

Implementarea modelelor AI generativă pe instanțe G7e prin Amazon SageMaker AI este concepută pentru a fi simplă. Utilizatorii pot accesa un notebook exemplu aici care simplifică procesul. Condițiile prealabile includ, de obicei, un cont AWS, un rol IAM pentru accesul SageMaker și fie Amazon SageMaker Studio, fie o instanță de notebook SageMaker pentru mediul de dezvoltare. Important, utilizatorii ar trebui să solicite o cotă adecvată pentru instanțe ml.g7e.2xlarge sau mai mari pentru utilizarea endpoint-ului SageMaker AI prin consola Service Quotas.

Pentru a demonstra câștigurile semnificative de performanță, AWS a efectuat teste comparative cu Qwen3-32B (BF16) pe instanțe G6e și G7e. Sarcina de lucru a implicat aproximativ 1.000 de tokenuri de intrare și 560 de tokenuri de ieșire per cerere, imitând sarcinile comune de rezumare a documentelor. Ambele configurații au utilizat containerul nativ vLLM cu prefix caching activat, asigurând o comparație directă.

Rezultatele sunt convingătoare. În timp ce linia de bază G6e (ml.g6e.12xlarge cu 4x GPU-uri L40S la 13,12 USD/oră) a arătat un debit puternic per cerere, G7e (ml.g7e.2xlarge cu 1x RTX PRO 6000 Blackwell la 4,20 USD/oră) prezintă o poveste de costuri dramatic diferită. La o concurență de producție (C=32), G7e a atins un uimitor 0,79 USD per milion de tokenuri de ieșire. Aceasta reprezintă o reducere a costurilor de 2,6 ori comparativ cu 2,06 USD ale G6e, determinată de rata orară mai mică a G7e și de capacitatea sa de a menține un debit constant sub sarcină, demonstrând că performanța ridicată nu trebuie să vină la un cost premium.

Viitorul Inferenței AI Generative Rentabile

Introducerea instanțelor G7e pe Amazon SageMaker AI este mai mult decât o simplă actualizare incrementală; este o mișcare strategică a AWS de a democratiza accesul la AI generativă de înaltă performanță. Prin combinarea puterii brute a GPU-urilor NVIDIA RTX PRO 6000 Blackwell cu scalabilitatea și capacitățile de gestionare ale SageMaker, AWS împuternicește organizațiile de toate dimensiunile să implementeze modele AI mai mari, mai complexe, cu o eficiență și o rentabilitate fără precedent. Această dezvoltare asigură că progresele în AI generativă pot fi transpuse în aplicații practice, pregătite pentru producție, într-o gamă largă de industrii, consolidând poziția SageMaker AI ca platformă lider pentru inovația în AI.

Sursa originală

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Întrebări frecvente

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Rămâi la curent

Primește ultimele știri AI în inbox-ul tău.

Distribuie