Inferenza AI Generativa: Accelerazione su SageMaker con istanze G7e

Istanze G7e: Una Nuova Era per l'Inferenza AI su SageMaker

Il panorama dell'AI generativa si sta evolvendo a un ritmo senza precedenti, alimentando una domanda continua di infrastrutture più potenti, flessibili ed economicamente vantaggiose. Oggi, Code Velocity è entusiasta di riportare un significativo progresso da AWS: la disponibilità generale delle istanze G7e su Amazon SageMaker AI. Alimentate dalle GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, queste nuove istanze sono destinate a ridefinire i benchmark per l'inferenza AI generativa, offrendo a sviluppatori e aziende prestazioni e capacità di memoria senza pari.

Amazon SageMaker AI è un servizio completamente gestito che fornisce a sviluppatori e data scientist gli strumenti per costruire, addestrare e implementare modelli di machine learning su larga scala. L'introduzione delle istanze G7e segna un momento cruciale per i carichi di lavoro di AI generativa su questa piattaforma. Queste istanze sfruttano le GPU all'avanguardia NVIDIA RTX PRO 6000 Blackwell, ognuna con un'impressionante memoria GDDR7 da 96 GB. Questo sostanziale aumento di memoria consente l'implementazione di modelli fondamentali (FM) significativamente più grandi direttamente su SageMaker AI, rispondendo a una necessità critica per le applicazioni AI avanzate.

Le organizzazioni possono ora implementare modelli come GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) e Qwen3.5-35B-A3B con notevole efficienza. L'istanza G7e.2xlarge, dotata di una singola GPU, può ospitare modelli con 35 miliardi di parametri, mentre la G7e.48xlarge, con otto GPU, scala fino a modelli con 300 miliardi di parametri. Questa flessibilità si traduce in benefici tangibili: complessità operativa ridotta, minore latenza e notevoli risparmi sui costi per i carichi di lavoro di inferenza.

Analisi del Salto Generazionale nelle Prestazioni delle G7e

Le istanze G7e rappresentano un balzo monumentale rispetto ai loro predecessori, G6e e G5, offrendo prestazioni di inferenza fino a 2,3 volte più veloci rispetto alle G6e. Le specifiche tecniche sottolineano questo progresso generazionale. Ogni GPU G7e fornisce una larghezza di banda sbalorditiva di 1.597 GB/s, raddoppiando di fatto la memoria per GPU delle G6e e quadruplicando quella delle G5. Inoltre, le capacità di rete sono drasticamente migliorate, scalando fino a 1.600 Gbps con EFA sulla dimensione G7e più grande. Questo aumento di 4 volte rispetto alle G6e e di 16 volte rispetto alle G5 sblocca il potenziale per l'inferenza multi-nodo a bassa latenza e scenari di fine-tuning precedentemente ritenuti impraticabili.

Ecco un confronto che evidenzia la progressione tra le generazioni a livello di 8 GPU:

Spec	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Memoria GPU per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Memoria GPU Totale	192 GB	384 GB	768 GB
Larghezza di banda memoria GPU	600 GB/s per GPU	864 GB/s per GPU	1.597 GB/s per GPU
vCPU	192	192	192
Memoria di sistema	768 GiB	1.536 GiB	2.048 GiB
Larghezza di banda di rete	100 Gbps	400 Gbps	1.600 Gbps (EFA)
Archiviazione NVMe locale	7.6 TB	7.6 TB	15.2 TB
Inferenza vs. G6e	Base	~1x	Fino a 2.3x

Con una colossale memoria GPU aggregata di 768 GB su una singola istanza G7e, i modelli che un tempo necessitavano di complesse configurazioni multi-nodo su istanze più vecchie possono ora essere implementati con notevole semplicità. Ciò riduce significativamente la latenza tra i nodi e l'overhead operativo. Insieme al supporto per la precisione FP4 tramite Tensor Core di quinta generazione e NVIDIA GPUDirect RDMA su EFAv4, le istanze G7e sono inequivocabilmente progettate per carichi di lavoro impegnativi di LLM, AI multimodale e sofisticati flussi di lavoro di inferenza agentica su AWS.

Diversi Casi d'Uso dell'AI Generativa Prosperano sulle G7e

La robusta combinazione di densità di memoria, larghezza di banda e capacità di rete avanzate rende le istanze G7e ideali per un'ampia gamma di carichi di lavoro di AI generativa contemporanei. Dall'ottimizzazione dell'AI conversazionale all'alimentazione di complesse simulazioni fisiche, le G7e offrono vantaggi tangibili:

Chatbot e AI Conversazionale: Il basso Time To First Token (TTFT) e l'elevato throughput delle istanze G7e garantiscono esperienze interattive reattive e fluide, anche di fronte a carichi utente concorrenti elevati. Questo è cruciale per mantenere il coinvolgimento e la soddisfazione degli utenti nelle interazioni AI in tempo reale.
Flussi di lavoro agentici e di richiamo di strumenti: Per le pipeline Retrieval Augmented Generation (RAG) e i sistemi agentici, una rapida iniezione di contesto da archivi di recupero è fondamentale. Il miglioramento di 4 volte della larghezza di banda CPU-GPU all'interno delle istanze G7e le rende eccezionalmente efficaci per queste operazioni critiche, consentendo agenti AI più intelligenti e dinamici.
Generazione di testo, riassunto e inferenza a contesto lungo: Con 96 GB di memoria per GPU, le istanze G7e gestiscono abilmente grandi cache Key-Value (KV). Ciò consente contesti di documenti estesi, riducendo significativamente la necessità di troncamento del testo e facilitando un ragionamento più ricco e sfumato su vasti input.
Generazione di immagini e modelli di visione: Laddove le istanze di generazione precedente incontravano frequentemente errori di memoria esaurita con modelli multimodali più grandi, la capacità di memoria raddoppiata delle G7e risolve elegantemente queste limitazioni, aprendo la strada ad applicazioni AI di immagine e visione più sofisticate e ad alta risoluzione.
AI Fisica e Calcolo Scientifico: Oltre all'AI generativa tradizionale, le capacità di calcolo di generazione Blackwell delle G7e, il supporto FP4 e le capacità di calcolo spaziale (incluse DLSS 4.0 e core RT di quarta generazione) estendono la sua utilità a gemelli digitali, simulazione 3D e inferenza avanzata di modelli AI fisici, aprendo nuove frontiere nella ricerca scientifica e nelle applicazioni industriali.

Implementazione Semplificata e Benchmarking delle Prestazioni

L'implementazione di modelli AI generativi su istanze G7e tramite Amazon SageMaker AI è progettata per essere semplice. Gli utenti possono accedere a un notebook di esempio qui che semplifica il processo. I prerequisiti includono tipicamente un account AWS, un ruolo IAM per l'accesso a SageMaker e Amazon SageMaker Studio o un'istanza notebook SageMaker per l'ambiente di sviluppo. È importante sottolineare che gli utenti devono richiedere una quota appropriata per istanze ml.g7e.2xlarge o più grandi per l'utilizzo dell'endpoint SageMaker AI tramite la console Service Quotas.

Per dimostrare i significativi guadagni in termini di prestazioni, AWS ha eseguito il benchmarking di Qwen3-32B (BF16) su istanze G6e e G7e. Il carico di lavoro prevedeva circa 1.000 token di input e 560 token di output per richiesta, mimando comuni attività di riassunto di documenti. Ambedue le configurazioni hanno utilizzato il container nativo vLLM con caching dei prefissi abilitato, garantendo un confronto equo.

I risultati sono convincenti. Mentre la baseline G6e (ml.g6e.12xlarge con 4 GPU L40S a $13.12/ora) ha mostrato un forte throughput per richiesta, la G7e (ml.g7e.2xlarge con 1 GPU RTX PRO 6000 Blackwell a $4.20/ora) racconta una storia di costi drasticamente diversa. A concorrenza di produzione (C=32), la G7e ha raggiunto un sorprendente $0.79 per milione di token di output. Ciò rappresenta una riduzione dei costi di 2,6 volte rispetto ai $2.06 della G6e, guidata dalla tariffa oraria inferiore della G7e e dalla sua capacità di mantenere un throughput costante sotto carico, dimostrando che le alte prestazioni non devono necessariamente comportare un costo elevato.

Il Futuro dell'Inferenza AI Generativa Economicamente Vantaggiosa

L'introduzione delle istanze G7e su Amazon SageMaker AI è più di un semplice aggiornamento incrementale; è una mossa strategica di AWS per democratizzare l'accesso all'AI generativa ad alte prestazioni. Combinando la potenza grezza delle GPU NVIDIA RTX PRO 6000 Blackwell con le capacità di scalabilità e gestione di SageMaker, AWS sta consentendo alle organizzazioni di tutte le dimensioni di implementare modelli AI più grandi e complessi con efficienza e economicità senza precedenti. Questo sviluppo garantisce che i progressi nell'AI generativa possano essere tradotti in applicazioni pratiche e pronte per la produzione in una vasta gamma di settori, consolidando la posizione di SageMaker AI come piattaforma leader per l'innovazione AI.

Fonte originale

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Domande Frequenti

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Resta aggiornato

Ricevi le ultime notizie sull'IA nella tua casella.