Inférence d'IA Générative : Accélération sur SageMaker avec les Instances G7e

title: "Inférence d'IA Générative : Accélération sur SageMaker avec les Instances G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "fr" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "IA d'Entreprise" keywords:

IA Générative
Inférence IA
Amazon SageMaker
Instances AWS G7e
NVIDIA RTX PRO 6000
Déploiement de LLM
IA Rentable
Mémoire GPU
Blackwell
vLLM
Modèles de Fondation
Flux de Travail Agentiques meta_description: "Accélérez l'inférence d'IA générative sur Amazon SageMaker AI grâce aux nouvelles instances G7e, propulsées par les GPU NVIDIA RTX PRO 6000 Blackwell, offrant une performance 2,3 fois supérieure et des économies de coûts." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Instances Amazon SageMaker AI G7e accélérant l'inférence d'IA générative avec les GPU NVIDIA RTX PRO 6000 Blackwell." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "Que sont les instances G7e et quels avantages apportent-elles à l'inférence d'IA générative ?" answer: "Les instances G7e sont la dernière génération d'instances de calcul accéléré par GPU disponibles sur Amazon SageMaker AI, spécifiquement conçues pour accélérer les charges de travail d'inférence d'IA générative. Elles sont propulsées par des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, offrant des avancées significatives en matière de capacité mémoire, de bande passante et de performances globales d'inférence. Pour l'IA générative, les instances G7e signifient un temps de premier jeton (TTFT) plus rapide, un débit plus élevé et la capacité d'héberger des modèles de fondation (FM) beaucoup plus grands au sein d'une seule instance, ou même sur un seul GPU. Cela se traduit par des applications d'IA plus réactives, une complexité opérationnelle réduite et des économies substantielles sur le déploiement et l'exécution de grands modèles linguistiques (LLM), d'IA multimodale et de flux de travail agentiques. Leurs capacités améliorées les rendent idéales pour les applications interactives nécessitant une inférence haute performance et rentable."
question: "Quel GPU NVIDIA équipe les nouvelles instances G7e, et quelles sont ses caractéristiques clés ?" answer: "Les nouvelles instances G7e sur Amazon SageMaker AI sont équipées des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Chacun de ces GPU de pointe offre une impressionnante mémoire GDDR7 de 96 Go, soit le double de la capacité mémoire par GPU par rapport aux instances G6e précédentes. Les caractéristiques clés incluent également une bande passante mémoire GPU de 1 597 Go/s par GPU, la prise en charge de la précision FP4 via des Tensor Cores de cinquième génération, et NVIDIA GPUDirect RDMA via EFAv4. Ces caractéristiques contribuent collectivement aux performances d'inférence supérieures des instances G7e, à leur densité mémoire et à leur réseau à faible latence, les rendant exceptionnellement capables pour les tâches exigeantes d'IA générative."
question: "Comment les instances G7e se comparent-elles aux générations précédentes (G6e, G5) en termes de performances et de mémoire ?" answer: "Les instances G7e représentent un bond générationnel significatif par rapport aux G6e et G5. Elles offrent des performances d'inférence jusqu'à 2,3 fois supérieures à celles des instances G6e. En termes de mémoire, chaque GPU G7e offre 96 Go de mémoire GDDR7, doublant ainsi la mémoire par GPU des G6e et la quadruplant par rapport aux G5. Une instance G7e.48xlarge de haut niveau fournit un total agrégé de 768 Go de mémoire GPU. De plus, la bande passante réseau atteint 1 600 Gbit/s avec EFA sur la plus grande taille G7e, soit un saut de 4x par rapport aux G6e et de 16x par rapport aux G5. Cette vaste amélioration de la mémoire, de la bande passante et du réseau permet aux instances G7e d'héberger des modèles qui nécessitaient auparavant des configurations multi-nœuds sur des instances plus anciennes, simplifiant le déploiement et réduisant la latence."
question: "Quels types de charges de travail d'IA générative sont les mieux adaptés au déploiement sur des instances G7e ?" answer: "Les instances G7e sont exceptionnellement bien adaptées à un large éventail de charges de travail d'IA générative modernes en raison de leur haute densité mémoire, de leur bande passante et de leurs capacités réseau avancées. Celles-ci incluent : les chatbots et l'IA conversationnelle, garantissant un temps de premier jeton (TTFT) faible et un débit élevé pour des expériences interactives réactives ; les flux de travail agentiques et d'appel d'outils, bénéficiant d'une bande passante CPU-vers-GPU améliorée de 4x pour une injection rapide de contexte dans les pipelines RAG ; la génération de texte, la synthèse et l'inférence à long contexte, prenant en charge de grands caches KV pour des contextes de documents étendus avec 96 Go de mémoire par GPU ; la génération d'images et les modèles de vision, surmontant les erreurs de mémoire insuffisante pour les modèles multimodaux plus grands qui rencontraient des difficultés sur les instances précédentes ; et l'IA physique et le calcul scientifique, tirant parti de la puissance de calcul de la génération Blackwell, du support FP4 et des capacités de calcul spatial pour les jumeaux numériques et la simulation 3D."
question: "Quelle est l'efficacité en termes de coûts des instances G7e par rapport aux G6e pour l'inférence d'IA générative ?" answer: "Les instances G7e offrent une efficacité coût/performance significativement améliorée pour l'inférence d'IA générative par rapport aux instances G6e. Les benchmarks déployant Qwen3-32B ont montré que les G7e atteignaient 0,79 $ par million de jetons de sortie à une concurrence de production (C=32). Cela représente une réduction de coût remarquable de 2,6x par rapport aux 2,06 $ par million de jetons de sortie des G6e pour une charge de travail similaire. Cette économie de coûts est principalement due au tarif horaire nettement inférieur des G7e (par exemple, 4,20 $/heure pour ml.g7e.2xlarge contre 13,12 $/heure pour ml.g6e.12xlarge) combiné à leur capacité à maintenir un débit constant et élevé sous charge, ce qui en fait un choix plus économique pour les déploiements à grande échelle."
question: "Quelles sont les capacités de mémoire pour le déploiement de LLM sur des instances G7e mono et multi-GPU ?" answer: "Les instances G7e offrent des capacités de mémoire substantielles pour le déploiement de grands modèles linguistiques (LLM). Un GPU mono-nœud, spécifiquement une instance G7e.2xlarge, peut héberger efficacement des modèles de fondation allant jusqu'à 35 milliards de paramètres en précision FP16. Pour les modèles plus grands, l'extension sur plusieurs GPU au sein d'une seule instance augmente considérablement la capacité : un nœud à 4 GPU (G7e.24xlarge) peut déployer des modèles jusqu'à 150 milliards de paramètres, tandis qu'un nœud à 8 GPU (G7e.48xlarge) peut gérer des modèles aussi grands que 300 milliards de paramètres. Cette évolutivité impressionnante offre aux organisations la flexibilité de déployer un large éventail de LLM sans la complexité des configurations distribuées multi-instances."
question: "Quels sont les prérequis pour déployer des solutions utilisant des instances G7e sur Amazon SageMaker AI ?" answer: "Pour déployer des solutions d'IA générative à l'aide d'instances G7e sur Amazon SageMaker AI, plusieurs prérequis doivent être satisfaits. Vous avez besoin d'un compte AWS actif pour héberger vos ressources et d'un rôle AWS Identity and Access Management (IAM) configuré avec les autorisations appropriées pour accéder aux services Amazon SageMaker AI. Pour le développement et le déploiement, l'accès à Amazon SageMaker Studio ou à une instance de bloc-notes SageMaker est recommandé, bien que d'autres environnements de développement interactifs comme PyCharm ou Visual Studio Code soient également viables. Il est crucial de demander un quota pour au moins une instance ml.g7e.2xlarge (ou un type d'instance G7e plus grand) pour l'utilisation des points de terminaison Amazon SageMaker AI via la console AWS Service Quotas, car ce sont de nouveaux types d'instances spécialisées."

Instances G7e : Une Nouvelle Ère pour l'Inférence d'IA sur SageMaker

Le paysage de l'IA générative évolue à un rythme sans précédent, entraînant une demande continue d'infrastructures plus puissantes, flexibles et rentables. Aujourd'hui, Code Velocity est ravi d'annoncer une avancée significative d'AWS : la disponibilité générale des instances G7e sur Amazon SageMaker AI. Propulsées par des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, ces nouvelles instances sont destinées à redéfinir les références en matière d'inférence d'IA générative, offrant aux développeurs et aux entreprises des performances et une capacité mémoire inégalées.

Amazon SageMaker AI est un service entièrement géré qui fournit aux développeurs et aux scientifiques des données les outils nécessaires pour construire, entraîner et déployer des modèles d'apprentissage automatique à grande échelle. L'introduction des instances G7e marque un moment charnière pour les charges de travail d'IA générative sur cette plateforme. Ces instances exploitent les GPU NVIDIA RTX PRO 6000 Blackwell de pointe, chacun disposant d'une impressionnante mémoire GDDR7 de 96 Go. Cette augmentation substantielle de la mémoire permet le déploiement de modèles de fondation (FM) significativement plus grands directement sur SageMaker AI, répondant ainsi à un besoin critique pour les applications d'IA avancées.

Les organisations peuvent désormais déployer des modèles comme GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) et Qwen3.5-35B-A3B avec une efficacité remarquable. L'instance G7e.2xlarge, dotée d'un seul GPU, peut héberger des modèles de 35 milliards de paramètres, tandis que l'instance G7e.48xlarge, avec huit GPU, peut gérer des modèles allant jusqu'à 300 milliards de paramètres. Cette flexibilité se traduit par des avantages tangibles : une complexité opérationnelle réduite, une latence plus faible et des économies substantielles pour les charges de travail d'inférence.

Décryptage du Bond de Performance Générationnel des G7e

Les instances G7e représentent un bond monumental par rapport à leurs prédécesseurs, les G6e et G5, offrant des performances d'inférence jusqu'à 2,3 fois plus rapides que les G6e. Les spécifications techniques soulignent cette avancée générationnelle. Chaque GPU G7e offre une bande passante stupéfiante de 1 597 Go/s, doublant ainsi la mémoire par GPU des G6e et la quadruplant par rapport aux G5. De plus, les capacités réseau sont considérablement améliorées, atteignant 1 600 Gbit/s avec EFA sur la plus grande taille G7e. Cette augmentation de 4x par rapport aux G6e et de 16x par rapport aux G5 débloque le potentiel d'inférence et de réglage fin multi-nœuds à faible latence, auparavant jugés irréalisables.

Voici une comparaison mettant en évidence la progression à travers les générations au niveau des 8 GPU :

Spécification	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Mémoire GPU par GPU	24 Go GDDR6	48 Go GDDR6	96 Go GDDR7
Mémoire GPU Totale	192 Go	384 Go	768 Go
Bande passante mémoire GPU	600 Go/s par GPU	864 Go/s par GPU	1 597 Go/s par GPU
vCPU	192	192	192
Mémoire Système	768 GiB	1 536 GiB	2 048 GiB
Bande passante Réseau	100 Gbit/s	400 Gbit/s	1 600 Gbit/s (EFA)
Stockage NVMe Local	7,6 To	7,6 To	15,2 To
Inférence vs G6e	Référence	~1x	Jusqu'à 2,3x

Avec une mémoire GPU agrégée colossale de 768 Go sur une seule instance G7e, les modèles qui nécessitaient auparavant des configurations multi-nœuds complexes sur des instances plus anciennes peuvent désormais être déployés avec une simplicité remarquable. Cela réduit considérablement la latence inter-nœuds et les frais généraux opérationnels. Associées à la prise en charge de la précision FP4 via les Tensor Cores de cinquième génération et de NVIDIA GPUDirect RDMA via EFAv4, les instances G7e sont incontestablement conçues pour les LLM exigeants, l'IA multimodale et les flux de travail d'inférence agentique sophistiqués sur AWS.

Divers Cas d'Utilisation de l'IA Générative Prospèrent sur G7e

La combinaison robuste de la densité mémoire, de la bande passante et des capacités réseau avancées rend les instances G7e idéales pour un large éventail de charges de travail d'IA générative contemporaines. De l'amélioration de l'IA conversationnelle à l'alimentation de simulations physiques complexes, les G7e offrent des avantages tangibles :

Chatbots et IA Conversationnelle: Le faible temps de premier jeton (TTFT) et le débit élevé des instances G7e garantissent des expériences interactives réactives et fluides, même face à de lourdes charges d'utilisateurs concurrents. Ceci est crucial pour maintenir l'engagement et la satisfaction des utilisateurs lors des interactions IA en temps réel.
Flux de Travail Agentiques et d'Appel d'Outils: Pour les pipelines de génération augmentée par récupération (RAG) et les systèmes agentiques, une injection rapide de contexte à partir des magasins de récupération est primordiale. L'amélioration de 4x de la bande passante CPU-vers-GPU au sein des instances G7e les rend exceptionnellement efficaces pour ces opérations critiques, permettant des agents IA plus intelligents et dynamiques.
Génération de Texte, Résumé et Inférence à Long Contexte: Avec 96 Go de mémoire par GPU, les instances G7e gèrent habilement de grands caches Key-Value (KV). Cela permet des contextes de documents étendus, réduisant significativement le besoin de troncature de texte et facilitant un raisonnement plus riche et plus nuancé sur de vastes entrées.
Génération d'Images et Modèles de Vision: Alors que les instances des générations précédentes rencontraient fréquemment des erreurs de mémoire insuffisante avec des modèles multimodaux plus grands, la capacité mémoire doublée des G7e résout élégamment ces limitations, ouvrant la voie à des applications d'IA d'image et de vision plus sophistiquées et à plus haute résolution.
IA Physique et Calcul Scientifique: Au-delà de l'IA générative traditionnelle, la puissance de calcul de la génération Blackwell des G7e, le support FP4 et les capacités de calcul spatial (y compris DLSS 4.0 et les cœurs RT de 4e génération) étendent son utilité aux jumeaux numériques, à la simulation 3D et à l'inférence avancée de modèles d'IA physique, ouvrant de nouvelles frontières dans la recherche scientifique et les applications industrielles.

Déploiement Simplifié et Évaluation des Performances

Le déploiement de modèles d'IA générative sur des instances G7e via Amazon SageMaker AI est conçu pour être simple. Les utilisateurs peuvent accéder à un exemple de bloc-notes ici qui simplifie le processus. Les prérequis incluent généralement un compte AWS, un rôle IAM pour l'accès à SageMaker, et soit Amazon SageMaker Studio, soit une instance de bloc-notes SageMaker pour l'environnement de développement. Il est important de noter que les utilisateurs doivent demander un quota approprié pour les instances ml.g7e.2xlarge ou plus grandes pour l'utilisation des points de terminaison SageMaker AI via la console Service Quotas.

Pour démontrer les gains de performance significatifs, AWS a comparé Qwen3-32B (BF16) sur les instances G6e et G7e. La charge de travail impliquait environ 1 000 jetons d'entrée et 560 jetons de sortie par requête, imitant les tâches courantes de résumé de documents. Les deux configurations utilisaient le conteneur natif vLLM avec la mise en cache des préfixes activée, assurant une comparaison équitable.

Les résultats sont éloquents. Tandis que la référence G6e (ml.g6e.12xlarge avec 4 GPU L40S à 13,12 $/heure) montrait un débit par requête solide, la G7e (ml.g7e.2xlarge avec 1 GPU RTX PRO 6000 Blackwell à 4,20 $/heure) présente une histoire de coût radicalement différente. À une concurrence de production (C=32), la G7e a atteint un étonnant 0,79 $ par million de jetons de sortie. Cela représente une réduction de coût de 2,6x par rapport aux 2,06 $ de la G6e, due au tarif horaire plus bas de la G7e et à sa capacité à maintenir un débit constant sous charge, prouvant que la haute performance n'a pas à être synonyme de coût élevé.

L'Avenir de l'Inférence d'IA Générative Rentable

L'introduction des instances G7e sur Amazon SageMaker AI est plus qu'une simple mise à niveau incrémentale ; c'est un mouvement stratégique d'AWS pour démocratiser l'accès à l'IA générative haute performance. En combinant la puissance brute des GPU NVIDIA RTX PRO 6000 Blackwell avec les capacités d'évolutivité et de gestion de SageMaker, AWS permet aux organisations de toutes tailles de déployer des modèles d'IA plus grands et plus complexes avec une efficacité et une rentabilité sans précédent. Ce développement garantit que les avancées de l'IA générative peuvent être traduites en applications pratiques et prêtes pour la production dans un large éventail d'industries, consolidant la position de SageMaker AI en tant que plateforme de premier plan pour l'innovation en IA.

Source originale

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Questions Fréquentes

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Restez informé

Recevez les dernières actualités IA dans votre boîte mail.