title: "Inférence d'IA Générative : Accélération sur SageMaker avec les Instances G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "fr" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "IA d'Entreprise" keywords:
- IA Générative
- Inférence IA
- Amazon SageMaker
- Instances AWS G7e
- NVIDIA RTX PRO 6000
- Déploiement de LLM
- IA Rentable
- Mémoire GPU
- Blackwell
- vLLM
- Modèles de Fondation
- Flux de Travail Agentiques meta_description: "Accélérez l'inférence d'IA générative sur Amazon SageMaker AI grâce aux nouvelles instances G7e, propulsées par les GPU NVIDIA RTX PRO 6000 Blackwell, offrant une performance 2,3 fois supérieure et des économies de coûts." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Instances Amazon SageMaker AI G7e accélérant l'inférence d'IA générative avec les GPU NVIDIA RTX PRO 6000 Blackwell." quality_score: 94 content_score: 93 seo_score: 95 companies:
- AWS schema_type: "NewsArticle" reading_time: 4 faq:
- question: "Que sont les instances G7e et quels avantages apportent-elles à l'inférence d'IA générative ?" answer: "Les instances G7e sont la dernière génération d'instances de calcul accéléré par GPU disponibles sur Amazon SageMaker AI, spécifiquement conçues pour accélérer les charges de travail d'inférence d'IA générative. Elles sont propulsées par des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, offrant des avancées significatives en matière de capacité mémoire, de bande passante et de performances globales d'inférence. Pour l'IA générative, les instances G7e signifient un temps de premier jeton (TTFT) plus rapide, un débit plus élevé et la capacité d'héberger des modèles de fondation (FM) beaucoup plus grands au sein d'une seule instance, ou même sur un seul GPU. Cela se traduit par des applications d'IA plus réactives, une complexité opérationnelle réduite et des économies substantielles sur le déploiement et l'exécution de grands modèles linguistiques (LLM), d'IA multimodale et de flux de travail agentiques. Leurs capacités améliorées les rendent idéales pour les applications interactives nécessitant une inférence haute performance et rentable."
- question: "Quel GPU NVIDIA équipe les nouvelles instances G7e, et quelles sont ses caractéristiques clés ?" answer: "Les nouvelles instances G7e sur Amazon SageMaker AI sont équipées des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Chacun de ces GPU de pointe offre une impressionnante mémoire GDDR7 de 96 Go, soit le double de la capacité mémoire par GPU par rapport aux instances G6e précédentes. Les caractéristiques clés incluent également une bande passante mémoire GPU de 1 597 Go/s par GPU, la prise en charge de la précision FP4 via des Tensor Cores de cinquième génération, et NVIDIA GPUDirect RDMA via EFAv4. Ces caractéristiques contribuent collectivement aux performances d'inférence supérieures des instances G7e, à leur densité mémoire et à leur réseau à faible latence, les rendant exceptionnellement capables pour les tâches exigeantes d'IA générative."
- question: "Comment les instances G7e se comparent-elles aux générations précédentes (G6e, G5) en termes de performances et de mémoire ?" answer: "Les instances G7e représentent un bond générationnel significatif par rapport aux G6e et G5. Elles offrent des performances d'inférence jusqu'à 2,3 fois supérieures à celles des instances G6e. En termes de mémoire, chaque GPU G7e offre 96 Go de mémoire GDDR7, doublant ainsi la mémoire par GPU des G6e et la quadruplant par rapport aux G5. Une instance G7e.48xlarge de haut niveau fournit un total agrégé de 768 Go de mémoire GPU. De plus, la bande passante réseau atteint 1 600 Gbit/s avec EFA sur la plus grande taille G7e, soit un saut de 4x par rapport aux G6e et de 16x par rapport aux G5. Cette vaste amélioration de la mémoire, de la bande passante et du réseau permet aux instances G7e d'héberger des modèles qui nécessitaient auparavant des configurations multi-nœuds sur des instances plus anciennes, simplifiant le déploiement et réduisant la latence."
- question: "Quels types de charges de travail d'IA générative sont les mieux adaptés au déploiement sur des instances G7e ?" answer: "Les instances G7e sont exceptionnellement bien adaptées à un large éventail de charges de travail d'IA générative modernes en raison de leur haute densité mémoire, de leur bande passante et de leurs capacités réseau avancées. Celles-ci incluent : les chatbots et l'IA conversationnelle, garantissant un temps de premier jeton (TTFT) faible et un débit élevé pour des expériences interactives réactives ; les flux de travail agentiques et d'appel d'outils, bénéficiant d'une bande passante CPU-vers-GPU améliorée de 4x pour une injection rapide de contexte dans les pipelines RAG ; la génération de texte, la synthèse et l'inférence à long contexte, prenant en charge de grands caches KV pour des contextes de documents étendus avec 96 Go de mémoire par GPU ; la génération d'images et les modèles de vision, surmontant les erreurs de mémoire insuffisante pour les modèles multimodaux plus grands qui rencontraient des difficultés sur les instances précédentes ; et l'IA physique et le calcul scientifique, tirant parti de la puissance de calcul de la génération Blackwell, du support FP4 et des capacités de calcul spatial pour les jumeaux numériques et la simulation 3D."
- question: "Quelle est l'efficacité en termes de coûts des instances G7e par rapport aux G6e pour l'inférence d'IA générative ?" answer: "Les instances G7e offrent une efficacité coût/performance significativement améliorée pour l'inférence d'IA générative par rapport aux instances G6e. Les benchmarks déployant Qwen3-32B ont montré que les G7e atteignaient 0,79 $ par million de jetons de sortie à une concurrence de production (C=32). Cela représente une réduction de coût remarquable de 2,6x par rapport aux 2,06 $ par million de jetons de sortie des G6e pour une charge de travail similaire. Cette économie de coûts est principalement due au tarif horaire nettement inférieur des G7e (par exemple, 4,20 $/heure pour ml.g7e.2xlarge contre 13,12 $/heure pour ml.g6e.12xlarge) combiné à leur capacité à maintenir un débit constant et élevé sous charge, ce qui en fait un choix plus économique pour les déploiements à grande échelle."
- question: "Quelles sont les capacités de mémoire pour le déploiement de LLM sur des instances G7e mono et multi-GPU ?" answer: "Les instances G7e offrent des capacités de mémoire substantielles pour le déploiement de grands modèles linguistiques (LLM). Un GPU mono-nœud, spécifiquement une instance G7e.2xlarge, peut héberger efficacement des modèles de fondation allant jusqu'à 35 milliards de paramètres en précision FP16. Pour les modèles plus grands, l'extension sur plusieurs GPU au sein d'une seule instance augmente considérablement la capacité : un nœud à 4 GPU (G7e.24xlarge) peut déployer des modèles jusqu'à 150 milliards de paramètres, tandis qu'un nœud à 8 GPU (G7e.48xlarge) peut gérer des modèles aussi grands que 300 milliards de paramètres. Cette évolutivité impressionnante offre aux organisations la flexibilité de déployer un large éventail de LLM sans la complexité des configurations distribuées multi-instances."
- question: "Quels sont les prérequis pour déployer des solutions utilisant des instances G7e sur Amazon SageMaker AI ?"
answer: "Pour déployer des solutions d'IA générative à l'aide d'instances G7e sur Amazon SageMaker AI, plusieurs prérequis doivent être satisfaits. Vous avez besoin d'un compte AWS actif pour héberger vos ressources et d'un rôle AWS Identity and Access Management (IAM) configuré avec les autorisations appropriées pour accéder aux services Amazon SageMaker AI. Pour le développement et le déploiement, l'accès à Amazon SageMaker Studio ou à une instance de bloc-notes SageMaker est recommandé, bien que d'autres environnements de développement interactifs comme PyCharm ou Visual Studio Code soient également viables. Il est crucial de demander un quota pour au moins une instance
ml.g7e.2xlarge(ou un type d'instance G7e plus grand) pour l'utilisation des points de terminaison Amazon SageMaker AI via la console AWS Service Quotas, car ce sont de nouveaux types d'instances spécialisées."
Instances G7e : Une Nouvelle Ère pour l'Inférence d'IA sur SageMaker
Le paysage de l'IA générative évolue à un rythme sans précédent, entraînant une demande continue d'infrastructures plus puissantes, flexibles et rentables. Aujourd'hui, Code Velocity est ravi d'annoncer une avancée significative d'AWS : la disponibilité générale des instances G7e sur Amazon SageMaker AI. Propulsées par des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, ces nouvelles instances sont destinées à redéfinir les références en matière d'inférence d'IA générative, offrant aux développeurs et aux entreprises des performances et une capacité mémoire inégalées.
Amazon SageMaker AI est un service entièrement géré qui fournit aux développeurs et aux scientifiques des données les outils nécessaires pour construire, entraîner et déployer des modèles d'apprentissage automatique à grande échelle. L'introduction des instances G7e marque un moment charnière pour les charges de travail d'IA générative sur cette plateforme. Ces instances exploitent les GPU NVIDIA RTX PRO 6000 Blackwell de pointe, chacun disposant d'une impressionnante mémoire GDDR7 de 96 Go. Cette augmentation substantielle de la mémoire permet le déploiement de modèles de fondation (FM) significativement plus grands directement sur SageMaker AI, répondant ainsi à un besoin critique pour les applications d'IA avancées.
Les organisations peuvent désormais déployer des modèles comme GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) et Qwen3.5-35B-A3B avec une efficacité remarquable. L'instance G7e.2xlarge, dotée d'un seul GPU, peut héberger des modèles de 35 milliards de paramètres, tandis que l'instance G7e.48xlarge, avec huit GPU, peut gérer des modèles allant jusqu'à 300 milliards de paramètres. Cette flexibilité se traduit par des avantages tangibles : une complexité opérationnelle réduite, une latence plus faible et des économies substantielles pour les charges de travail d'inférence.
Décryptage du Bond de Performance Générationnel des G7e
Les instances G7e représentent un bond monumental par rapport à leurs prédécesseurs, les G6e et G5, offrant des performances d'inférence jusqu'à 2,3 fois plus rapides que les G6e. Les spécifications techniques soulignent cette avancée générationnelle. Chaque GPU G7e offre une bande passante stupéfiante de 1 597 Go/s, doublant ainsi la mémoire par GPU des G6e et la quadruplant par rapport aux G5. De plus, les capacités réseau sont considérablement améliorées, atteignant 1 600 Gbit/s avec EFA sur la plus grande taille G7e. Cette augmentation de 4x par rapport aux G6e et de 16x par rapport aux G5 débloque le potentiel d'inférence et de réglage fin multi-nœuds à faible latence, auparavant jugés irréalisables.
Voici une comparaison mettant en évidence la progression à travers les générations au niveau des 8 GPU :
| Spécification | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| Mémoire GPU par GPU | 24 Go GDDR6 | 48 Go GDDR6 | 96 Go GDDR7 |
| Mémoire GPU Totale | 192 Go | 384 Go | 768 Go |
| Bande passante mémoire GPU | 600 Go/s par GPU | 864 Go/s par GPU | 1 597 Go/s par GPU |
| vCPU | 192 | 192 | 192 |
| Mémoire Système | 768 GiB | 1 536 GiB | 2 048 GiB |
| Bande passante Réseau | 100 Gbit/s | 400 Gbit/s | 1 600 Gbit/s (EFA) |
| Stockage NVMe Local | 7,6 To | 7,6 To | 15,2 To |
| Inférence vs G6e | Référence | ~1x | Jusqu'à 2,3x |
Avec une mémoire GPU agrégée colossale de 768 Go sur une seule instance G7e, les modèles qui nécessitaient auparavant des configurations multi-nœuds complexes sur des instances plus anciennes peuvent désormais être déployés avec une simplicité remarquable. Cela réduit considérablement la latence inter-nœuds et les frais généraux opérationnels. Associées à la prise en charge de la précision FP4 via les Tensor Cores de cinquième génération et de NVIDIA GPUDirect RDMA via EFAv4, les instances G7e sont incontestablement conçues pour les LLM exigeants, l'IA multimodale et les flux de travail d'inférence agentique sophistiqués sur AWS.
Divers Cas d'Utilisation de l'IA Générative Prospèrent sur G7e
La combinaison robuste de la densité mémoire, de la bande passante et des capacités réseau avancées rend les instances G7e idéales pour un large éventail de charges de travail d'IA générative contemporaines. De l'amélioration de l'IA conversationnelle à l'alimentation de simulations physiques complexes, les G7e offrent des avantages tangibles :
- Chatbots et IA Conversationnelle: Le faible temps de premier jeton (TTFT) et le débit élevé des instances G7e garantissent des expériences interactives réactives et fluides, même face à de lourdes charges d'utilisateurs concurrents. Ceci est crucial pour maintenir l'engagement et la satisfaction des utilisateurs lors des interactions IA en temps réel.
- Flux de Travail Agentiques et d'Appel d'Outils: Pour les pipelines de génération augmentée par récupération (RAG) et les systèmes agentiques, une injection rapide de contexte à partir des magasins de récupération est primordiale. L'amélioration de 4x de la bande passante CPU-vers-GPU au sein des instances G7e les rend exceptionnellement efficaces pour ces opérations critiques, permettant des agents IA plus intelligents et dynamiques.
- Génération de Texte, Résumé et Inférence à Long Contexte: Avec 96 Go de mémoire par GPU, les instances G7e gèrent habilement de grands caches Key-Value (KV). Cela permet des contextes de documents étendus, réduisant significativement le besoin de troncature de texte et facilitant un raisonnement plus riche et plus nuancé sur de vastes entrées.
- Génération d'Images et Modèles de Vision: Alors que les instances des générations précédentes rencontraient fréquemment des erreurs de mémoire insuffisante avec des modèles multimodaux plus grands, la capacité mémoire doublée des G7e résout élégamment ces limitations, ouvrant la voie à des applications d'IA d'image et de vision plus sophistiquées et à plus haute résolution.
- IA Physique et Calcul Scientifique: Au-delà de l'IA générative traditionnelle, la puissance de calcul de la génération Blackwell des G7e, le support FP4 et les capacités de calcul spatial (y compris DLSS 4.0 et les cœurs RT de 4e génération) étendent son utilité aux jumeaux numériques, à la simulation 3D et à l'inférence avancée de modèles d'IA physique, ouvrant de nouvelles frontières dans la recherche scientifique et les applications industrielles.
Déploiement Simplifié et Évaluation des Performances
Le déploiement de modèles d'IA générative sur des instances G7e via Amazon SageMaker AI est conçu pour être simple. Les utilisateurs peuvent accéder à un exemple de bloc-notes ici qui simplifie le processus. Les prérequis incluent généralement un compte AWS, un rôle IAM pour l'accès à SageMaker, et soit Amazon SageMaker Studio, soit une instance de bloc-notes SageMaker pour l'environnement de développement. Il est important de noter que les utilisateurs doivent demander un quota approprié pour les instances ml.g7e.2xlarge ou plus grandes pour l'utilisation des points de terminaison SageMaker AI via la console Service Quotas.
Pour démontrer les gains de performance significatifs, AWS a comparé Qwen3-32B (BF16) sur les instances G6e et G7e. La charge de travail impliquait environ 1 000 jetons d'entrée et 560 jetons de sortie par requête, imitant les tâches courantes de résumé de documents. Les deux configurations utilisaient le conteneur natif vLLM avec la mise en cache des préfixes activée, assurant une comparaison équitable.
Les résultats sont éloquents. Tandis que la référence G6e (ml.g6e.12xlarge avec 4 GPU L40S à 13,12 $/heure) montrait un débit par requête solide, la G7e (ml.g7e.2xlarge avec 1 GPU RTX PRO 6000 Blackwell à 4,20 $/heure) présente une histoire de coût radicalement différente. À une concurrence de production (C=32), la G7e a atteint un étonnant 0,79 $ par million de jetons de sortie. Cela représente une réduction de coût de 2,6x par rapport aux 2,06 $ de la G6e, due au tarif horaire plus bas de la G7e et à sa capacité à maintenir un débit constant sous charge, prouvant que la haute performance n'a pas à être synonyme de coût élevé.
L'Avenir de l'Inférence d'IA Générative Rentable
L'introduction des instances G7e sur Amazon SageMaker AI est plus qu'une simple mise à niveau incrémentale ; c'est un mouvement stratégique d'AWS pour démocratiser l'accès à l'IA générative haute performance. En combinant la puissance brute des GPU NVIDIA RTX PRO 6000 Blackwell avec les capacités d'évolutivité et de gestion de SageMaker, AWS permet aux organisations de toutes tailles de déployer des modèles d'IA plus grands et plus complexes avec une efficacité et une rentabilité sans précédent. Ce développement garantit que les avancées de l'IA générative peuvent être traduites en applications pratiques et prêtes pour la production dans un large éventail d'industries, consolidant la position de SageMaker AI en tant que plateforme de premier plan pour l'innovation en IA.
Source originale
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Questions Fréquentes
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Restez informé
Recevez les dernières actualités IA dans votre boîte mail.
