What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA approfondissent leur collaboration en IA pour accélérer la production, du pilote à la production

L'IA transforme les industries à un rythme sans précédent, mais la véritable valeur ne réside pas seulement dans l'expérimentation, mais dans le déploiement et l'exploitation réussis de solutions d'IA dans des environnements de production. Cela exige des systèmes robustes, évolutifs, sécurisés et conformes qui produisent des résultats commerciaux tangibles. Pour répondre à ce besoin critique, AWS et NVIDIA ont annoncé une expansion significative de leur collaboration stratégique lors du NVIDIA GTC 2026, dévoilant de nouvelles intégrations technologiques conçues pour répondre à la demande croissante de calcul d'IA et propulser les solutions d'IA vers une production réelle.

Le partenariat approfondi vise à accélérer chaque facette du cycle de vie de l'IA, de l'infrastructure au déploiement de modèles. Ces intégrations couvrent des domaines cruciaux tels que le calcul accéléré, les technologies d'interconnexion avancées, ainsi que le réglage fin et l'inférence de modèles simplifiés. Les annonces clés comprennent :

Le déploiement de plus d'un million de GPU NVIDIA dans les régions AWS à partir de 2026.
Le support d'Amazon EC2 pour les GPU NVIDIA RTX PRO 4500 Blackwell Server Edition, faisant d'AWS le premier fournisseur de cloud majeur à offrir cette fonctionnalité.
L'accélération de l'interconnexion pour l'inférence désagrégée des grands modèles de langage (LLM) en utilisant NVIDIA NIXL sur AWS Elastic Fabric Adapter (EFA).
Une performance 3 fois plus rapide pour les charges de travail Apache Spark utilisant Amazon EMR sur Amazon Elastic Kubernetes Service (Amazon EKS) avec des instances Amazon EC2 G7e, alimentées par des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.
Un support étendu du modèle NVIDIA Nemotron sur Amazon Bedrock, incluant le Reinforcement Fine-Tuning et le modèle Nemotron 3 Super.

Mise à l'échelle de l'infrastructure IA avec la puissance accrue des GPU NVIDIA

Le fondement de l'IA moderne réside dans une infrastructure de calcul puissante. À partir de 2026, AWS prend un engagement monumental envers l'avancement de l'IA en ajoutant plus d'un million de GPU NVIDIA à ses régions cloud mondiales. Cela inclut les architectures GPU Blackwell et Rubin de nouvelle génération, garantissant aux clients l'accès au matériel le plus avancé disponible. AWS dispose déjà de la plus large collection d'instances basées sur des GPU NVIDIA de l'industrie, répondant à un large éventail de charges de travail d'IA/ML, et cette expansion consolide davantage son leadership.

Ce partenariat de longue date, s'étendant sur plus de 15 ans, s'étend également à des domaines d'infrastructure cruciaux comme la mise en réseau Spectrum. L'objectif est de fournir aux entreprises, aux startups et aux chercheurs l'infrastructure robuste nécessaire pour construire et faire évoluer des systèmes d'IA agentiques avancés — une IA capable de raisonnement autonome, de planification et d'action à travers des flux de travail complexes.

Présentation des nouvelles instances Amazon EC2 et des innovations en matière d'interconnexion

Un point fort de la collaboration est les futures instances Amazon EC2 accélérées par les GPU NVIDIA RTX PRO 4500 Blackwell Server Edition. AWS est fier d'être le premier fournisseur de cloud majeur à annoncer la prise en charge de ces GPU puissants, les rendant accessibles pour un large éventail de tâches exigeantes. Ces instances sont idéalement adaptées à l'analyse de données, à l'IA conversationnelle sophistiquée, à la génération de contenu dynamique, aux systèmes de recommandation avancés, au streaming vidéo de haute qualité et aux charges de travail graphiques complexes.

Ces nouvelles instances EC2 seront construites sur le robuste système AWS Nitro. Le système Nitro, avec sa combinaison unique de matériel dédié et d'un hyperviseur léger, fournit la quasi-totalité des ressources de calcul et de mémoire du matériel hôte directement aux instances. Cette conception assure une utilisation et une performance supérieures des ressources. Crucialement, le matériel, le logiciel et le firmware spécialisés du système Nitro sont conçus pour imposer des restrictions strictes, protégeant les charges de travail et les données sensibles de l'IA contre les accès non autorisés, même depuis l'intérieur d'AWS. Sa capacité à effectuer des mises à jour et des optimisations de firmware pendant le fonctionnement améliore encore la sécurité et la stabilité essentielles pour les charges de travail d'IA, d'analyse et graphiques de niveau production.

L'accélération des interconnexions pour l'inférence LLM désagrégée améliore encore les performances, en particulier pour les modèles d'IA massifs. À mesure que la taille des modèles continue de croître, la surcharge de communication entre les GPU ou les instances AWS Trainium peut devenir un goulot d'étranglement important. AWS a annoncé la prise en charge de NVIDIA Inference Xfer Library (NIXL) avec AWS Elastic Fabric Adapter (EFA), conçue pour accélérer l'inférence LLM désagrégée sur Amazon EC2, englobant à la fois les GPU NVIDIA et les AWS Trainium. Cette intégration est vitale pour la mise à l'échelle des charges de travail d'IA modernes, permettant un chevauchement efficace de la communication et du calcul, minimisant la latence et maximisant l'utilisation du GPU. Elle facilite le mouvement de données KV-cache à haut débit et faible latence entre les nœuds de calcul et les ressources de mémoire distribuées. NIXL avec EFA s'intègre nativement aux frameworks open source populaires tels que NVIDIA Dynamo, vLLM et SGLang, offrant une latence inter-jetons améliorée et une utilisation plus efficace de la mémoire KV-cache.

Accélération de l'analyse de données avec Amazon EMR et les GPU

Les ingénieurs et scientifiques des données sont souvent confrontés à de longs pipelines de traitement de données qui peuvent entraver considérablement l'itération des modèles AI/ML et la génération d'informations commerciales. La collaboration AWS et NVIDIA apporte une amélioration révolutionnaire : des performances 3 fois plus rapides pour les charges de travail Apache Spark. Cette accélération est obtenue en tirant parti d'Amazon EMR sur Amazon EKS avec des instances G7e, alimentées par les GPU RTX PRO 6000 Blackwell Server Edition de NVIDIA.

Ce gain de performance substantiel est le résultat direct d'efforts d'ingénierie conjoints axés sur l'optimisation des analyses accélérées par GPU. Avec Amazon EMR et les instances G7e, les organisations peuvent réduire considérablement le temps nécessaire à l'ingénierie des caractéristiques AI/ML, aux transformations ETL complexes et à l'analyse en temps réel à l'échelle. Les clients exécutant des pipelines de traitement de données à grande échelle peuvent obtenir des informations plus rapidement tout en maintenant une compatibilité totale avec leurs applications Spark existantes.

Extension du support du modèle NVIDIA Nemotron sur Amazon Bedrock

AWS et NVIDIA étendent également leur collaboration sur les modèles fondamentaux, en apportant des modèles NVIDIA Nemotron avancés à Amazon Bedrock.

Les développeurs auront bientôt la capacité d'affiner les modèles NVIDIA Nemotron directement sur Amazon Bedrock en utilisant le Reinforcement Fine-Tuning (RFT). C'est un véritable atout pour les équipes qui ont besoin d'adapter le comportement des modèles à des domaines spécifiques, que ce soit dans le droit, la santé, la finance ou d'autres domaines spécialisés. Le RFT permet aux utilisateurs de façonner la façon dont un modèle raisonne et répond, allant au-delà de la simple acquisition de connaissances pour un alignement comportemental nuancé. Surtout, cela fonctionne nativement sur Amazon Bedrock, éliminant la surcharge d'infrastructure – les utilisateurs définissent la tâche, fournissent des commentaires, et Bedrock gère le reste.

De plus, NVIDIA Nemotron 3 Super, un modèle hybride Mixture-of-Experts (MoE) conçu pour les charges de travail multi-agents et le raisonnement étendu, arrivera également bientôt sur Amazon Bedrock. Conçu pour aider les agents d'IA à maintenir la précision à travers des flux de travail complexes et multi-étapes, Nemotron 3 Super alimentera divers cas d'utilisation couvrant la finance, la cybersécurité, le commerce de détail et le développement de logiciels. Il promet une inférence rapide et rentable via une API entièrement gérée, simplifiant le déploiement d'agents d'IA sophistiqués.

Voici un résumé des annonces clés :

Fonctionnalité/Intégration	Description	Bénéfice principal	Disponibilité
Déploiement de GPU	Plus d'un million de GPU NVIDIA (architectures Blackwell, Rubin) dans les régions AWS.	Échelle de calcul massive pour toutes les charges de travail AI/ML, IA agentique.	À partir de 2026
Instances Amazon EC2	Support des GPU NVIDIA RTX PRO 4500 Blackwell Server Edition sur EC2.	Premier support de fournisseur de cloud majeur pour l'IA, les graphiques, l'analyse polyvalents.	Bientôt disponible
Inférence LLM	NVIDIA NIXL sur AWS EFA pour l'inférence LLM désagrégée accélérée sur les GPU et les Trainium.	Latence de communication minimisée, utilisation maximale du GPU pour les LLM.	Annoncé
Performances Apache Spark	Charges de travail Spark 3 fois plus rapides sur Amazon EMR sur EKS avec des instances G7e (RTX PRO 6000).	Temps d'accès aux informations accéléré pour l'analyse de données, l'ingénierie des caractéristiques.	Annoncé
Réglage fin de Nemotron	Reinforcement Fine-Tuning (RFT) pour les modèles Nemotron directement sur Amazon Bedrock.	Alignement du comportement du modèle spécifique au domaine sans surcharge d'infrastructure.	Bientôt disponible
Nemotron 3 Super	Modèle MoE hybride pour les charges de travail multi-agents et le raisonnement étendu sur Amazon Bedrock.	Inférence rapide et rentable pour les tâches d'IA complexes et multi-étapes.	Bientôt disponible

Engagement en faveur de l'efficacité énergétique et de l'IA durable

Alors que les charges de travail d'IA continuent de croître de manière exponentielle, l'efficacité et la durabilité de l'infrastructure sous-jacente deviennent primordiales. La collaboration souligne également un engagement commun à améliorer l'efficacité énergétique. La performance par watt n'est plus seulement une métrique de durabilité, mais un avantage concurrentiel significatif dans le paysage de l'IA.

Lors du NVIDIA GTC 2026, Kara Hurst, CSO d'Amazon, a rejoint d'autres leaders en matière de durabilité pour discuter de la manière dont l'IA transforme fondamentalement l'énergie et l'infrastructure des entreprises à grande échelle. Cette discussion souligne l'accent mis sur le développement et le déploiement de solutions d'IA qui sont non seulement puissantes, mais aussi respectueuses de l'environnement, des centres de données optimisés en tant que participants actifs au réseau aux applications d'IA d'entreprise plus larges. Cette approche prospective garantit que les avancées en matière de calcul d'IA sont alignées sur les objectifs mondiaux de durabilité.

AWS, NVIDIA approfondissent leur collaboration en IA pour accélérer la production