What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA vertiefen KI-Zusammenarbeit zur Beschleunigung der Produktion vom Pilotprojekt bis zur Produktion

KI transformiert Branchen in einem beispiellosen Tempo, doch der wahre Wert liegt nicht nur im Experimentieren, sondern in der erfolgreichen Bereitstellung und dem Betrieb von KI-Lösungen in Produktionsumgebungen. Dies erfordert robuste, skalierbare, sichere und konforme Systeme, die greifbare Geschäftsergebnisse liefern. Um diesem kritischen Bedarf gerecht zu werden, kündigten AWS und NVIDIA auf der NVIDIA GTC 2026 eine signifikante Erweiterung ihrer strategischen Zusammenarbeit an und stellten neue Technologieintegrationen vor, die darauf abzielen, die steigende Nachfrage nach KI-Rechenleistung zu befriedigen und KI-Lösungen in die reale Produktion zu überführen.

Die vertiefte Partnerschaft konzentriert sich darauf, jede Facette des KI-Lebenszyklus zu beschleunigen, von der Infrastruktur bis zur Modellbereitstellung. Diese Integrationen umfassen entscheidende Bereiche wie beschleunigtes Computing, fortschrittliche Interconnect-Technologien sowie optimiertes Modell-Feintuning und Inferenz. Zu den wichtigsten Ankündigungen gehören:

Die Bereitstellung von mehr als 1 Million NVIDIA GPUs in AWS-Regionen ab 2026.
Amazon EC2-Unterstützung für NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs, wodurch AWS der erste große Cloud-Anbieter ist, der dies anbietet.
Interconnect-Beschleunigung für disaggregierte Large Language Model (LLM)-Inferenz unter Nutzung von NVIDIA NIXL auf AWS Elastic Fabric Adapter (EFA).
Eine dramatisch 3-fach schnellere Leistung für Apache Spark-Workloads unter Verwendung von Amazon EMR auf Amazon Elastic Kubernetes Service (Amazon EKS) mit Amazon EC2 G7e-Instanzen, angetrieben von NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs.
Erweiterte NVIDIA Nemotron-Modellunterstützung auf Amazon Bedrock, einschließlich Reinforcement Fine-Tuning und des Nemotron 3 Super-Modells.

Skalierung der KI-Infrastruktur mit verbesserter NVIDIA GPU-Leistung

Die Grundlage moderner KI liegt in leistungsstarker Recheninfrastruktur. Ab 2026 leistet AWS einen monumentalen Beitrag zur KI-Weiterentwicklung, indem es über 1 Million NVIDIA GPUs zu seinen globalen Cloud-Regionen hinzufügt. Dies umfasst die GPU-Architekturen der nächsten Generation Blackwell und Rubin, die sicherstellen, dass Kunden Zugang zur fortschrittlichsten verfügbaren Hardware haben. AWS verfügt bereits über die branchenweit größte Sammlung von NVIDIA GPU-basierten Instanzen, die eine Vielzahl von KI-/ML-Workloads bedienen, und diese Erweiterung festigt seine Führungsposition weiter.

Diese langjährige Partnerschaft, die über 15 Jahre besteht, erstreckt sich auch auf entscheidende Infrastrukturbereiche wie Spectrum-Netzwerke. Ziel ist es, Unternehmen, Start-ups und Forschenden die robuste Infrastruktur zur Verfügung zu stellen, die für den Aufbau und die Skalierung fortschrittlicher Agentic AI-Systeme erforderlich ist – KI, die zu autonomem Denken, Planen und Handeln in komplexen Arbeitsabläufen fähig ist.

Einführung neuer Amazon EC2-Instanzen und Interconnect-Innovationen

Ein Höhepunkt der Zusammenarbeit sind die bevorstehenden Amazon EC2-Instanzen, die durch NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs beschleunigt werden. AWS ist stolz darauf, der erste große Cloud-Anbieter zu sein, der die Unterstützung für diese leistungsstarken GPUs ankündigt und sie für eine Vielzahl anspruchsvoller Aufgaben zugänglich macht. Diese Instanzen eignen sich ideal für Datenanalysen, ausgeklügelte konversationelle KI, dynamische Inhaltserstellung, fortschrittliche Empfehlungssysteme, hochwertiges Videostreaming und komplexe Grafik-Workloads.

Diese neuen EC2-Instanzen werden auf dem robusten AWS Nitro System aufgebaut. Das Nitro System, mit seiner einzigartigen Kombination aus dedizierter Hardware und einem leichtgewichtigen Hypervisor, liefert nahezu alle Rechen- und Speicherressourcen der Host-Hardware direkt an die Instanzen. Dieses Design gewährleistet eine überlegene Ressourcenauslastung und Leistung. Entscheidend ist, dass die spezialisierte Hardware, Software und Firmware des Nitro Systems darauf ausgelegt sind, strenge Beschränkungen durchzusetzen, um sensible KI-Workloads und Daten vor unbefugtem Zugriff zu schützen, selbst innerhalb von AWS. Seine Fähigkeit, Firmware-Updates und -Optimierungen während des Betriebs durchzuführen, verbessert zusätzlich die Sicherheit und Stabilität, die für produktionsreife KI-, Analyse- und Grafik-Workloads unerlässlich sind.

Eine weitere Leistungssteigerung, insbesondere für massive KI-Modelle, ist die Beschleunigung der Interconnects für disaggregierte LLM-Inferenz. Da die Modellgrößen weiter zunehmen, kann der Kommunikations-Overhead zwischen GPUs oder AWS Trainium-Instanzen zu einem erheblichen Engpass werden. AWS kündigte die Unterstützung für die NVIDIA Inference Xfer Library (NIXL) mit dem AWS Elastic Fabric Adapter (EFA) an, die darauf ausgelegt ist, die disaggregierte LLM-Inferenz auf Amazon EC2 über NVIDIA GPUs und AWS Trainium hinweg zu beschleunigen. Diese Integration ist entscheidend für die Skalierung moderner KI-Workloads, ermöglicht eine effiziente Überlappung von Kommunikation und Berechnung, minimiert die Latenz und maximiert die GPU-Auslastung. Sie ermöglicht eine hohe Durchsatzrate, latenzarme KV-Cache-Datenverschiebung zwischen Rechenknoten und verteilten Speicherressourcen. NIXL mit EFA integriert sich nativ in beliebte Open-Source-Frameworks wie NVIDIA Dynamo, vLLM und SGLang und liefert eine verbesserte Inter-Token-Latenz und eine effizientere KV-Cache-Speicherauslastung.

Beschleunigung der Datenanalyse mit Amazon EMR und GPUs

Dateningenieure und -wissenschaftler kämpfen häufig mit langwierigen Datenverarbeitungspipelines, die die Iteration von KI/ML-Modellen und die Generierung von Business Intelligence erheblich behindern können. Die Zusammenarbeit von AWS und NVIDIA liefert eine bahnbrechende Verbesserung: Eine 3-fach schnellere Leistung für Apache Spark-Workloads. Diese Beschleunigung wird durch die Nutzung von Amazon EMR auf Amazon EKS mit G7e-Instanzen erreicht, die von NVIDIAs RTX PRO 6000 Blackwell Server Edition GPUs angetrieben werden.

Dieser erhebliche Leistungsgewinn ist ein direktes Ergebnis gemeinsamer Ingenieursanstrengungen, die auf die Optimierung GPU-beschleunigter Analysen abzielen. Mit Amazon EMR und G7e-Instanzen können Unternehmen die benötigte Zeit für KI/ML-Feature-Engineering, komplexe ETL-Transformationen und Echtzeit-Analysen im großen Maßstab drastisch reduzieren. Kunden, die groß angelegte Datenverarbeitungspipelines betreiben, können eine schnellere Zeit bis zur Erkenntnis erzielen, während die volle Kompatibilität mit ihren bestehenden Spark-Anwendungen erhalten bleibt.

Erweiterung der Unterstützung für NVIDIA Nemotron-Modelle auf Amazon Bedrock

AWS und NVIDIA erweitern auch ihre Zusammenarbeit bei grundlegenden Modellen und bringen fortschrittliche NVIDIA Nemotron-Modelle zu Amazon Bedrock.

Entwickler werden bald die Möglichkeit haben, NVIDIA Nemotron-Modelle direkt auf Amazon Bedrock mittels Reinforcement Fine-Tuning (RFT) zu optimieren. Dies ist ein entscheidender Vorteil für Teams, die das Modellverhalten an spezifische Bereiche anpassen müssen, sei es im Rechts-, Gesundheits- oder Finanzwesen oder in anderen spezialisierten Gebieten. RFT ermöglicht es Benutzern, die Art und Weise zu formen, wie ein Modell argumentiert und reagiert, und geht über die reine Wissensaneignung hinaus zu einer nuancierten Verhaltensanpassung. Entscheidend ist, dass dies nativ auf Amazon Bedrock läuft und den Infrastruktur-Overhead eliminiert – Benutzer definieren die Aufgabe, geben Feedback, und Bedrock verwaltet den Rest.

Darüber hinaus wird NVIDIA Nemotron 3 Super, ein hybrides Mixture-of-Experts (MoE)-Modell, das für Multi-Agent-Workloads und erweitertes Reasoning entwickelt wurde, ebenfalls bald auf Amazon Bedrock verfügbar sein. Nemotron 3 Super wurde entwickelt, um KI-Agenten dabei zu helfen, die Genauigkeit über komplexe, mehrstufige Workflows hinweg aufrechtzuerhalten, und wird vielfältige Anwendungsfälle in den Bereichen Finanzen, Cybersicherheit, Einzelhandel und Softwareentwicklung unterstützen. Es verspricht schnelle, kostengünstige Inferenz über eine vollständig verwaltete API, wodurch die Bereitstellung anspruchsvoller KI-Agenten vereinfacht wird.

Hier ist eine Zusammenfassung der wichtigsten Ankündigungen:

Merkmal/Integration	Beschreibung	Hauptvorteil	Verfügbarkeit
GPU-Bereitstellung	Über 1 Million NVIDIA GPUs (Blackwell-, Rubin-Architekturen) in AWS-Regionen.	Massive Rechenleistung für alle KI/ML-Workloads, Agentic AI.	Ab 2026
Amazon EC2-Instanzen	Unterstützung für NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs auf EC2.	Erster großer Cloud-Anbieter mit Unterstützung für vielseitige KI, Grafik, Analyse.	Bald verfügbar
LLM-Inferenz	NVIDIA NIXL auf AWS EFA für beschleunigte disaggregierte LLM-Inferenz über GPUs und Trainiums.	Minimierte Kommunikationslatenz, maximierte GPU-Auslastung für LLMs.	Angekündigt
Apache Spark-Leistung	3-fach schnellere Spark-Workloads auf Amazon EMR auf EKS mit G7e-Instanzen (RTX PRO 6000).	Beschleunigte Zeit bis zur Erkenntnis für Datenanalyse, Feature Engineering.	Angekündigt
Nemotron-Feintuning	Reinforcement Fine-Tuning (RFT) für Nemotron-Modelle direkt auf Amazon Bedrock.	Domänenspezifische Ausrichtung des Modellverhaltens ohne Infrastruktur-Overhead.	Bald verfügbar
Nemotron 3 Super	Hybrides MoE-Modell für Multi-Agent-Workloads und erweitertes Reasoning auf Amazon Bedrock.	Schnelle, kosteneffiziente Inferenz für komplexe, mehrstufige KI-Aufgaben.	Bald verfügbar

Engagement für Energieeffizienz und nachhaltige KI

Da KI-Workloads exponentiell weiterwachsen, werden die Effizienz und Nachhaltigkeit der zugrunde liegenden Infrastruktur von größter Bedeutung. Die Zusammenarbeit unterstreicht auch ein gemeinsames Engagement zur Verbesserung der Energieeffizienz. Leistung pro Watt ist nicht länger nur eine Nachhaltigkeitsmetrik, sondern ein signifikanter Wettbewerbsvorteil in der KI-Landschaft.

Auf der NVIDIA GTC 2026 nahm Amazon CSO Kara Hurst gemeinsam mit anderen Nachhaltigkeitsexperten an einer Diskussion teil, wie KI die Energie und Infrastruktur von Unternehmen grundlegend im großen Maßstab transformiert. Diese Diskussion unterstreicht den Fokus auf die Entwicklung und Bereitstellung von KI-Lösungen, die nicht nur leistungsstark, sondern auch umweltfreundlich sind, von Rechenzentren, die als aktive Netzteilnehmer optimiert sind, bis hin zu breiteren KI-Anwendungen in Unternehmen. Dieser vorausschauende Ansatz stellt sicher, dass die Fortschritte in der KI-Rechenleistung mit den globalen Nachhaltigkeitszielen in Einklang stehen.

AWS, NVIDIA vertiefen KI-Zusammenarbeit zur Beschleunigung der Produktion