What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA fördjupar AI-samarbetet för att påskynda produktionen från pilot till produktion

AI förändrar industrier i en aldrig tidigare skådad takt, men det verkliga värdet ligger inte bara i experiment, utan i att framgångsrikt driftsätta och driva AI-lösningar i produktionsmiljöer. Detta kräver robusta, skalbara, säkra och kompatibla system som levererar påtagliga affärsresultat. För att möta detta kritiska behov tillkännagav AWS och NVIDIA en betydande utökning av sitt strategiska samarbete vid NVIDIA GTC 2026, och avslöjade nya tekniska integrationer utformade för att möta den eskalerande efterfrågan på AI-beräkning och driva AI-lösningar till verklig produktion.

Det fördjupade partnerskapet fokuserar på att påskynda varje fas av AI-livscykeln, från infrastruktur till modellutplacering. Dessa integrationer omfattar avgörande områden inklusive accelererad databehandling, avancerade sammankopplingstekniker och strömlinjeformad modellfinjustering och inferens. Viktiga tillkännagivanden inkluderar:

Utplaceringen av över 1 miljon NVIDIA GPU:er i AWS-regioner från och med 2026.
Amazon EC2-stöd för NVIDIA RTX PRO 4500 Blackwell Server Edition GPU:er, vilket gör AWS till den första stora molnleverantören som erbjuder detta.
Sammankopplingsacceleration för disaggregerad Large Language Model (LLM) inferens som utnyttjar NVIDIA NIXL på AWS Elastic Fabric Adapter (EFA).
En dramatisk 3 gånger snabbare prestanda för Apache Spark-arbetsbelastningar med Amazon EMR på Amazon Elastic Kubernetes Service (Amazon EKS) med Amazon EC2 G7e-instanser, drivna av NVIDIA RTX PRO 6000 Blackwell Server Edition GPU:er.
Utökat NVIDIA Nemotron-modellstöd på Amazon Bedrock, inklusive Reinforcement Fine-Tuning och Nemotron 3 Super-modellen.

Skala AI-infrastruktur med förbättrad NVIDIA GPU-kraft

Grunden för modern AI ligger i kraftfull beräkningsinfrastruktur. Från och med 2026 gör AWS ett monumentalt åtagande för AI-utveckling genom att lägga till över 1 miljon NVIDIA GPU:er till sina globala molnregioner. Detta inkluderar nästa generations Blackwell- och Rubin GPU-arkitekturer, vilket säkerställer att kunder har tillgång till den mest avancerade hårdvaran som finns tillgänglig. AWS har redan branschens bredaste samling av NVIDIA GPU-baserade instanser, som tillgodoser ett brett utbud av AI/ML-arbetsbelastningar, och denna expansion befäster ytterligare dess ledarskap.

Detta långvariga partnerskap, som sträcker sig över 15 år, omfattar även avgörande infrastrukturdelar som Spectrum-nätverk. Målet är att förse företag, startups och forskare med den robusta infrastruktur som krävs för att bygga och skala avancerade Agentic AI systems—AI som kan autonomt resonera, planera och agera över komplexa arbetsflöden.

Introduktion av nya Amazon EC2-instanser och sammankopplingsinnovationer

En höjdpunkt i samarbetet är de kommande Amazon EC2-instanserna accelererade av NVIDIA RTX PRO 4500 Blackwell Server Edition GPU:er. AWS är stolta över att vara den första stora molnleverantören som tillkännager stöd för dessa kraftfulla GPU:er, vilket gör dem tillgängliga för ett brett utbud av krävande uppgifter. Dessa instanser är idealiska för dataanalys, sofistikerad konversationell AI, dynamisk innehållsgenerering, avancerade rekommendationssystem, högkvalitativ videoströmning och komplexa grafikarbetsbelastningar.

Dessa nya EC2-instanser kommer att byggas på det robusta AWS Nitro System. Nitro System, med sin unika kombination av dedikerad hårdvara och en lättviktig hypervisor, levererar nästan alla värdhårdvarans beräknings- och minnesresurser direkt till instanserna. Denna design säkerställer överlägsen resursutnyttjande och prestanda. Avgörande är att Nitro Systems specialiserade hårdvara, mjukvara och firmware är konstruerade för att upprätthålla stränga restriktioner, vilket skyddar känsliga AI-arbetsbelastningar och data från obehörig åtkomst, även inifrån AWS. Dess förmåga att utföra firmware-uppdateringar och optimeringar under drift förbättrar ytterligare den säkerhet och stabilitet som är avgörande för produktionsklassad AI, analys och grafikarbetsbelastningar.

För att ytterligare förbättra prestandan, särskilt för massiva AI-modeller, accelereras sammankopplingarna för disaggregerad LLM-inferens. Eftersom modellstorlekarna fortsätter att växa kan kommunikationsoverhead mellan GPU:er eller AWS Trainium-instanser bli en betydande flaskhals. AWS tillkännagav stöd för NVIDIA Inference Xfer Library (NIXL) med AWS Elastic Fabric Adapter (EFA), utformad för att accelerera disaggregerad LLM-inferens på Amazon EC2, som omfattar både NVIDIA GPU:er och AWS Trainium. Denna integration är avgörande för att skala moderna AI-arbetsbelastningar, vilket möjliggör effektiv överlappning av kommunikation och beräkning, minimerar latens och maximerar GPU-utnyttjandet. Den underlättar högt genomflöde, låg latens KV-cache-dataförflyttning mellan beräkningsnoder och distribuerade minnesresurser. NIXL med EFA integreras inbyggt med populära öppen källkodsramverk som NVIDIA Dynamo, vLLM och SGLang, vilket ger förbättrad inter-token latens och effektivare KV-cache-minnesutnyttjande.

Accelerera dataanalys med Amazon EMR och GPU:er

Dataingenjörer och forskare brottas ofta med långa databehandlingspipelines som avsevärt kan hindra AI/ML-modelliteration och generering av affärsinsikter. AWS- och NVIDIA-samarbetet levererar en banbrytande förbättring: 3 gånger snabbare prestanda för Apache Spark-arbetsbelastningar. Denna acceleration uppnås genom att utnyttja Amazon EMR på Amazon EKS med G7e-instanser, drivna av NVIDIAs RTX PRO 6000 Blackwell Server Edition GPU:er.

Denna betydande prestandaökning är ett direkt resultat av gemensamma ingenjörsinsatser fokuserade på att optimera GPU-accelererad analys. Med Amazon EMR och G7e-instanser kan organisationer dramatiskt minska tiden som behövs för AI/ML-funktionsframtagning, komplexa ETL-transformationer och realtidsanalys i skala. Kunder som kör storskaliga databehandlingspipelines kan uppnå snabbare tid till insikt samtidigt som de bibehåller full kompatibilitet med sina befintliga Spark-applikationer.

Utökat stöd för NVIDIA Nemotron-modellen på Amazon Bedrock

AWS och NVIDIA utökar också sitt samarbete kring grundmodeller, och tar med avancerade NVIDIA Nemotron-modeller till Amazon Bedrock.

Utvecklare kommer snart att ha möjlighet att finjustera NVIDIA Nemotron-modeller direkt på Amazon Bedrock med hjälp av Reinforcement Fine-Tuning (RFT). Detta är en game-changer för team som behöver skräddarsy modellbeteende för specifika domäner, vare sig inom juridik, sjukvård, finans eller andra specialiserade områden. RFT ger användare möjlighet att forma hur en modell resonerar och svarar, och går bortom bara kunskapsinhämtning till nyanserad beteendeanpassning. Viktigt är att detta körs inbyggt på Amazon Bedrock, vilket eliminerar infrastrukturkostnader – användare definierar uppgiften, ger feedback, och Bedrock hanterar resten.

Dessutom kommer NVIDIA Nemotron 3 Super, en hybrid Mixture-of-Experts (MoE)-modell byggd för fleragentsarbetsbelastningar och utökad resonering, snart till Amazon Bedrock. Nemotron 3 Super är konstruerad för att hjälpa AI-agenter att bibehålla noggrannheten över komplexa, flerstegs arbetsflöden, och kommer att driva olika användningsfall inom finans, cybersäkerhet, detaljhandel och mjukvaruutveckling. Den lovar snabb, kostnadseffektiv inferens via ett fullt hanterat API, vilket förenklar driftsättningen av sofistikerade AI-agenter.

Här är en sammanfattning av de viktigaste tillkännagivandena:

Funktion/Integration	Beskrivning	Primär fördel	Tillgänglighet
GPU-utplacering	Över 1 miljon NVIDIA GPU:er (Blackwell, Rubin-arkitekturer) i AWS-regioner.	Massiv beräkningsskala för alla AI/ML-arbetsbelastningar, agentisk AI.	Från 2026
Amazon EC2-instanser	Stöd för NVIDIA RTX PRO 4500 Blackwell Server Edition GPU:er på EC2.	Första stora molnleverantörsstödet för mångsidig AI, grafik, analys.	Kommer snart
LLM-inferens	NVIDIA NIXL på AWS EFA för accelererad disaggregerad LLM-inferens över GPU:er och Trainiums.	Minimerad kommunikationslatens, maximerat GPU-utnyttjande för LLM:er.	Tillkännagivits
Apache Spark-prestanda	3x snabbare Spark-arbetsbelastningar på Amazon EMR på EKS med G7e-instanser (RTX PRO 6000).	Accelererad tid till insikt för dataanalys, funktionsframtagning.	Tillkännagivits
Nemotron-finjustering	Reinforcement Fine-Tuning (RFT) för Nemotron-modeller direkt på Amazon Bedrock.	Domänspecifik modellbeteendeanpassning utan infrastrukturkostnader.	Kommer snart
Nemotron 3 Super	Hybrid MoE-modell för fleragentsarbetsbelastningar och utökad resonering på Amazon Bedrock.	Snabb, kostnadseffektiv inferens för komplexa, flerstegs AI-uppgifter.	Kommer snart

Engagemang för energieffektivitet och hållbar AI

Eftersom AI-arbetsbelastningar fortsätter att växa exponentiellt, blir effektiviteten och hållbarheten hos den underliggande infrastrukturen av yttersta vikt. Samarbetet belyser också ett gemensamt åtagande att förbättra energieffektiviteten. Prestanda per watt är inte längre bara ett hållbarhetsmått utan en betydande konkurrensfördel i AI-landskapet.

Vid NVIDIA GTC 2026 anslöt Amazons CSO Kara Hurst till andra hållbarhetsledare för att diskutera hur AI fundamentalt transformerar företagsenergi och infrastruktur i stor skala. Denna diskussion understryker fokus på att utveckla och driftsätta AI-lösningar som inte bara är kraftfulla utan också miljöansvariga, från datacenter optimerade som aktiva nätdeltagare till bredare företags-AI-applikationer. Denna framåtblickande strategi säkerställer att framstegen inom AI-beräkning är i linje med globala hållbarhetsmål.

AWS, NVIDIA fördjupar AI-samarbetet för att påskynda produktionen