What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA Approfondiscono la Collaborazione sull'IA per Accelerare la Produzione dal Progetto Pilota alla Produzione

L'IA sta trasformando le industrie a un ritmo senza precedenti, ma il vero valore non risiede solo nella sperimentazione, bensì nel riuscire a implementare e gestire con successo le soluzioni di IA in ambienti di produzione. Ciò richiede sistemi robusti, scalabili, sicuri e conformi che forniscano risultati commerciali tangibili. Affrontando questa esigenza critica, AWS e NVIDIA hanno annunciato una significativa espansione della loro collaborazione strategica all'NVIDIA GTC 2026, svelando nuove integrazioni tecnologiche progettate per soddisfare la crescente domanda di calcolo IA e spingere le soluzioni IA nella produzione reale.

La partnership approfondita si concentra sull'accelerazione di ogni aspetto del ciclo di vita dell'IA, dall'infrastruttura all'implementazione dei modelli. Queste integrazioni coprono aree cruciali, tra cui il computing accelerato, le tecnologie di interconnessione avanzate e l'ottimizzazione e inferenza dei modelli semplificate. Gli annunci chiave includono:

L'implementazione di oltre 1 milione di GPU NVIDIA nelle regioni AWS a partire dal 2026.
Supporto di Amazon EC2 per le GPU NVIDIA RTX PRO 4500 Blackwell Server Edition, rendendo AWS il primo grande fornitore di cloud a offrire questa soluzione.
Accelerazione dell'interconnessione per l'inferenza di Modelli Linguistici di Grandi Dimensioni (LLM) disaggregati, sfruttando NVIDIA NIXL su AWS Elastic Fabric Adapter (EFA).
Prestazioni 3 volte più veloci per i carichi di lavoro Apache Spark utilizzando Amazon EMR su Amazon Elastic Kubernetes Service (Amazon EKS) con istanze Amazon EC2 G7e, alimentate da GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.
Supporto esteso per i modelli NVIDIA Nemotron su Amazon Bedrock, inclusi il Reinforcement Fine-Tuning e il modello Nemotron 3 Super.

Scalare l'Infrastruttura IA con la Potenza Potenziata delle GPU NVIDIA

La base dell'IA moderna risiede in una potente infrastruttura di calcolo. A partire dal 2026, AWS sta assumendo un impegno monumentale per l'avanzamento dell'IA aggiungendo oltre 1 milione di GPU NVIDIA alle sue regioni cloud globali. Ciò include le architetture GPU Blackwell e Rubin di prossima generazione, garantendo che i clienti abbiano accesso all'hardware più avanzato disponibile. AWS vanta già la più ampia collezione di istanze basate su GPU NVIDIA del settore, che soddisfa una vasta gamma di carichi di lavoro AI/ML, e questa espansione ne consolida ulteriormente la leadership.

Questa partnership di lunga data, che dura da oltre 15 anni, si estende anche ad aree infrastrutturali cruciali come il networking Spectrum. L'obiettivo è fornire a imprese, startup e ricercatori l'infrastruttura robusta necessaria per costruire e scalare sistemi avanzati di IA Agentica—IA capace di ragionamento autonomo, pianificazione e azione attraverso flussi di lavoro complessi.

Presentazione di Nuove Istanze Amazon EC2 e Innovazioni di Interconnessione

Un punto saliente della collaborazione sono le imminenti istanze Amazon EC2 accelerate dalle GPU NVIDIA RTX PRO 4500 Blackwell Server Edition. AWS è orgogliosa di essere il primo grande fornitore di cloud ad annunciare il supporto per queste potenti GPU, rendendole accessibili per un'ampia gamma di attività esigenti. Queste istanze sono idealmente adatte per l'analisi dei dati, l'IA conversazionale sofisticata, la generazione dinamica di contenuti, i sistemi di raccomandazione avanzati, lo streaming video di alta qualità e i complessi carichi di lavoro grafici.

Queste nuove istanze EC2 saranno costruite sul robusto AWS Nitro System. Il Nitro System, con la sua combinazione unica di hardware dedicato e un hypervisor leggero, fornisce quasi tutte le risorse di calcolo e memoria dell'hardware host direttamente alle istanze. Questo design garantisce un'utilizzo e prestazioni superiori delle risorse. In modo cruciale, l'hardware, il software e il firmware specializzati del Nitro System sono progettati per imporre restrizioni rigorose, proteggendo i carichi di lavoro e i dati sensibili dell'IA da accessi non autorizzati, anche dall'interno di AWS. La sua capacità di eseguire aggiornamenti e ottimizzazioni del firmware durante il funzionamento migliora ulteriormente la sicurezza e la stabilità essenziali per i carichi di lavoro IA, di analisi e grafici di livello di produzione.

Un ulteriore miglioramento delle prestazioni, in particolare per i modelli IA massivi, è l'accelerazione delle interconnessioni per l'inferenza LLM disaggregata. Man mano che le dimensioni dei modelli continuano a crescere, l'overhead di comunicazione tra GPU o istanze AWS Trainium può diventare un collo di bottiglia significativo. AWS ha annunciato il supporto per NVIDIA Inference Xfer Library (NIXL) con AWS Elastic Fabric Adapter (EFA), progettato per accelerare l'inferenza LLM disaggregata su Amazon EC2, coprendo sia le GPU NVIDIA che le AWS Trainium. Questa integrazione è vitale per scalare i moderni carichi di lavoro IA, consentendo un'efficiente sovrapposizione di comunicazione e calcolo, minimizzando la latenza e massimizzando l'utilizzo della GPU. Facilita il movimento dei dati della cache KV ad alta velocità e bassa latenza tra i nodi di calcolo e le risorse di memoria distribuite. NIXL con EFA si integra nativamente con framework open-source popolari come NVIDIA Dynamo, vLLM e SGLang, offrendo una latenza inter-token migliorata e un utilizzo più efficiente della memoria della cache KV.

Accelerare l'Analisi dei Dati con Amazon EMR e GPU

Gli ingegneri dei dati e gli scienziati spesso si trovano a fronteggiare lunghe pipeline di elaborazione dei dati che possono ostacolare significativamente l'iterazione dei modelli AI/ML e la generazione di business intelligence. La collaborazione tra AWS e NVIDIA offre un miglioramento rivoluzionario: prestazioni 3 volte più veloci per i carichi di lavoro Apache Spark. Questa accelerazione si ottiene sfruttando Amazon EMR su Amazon EKS con istanze G7e, alimentate dalle GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.

Questo sostanziale aumento delle prestazioni è un risultato diretto degli sforzi congiunti di ingegneria focalizzati sull'ottimizzazione dell'analisi accelerata da GPU. Con Amazon EMR e le istanze G7e, le organizzazioni possono ridurre drasticamente il tempo necessario per l'ingegneria delle funzionalità AI/ML, le complesse trasformazioni ETL e l'analisi in tempo reale su vasta scala. I clienti che eseguono pipeline di elaborazione dati su larga scala possono ottenere un tempo più rapido per l'ottenimento delle informazioni, mantenendo la piena compatibilità con le loro applicazioni Spark esistenti.

Espandere il Supporto per i Modelli NVIDIA Nemotron su Amazon Bedrock

AWS e NVIDIA stanno anche espandendo la loro collaborazione sui modelli fondamentali, portando i modelli avanzati NVIDIA Nemotron su Amazon Bedrock.

Gli sviluppatori avranno presto la capacità di ottimizzare i modelli NVIDIA Nemotron direttamente su Amazon Bedrock utilizzando il Reinforcement Fine-Tuning (RFT). Questo è un punto di svolta per i team che necessitano di adattare il comportamento del modello a domini specifici, sia nel settore legale, sanitario, finanziario o altri campi specializzati. RFT consente agli utenti di modellare il modo in cui un modello ragiona e risponde, andando oltre la mera acquisizione di conoscenze per un allineamento comportamentale sfumato. Fondamentalmente, questo funziona nativamente su Amazon Bedrock, eliminando l'overhead infrastrutturale – gli utenti definiscono il compito, forniscono feedback e Bedrock gestisce il resto.

Inoltre, NVIDIA Nemotron 3 Super, un modello ibrido Mixture-of-Experts (MoE) costruito per carichi di lavoro multi-agente e ragionamento esteso, sarà presto disponibile su Amazon Bedrock. Progettato per aiutare gli agenti IA a mantenere la precisione in flussi di lavoro complessi e a più fasi, Nemotron 3 Super alimenterà diversi casi d'uso che abbracciano finanza, cybersecurity, vendita al dettaglio e sviluppo software. Promette inferenza rapida ed economicamente vantaggiosa tramite un'API completamente gestita, semplificando l'implementazione di agenti IA sofisticati.

Ecco un riassunto degli annunci chiave:

Caratteristica/Integrazione	Descrizione	Beneficio Principale	Disponibilità
Implementazione GPU	Oltre 1 milione di GPU NVIDIA (architetture Blackwell, Rubin) nelle regioni AWS.	Scala di calcolo massiva per tutti i carichi di lavoro AI/ML, IA agentica.	A partire dal 2026
Istanze Amazon EC2	Supporto per GPU NVIDIA RTX PRO 4500 Blackwell Server Edition su EC2.	Primo supporto di un grande provider cloud per IA, grafica, analisi versatili.	Prossimamente
Inferenza LLM	NVIDIA NIXL su AWS EFA per inferenza LLM disaggregata accelerata su GPU e Trainium.	Latenza di comunicazione minimizzata, utilizzo GPU massimizzato per LLM.	Annunciato
Prestazioni Apache Spark	Carichi di lavoro Spark 3 volte più veloci su Amazon EMR su EKS con istanze G7e (RTX PRO 6000).	Tempo di ottenimento delle informazioni accelerato per analisi dati, feature engineering.	Annunciato
Ottimizzazione Nemotron	Reinforcement Fine-Tuning (RFT) per i modelli Nemotron direttamente su Amazon Bedrock.	Allineamento del comportamento del modello specifico per dominio senza overhead infrastrutturale.	Prossimamente
Nemotron 3 Super	Modello ibrido MoE per carichi di lavoro multi-agente e ragionamento esteso su Amazon Bedrock.	Inferenza rapida ed economicamente vantaggiosa per attività IA complesse e a più fasi.	Prossimamente

Impegno per l'Efficienza Energetica e l'IA Sostenibile

Mentre i carichi di lavoro IA continuano a crescere esponenzialmente, l'efficienza e la sostenibilità dell'infrastruttura sottostante diventano fondamentali. La collaborazione evidenzia anche un impegno condiviso per migliorare l'efficienza energetica. La performance per watt non è più solo una metrica di sostenibilità, ma un significativo vantaggio competitivo nel panorama dell'IA.

Al GTC 2026 di NVIDIA, Kara Hurst, CSO di Amazon, si è unita ad altri leader della sostenibilità per discutere come l'IA stia trasformando fondamentalmente l'energia e l'infrastruttura aziendale su vasta scala. Questa discussione sottolinea l'attenzione allo sviluppo e all'implementazione di soluzioni IA che siano non solo potenti, ma anche responsabili dal punto di vista ambientale, dai data center ottimizzati come partecipanti attivi della rete alle più ampie applicazioni IA aziendali. Questo approccio lungimirante garantisce che i progressi nel calcolo IA siano allineati con gli obiettivi di sostenibilità globali.

AWS, NVIDIA Approfondiscono la Collaborazione sull'IA per Accelerare la Produzione