What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA Pererat Kolaborasi AI untuk Mempercepat Produksi dari Uji Coba hingga Produksi

AI mengubah industri dengan kecepatan yang belum pernah terjadi sebelumnya, tetapi nilai sebenarnya tidak hanya terletak pada eksperimen, melainkan pada keberhasilan penerapan dan pengoperasian solusi AI di lingkungan produksi. Ini menuntut sistem yang kuat, skalabel, aman, dan patuh yang memberikan hasil bisnis yang nyata. Menanggapi kebutuhan kritis ini, AWS dan NVIDIA mengumumkan perluasan signifikan kolaborasi strategis mereka di NVIDIA GTC 2026, meluncurkan integrasi teknologi baru yang dirancang untuk memenuhi permintaan komputasi AI yang terus meningkat dan mendorong solusi AI ke produksi dunia nyata.

Kemitraan yang dipererat ini berfokus pada percepatan setiap aspek siklus hidup AI, mulai dari infrastruktur hingga penerapan model. Integrasi ini mencakup area penting termasuk komputasi yang dipercepat, teknologi interkoneksi canggih, serta penyempurnaan model dan inferensi yang disederhanakan. Pengumuman utamanya meliputi:

Penyebaran lebih dari 1 juta GPU NVIDIA di seluruh Wilayah AWS mulai tahun 2026.
Dukungan Amazon EC2 untuk GPU NVIDIA RTX PRO 4500 Blackwell Server Edition, menjadikan AWS penyedia cloud besar pertama yang menawarkannya.
Akselerasi interkoneksi untuk inferensi Large Language Model (LLM) terdisagregasi memanfaatkan NVIDIA NIXL pada AWS Elastic Fabric Adapter (EFA).
Kinerja 3x lebih cepat yang dramatis untuk beban kerja Apache Spark menggunakan Amazon EMR pada Amazon Elastic Kubernetes Service (Amazon EKS) dengan instans Amazon EC2 G7e, didukung oleh GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.
Dukungan model NVIDIA Nemotron yang diperluas di Amazon Bedrock, termasuk Reinforcement Fine-Tuning dan model Nemotron 3 Super.

Menskalakan Infrastruktur AI dengan Kekuatan GPU NVIDIA yang Ditingkatkan

Fondasi AI modern terletak pada infrastruktur komputasi yang kuat. Mulai tahun 2026, AWS membuat komitmen monumental untuk kemajuan AI dengan menambahkan lebih dari 1 juta GPU NVIDIA ke wilayah cloud globalnya. Ini termasuk arsitektur GPU Blackwell dan Rubin generasi berikutnya, memastikan bahwa pelanggan memiliki akses ke perangkat keras paling canggih yang tersedia. AWS sudah memiliki koleksi instans berbasis GPU NVIDIA terluas di industri, melayani beragam beban kerja AI/ML, dan perluasan ini semakin mengukuhkan kepemimpinannya.

Kemitraan jangka panjang ini, yang telah berlangsung selama lebih dari 15 tahun, juga meluas ke area infrastruktur penting seperti jaringan Spectrum. Tujuannya adalah untuk menyediakan infrastruktur yang kuat bagi perusahaan, startup, dan peneliti yang dibutuhkan untuk membangun dan menskalakan sistem AI Agentik yang canggih—AI yang mampu bernalar, merencanakan, dan bertindak secara otonom di seluruh alur kerja yang kompleks.

Memperkenalkan Instans Amazon EC2 Baru dan Inovasi Interkoneksi

Sorotan dari kolaborasi ini adalah instans Amazon EC2 yang akan datang yang dipercepat oleh GPU NVIDIA RTX PRO 4500 Blackwell Server Edition. AWS bangga menjadi penyedia cloud besar pertama yang mengumumkan dukungan untuk GPU yang kuat ini, membuatnya dapat diakses untuk berbagai tugas yang menuntut. Instans ini sangat cocok untuk analitik data, AI percakapan yang canggih, pembuatan konten yang dinamis, sistem rekomendasi tingkat lanjut, streaming video berkualitas tinggi, dan beban kerja grafis yang kompleks.

Instans EC2 baru ini akan dibangun di atas AWS Nitro System yang kuat. Nitro System, dengan kombinasi unik perangkat keras khusus dan hypervisor ringan, memberikan hampir semua sumber daya komputasi dan memori perangkat keras host langsung ke instans. Desain ini memastikan pemanfaatan sumber daya dan kinerja yang unggul. Yang penting, perangkat keras, perangkat lunak, dan firmware khusus Nitro System direkayasa untuk menegakkan pembatasan ketat, melindungi beban kerja dan data AI yang sensitif dari akses tidak sah, bahkan dari dalam AWS. Kemampuannya untuk melakukan pembaruan dan optimasi firmware saat beroperasi semakin meningkatkan keamanan dan stabilitas yang penting untuk beban kerja AI, analitik, dan grafis kelas produksi.

Lebih lanjut meningkatkan kinerja, terutama untuk model AI besar, adalah akselerasi interkoneksi untuk inferensi LLM terdisagregasi. Seiring dengan terus bertambahnya ukuran model, overhead komunikasi antara GPU atau instans AWS Trainium dapat menjadi hambatan signifikan. AWS mengumumkan dukungan untuk NVIDIA Inference Xfer Library (NIXL) dengan AWS Elastic Fabric Adapter (EFA), yang dirancang untuk mempercepat inferensi LLM terdisagregasi pada Amazon EC2, yang mencakup GPU NVIDIA dan AWS Trainium. Integrasi ini sangat penting untuk menskalakan beban kerja AI modern, memungkinkan tumpang tindih komunikasi dan komputasi yang efisien, meminimalkan latensi, dan memaksimalkan pemanfaatan GPU. Ini memfasilitasi pergerakan data KV-cache throughput tinggi, latensi rendah antara node komputasi dan sumber daya memori terdistribusi. NIXL dengan EFA berintegrasi secara native dengan kerangka kerja sumber terbuka populer seperti NVIDIA Dynamo, vLLM, dan SGLang, memberikan latensi antar-token yang lebih baik dan pemanfaatan memori KV-cache yang lebih efisien.

Mempercepat Analitik Data dengan Amazon EMR dan GPU

Insinyur dan ilmuwan data sering kali bergulat dengan pipeline pemrosesan data yang panjang yang dapat secara signifikan menghambat iterasi model AI/ML dan pembuatan intelijen bisnis. Kolaborasi AWS dan NVIDIA memberikan peningkatan inovatif: kinerja 3x lebih cepat untuk beban kerja Apache Spark. Akselerasi ini dicapai dengan memanfaatkan Amazon EMR pada Amazon EKS dengan instans G7e, didukung oleh GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.

Peningkatan kinerja yang substansial ini merupakan hasil langsung dari upaya rekayasa bersama yang berfokus pada pengoptimalan analitik yang dipercepat GPU. Dengan Amazon EMR dan instans G7e, organisasi dapat secara dramatis mengurangi waktu yang dibutuhkan untuk rekayasa fitur AI/ML, transformasi ETL yang kompleks, dan analitik real-time dalam skala besar. Pelanggan yang menjalankan pipeline pemrosesan data berskala besar dapat mencapai waktu yang lebih cepat untuk mendapatkan wawasan sambil menjaga kompatibilitas penuh dengan aplikasi Spark yang ada.

Memperluas Dukungan Model NVIDIA Nemotron di Amazon Bedrock

AWS dan NVIDIA juga memperluas kolaborasi mereka pada model fondasi, menghadirkan model NVIDIA Nemotron canggih ke Amazon Bedrock.

Pengembang akan segera memiliki kemampuan untuk menyempurnakan model NVIDIA Nemotron secara langsung di Amazon Bedrock menggunakan Reinforcement Fine-Tuning (RFT). Ini adalah pengubah permainan bagi tim yang perlu menyesuaikan perilaku model dengan domain tertentu, baik dalam bidang hukum, perawatan kesehatan, keuangan, atau bidang khusus lainnya. RFT memberdayakan pengguna untuk membentuk bagaimana model bernalar dan merespons, melampaui sekadar akuisisi pengetahuan hingga penyelarasan perilaku yang bernuansa. Yang penting, ini berjalan secara native di Amazon Bedrock, menghilangkan overhead infrastruktur – pengguna menentukan tugas, memberikan umpan balik, dan Bedrock mengelola sisanya.

Selain itu, NVIDIA Nemotron 3 Super, model hibrida Mixture-of-Experts (MoE) yang dibangun untuk beban kerja multi-agen dan penalaran yang diperluas, juga akan segera hadir di Amazon Bedrock. Direkayasa untuk membantu agen AI mempertahankan akurasi di seluruh alur kerja yang kompleks dan multi-langkah, Nemotron 3 Super akan mendukung berbagai kasus penggunaan yang mencakup keuangan, keamanan siber, ritel, dan pengembangan perangkat lunak. Ini menjanjikan inferensi yang cepat dan hemat biaya melalui API yang sepenuhnya terkelola, menyederhanakan penerapan agen AI yang canggih.

Berikut ringkasan pengumuman penting:

Fitur/Integrasi	Deskripsi	Manfaat Utama	Ketersediaan
Penerapan GPU	Lebih dari 1 juta GPU NVIDIA (arsitektur Blackwell, Rubin) di seluruh Wilayah AWS.	Skala komputasi masif untuk semua beban kerja AI/ML, AI agentik.	Mulai 2026
Instans Amazon EC2	Dukungan untuk GPU NVIDIA RTX PRO 4500 Blackwell Server Edition pada EC2.	Dukungan penyedia cloud besar pertama untuk AI serbaguna, grafis, analitik.	Segera hadir
Inferensi LLM	NVIDIA NIXL pada AWS EFA untuk inferensi LLM terdisagregasi yang dipercepat di seluruh GPU dan Trainium.	Latensi komunikasi diminimalkan, pemanfaatan GPU dimaksimalkan untuk LLM.	Diumumkan
Kinerja Apache Spark	Beban kerja Spark 3x lebih cepat pada Amazon EMR pada EKS dengan instans G7e (RTX PRO 6000).	Waktu yang lebih cepat untuk mendapatkan wawasan untuk analitik data, rekayasa fitur.	Diumumkan
Penyempurnaan Nemotron	Reinforcement Fine-Tuning (RFT) untuk model Nemotron secara langsung di Amazon Bedrock.	Penyelarasan perilaku model spesifik domain tanpa overhead infrastruktur.	Segera hadir
Nemotron 3 Super	Model MoE hibrida untuk beban kerja multi-agen dan penalaran yang diperluas di Amazon Bedrock.	Inferensi cepat, hemat biaya untuk tugas AI kompleks dan multi-langkah.	Segera hadir

Komitmen terhadap Efisiensi Energi dan AI yang Berkelanjutan

Seiring dengan terus bertumbuhnya beban kerja AI secara eksponensial, efisiensi dan keberlanjutan infrastruktur dasar menjadi sangat penting. Kolaborasi ini juga menyoroti komitmen bersama untuk meningkatkan efisiensi energi. Kinerja per watt bukan lagi hanya metrik keberlanjutan, tetapi keunggulan kompetitif yang signifikan dalam lanskap AI.

Pada NVIDIA GTC 2026, CSO Amazon Kara Hurst bergabung dengan para pemimpin keberlanjutan lainnya untuk membahas bagaimana AI secara fundamental mengubah energi dan infrastruktur perusahaan dalam skala besar. Diskusi ini menggarisbawahi fokus pada pengembangan dan penerapan solusi AI yang tidak hanya kuat tetapi juga bertanggung jawab terhadap lingkungan, mulai dari pusat data yang dioptimalkan sebagai peserta jaringan aktif hingga aplikasi AI perusahaan yang lebih luas. Pendekatan berpikir maju ini memastikan bahwa kemajuan dalam komputasi AI selaras dengan tujuan keberlanjutan global.

AWS, NVIDIA Pererat Kolaborasi AI untuk Mempercepat Produksi