What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA Tăng Cường Hợp Tác AI Để Đẩy Nhanh Sản Xuất Từ Thử Nghiệm Đến Thực Tế

AI đang thay đổi các ngành công nghiệp với tốc độ chưa từng có, nhưng giá trị thực sự không chỉ nằm ở việc thử nghiệm, mà còn ở việc triển khai và vận hành thành công các giải pháp AI trong môi trường sản xuất. Điều này đòi hỏi các hệ thống mạnh mẽ, có khả năng mở rộng, bảo mật và tuân thủ để mang lại kết quả kinh doanh cụ thể. Nhằm đáp ứng nhu cầu cấp thiết này, AWS và NVIDIA đã công bố một sự mở rộng đáng kể trong hợp tác chiến lược của họ tại NVIDIA GTC 2026, giới thiệu các tích hợp công nghệ mới được thiết kế để đáp ứng nhu cầu điện toán AI ngày càng tăng và đưa các giải pháp AI vào sản xuất thực tế.

Quan hệ đối tác sâu rộng này tập trung vào việc đẩy nhanh mọi khía cạnh của vòng đời AI, từ cơ sở hạ tầng đến triển khai mô hình. Các tích hợp này bao gồm các lĩnh vực quan trọng như điện toán tăng tốc, công nghệ kết nối tiên tiến, và tinh chỉnh cũng như suy luận mô hình được tối ưu hóa. Các thông báo chính bao gồm:

Việc triển khai hơn 1 triệu GPU NVIDIA trên các Khu vực AWS bắt đầu từ năm 2026.
Hỗ trợ Amazon EC2 cho GPU NVIDIA RTX PRO 4500 Blackwell Server Edition, đưa AWS trở thành nhà cung cấp đám mây lớn đầu tiên cung cấp dịch vụ này.
Tăng tốc kết nối cho suy luận Mô hình Ngôn ngữ Lớn (LLM) phân tách, tận dụng NVIDIA NIXL trên AWS Elastic Fabric Adapter (EFA).
Hiệu suất nhanh hơn gấp 3 lần đáng kể cho các khối lượng công việc Apache Spark bằng cách sử dụng Amazon EMR trên Amazon Elastic Kubernetes Service (Amazon EKS) với các phiên bản Amazon EC2 G7e, được cung cấp bởi GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.
Mở rộng hỗ trợ mô hình NVIDIA Nemotron trên Amazon Bedrock, bao gồm Tinh chỉnh Củng cố và mô hình Nemotron 3 Super.

Mở Rộng Quy Mô Cơ Sở Hạ Tầng AI với Sức Mạnh GPU NVIDIA Tăng Cường

Nền tảng của AI hiện đại nằm ở cơ sở hạ tầng điện toán mạnh mẽ. Bắt đầu từ năm 2026, AWS đang thực hiện một cam kết lớn lao đối với sự phát triển AI bằng cách bổ sung hơn 1 triệu GPU NVIDIA vào các khu vực đám mây toàn cầu của mình. Điều này bao gồm các kiến trúc GPU Blackwell và Rubin thế hệ tiếp theo, đảm bảo rằng khách hàng có quyền truy cập vào phần cứng tiên tiến nhất hiện có. AWS hiện đã tự hào có bộ sưu tập phiên bản dựa trên GPU NVIDIA rộng lớn nhất trong ngành, phục vụ nhiều khối lượng công việc AI/ML đa dạng, và sự mở rộng này càng củng cố vị thế dẫn đầu của họ.

Mối quan hệ đối tác lâu dài này, kéo dài hơn 15 năm, cũng mở rộng sang các lĩnh vực cơ sở hạ tầng quan trọng như mạng Spectrum. Mục tiêu là cung cấp cho các doanh nghiệp, công ty khởi nghiệp và nhà nghiên cứu cơ sở hạ tầng mạnh mẽ cần thiết để xây dựng và mở rộng quy mô các hệ thống AI tác tử tiên tiến—AI có khả năng suy luận, lập kế hoạch và hành động tự chủ trên các quy trình làm việc phức tạp.

Giới Thiệu Các Phiên Bản Amazon EC2 Mới và Đổi Mới Kết Nối

Một điểm nổi bật của sự hợp tác là các phiên bản Amazon EC2 sắp tới được tăng tốc bởi GPU NVIDIA RTX PRO 4500 Blackwell Server Edition. AWS tự hào là nhà cung cấp đám mây lớn đầu tiên công bố hỗ trợ các GPU mạnh mẽ này, giúp chúng có thể truy cập được cho nhiều tác vụ đòi hỏi khắt khe. Các phiên bản này lý tưởng cho phân tích dữ liệu, AI đàm thoại tinh vi, tạo nội dung động, hệ thống đề xuất nâng cao, phát trực tuyến video chất lượng cao và các khối lượng công việc đồ họa phức tạp.

Các phiên bản EC2 mới này sẽ được xây dựng trên Hệ thống AWS Nitro mạnh mẽ. Hệ thống Nitro, với sự kết hợp độc đáo giữa phần cứng chuyên dụng và trình ảo hóa nhẹ, cung cấp gần như toàn bộ tài nguyên tính toán và bộ nhớ của phần cứng máy chủ trực tiếp cho các phiên bản. Thiết kế này đảm bảo việc sử dụng tài nguyên và hiệu suất vượt trội. Điều quan trọng là, phần cứng, phần mềm và firmware chuyên biệt của Hệ thống Nitro được thiết kế để áp đặt các hạn chế nghiêm ngặt, bảo vệ các khối lượng công việc và dữ liệu AI nhạy cảm khỏi truy cập trái phép, ngay cả từ bên trong AWS. Khả năng thực hiện cập nhật firmware và tối ưu hóa trong khi vận hành của nó càng tăng cường bảo mật và độ ổn định cần thiết cho các khối lượng công việc AI, phân tích và đồ họa cấp độ sản xuất.

Nâng cao hơn nữa hiệu suất, đặc biệt đối với các mô hình AI lớn, là việc tăng tốc các kết nối cho suy luận LLM phân tách. Khi kích thước mô hình tiếp tục tăng, chi phí giao tiếp giữa các GPU hoặc các phiên bản AWS Trainium có thể trở thành một nút thắt đáng kể. AWS đã công bố hỗ trợ Thư viện Truyền Suy luận NVIDIA (NIXL) với Bộ điều hợp Vải đàn hồi AWS (EFA), được thiết kế để tăng tốc suy luận LLM phân tách trên Amazon EC2, bao gồm cả GPU NVIDIA và AWS Trainium. Sự tích hợp này rất quan trọng để mở rộng quy mô các khối lượng công việc AI hiện đại, cho phép chồng chéo hiệu quả giữa giao tiếp và tính toán, giảm thiểu độ trễ và tối đa hóa việc sử dụng GPU. Nó tạo điều kiện cho việc di chuyển dữ liệu KV-cache thông lượng cao, độ trễ thấp giữa các nút tính toán và tài nguyên bộ nhớ phân tán. NIXL với EFA tích hợp nguyên bản với các framework mã nguồn mở phổ biến như NVIDIA Dynamo, vLLM và SGLang, mang lại độ trễ giữa các token được cải thiện và việc sử dụng bộ nhớ KV-cache hiệu quả hơn.

Tăng Tốc Phân Tích Dữ Liệu với Amazon EMR và GPU

Các kỹ sư và nhà khoa học dữ liệu thường xuyên phải đối mặt với các đường ống xử lý dữ liệu dài có thể cản trở đáng kể quá trình lặp lại mô hình AI/ML và tạo ra thông tin kinh doanh. Sự hợp tác giữa AWS và NVIDIA mang lại một cải tiến đột phá: hiệu suất nhanh hơn gấp 3 lần cho các khối lượng công việc Apache Spark. Sự tăng tốc này đạt được bằng cách tận dụng Amazon EMR trên Amazon EKS với các phiên bản G7e, được cung cấp bởi GPU RTX PRO 6000 Blackwell Server Edition của NVIDIA.

Sự tăng hiệu suất đáng kể này là kết quả trực tiếp của các nỗ lực kỹ thuật chung tập trung vào việc tối ưu hóa phân tích tăng tốc GPU. Với Amazon EMR và các phiên bản G7e, các tổ chức có thể giảm đáng kể thời gian cần thiết cho kỹ thuật đặc trưng AI/ML, chuyển đổi ETL phức tạp và phân tích thời gian thực ở quy mô lớn. Khách hàng đang chạy các đường ống xử lý dữ liệu quy mô lớn có thể đạt được thời gian thu thập thông tin chuyên sâu nhanh hơn trong khi vẫn duy trì khả năng tương thích đầy đủ với các ứng dụng Spark hiện có của họ.

Mở Rộng Hỗ Trợ Mô Hình NVIDIA Nemotron trên Amazon Bedrock

AWS và NVIDIA cũng đang mở rộng hợp tác về các mô hình nền tảng, mang các mô hình NVIDIA Nemotron tiên tiến đến Amazon Bedrock.

Các nhà phát triển sẽ sớm có khả năng tinh chỉnh các mô hình NVIDIA Nemotron trực tiếp trên Amazon Bedrock bằng cách sử dụng Tinh chỉnh Củng cố (RFT). Đây là một yếu tố thay đổi cuộc chơi đối với các nhóm cần điều chỉnh hành vi mô hình theo các lĩnh vực cụ thể, dù là trong pháp lý, chăm sóc sức khỏe, tài chính hay các lĩnh vực chuyên biệt khác. RFT trao quyền cho người dùng định hình cách một mô hình suy luận và phản hồi, vượt ra ngoài việc chỉ thu nhận kiến thức để đạt được sự điều chỉnh hành vi tinh tế. Điều quan trọng là, điều này chạy nguyên bản trên Amazon Bedrock, loại bỏ chi phí cơ sở hạ tầng – người dùng xác định nhiệm vụ, cung cấp phản hồi và Bedrock quản lý phần còn lại.

Hơn nữa, NVIDIA Nemotron 3 Super, một mô hình Hybrid Mixture-of-Experts (MoE) được xây dựng cho các khối lượng công việc đa tác tử và suy luận mở rộng, cũng sẽ sớm có mặt trên Amazon Bedrock. Được thiết kế để giúp các tác tử AI duy trì độ chính xác trên các quy trình làm việc phức tạp, nhiều bước, Nemotron 3 Super sẽ thúc đẩy nhiều trường hợp sử dụng đa dạng trong các lĩnh vực tài chính, an ninh mạng, bán lẻ và phát triển phần mềm. Nó hứa hẹn suy luận nhanh chóng, tiết kiệm chi phí thông qua một API được quản lý hoàn toàn, đơn giản hóa việc triển khai các tác tử AI tinh vi.

Dưới đây là tóm tắt các thông báo chính:

Tính năng/Tích hợp	Mô tả	Lợi ích chính	Thời gian có sẵn
Triển khai GPU	Hơn 1 triệu GPU NVIDIA (kiến trúc Blackwell, Rubin) trên các Khu vực AWS.	Quy mô tính toán khổng lồ cho tất cả các khối lượng công việc AI/ML, AI tác tử.	Bắt đầu năm 2026
Phiên bản Amazon EC2	Hỗ trợ GPU NVIDIA RTX PRO 4500 Blackwell Server Edition trên EC2.	AWS là nhà cung cấp đám mây lớn đầu tiên hỗ trợ AI đa năng, đồ họa, phân tích.	Sắp ra mắt
Suy luận LLM	NVIDIA NIXL trên AWS EFA để tăng tốc suy luận LLM phân tách trên GPU và Trainium.	Giảm thiểu độ trễ giao tiếp, tối đa hóa việc sử dụng GPU cho LLM.	Đã công bố
Hiệu suất Apache Spark	Tăng tốc khối lượng công việc Spark nhanh hơn gấp 3 lần trên Amazon EMR trên EKS với các phiên bản G7e (RTX PRO 6000).	Tăng tốc thời gian thu thập thông tin chuyên sâu cho phân tích dữ liệu, kỹ thuật đặc trưng.	Đã công bố
Tinh chỉnh Nemotron	Tinh chỉnh Củng cố (RFT) cho các mô hình Nemotron trực tiếp trên Amazon Bedrock.	Điều chỉnh hành vi mô hình theo lĩnh vực cụ thể mà không cần chi phí cơ sở hạ tầng.	Sắp ra mắt
Nemotron 3 Super	Mô hình MoE lai cho các khối lượng công việc đa tác tử và suy luận mở rộng trên Amazon Bedrock.	Suy luận nhanh chóng, tiết kiệm chi phí cho các tác vụ AI phức tạp, nhiều bước.	Sắp ra mắt

Cam Kết về Hiệu Quả Năng Lượng và AI Bền Vững

Khi các khối lượng công việc AI tiếp tục tăng trưởng theo cấp số nhân, hiệu quả và tính bền vững của cơ sở hạ tầng cơ bản trở nên tối quan trọng. Sự hợp tác này cũng nhấn mạnh một cam kết chung nhằm cải thiện hiệu quả năng lượng. Hiệu suất trên mỗi watt không còn chỉ là một chỉ số bền vững mà còn là một lợi thế cạnh tranh đáng kể trong bối cảnh AI.

Tại NVIDIA GTC 2026, Giám đốc Phát triển Bền vững (CSO) của Amazon, bà Kara Hurst, đã cùng các nhà lãnh đạo bền vững khác thảo luận về cách AI đang thay đổi cơ bản năng lượng và cơ sở hạ tầng doanh nghiệp ở quy mô lớn. Cuộc thảo luận này nhấn mạnh sự tập trung vào việc phát triển và triển khai các giải pháp AI không chỉ mạnh mẽ mà còn có trách nhiệm với môi trường, từ các trung tâm dữ liệu được tối ưu hóa như những người tham gia lưới điện tích cực đến các ứng dụng AI doanh nghiệp rộng lớn hơn. Cách tiếp cận tiên tiến này đảm bảo rằng những tiến bộ trong điện toán AI phù hợp với các mục tiêu bền vững toàn cầu.

AWS, NVIDIA Tăng Cường Hợp Tác AI Để Đẩy Nhanh Sản Xuất