What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWSとNVIDIA、AIコラボレーションを深化させ、パイロットから本番稼働へ加速

AIは前例のないペースで産業を変革していますが、その真の価値は単なる実験ではなく、AIソリューションを本番環境に成功裏に展開し運用することにあります。これには、具体的なビジネス成果をもたらす堅牢でスケーラブル、セキュア、そしてコンプライアンスに準拠したシステムが求められます。この重要なニーズに対応するため、AWSとNVIDIAはNVIDIA GTC 2026で戦略的コラボレーションの大幅な拡大を発表し、AIコンピューティングへの高まる需要に対応し、AIソリューションを実際の運用に推進するために設計された新しい技術統合を公開しました。

この深化されたパートナーシップは、インフラストラクチャからモデルの展開に至るまで、AIライフサイクルのあらゆる側面を加速することに焦点を当てています。これらの統合は、アクセラレーテッドコンピューティング、高度なインターコネクト技術、合理化されたモデルのファインチューニングと推論といった重要な領域に及びます。主な発表内容は以下の通りです。

2026年からAWSリージョン全体で100万台以上のNVIDIA GPUを展開。
Amazon EC2でのNVIDIA RTX PRO 4500 Blackwell Server Edition GPUのサポート。AWSはこれを最初に提供する主要なクラウドプロバイダーとなります。
AWS Elastic Fabric Adapter (EFA) 上でNVIDIA NIXLを活用した、分散型大規模言語モデル (LLM) 推論のためのインターコネクト高速化。
NVIDIA RTX PRO 6000 Blackwell Server Edition GPUを搭載したAmazon EC2 G7eインスタンスとAmazon Elastic Kubernetes Service (Amazon EKS) 上のAmazon EMRを使用することで、Apache Sparkワークロードのパフォーマンスを劇的に3倍高速化。
Reinforcement Fine-TuningとNemotron 3 Superモデルを含む、Amazon BedrockでのNVIDIA Nemotronモデルサポートの拡大。

強化されたNVIDIA GPUパワーによるAIインフラストラクチャのスケーリング

現代のAIの基盤は、強力なコンピューティングインフラストラクチャにあります。2026年から、AWSは、次世代のBlackwellおよびRubin GPUアーキテクチャを含む100万台以上のNVIDIA GPUをグローバルクラウドリージョンに追加することで、AIの進歩に対する記念碑的なコミットメントを行います。これにより、顧客は利用可能な最も先進的なハードウェアにアクセスできるようになります。AWSはすでに、多様なAI/MLワークロードに対応するNVIDIA GPUベースのインスタンスの業界で最も広範なコレクションを誇っており、この拡張はリーダーシップをさらに確固たるものにします。

15年以上にわたるこの長年のパートナーシップは、Spectrumネットワーキングのような重要なインフラストラクチャ領域にも及びます。目的は、企業、スタートアップ、研究者に、高度なエージェントAIシステム（複雑なワークフロー全体で自律的な推論、計画、行動が可能なAI）を構築し、スケールするために必要な堅牢なインフラストラクチャを提供することです。

新しいAmazon EC2インスタンスとインターコネクトのイノベーションの導入

このコラボレーションのハイライトの1つは、NVIDIA RTX PRO 4500 Blackwell Server Edition GPUによって加速される今後登場するAmazon EC2インスタンスです。AWSは、これらの強力なGPUのサポートを発表する最初の主要なクラウドプロバイダーであることを誇りに思い、幅広い要求の厳しいタスクで利用可能にします。これらのインスタンスは、データ分析、高度な対話型AI、動的なコンテンツ生成、高度なレコメンダーシステム、高品質なビデオストリーミング、および複雑なグラフィックスワークロードに最適です。

これらの新しいEC2インスタンスは、堅牢なAWS Nitro System上に構築されます。Nitro Systemは、専用のハードウェアと軽量ハイパーバイザーの独自の組み合わせにより、ホストハードウェアのほぼすべてのコンピューティングリソースとメモリリソースをインスタンスに直接提供します。この設計により、優れたリソース使用率とパフォーマンスが保証されます。特に重要なのは、Nitro Systemの専用ハードウェア、ソフトウェア、ファームウェアが厳格な制限を強制するように設計されており、AWS内部からであっても、機密性の高いAIワークロードとデータを不正アクセスから保護することです。運用中にファームウェアの更新と最適化を実行できる機能は、本番レベルのAI、分析、グラフィックスワークロードに不可欠なセキュリティと安定性をさらに強化します。

特に大規模なAIモデルのパフォーマンスをさらに向上させるのは、分散型LLM推論のためのインターコネクトの高速化です。モデルサイズが拡大し続けるにつれて、GPUまたはAWS Trainiumインスタンス間の通信オーバーヘッドが重大なボトルネックとなる可能性があります。AWSは、NVIDIA GPUとAWS Trainiumの両方でAmazon EC2における分散型LLM推論を加速するように設計された、AWS Elastic Fabric Adapter (EFA) とのNVIDIA Inference Xfer Library (NIXL) のサポートを発表しました。この統合は、現代のAIワークロードをスケーリングするために不可欠であり、通信と計算の効率的なオーバーラップを可能にし、レイテンシを最小限に抑え、GPUの使用率を最大化します。これにより、コンピューティングノードと分散メモリリソース間の高スループット、低レイテンシのKVキャッシュデータ移動が容易になります。NIXLとEFAは、NVIDIA Dynamo、vLLM、SGLangなどの人気のあるオープンソースフレームワークとネイティブに統合され、トークン間のレイテンシを改善し、KVキャッシュメモリの利用効率を高めます。

Amazon EMRとGPUによるデータ分析の高速化

データエンジニアや科学者は、AI/MLモデルのイテレーションやビジネスインテリジェンスの生成を著しく妨げる可能性のある長時間のデータ処理パイプラインに頻繁に取り組んでいます。AWSとNVIDIAのコラボレーションは、画期的な改善をもたらします。Apache Sparkワークロードのパフォーマンスが3倍高速化されます。この高速化は、NVIDIAのRTX PRO 6000 Blackwell Server Edition GPUを搭載したG7eインスタンスとAmazon Elastic Kubernetes Service (Amazon EKS) 上のAmazon EMRを活用することで実現されます。

この大幅なパフォーマンス向上は、GPUアクセラレーテッド分析の最適化に焦点を当てた共同エンジニアリング努力の直接的な結果です。Amazon EMRとG7eインスタンスを使用することで、組織はAI/ML特徴量エンジニアリング、複雑なETL変換、大規模なリアルタイム分析に必要な時間を劇的に短縮できます。大規模なデータ処理パイプラインを実行している顧客は、既存のSparkアプリケーションとの完全な互換性を維持しながら、インサイト取得までの時間を短縮できます。

Amazon BedrockでのNVIDIA Nemotronモデルサポートの拡大

AWSとNVIDIAは、基盤モデルに関するコラボレーションも拡大し、高度なNVIDIA NemotronモデルをAmazon Bedrockに提供します。

開発者はまもなく、Reinforcement Fine-Tuning (RFT) を使用してAmazon BedrockでNVIDIA Nemotronモデルを直接ファインチューニングする機能を利用できるようになります。これは、法務、ヘルスケア、金融、その他の専門分野など、特定のドメインにモデルの動作を調整する必要があるチームにとって画期的なことです。RFTを使用すると、ユーザーはモデルがどのように推論し応答するかを形成でき、単なる知識習得を超えて微妙な行動のアラインメントを実現します。重要なことに、これはAmazon Bedrock上でネイティブに実行されるため、インフラストラクチャのオーバーヘッドが不要になります。ユーザーはタスクを定義し、フィードバックを提供すれば、残りはBedrockが管理します。

さらに、マルチエージェントワークロードと拡張推論のために構築されたハイブリッドMixture-of-Experts (MoE) モデルであるNVIDIA Nemotron 3 SuperもまもなくAmazon Bedrockに登場します。AIエージェントが複雑な多段階ワークフロー全体で精度を維持できるように設計されたNemotron 3 Superは、金融、サイバーセキュリティ、小売、ソフトウェア開発にわたる多様なユースケースを強化します。これは、フルマネージドAPIを介して高速で費用対効果の高い推論を約束し、洗練されたAIエージェントの展開を簡素化します。

主な発表内容の概要は以下の通りです。

機能/統合	説明	主なメリット	提供開始時期
GPU展開	AWSリージョン全体で100万台以上のNVIDIA GPU（Blackwell、Rubinアーキテクチャ）。	すべてのAI/MLワークロード、エージェントAI向けの大規模なコンピューティングスケール。	2026年から
Amazon EC2インスタンス	EC2でのNVIDIA RTX PRO 4500 Blackwell Server Edition GPUのサポート。	多様なAI、グラフィックス、分析のための最初の主要なクラウドプロバイダーサポート。	近日公開
LLM推論	GPUおよびTrainium全体での分散型LLM推論を高速化するためのAWS EFA上のNVIDIA NIXL。	LLM向けに通信レイテンシを最小化し、GPU使用率を最大化。	発表済み
Apache Sparkパフォーマンス	G7eインスタンス（RTX PRO 6000）を搭載したEKS上のAmazon EMRでSparkワークロードが3倍高速化。	データ分析、特徴量エンジニアリングのインサイト取得時間を短縮。	発表済み
Nemotronファインチューニング	Amazon BedrockでNemotronモデルのReinforcement Fine-Tuning (RFT) を直接実行。	インフラストラクチャのオーバーヘッドなしでドメイン固有のモデル動作アラインメント。	近日公開
Nemotron 3 Super	Amazon Bedrock上のマルチエージェントワークロードと拡張推論のためのハイブリッドMoEモデル。	複雑な多段階AIタスクのための高速で費用対効果の高い推論。	近日公開

エネルギー効率と持続可能なAIへのコミットメント

AIワークロードが指数関数的に増加し続けるにつれて、基盤となるインフラストラクチャの効率性と持続可能性が最重要課題となります。このコラボレーションは、エネルギー効率の向上に対する共通のコミットメントも強調しています。ワットあたりのパフォーマンスは、もはや単なる持続可能性の指標ではなく、AIランドスケープにおける重要な競争優位性となっています。

NVIDIA GTC 2026では、AmazonのCSOであるKara Hurstが他の持続可能性リーダーとともに、AIがいかに企業のエネルギーとインフラを大規模に変革しているかについて議論しました。この議論は、アクティブグリッド参加者として最適化されたデータセンターから、より広範なエンタープライズAIアプリケーションに至るまで、強力であるだけでなく環境に配慮したAIソリューションの開発と展開に焦点を当てていることを強調しています。この先進的なアプローチにより、AIコンピューティングの進歩が世界の持続可能性目標と整合することが保証されます。

AWSとNVIDIA、AIコラボレーションを深化させ、本番稼働を加速