What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA, AI 협력 심화로 파일럿에서 프로덕션까지 가속화

AI는 전례 없는 속도로 산업을 변화시키고 있지만, 진정한 가치는 실험에만 있는 것이 아니라 AI 솔루션을 프로덕션 환경에 성공적으로 배포하고 운영하는 데 있습니다. 이를 위해서는 실질적인 비즈니스 성과를 제공하는 강력하고 확장 가능하며 안전하고 규정을 준수하는 시스템이 필요합니다. 이러한 중요한 요구 사항을 해결하기 위해 AWS와 NVIDIA는 NVIDIA GTC 2026에서 전략적 협력의 대폭 확장을 발표했으며, AI 컴퓨팅에 대한 증가하는 수요를 충족하고 AI 솔루션을 실제 프로덕션으로 추진하기 위해 설계된 새로운 기술 통합을 공개했습니다.

심화된 파트너십은 인프라에서 모델 배포에 이르기까지 AI 라이프사이클의 모든 측면을 가속화하는 데 중점을 둡니다. 이러한 통합은 가속 컴퓨팅, 고급 상호 연결 기술, 간소화된 모델 미세 조정 및 추론을 포함한 중요한 영역에 걸쳐 있습니다. 주요 발표 내용은 다음과 같습니다.

2026년부터 AWS 리전에 1백만 개 이상의 NVIDIA GPU 배포.
Amazon EC2에서 NVIDIA RTX PRO 4500 Blackwell Server Edition GPU 지원, AWS는 이를 제공하는 최초의 주요 클라우드 제공업체.
AWS Elastic Fabric Adapter (EFA)에서 NVIDIA NIXL을 활용한 분산형 대규모 언어 모델 (LLM) 추론을 위한 상호 연결 가속화.
NVIDIA RTX PRO 6000 Blackwell Server Edition GPU로 구동되는 Amazon EC2 G7e 인스턴스와 함께 Amazon Elastic Kubernetes Service (Amazon EKS)의 Amazon EMR을 사용하여 Apache Spark 워크로드에서 3배 더 빠른 극적인 성능 향상.
강화 미세 조정(Reinforcement Fine-Tuning) 및 Nemotron 3 Super 모델을 포함하여 Amazon Bedrock에서 NVIDIA Nemotron 모델 지원 확장.

강화된 NVIDIA GPU 성능으로 AI 인프라 확장

현대 AI의 기반은 강력한 컴퓨팅 인프라에 있습니다. 2026년부터 AWS는 1백만 개 이상의 NVIDIA GPU를 글로벌 클라우드 리전에 추가함으로써 AI 발전에 기념비적인 약속을 하고 있습니다. 여기에는 차세대 Blackwell 및 Rubin GPU 아키텍처가 포함되어 고객이 사용 가능한 가장 진보된 하드웨어에 액세스할 수 있도록 합니다. AWS는 이미 다양한 AI/ML 워크로드를 지원하는 업계에서 가장 광범위한 NVIDIA GPU 기반 인스턴스 컬렉션을 자랑하며, 이러한 확장은 선도적인 입지를 더욱 확고히 합니다.

15년 이상 지속된 이 오랜 파트너십은 Spectrum 네트워킹과 같은 중요한 인프라 영역으로도 확장됩니다. 목표는 기업, 스타트업 및 연구원에게 복잡한 워크플로우 전반에 걸쳐 자율적인 추론, 계획 및 행동이 가능한 고급 에이전트 AI 시스템을 구축하고 확장하는 데 필요한 강력한 인프라를 제공하는 것입니다.

새로운 Amazon EC2 인스턴스 및 상호 연결 혁신 소개

이번 협력의 주요 내용은 NVIDIA RTX PRO 4500 Blackwell Server Edition GPU로 가속화되는 곧 출시될 Amazon EC2 인스턴스입니다. AWS는 이러한 강력한 GPU에 대한 지원을 발표하는 최초의 주요 클라우드 제공업체임을 자랑스럽게 생각하며, 이를 통해 다양한 까다로운 작업을 위한 접근성을 높입니다. 이러한 인스턴스는 데이터 분석, 정교한 대화형 AI, 동적 콘텐츠 생성, 고급 추천 시스템, 고품질 비디오 스트리밍 및 복잡한 그래픽 워크로드에 이상적으로 적합합니다.

이 새로운 EC2 인스턴스는 강력한 AWS Nitro System을 기반으로 구축될 예정입니다. Nitro System은 전용 하드웨어와 경량 하이퍼바이저의 고유한 조합을 통해 호스트 하드웨어의 컴퓨팅 및 메모리 리소스 거의 전부를 인스턴스에 직접 제공합니다. 이 설계는 우수한 리소스 활용률과 성능을 보장합니다. 무엇보다도 Nitro System의 특수 하드웨어, 소프트웨어 및 펌웨어는 엄격한 제한을 적용하여 AWS 내부에서조차 무단 액세스로부터 민감한 AI 워크로드 및 데이터를 보호하도록 설계되었습니다. 운영 중 펌웨어 업데이트 및 최적화를 수행하는 능력은 프로덕션급 AI, 분석 및 그래픽 워크로드에 필수적인 보안 및 안정성을 더욱 향상시킵니다.

특히 대규모 AI 모델의 성능을 더욱 향상시키는 것은 분산형 LLM 추론을 위한 상호 연결 가속화입니다. 모델 크기가 계속 커짐에 따라 GPU 또는 AWS Trainium 인스턴스 간의 통신 오버헤드가 상당한 병목 현상이 될 수 있습니다. AWS는 NVIDIA Inference Xfer Library (NIXL)와 AWS Elastic Fabric Adapter (EFA) 지원을 발표했습니다. 이는 NVIDIA GPU와 AWS Trainium 모두에서 Amazon EC2의 분산형 LLM 추론을 가속화하도록 설계되었습니다. 이 통합은 최신 AI 워크로드를 확장하고, 통신과 계산의 효율적인 중첩을 가능하게 하며, 지연 시간을 최소화하고 GPU 활용률을 극대화하는 데 필수적입니다. 이는 컴퓨팅 노드와 분산 메모리 리소스 간에 고처리량, 저지연 KV-캐시 데이터 이동을 용이하게 합니다. EFA와 함께 NIXL은 NVIDIA Dynamo, vLLM, SGLang과 같은 인기 있는 오픈소스 프레임워크와 기본적으로 통합되어 토큰 간 지연 시간을 개선하고 KV-캐시 메모리 활용률을 더욱 효율적으로 만듭니다.

Amazon EMR 및 GPU로 데이터 분석 가속화

데이터 엔지니어와 과학자는 AI/ML 모델 반복 및 비즈니스 인텔리전스 생성에 상당한 지장을 줄 수 있는 긴 데이터 처리 파이프라인으로 자주 어려움을 겪습니다. AWS와 NVIDIA의 협력은 Apache Spark 워크로드에서 3배 더 빠른 성능이라는 획기적인 개선을 제공합니다. 이 가속화는 NVIDIA의 RTX PRO 6000 Blackwell Server Edition GPU로 구동되는 G7e 인스턴스를 통해 Amazon EKS의 Amazon EMR을 활용하여 달성됩니다.

이러한 상당한 성능 향상은 GPU 가속 분석 최적화에 중점을 둔 공동 엔지니어링 노력의 직접적인 결과입니다. Amazon EMR 및 G7e 인스턴스를 통해 조직은 AI/ML 특징 엔지니어링, 복잡한 ETL 변환 및 대규모 실시간 분석에 필요한 시간을 크게 단축할 수 있습니다. 대규모 데이터 처리 파이프라인을 운영하는 고객은 기존 Spark 애플리케이션과의 완벽한 호환성을 유지하면서 인사이트 도출 시간을 단축할 수 있습니다.

Amazon Bedrock에서 NVIDIA Nemotron 모델 지원 확장

AWS와 NVIDIA는 또한 파운데이션 모델에 대한 협력을 확장하여, 고급 NVIDIA Nemotron 모델을 Amazon Bedrock에 도입하고 있습니다.

개발자들은 곧 강화 미세 조정(RFT)을 사용하여 Amazon Bedrock에서 NVIDIA Nemotron 모델을 직접 미세 조정할 수 있게 될 것입니다. 이는 법률, 의료, 금융 또는 기타 전문 분야에서 특정 도메인에 맞게 모델 동작을 조정해야 하는 팀에게는 판도를 바꾸는 요소입니다. RFT는 사용자가 모델이 추론하고 응답하는 방식을 형성하여 단순한 지식 습득을 넘어 미묘한 행동 정렬을 가능하게 합니다. 결정적으로, 이는 Amazon Bedrock에서 기본적으로 실행되어 인프라 오버헤드를 제거합니다. 사용자는 작업을 정의하고 피드백을 제공하며, Bedrock이 나머지를 관리합니다.

또한, 다중 에이전트 워크로드 및 확장된 추론을 위해 구축된 하이브리드 MoE(Mixture-of-Experts) 모델인 NVIDIA Nemotron 3 Super도 곧 Amazon Bedrock에 출시될 예정입니다. 복잡한 다단계 워크플로우 전반에 걸쳐 AI 에이전트가 정확도를 유지하도록 돕기 위해 설계된 Nemotron 3 Super는 금융, 사이버 보안, 소매 및 소프트웨어 개발을 포함한 다양한 사용 사례를 지원할 것입니다. 이는 완전 관리형 API를 통해 빠르고 비용 효율적인 추론을 약속하며, 정교한 AI 에이전트의 배포를 간소화합니다.

주요 발표 요약은 다음과 같습니다.

기능/통합	설명	주요 이점	출시 시기
GPU 배포	AWS 리전에 1백만 개 이상의 NVIDIA GPU (Blackwell, Rubin 아키텍처) 배포.	모든 AI/ML 워크로드, 에이전트 AI를 위한 대규모 컴퓨팅 확장.	2026년부터
Amazon EC2 인스턴스	EC2에서 NVIDIA RTX PRO 4500 Blackwell Server Edition GPU 지원.	다목적 AI, 그래픽, 분석을 위한 최초의 주요 클라우드 제공업체 지원.	출시 예정
LLM 추론	GPU 및 Trainium 전반에서 가속화된 분산형 LLM 추론을 위한 AWS EFA의 NVIDIA NIXL.	LLM을 위한 통신 지연 최소화, GPU 활용률 극대화.	발표됨
Apache Spark 성능	G7e 인스턴스(RTX PRO 6000)를 사용한 EKS의 Amazon EMR에서 3배 더 빠른 Spark 워크로드.	데이터 분석, 특징 엔지니어링을 위한 인사이트 도출 시간 단축.	발표됨
Nemotron 미세 조정	Amazon Bedrock에서 Nemotron 모델을 위한 강화 미세 조정(RFT).	인프라 오버헤드 없이 도메인별 모델 동작 정렬.	출시 예정
Nemotron 3 Super	Amazon Bedrock에서 다중 에이전트 워크로드 및 확장된 추론을 위한 하이브리드 MoE 모델.	복잡한 다단계 AI 작업을 위한 빠르고 비용 효율적인 추론.	출시 예정

에너지 효율성 및 지속 가능한 AI에 대한 약속

AI 워크로드가 기하급수적으로 증가함에 따라 기본 인프라의 효율성과 지속 가능성이 매우 중요해지고 있습니다. 이번 협력은 또한 에너지 효율성 향상에 대한 공동의 약속을 강조합니다. 와트당 성능은 더 이상 단순한 지속 가능성 지표가 아니라 AI 환경에서 상당한 경쟁 우위입니다.

NVIDIA GTC 2026에서 Amazon CSO인 Kara Hurst는 다른 지속 가능성 리더들과 함께 AI가 기업 에너지 및 인프라를 대규모로 어떻게 근본적으로 변화시키고 있는지 논의했습니다. 이 논의는 강력할 뿐만 아니라 환경적으로도 책임감 있는 AI 솔루션 개발 및 배포에 중점을 둡니다. 이는 능동적인 그리드 참여자로 최적화된 데이터 센터부터 더 광범위한 엔터프라이즈 AI 애플리케이션에 이르기까지 모든 것을 포함합니다. 이러한 미래 지향적인 접근 방식은 AI 컴퓨팅의 발전이 글로벌 지속 가능성 목표와 일치하도록 보장합니다.

AWS, NVIDIA, AI 협력 심화로 파일럿에서 프로덕션까지 가속화

AWS, NVIDIA, AI 협력 심화로 파일럿에서 프로덕션까지 가속화

강화된 NVIDIA GPU 성능으로 AI 인프라 확장

새로운 Amazon EC2 인스턴스 및 상호 연결 혁신 소개

Amazon EMR 및 GPU로 데이터 분석 가속화

Amazon Bedrock에서 NVIDIA Nemotron 모델 지원 확장

에너지 효율성 및 지속 가능한 AI에 대한 약속

자주 묻는 질문

최신 소식 받기