What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS e NVIDIA Aprofundam Colaboração em IA para Acelerar a Produção

title: "AWS e NVIDIA Aprofundam Colaboração em IA para Acelerar a Produção" slug: "aws-and-nvidia-deepen-strategic-collaboration-to-accelerate-ai-from-pilot-to-production" date: "2026-03-18" lang: "pt" source: "https://aws.amazon.com/blogs/machine-learning/aws-and-nvidia-deepen-strategic-collaboration-to-accelerate-ai-from-pilot-to-production/" category: "IA Empresarial" keywords:

AWS
NVIDIA
aceleração de IA
GTC 2026
GPU
Amazon EC2
Amazon Bedrock
Nemotron
inferência de LLM
EFA
Apache Spark
IA Empresarial
IA em Produção
Aprendizado de Máquina meta_description: "AWS e NVIDIA aprofundam sua colaboração estratégica na GTC 2026, anunciando grandes integrações para acelerar a IA do piloto à produção, incluindo implantações expandidas de GPU, novas instâncias EC2 e suporte ao modelo Nemotron no Amazon Bedrock." image: "/images/articles/aws-and-nvidia-deepen-strategic-collaboration-to-accelerate-ai-from-pilot-to-production.png" image_alt: "Logotipos da AWS e NVIDIA exibidos proeminentemente, simbolizando sua colaboração estratégica expandida para aceleração e inovação em IA." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS
NVIDIA schema_type: "NewsArticle" reading_time: 5 faq:
question: "Qual é o objetivo principal da colaboração estratégica expandida entre AWS e NVIDIA?" answer: "A colaboração visa acelerar a transição de soluções de IA das fases experimentais para ambientes de produção em larga escala. Isso envolve a integração de novas tecnologias e a expansão das capacidades existentes em computação acelerada, tecnologias de interconexão, ajuste fino de modelos e inferência. O foco é capacitar os clientes a construir e executar soluções de IA que sejam confiáveis, de alto desempenho em escala e em conformidade com os requisitos de segurança e regulamentação empresariais, impulsionando, em última análise, resultados de negócios significativos por meio de sistemas de IA prontos para produção."
question: "Quais expansões significativas na infraestrutura de GPU estão sendo planejadas pela AWS como parte desta colaboração?" answer: "A partir de 2026, a AWS planeja implantar mais de 1 milhão de GPUs NVIDIA, incluindo as arquiteturas Blackwell e Rubin de próxima geração, em suas regiões de nuvem globais. Esta expansão massiva solidifica a posição da AWS como um provedor líder de instâncias baseadas em GPU NVIDIA, oferecendo a mais ampla coleção para diversas cargas de trabalho de IA/ML. Esta capacidade aprimorada é crucial para suportar a crescente demanda por computação de IA, particularmente para sistemas de IA agentivos complexos que exigem extenso poder computacional."
question: "Como as novas instâncias Amazon EC2 com GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition beneficiarão os usuários?" answer: "A AWS é o primeiro grande provedor de nuvem a suportar as GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition em instâncias Amazon EC2. Essas instâncias são altamente versáteis, adequadas para um amplo espectro de cargas de trabalho, como análise de dados, IA conversacional, geração de conteúdo, sistemas de recomendação, streaming de vídeo e renderização gráfica avançada. Construídas no AWS Nitro System, elas oferecem eficiência de recursos aprimorada, segurança robusta e estabilidade, proporcionando desempenho superior para aplicações exigentes de IA e gráficos."
question: "Como a integração da NVIDIA NIXL com AWS EFA aprimora a inferência de Large Language Model (LLM)?" answer: "A integração da NVIDIA Inference Xfer Library (NIXL) com o AWS Elastic Fabric Adapter (EFA) foi projetada para acelerar a inferência de LLM desagregada no Amazon EC2, tanto em GPUs NVIDIA quanto em instâncias AWS Trainium. Isso é fundamental para gerenciar a sobrecarga de comunicação em grandes modelos, permitindo a sobreposição eficiente de comunicação e computação, minimizando a latência e maximizando a utilização da GPU. Facilita o movimento de dados de KV-cache de alta taxa de transferência e baixa latência e integra-se nativamente com frameworks de código aberto populares como NVIDIA Dynamo, vLLM e SGLang."
question: "Quais melhorias estão sendo feitas no desempenho do Apache Spark para análise de dados?" answer: "Os esforços conjuntos de engenharia da AWS e NVIDIA resultaram em um desempenho 3x mais rápido para cargas de trabalho do Apache Spark. Isso é alcançado combinando Amazon EMR no Amazon EKS com instâncias G7e, alimentadas por GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Essa aceleração significativa permite que engenheiros e cientistas de dados acelerem o tempo até o insight para tarefas críticas como engenharia de recursos de IA/ML, transformações ETL complexas e análise em tempo real, mantendo total compatibilidade com os aplicativos Spark existentes."
question: "Que suporte expandido ao modelo NVIDIA Nemotron está chegando ao Amazon Bedrock?" answer: "O Amazon Bedrock em breve suportará o ajuste fino de modelos NVIDIA Nemotron diretamente usando Reinforcement Fine-Tuning (RFT). Essa capacidade permite que os desenvolvedores alinhem precisamente o comportamento do modelo a domínios específicos como jurídico, saúde ou finanças, sem sobrecarga de infraestrutura. Além disso, o NVIDIA Nemotron 3 Super, um modelo híbrido Mixture-of-Experts (MoE) otimizado para cargas de trabalho multiagente e raciocínio estendido, também estará disponível no Amazon Bedrock, fornecendo inferência rápida e econômica por meio de uma API totalmente gerenciada para tarefas complexas de IA de múltiplas etapas."
question: "Como essa colaboração aborda a eficiência energética e a sustentabilidade em IA?" answer: "A colaboração reconhece a crescente importância da eficiência energética à medida que as cargas de trabalho de IA aumentam. O desempenho por watt é destacado não apenas como uma métrica de sustentabilidade, mas como uma vantagem competitiva. O artigo aponta para uma sessão da GTC da NVIDIA onde líderes de sustentabilidade, incluindo a CSO da Amazon, Kara Hurst, discutem como a IA está transformando a energia e a infraestrutura empresarial, enfatizando os esforços para práticas de IA mais sustentáveis, desde data centers até aplicações mais amplas de IA empresarial."


# AWS e NVIDIA Aprofundam Colaboração em IA para Acelerar a Produção do Piloto à Produção

A IA está transformando indústrias em um ritmo sem precedentes, mas o verdadeiro valor reside não apenas na experimentação, mas no sucesso da implantação e operação de soluções de IA em ambientes de produção. Isso exige sistemas robustos, escaláveis, seguros e em conformidade que entreguem resultados de negócios tangíveis. Abordando essa necessidade crítica, AWS e NVIDIA anunciaram uma expansão significativa de sua colaboração estratégica na NVIDIA GTC 2026, revelando novas integrações tecnológicas projetadas para atender à crescente demanda por computação de IA e impulsionar as soluções de IA para a produção no mundo real.

A parceria aprofundada concentra-se em acelerar todas as facetas do ciclo de vida da IA, desde a infraestrutura até a implantação de modelos. Essas integrações abrangem áreas cruciais, incluindo computação acelerada, tecnologias avançadas de interconexão e ajuste fino e inferência de modelos otimizados. Os principais anúncios incluem:

*   A implantação de mais de 1 milhão de GPUs NVIDIA em todas as Regiões AWS a partir de 2026.
*   Suporte do Amazon EC2 para GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition, tornando a AWS o primeiro grande provedor de nuvem a oferecer isso.
*   Aceleração de interconexão para inferência de Large Language Model (LLM) desagregada, aproveitando NVIDIA NIXL no AWS Elastic Fabric Adapter (EFA).
*   Um desempenho 3x mais rápido para cargas de trabalho do Apache Spark usando Amazon EMR no Amazon Elastic Kubernetes Service (Amazon EKS) com instâncias Amazon EC2 G7e, alimentadas por GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition.
*   Suporte expandido ao modelo NVIDIA Nemotron no Amazon Bedrock, incluindo Reinforcement Fine-Tuning e o modelo Nemotron 3 Super.

## Escalando a Infraestrutura de IA com Poder Aprimorado de GPU NVIDIA

A base da IA moderna reside em uma poderosa infraestrutura de computação. A partir de 2026, a AWS está assumindo um compromisso monumental com o avanço da IA, adicionando mais de 1 milhão de GPUs NVIDIA às suas regiões de nuvem globais. Isso inclui as arquiteturas de GPU Blackwell e Rubin de próxima geração, garantindo que os clientes tenham acesso ao hardware mais avançado disponível. A AWS já possui a mais ampla coleção de instâncias baseadas em GPU NVIDIA da indústria, atendendo a uma gama diversificada de cargas de trabalho de IA/ML, e essa expansão solidifica ainda mais sua liderança.

Esta parceria de longa data, que abrange mais de 15 anos, também se estende a áreas cruciais de infraestrutura, como redes Spectrum. O objetivo é fornecer a empresas, startups e pesquisadores a infraestrutura robusta necessária para construir e escalar [sistemas de IA Agentivos](/pt/operationalizing-agentic-ai-part-1-a-stakeholders-guide) avançados – IA capaz de raciocínio autônomo, planejamento e ação em fluxos de trabalho complexos.

## Apresentando Novas Instâncias Amazon EC2 e Inovações em Interconexão

Um destaque da colaboração são as futuras instâncias Amazon EC2 aceleradas por GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition. A AWS tem orgulho de ser o primeiro grande provedor de nuvem a anunciar suporte para essas GPUs poderosas, tornando-as acessíveis para uma ampla gama de tarefas exigentes. Essas instâncias são ideais para análise de dados, IA conversacional sofisticada, geração dinâmica de conteúdo, sistemas de recomendação avançados, streaming de vídeo de alta qualidade e cargas de trabalho gráficas complexas.

Essas novas instâncias EC2 serão construídas sobre o robusto [AWS Nitro System](https://aws.amazon.com/ec2/nitro/). O Nitro System, com sua combinação única de hardware dedicado e um hypervisor leve, entrega quase todos os recursos de computação e memória do hardware do host diretamente às instâncias. Este design garante utilização superior de recursos e desempenho. Crucialmente, o hardware, software e firmware especializados do Nitro System são projetados para impor restrições rigorosas, protegendo cargas de trabalho e dados de IA sensíveis contra acesso não autorizado, mesmo de dentro da AWS. Sua capacidade de realizar atualizações e otimizações de firmware enquanto operacional aumenta ainda mais a segurança e a estabilidade essenciais para cargas de trabalho de IA, análise e gráficos de nível de produção.

Aprimorando ainda mais o desempenho, particularmente para modelos massivos de IA, está a aceleração das interconexões para inferência de LLM desagregada. À medida que os tamanhos dos modelos continuam a crescer, a sobrecarga de comunicação entre GPUs ou instâncias AWS Trainium pode se tornar um gargalo significativo. A AWS anunciou suporte para a NVIDIA Inference Xfer Library (NIXL) com o AWS Elastic Fabric Adapter (EFA), projetada para acelerar a inferência de LLM desagregada no Amazon EC2, abrangendo tanto GPUs NVIDIA quanto AWS Trainium. Essa integração é vital para escalar cargas de trabalho modernas de IA, permitindo a sobreposição eficiente de comunicação e computação, minimizando a latência e maximizando a [utilização da GPU](/pt/gpus). Ela facilita o movimento de dados de KV-cache de alta taxa de transferência e baixa latência entre nós de computação e recursos de memória distribuída. O NIXL com EFA integra-se nativamente com frameworks de código aberto populares, como NVIDIA Dynamo, vLLM e SGLang, proporcionando latência entre tokens aprimorada e utilização de memória KV-cache mais eficiente.

## Acelerando a Análise de Dados com Amazon EMR e GPUs

Engenheiros e cientistas de dados frequentemente lidam com longos pipelines de processamento de dados que podem prejudicar significativamente a iteração de modelos de IA/ML e a geração de inteligência de negócios. A colaboração entre AWS e NVIDIA oferece uma melhoria inovadora: um desempenho 3x mais rápido para cargas de trabalho do Apache Spark. Essa aceleração é alcançada aproveitando o Amazon EMR no Amazon EKS com instâncias G7e, alimentadas pelas GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition.

Este ganho substancial de desempenho é um resultado direto de esforços conjuntos de engenharia focados na otimização da análise acelerada por GPU. Com o Amazon EMR e as instâncias G7e, as organizações podem reduzir drasticamente o tempo necessário para engenharia de recursos de IA/ML, transformações ETL complexas e análise em tempo real em escala. Clientes que executam pipelines de processamento de dados em larga escala podem alcançar um tempo mais rápido para o insight, mantendo total compatibilidade com seus aplicativos Spark existentes.

## Expandindo o Suporte ao Modelo NVIDIA Nemotron no Amazon Bedrock

AWS e NVIDIA também estão expandindo sua colaboração em modelos fundamentais, trazendo modelos NVIDIA Nemotron avançados para o Amazon Bedrock.

Os desenvolvedores em breve terão a capacidade de ajustar finamente os modelos NVIDIA Nemotron diretamente no Amazon Bedrock usando Reinforcement Fine-Tuning (RFT). Isso é um divisor de águas para equipes que precisam adaptar o comportamento do modelo a domínios específicos, seja em jurídico, saúde, finanças ou outros campos especializados. O RFT capacita os usuários a moldar como um modelo raciocina e responde, indo além da mera aquisição de conhecimento para um alinhamento comportamental sutil. Crucialmente, isso é executado nativamente no Amazon Bedrock, eliminando a sobrecarga de infraestrutura – os usuários definem a tarefa, fornecem feedback, e o Bedrock gerencia o resto.

Além disso, o NVIDIA Nemotron 3 Super, um modelo híbrido Mixture-of-Experts (MoE) construído para cargas de trabalho multiagente e raciocínio estendido, também estará disponível em breve no Amazon Bedrock. Projetado para ajudar os agentes de IA a manter a precisão em fluxos de trabalho complexos e de várias etapas, o Nemotron 3 Super alimentará diversos casos de uso abrangendo finanças, cibersegurança, varejo e desenvolvimento de software. Ele promete inferência rápida e econômica por meio de uma API totalmente gerenciada, simplificando a implantação de agentes de IA sofisticados.

Aqui está um resumo dos principais anúncios:

| Recurso/Integração        | Descrição                                                                                                                                           | Benefício Principal                                                                | Disponibilidade        |
| :------------------------ | :---------------------------------------------------------------------------------------------------------------------------------------------------- | :--------------------------------------------------------------------------------- | :--------------------- |
| **Implantação de GPU**    | Mais de 1 milhão de GPUs NVIDIA (arquiteturas Blackwell, Rubin) em todas as Regiões AWS.                                                              | Escala de computação massiva para todas as cargas de trabalho de IA/ML, IA agentiva. | A partir de 2026       |
| **Instâncias Amazon EC2** | Suporte para GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition no EC2.                                                                                 | Primeiro grande provedor de nuvem a suportar IA versátil, gráficos, análise.       | Em breve               |
| **Inferência de LLM**     | NVIDIA NIXL no AWS EFA para inferência de LLM desagregada acelerada em GPUs e Trainiums.                                                              | Latência de comunicação minimizada, utilização máxima de GPU para LLMs.            | Anunciado              |
| **Desempenho do Apache Spark** | Cargas de trabalho Spark 3x mais rápidas no Amazon EMR no EKS com instâncias G7e (RTX PRO 6000).                                                     | Tempo de insight acelerado para análise de dados, engenharia de recursos.          | Anunciado              |
| **Ajuste Fino de Nemotron** | Reinforcement Fine-Tuning (RFT) para modelos Nemotron diretamente no Amazon Bedrock.                                                                  | Alinhamento do comportamento do modelo específico do domínio sem sobrecarga de infraestrutura. | Em breve               |
| **Nemotron 3 Super**      | Modelo híbrido MoE para cargas de trabalho multiagente e raciocínio estendido no Amazon Bedrock.                                                      | Inferência rápida e econômica para tarefas complexas de IA de múltiplas etapas.    | Em breve               |

## Compromisso com a Eficiência Energética e IA Sustentável

À medida que as cargas de trabalho de IA continuam a crescer exponencialmente, a eficiência e a sustentabilidade da infraestrutura subjacente tornam-se primordiais. A colaboração também destaca um compromisso compartilhado com a melhoria da eficiência energética. O desempenho por watt não é mais apenas uma métrica de sustentabilidade, mas uma vantagem competitiva significativa no cenário da IA.

Na NVIDIA GTC 2026, a CSO da Amazon, Kara Hurst, juntou-se a outros líderes de sustentabilidade para discutir como a IA está transformando fundamentalmente a energia e a infraestrutura empresarial em escala. Esta discussão ressalta o foco no desenvolvimento e implantação de soluções de IA que não são apenas poderosas, mas também ambientalmente responsáveis, desde data centers otimizados como participantes ativos da rede até aplicações mais amplas de IA empresarial. Essa abordagem prospectiva garante que os avanços na computação de IA estejam alinhados com os objetivos globais de sustentabilidade.

AWS e NVIDIA Aprofundam Colaboração em IA para Acelerar a Produção

Perguntas Frequentes

Fique Atualizado