Inferência de IA Generativa: Acelerando no SageMaker com Instâncias G7e

title: "Inferência de IA Generativa: Acelerando no SageMaker com Instâncias G7e" slug: "accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances" date: "2026-04-21" lang: "pt" source: "https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/" category: "IA Empresarial" keywords:

IA Generativa
Inferência de IA
Amazon SageMaker
Instâncias AWS G7e
NVIDIA RTX PRO 6000
Implantação de LLM
IA Custo-efetiva
Memória GPU
Blackwell
vLLM
Modelos de Fundação
Workflows Agênticos meta_description: "Acelere a inferência de IA generativa no Amazon SageMaker AI com as novas instâncias G7e, alimentadas por GPUs NVIDIA RTX PRO 6000 Blackwell, oferecendo 2,3x mais desempenho e economia de custos." image: "/images/articles/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances.png" image_alt: "Instâncias G7e do Amazon SageMaker AI acelerando a inferência de IA generativa com GPUs NVIDIA RTX PRO 6000 Blackwell." quality_score: 94 content_score: 93 seo_score: 95 companies:
AWS schema_type: "NewsArticle" reading_time: 4 faq:
question: "O que são instâncias G7e e como elas beneficiam a inferência de IA generativa?" answer: "As instâncias G7e são a última geração de instâncias de computação aceleradas por GPU disponíveis no Amazon SageMaker AI, especificamente projetadas para acelerar cargas de trabalho de inferência de IA generativa. Elas são equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition, oferecendo avanços significativos na capacidade de memória, largura de banda e desempenho geral da inferência. Para IA generativa, as instâncias G7e significam um Tempo Até o Primeiro Token (TTFT) mais rápido, maior taxa de transferência e a capacidade de hospedar modelos de fundação (FMs) muito maiores em uma única instância, ou até mesmo em uma única GPU. Isso se traduz em aplicações de IA mais responsivas, complexidade operacional reduzida e economias substanciais de custos para implantação e execução de grandes modelos de linguagem (LLMs), IA multimodal e workflows agênticos. Suas capacidades aprimoradas as tornam ideais para aplicações interativas que exigem inferência de alto desempenho e custo-efetiva."
question: "Qual GPU NVIDIA equipa as novas instâncias G7e e quais são suas principais características?" answer: "As novas instâncias G7e no Amazon SageMaker AI são equipadas com as GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Cada uma dessas GPUs de ponta oferece impressionantes 96 GB de memória GDDR7, o que representa o dobro da capacidade de memória por GPU em comparação com as instâncias G6e anteriores. As principais características também incluem 1.597 GB/s de largura de banda de memória GPU por GPU, suporte para precisão FP4 através de Tensor Cores de quinta geração e NVIDIA GPUDirect RDMA sobre EFAv4. Essas características, coletivamente, contribuem para o desempenho superior de inferência das instâncias G7e, densidade de memória e rede de baixa latência, tornando-as excepcionalmente capazes para tarefas exigentes de IA generativa."
question: "Como as instâncias G7e se comparam às gerações anteriores (G6e, G5) em termos de desempenho e memória?" answer: "As instâncias G7e demonstram um salto geracional significativo em relação às G6e e G5. Elas entregam até 2,3x mais desempenho de inferência em comparação com as instâncias G6e. Em termos de memória, cada GPU G7e oferece 96 GB de memória GDDR7, dobrando efetivamente a memória por GPU da G6e e quadruplicando a da G5. Uma instância G7e.48xlarge de ponta oferece um total agregado de 768 GB de memória GPU. Além disso, a largura de banda de rede escala até 1.600 Gbps com EFA no maior tamanho G7e, um salto de 4x em relação à G6e e 16x em relação à G5. Essa vasta melhoria em memória, largura de banda e rede permite que as instâncias G7e hospedem modelos que antes exigiam configurações multi-nó em instâncias mais antigas, simplificando a implantação e reduzindo a latência."
question: "Que tipos de cargas de trabalho de IA generativa são mais adequados para implantação em instâncias G7e?" answer: "As instâncias G7e são excepcionalmente adequadas para uma ampla gama de cargas de trabalho modernas de IA generativa devido à sua alta densidade de memória, largura de banda e rede avançada. Isso inclui: Chatbots e IA Conversacional, garantindo baixo Tempo Até o Primeiro Token (TTFT) e alta taxa de transferência para experiências interativas responsivas; Workflows Agênticos e de Chamada de Ferramentas, beneficiando-se da melhoria de 4x na largura de banda da CPU para a GPU para injeção rápida de contexto em pipelines RAG; Geração de Texto, Resumo e Inferência de Contexto Longo, acomodando grandes caches KV para contextos de documentos estendidos com 96 GB de memória por GPU; Geração de Imagens e Modelos de Visão, superando erros de falta de memória para modelos multimodais maiores que tinham dificuldades em instâncias anteriores; e IA Física e Computação Científica, aproveitando a computação de geração Blackwell, suporte a FP4 e capacidades de computação espacial para gêmeos digitais e simulação 3D."
question: "Qual é a eficiência de custo das instâncias G7e em comparação com G6e para inferência de IA generativa?" answer: "As instâncias G7e oferecem uma eficiência de custo significativamente melhorada para inferência de IA generativa em comparação com as instâncias G6e. Benchmarks que implantaram Qwen3-32B mostraram que a G7e alcançou US$ 0,79 por milhão de tokens de saída com concorrência de produção (C=32). Isso representa uma notável redução de custo de 2,6x em comparação com os US$ 2,06 da G6e por milhão de tokens de saída para uma carga de trabalho semelhante. Essa economia de custos é impulsionada principalmente pela taxa horária substancialmente mais baixa da G7e (por exemplo, US$ 4,20/hora para ml.g7e.2xlarge versus US$ 13,12/hora para ml.g6e.12xlarge) combinada com sua capacidade de manter uma taxa de transferência consistente e alta sob carga, tornando-a uma escolha mais econômica para implantações em larga escala."
question: "Quais são as capacidades de memória para implantar LLMs em instâncias G7e de GPU única e multi-GPU?" answer: "As instâncias G7e oferecem capacidades de memória substanciais para implantar grandes modelos de linguagem (LLMs). Uma GPU de nó único, especificamente uma instância G7e.2xlarge, pode efetivamente hospedar modelos de fundação com até 35 bilhões de parâmetros em precisão FP16. Para modelos maiores, o escalonamento em múltiplas GPUs dentro de uma única instância aumenta drasticamente a capacidade: um nó de 4 GPUs (G7e.24xlarge) pode implantar modelos de até 150 bilhões de parâmetros, enquanto um nó de 8 GPUs (G7e.48xlarge) pode lidar com modelos tão grandes quanto 300 bilhões de parâmetros. Essa escalabilidade impressionante proporciona às organizações a flexibilidade de implantar uma ampla gama de LLMs sem as complexidades de configurações distribuídas multi-instância."
question: "Quais são os pré-requisitos para implantar soluções usando instâncias G7e no Amazon SageMaker AI?" answer: "Para implantar soluções de IA generativa usando instâncias G7e no Amazon SageMaker AI, vários pré-requisitos devem ser atendidos. Você precisa de uma conta AWS ativa para hospedar seus recursos e de uma função AWS Identity and Access Management (IAM) configurada com as permissões apropriadas para acessar os serviços do Amazon SageMaker AI. Para desenvolvimento e implantação, o acesso ao Amazon SageMaker Studio ou a uma instância de notebook SageMaker é recomendado, embora outros ambientes de desenvolvimento interativos como PyCharm ou Visual Studio Code também sejam viáveis. Crucialmente, você deve solicitar uma cota para pelo menos uma instância ml.g7e.2xlarge (ou um tipo de instância G7e maior) para uso de endpoint do Amazon SageMaker AI através do console AWS Service Quotas, pois estes são tipos de instância novos e especializados."


## Instâncias G7e: Uma Nova Era para a Inferência de IA no SageMaker

O cenário da IA generativa está evoluindo a um ritmo sem precedentes, impulsionando uma demanda contínua por infraestruturas mais poderosas, flexíveis e custo-efetivas. Hoje, a Code Velocity tem o prazer de relatar um avanço significativo da AWS: a disponibilidade geral das instâncias G7e no Amazon SageMaker AI. Equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition, essas novas instâncias estão prontas para redefinir os benchmarks para inferência de IA generativa, oferecendo aos desenvolvedores e empresas desempenho e capacidade de memória inigualáveis.

O Amazon SageMaker AI é um serviço totalmente gerenciado que fornece aos desenvolvedores e cientistas de dados as ferramentas para construir, treinar e implantar modelos de machine learning em escala. A introdução das instâncias G7e marca um momento crucial para as cargas de trabalho de IA generativa nesta plataforma. Essas instâncias aproveitam as GPUs NVIDIA RTX PRO 6000 Blackwell de ponta, cada uma com impressionantes 96 GB de memória GDDR7. Esse aumento substancial de memória permite a implantação de modelos de fundação (FMs) significativamente maiores diretamente no SageMaker AI, abordando uma necessidade crítica para aplicações avançadas de IA.

As organizações agora podem implantar modelos como GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) e Qwen3.5-35B-A3B com notável eficiência. A instância G7e.2xlarge, com uma única GPU, pode hospedar modelos de 35B parâmetros, enquanto a G7e.48xlarge, com oito GPUs, escala para modelos de até 300B parâmetros. Essa flexibilidade se traduz em benefícios tangíveis: complexidade operacional reduzida, menor latência e economias substanciais de custos para cargas de trabalho de inferência.

## Desvendando o Salto Geracional de Desempenho da G7e

As instâncias G7e representam um salto monumental em relação às suas predecessoras, G6e e G5, entregando até 2,3 vezes mais desempenho de inferência em comparação com a G6e. As especificações técnicas sublinham esse avanço geracional. Cada GPU G7e fornece uma largura de banda impressionante de 1.597 GB/s, dobrando efetivamente a memória por GPU da G6e e quadruplicando a da G5. Além disso, as capacidades de rede são drasticamente aprimoradas, escalando até 1.600 Gbps com EFA no maior tamanho G7e. Esse aumento de 4x em relação à G6e e 16x em relação à G5 desbloqueia o potencial para inferência multi-nó de baixa latência e cenários de ajuste fino antes considerados impraticáveis.

Aqui está uma comparação destacando a progressão entre as gerações no nível de 8 GPUs:

| Especificação | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
| --- | --- | --- | --- |
| **GPU** | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| **Memória GPU por GPU** | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| **Memória GPU Total** | 192 GB | 384 GB | 768 GB |
| **Largura de Banda da Memória GPU** | 600 GB/s por GPU | 864 GB/s por GPU | 1.597 GB/s por GPU |
| **vCPUs** | 192 | 192 | 192 |
| **Memória do Sistema** | 768 GiB | 1.536 GiB | 2.048 GiB |
| **Largura de Banda da Rede** | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| **Armazenamento NVMe Local** | 7.6 TB | 7.6 TB | 15.2 TB |
| **Inferência vs. G6e** | Linha de base | ~1x | Até 2.3x |

Com uma colossal memória GPU agregada de 768 GB em uma única instância G7e, modelos que antes exigiam configurações multi-nó complexas em instâncias mais antigas agora podem ser implantados com notável simplicidade. Isso reduz significativamente a latência inter-nó e a sobrecarga operacional. Acoplado ao suporte para precisão FP4 via Tensor Cores de quinta geração e NVIDIA GPUDirect RDMA sobre EFAv4, as instâncias G7e são inequivocamente projetadas para LLM exigentes, IA multimodal e sofisticados [workflows de inferência agêntica](/pt/operationalizing-agentic-ai-part-1-a-stakeholders-guide) na AWS.

## Diversos Casos de Uso de IA Generativa Prosperam na G7e

A robusta combinação de densidade de memória, largura de banda e capacidades avançadas de rede torna as instâncias G7e ideais para um amplo espectro de cargas de trabalho contemporâneas de IA generativa. Desde o aprimoramento da IA conversacional até o suporte a simulações físicas complexas, a G7e oferece vantagens tangíveis:

*   **Chatbots e IA Conversacional**: O baixo Tempo Até o Primeiro Token (TTFT) e a alta taxa de transferência das instâncias G7e garantem experiências interativas responsivas e fluidas, mesmo diante de cargas de usuário concorrentes pesadas. Isso é crucial para manter o engajamento e a satisfação do usuário em interações de IA em tempo real.
*   **Workflows Agênticos e de Chamada de Ferramentas**: Para pipelines de Geração Aumentada por Recuperação (RAG) e sistemas agênticos, a injeção rápida de contexto de armazenamentos de recuperação é primordial. A melhoria de 4x na largura de banda da CPU para a GPU dentro das instâncias G7e as torna excepcionalmente eficazes para essas operações críticas, permitindo agentes de IA mais inteligentes e dinâmicos.
*   **Geração de Texto, Resumo e Inferência de Contexto Longo**: Com 96 GB de memória por GPU, as instâncias G7e lidam com destreza com grandes caches Key-Value (KV). Isso permite contextos de documentos estendidos, reduzindo significativamente a necessidade de truncamento de texto e facilitando um raciocínio mais rico e matizado sobre vastas entradas.
*   **Geração de Imagens e Modelos de Visão**: Onde instâncias de gerações anteriores frequentemente encontravam erros de falta de memória com modelos multimodais maiores, a capacidade de memória dobrada da G7e resolve graciosamente essas limitações, abrindo caminho para aplicações de IA de imagem e visão mais sofisticadas e de maior resolução.
*   **IA Física e Computação Científica**: Além da IA generativa tradicional, a computação de geração Blackwell da G7e, o suporte a FP4 e as capacidades de computação espacial (incluindo DLSS 4.0 e RT cores de 4ª geração) estendem sua utilidade para gêmeos digitais, simulação 3D e inferência avançada de modelos de IA física, abrindo novas fronteiras em pesquisa científica e aplicações industriais.

## Implantação Otimizada e Benchmarking de Desempenho

A implantação de modelos de IA generativa em instâncias G7e via Amazon SageMaker AI é projetada para ser direta. Os usuários podem acessar um notebook de exemplo [aqui](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main/03-features/instances/g7e) que otimiza o processo. Os pré-requisitos tipicamente incluem uma conta AWS, uma função IAM para acesso ao SageMaker e, ou Amazon SageMaker Studio ou uma instância de notebook SageMaker para o ambiente de desenvolvimento. Importante, os usuários devem solicitar uma cota apropriada para `ml.g7e.2xlarge` ou instâncias maiores para uso de endpoint do SageMaker AI através do console Service Quotas.

Para demonstrar os ganhos significativos de desempenho, a AWS realizou benchmarking do Qwen3-32B (BF16) em instâncias G6e e G7e. A carga de trabalho envolveu aproximadamente 1.000 tokens de entrada e 560 tokens de saída por solicitação, simulando tarefas comuns de resumo de documentos. Ambas as configurações utilizaram o contêiner nativo [vLLM](https://github.com/vllm-project/vllm) com cache de prefixo habilitado, garantindo uma comparação "apples-to-apples".

Os resultados são convincentes. Enquanto a linha de base G6e (ml.g6e.12xlarge com 4x GPUs L40S a US$ 13,12/hora) mostrou uma forte taxa de transferência por solicitação, a G7e (ml.g7e.2xlarge com 1x RTX PRO 6000 Blackwell a US$ 4,20/hora) apresenta uma história de custo dramaticamente diferente. Com concorrência de produção (C=32), a G7e alcançou impressionantes US$ 0,79 por milhão de tokens de saída. Isso representa uma redução de custo de 2,6x em comparação com os US$ 2,06 da G6e, impulsionada pela taxa horária mais baixa da G7e e sua capacidade de manter uma taxa de transferência consistente sob carga, provando que alto desempenho não precisa vir a um custo premium.

## O Futuro da Inferência de IA Generativa Custo-Eficiente

A introdução das instâncias G7e no Amazon SageMaker AI é mais do que apenas uma atualização incremental; é um movimento estratégico da AWS para democratizar o acesso à IA generativa de alto desempenho. Ao combinar o poder bruto das GPUs NVIDIA RTX PRO 6000 Blackwell com a escalabilidade e as capacidades de gerenciamento do SageMaker, a AWS está capacitando organizações de todos os tamanhos a implantar modelos de IA maiores e mais complexos com eficiência e custo-benefício sem precedentes. Este desenvolvimento garante que os avanços na IA generativa possam ser traduzidos em aplicações práticas e prontas para produção em uma vasta gama de indústrias, solidificando a posição do SageMaker AI como uma plataforma líder para a inovação em IA.

Fonte original

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Perguntas Frequentes

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Fique Atualizado

Receba as últimas novidades de IA no seu e-mail.