Inferencia de IA Generativa: Aceleración en SageMaker con Instancias G7e

Instancias G7e: Una Nueva Era para la Inferencia de IA en SageMaker

El panorama de la IA generativa está evolucionando a un ritmo sin precedentes, impulsando una demanda continua de infraestructura más potente, flexible y rentable. Hoy, Code Velocity se complace en informar sobre un avance significativo de AWS: la disponibilidad general de las instancias G7e en Amazon SageMaker AI. Impulsadas por las GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, estas nuevas instancias están destinadas a redefinir los puntos de referencia para la inferencia de IA generativa, ofreciendo a desarrolladores y empresas un rendimiento y una capacidad de memoria sin precedentes.

Amazon SageMaker AI es un servicio completamente gestionado que proporciona a los desarrolladores y científicos de datos las herramientas para construir, entrenar e implementar modelos de aprendizaje automático a escala. La introducción de las instancias G7e marca un momento crucial para las cargas de trabajo de IA generativa en esta plataforma. Estas instancias aprovechan las GPU NVIDIA RTX PRO 6000 Blackwell de vanguardia, cada una con una impresionante memoria GDDR7 de 96 GB. Este aumento sustancial de memoria permite la implementación de modelos fundacionales (FM) significativamente más grandes directamente en SageMaker AI, abordando una necesidad crítica para las aplicaciones avanzadas de IA.

Las organizaciones ahora pueden implementar modelos como GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) y Qwen3.5-35B-A3B con una eficiencia notable. La instancia G7e.2xlarge, que cuenta con una única GPU, puede alojar modelos de 35B parámetros, mientras que la G7e.48xlarge, con ocho GPU, escala hasta modelos de 300B parámetros. Esta flexibilidad se traduce en beneficios tangibles: complejidad operativa reducida, menor latencia y ahorros sustanciales de costos para las cargas de trabajo de inferencia.

Desglosando el Salto Generacional de Rendimiento de G7e

Las instancias G7e representan un salto monumental sobre sus predecesoras, G6e y G5, ofreciendo un rendimiento de inferencia hasta 2.3 veces más rápido en comparación con las G6e. Las especificaciones técnicas subrayan este avance generacional. Cada GPU G7e proporciona un asombroso ancho de banda de 1,597 GB/s, duplicando efectivamente la memoria por GPU de las G6e y cuadruplicando la de las G5. Además, las capacidades de red se mejoran drásticamente, escalando hasta 1,600 Gbps con EFA en el tamaño G7e más grande. Este aumento de 4 veces sobre las G6e y 16 veces sobre las G5 desbloquea el potencial para la inferencia multinodo de baja latencia y escenarios de ajuste fino previamente considerados poco prácticos.

Aquí una comparación que destaca la progresión entre generaciones en el nivel de 8 GPU:

Especificación	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
Memoria GPU por GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Memoria GPU total	192 GB	384 GB	768 GB
Ancho de banda de memoria GPU	600 GB/s por GPU	864 GB/s por GPU	1,597 GB/s por GPU
vCPUs	192	192	192
Memoria del sistema	768 GiB	1,536 GiB	2,048 GiB
Ancho de banda de red	100 Gbps	400 Gbps	1,600 Gbps (EFA)
Almacenamiento NVMe local	7.6 TB	7.6 TB	15.2 TB
Inferencia vs. G6e	Base	~1x	Hasta 2.3x

Con una colosal memoria GPU agregada de 768 GB en una sola instancia G7e, los modelos que antes necesitaban configuraciones multinodo complejas en instancias más antiguas ahora pueden implementarse con una simplicidad notable. Esto reduce significativamente la latencia entre nodos y la sobrecarga operativa. Junto con el soporte para precisión FP4 a través de Tensor Cores de quinta generación y NVIDIA GPUDirect RDMA sobre EFAv4, las instancias G7e están inequívocamente diseñadas para LLM exigentes, IA multimodal y sofisticados flujos de trabajo de inferencia agéntica en AWS.

Diversos Casos de Uso de IA Generativa Prosperan en G7e

La robusta combinación de densidad de memoria, ancho de banda y capacidades de red avanzadas hace que las instancias G7e sean ideales para una amplia gama de cargas de trabajo de IA generativa contemporáneas. Desde mejorar la IA conversacional hasta potenciar simulaciones físicas complejas, G7e ofrece ventajas tangibles:

Chatbots e IA Conversacional: El bajo "Time To First Token" (TTFT) y el alto rendimiento de las instancias G7e garantizan experiencias interactivas responsivas y fluidas, incluso cuando se enfrentan a grandes cargas de usuarios concurrentes. Esto es crucial para mantener la participación y satisfacción del usuario en interacciones de IA en tiempo real.
Flujos de Trabajo Agénticos y de Llamada a Herramientas: Para los pipelines de Generación Aumentada por Recuperación (RAG) y los sistemas agénticos, la inyección rápida de contexto desde los almacenes de recuperación es primordial. La mejora de 4 veces en el ancho de banda de CPU a GPU dentro de las instancias G7e las hace excepcionalmente efectivas para estas operaciones críticas, permitiendo agentes de IA más inteligentes y dinámicos.
Generación de Texto, Resumen e Inferencia de Contexto Largo: Con 96 GB de memoria por GPU, las instancias G7e manejan hábilmente grandes cachés de clave-valor (KV). Esto permite contextos de documentos extendidos, reduciendo significativamente la necesidad de truncamiento de texto y facilitando un razonamiento más rico y matizado sobre vastas entradas.
Generación de Imágenes y Modelos de Visión: Donde las instancias de generación anterior frecuentemente encontraban errores de falta de memoria con modelos multimodales más grandes, la capacidad de memoria duplicada de G7e resuelve elegantemente estas limitaciones, allanando el camino para aplicaciones de IA de imagen y visión más sofisticadas y de mayor resolución.
IA Física y Computación Científica: Más allá de la IA generativa tradicional, la computación de generación Blackwell de G7e, el soporte FP4 y las capacidades de computación espacial (incluyendo DLSS 4.0 y núcleos RT de 4ª generación) extienden su utilidad a gemelos digitales, simulación 3D y la inferencia avanzada de modelos de IA física, abriendo nuevas fronteras en investigación científica y aplicaciones industriales.

Implementación Optimizada y Pruebas de Rendimiento

La implementación de modelos de IA generativa en instancias G7e a través de Amazon SageMaker AI está diseñada para ser sencilla. Los usuarios pueden acceder a un cuaderno de ejemplo aquí que simplifica el proceso. Los requisitos previos suelen incluir una cuenta de AWS, un rol de IAM para el acceso a SageMaker, y Amazon SageMaker Studio o una instancia de cuaderno SageMaker para el entorno de desarrollo. Es importante destacar que los usuarios deben solicitar una cuota adecuada para instancias ml.g7e.2xlarge o más grandes para el uso de puntos finales de Amazon SageMaker AI a través de la consola de Cuotas de Servicio de AWS, ya que estos son tipos de instancia nuevos y especializados.

Para demostrar las significativas ganancias de rendimiento, AWS comparó Qwen3-32B (BF16) en instancias G6e y G7e. La carga de trabajo involucró aproximadamente 1,000 tokens de entrada y 560 tokens de salida por solicitud, simulando tareas comunes de resumen de documentos. Ambas configuraciones utilizaron el contenedor nativo vLLM con caché de prefijo habilitada, asegurando una comparación justa.

Los resultados son convincentes. Mientras que la línea base de G6e (ml.g6e.12xlarge con 4x L40S GPU a $13.12/hr) mostró un alto rendimiento por solicitud, la G7e (ml.g7e.2xlarge con 1x RTX PRO 6000 Blackwell a $4.20/hr) cuenta una historia de costos dramáticamente diferente. Con una concurrencia de producción (C=32), G7e logró unos asombrosos $0.79 por millón de tokens de salida. Esto representa una reducción de costos de 2.6 veces en comparación con los $2.06 de G6e, impulsada por la tarifa horaria más baja de G7e y su capacidad para mantener un rendimiento consistente bajo carga, lo que demuestra que el alto rendimiento no tiene por qué tener un costo premium.

El Futuro de la Inferencia de IA Generativa Rentable

La introducción de las instancias G7e en Amazon SageMaker AI es más que una simple actualización incremental; es un movimiento estratégico de AWS para democratizar el acceso a la IA generativa de alto rendimiento. Al combinar la potencia bruta de las GPU NVIDIA RTX PRO 6000 Blackwell con las capacidades de escalabilidad y gestión de SageMaker, AWS está empoderando a organizaciones de todos los tamaños para implementar modelos de IA más grandes y complejos con una eficiencia y rentabilidad sin precedentes. Este desarrollo garantiza que los avances en la IA generativa puedan traducirse en aplicaciones prácticas y listas para producción en una vasta gama de industrias, consolidando la posición de SageMaker AI como una plataforma líder para la innovación en IA.

Fuente original

https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

Preguntas Frecuentes

What are G7e instances and how do they benefit generative AI inference?

G7e instances are the latest generation of GPU-accelerated computing instances available on Amazon SageMaker AI, specifically designed to accelerate generative AI inference workloads. They are powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs, offering significant advancements in memory capacity, bandwidth, and overall inference performance. For generative AI, G7e instances mean faster Time To First Token (TTFT), higher throughput, and the ability to host much larger foundation models (FMs) within a single instance, or even on a single GPU. This translates into more responsive AI applications, reduced operational complexity, and substantial cost savings for deploying and running large language models (LLMs), multimodal AI, and agentic workflows. Their enhanced capabilities make them ideal for interactive applications requiring high-performance, cost-effective inference.

Which NVIDIA GPU powers the new G7e instances, and what are its key features?

The new G7e instances on Amazon SageMaker AI are powered by the NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. Each of these cutting-edge GPUs provides an impressive 96 GB of GDDR7 memory, which is double the memory capacity per GPU compared to the previous G6e instances. Key features also include 1,597 GB/s of GPU memory bandwidth per GPU, support for FP4 precision through fifth-generation Tensor Cores, and NVIDIA GPUDirect RDMA over EFAv4. These features collectively contribute to the G7e instances' superior inference performance, memory density, and low-latency networking, making them exceptionally capable for demanding generative AI tasks.

How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?

G7e instances demonstrate a significant generational leap over G6e and G5. They deliver up to 2.3x inference performance compared to G6e instances. In terms of memory, each G7e GPU offers 96 GB of GDDR7 memory, effectively doubling the per-GPU memory of G6e and quadrupling that of G5. A top-tier G7e.48xlarge instance provides an aggregate of 768 GB total GPU memory. Furthermore, networking bandwidth scales up to 1,600 Gbps with EFA on the largest G7e size, a 4x jump over G6e and 16x over G5. This vast improvement in memory, bandwidth, and networking allows G7e instances to host models that previously required multi-node setups on older instances, simplifying deployment and reducing latency.

What types of generative AI workloads are best suited for deployment on G7e instances?

G7e instances are exceptionally well-suited for a broad range of modern generative AI workloads due to their high memory density, bandwidth, and advanced networking. These include: Chatbots and Conversational AI, ensuring low Time To First Token (TTFT) and high throughput for responsive interactive experiences; Agentic and Tool-Calling Workflows, benefiting from 4x improved CPU-to-GPU bandwidth for fast context injection in RAG pipelines; Text Generation, Summarization, and Long-Context Inference, accommodating large KV caches for extended document contexts with 96 GB per-GPU memory; Image Generation and Vision Models, overcoming out-of-memory errors for larger multimodal models that struggled on previous instances; and Physical AI and Scientific Computing, leveraging Blackwell-generation compute, FP4 support, and spatial computing capabilities for digital twins and 3D simulation.

What is the cost efficiency of G7e instances compared to G6e for generative AI inference?

G7e instances offer significantly improved cost efficiency for generative AI inference compared to G6e instances. Benchmarks deploying Qwen3-32B showed that G7e achieved $0.79 per million output tokens at production concurrency (C=32). This represents a remarkable 2.6x cost reduction compared to G6e’s $2.06 per million output tokens for a similar workload. This cost saving is primarily driven by G7e’s substantially lower hourly rate (e.g., $4.20/hr for ml.g7e.2xlarge vs. $13.12/hr for ml.g6e.12xlarge) combined with its ability to maintain consistent and high throughput under load, making it a more economical choice for large-scale deployments.

What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?

G7e instances offer substantial memory capacities for deploying large language models (LLMs). A single-node GPU, specifically a G7e.2xlarge instance, can effectively host foundation models with up to 35 billion parameters in FP16 precision. For larger models, scaling across multiple GPUs within a single instance dramatically increases capacity: a 4-GPU node (G7e.24xlarge) can deploy models up to 150 billion parameters, while an 8-GPU node (G7e.48xlarge) can handle models as large as 300 billion parameters. This impressive scalability provides organizations with the flexibility to deploy a wide range of LLMs without the complexities of multi-instance distributed setups.

What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?

To deploy generative AI solutions using G7e instances on Amazon SageMaker AI, several prerequisites must be met. You need an active AWS account to host your resources and an AWS Identity and Access Management (IAM) role configured with appropriate permissions to access Amazon SageMaker AI services. For development and deployment, access to Amazon SageMaker Studio or a SageMaker notebook instance is recommended, though other interactive development environments like PyCharm or Visual Studio Code are also viable. Crucially, you must request a quota for at least one `ml.g7e.2xlarge` instance (or a larger G7e instance type) for Amazon SageMaker AI endpoint usage through the AWS Service Quotas console, as these are new and specialized instance types.

Mantente Actualizado

Recibe las últimas noticias de IA en tu correo.