Instancias G7e: Una Nueva Era para la Inferencia de IA en SageMaker
El panorama de la IA generativa está evolucionando a un ritmo sin precedentes, impulsando una demanda continua de infraestructura más potente, flexible y rentable. Hoy, Code Velocity se complace en informar sobre un avance significativo de AWS: la disponibilidad general de las instancias G7e en Amazon SageMaker AI. Impulsadas por las GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, estas nuevas instancias están destinadas a redefinir los puntos de referencia para la inferencia de IA generativa, ofreciendo a desarrolladores y empresas un rendimiento y una capacidad de memoria sin precedentes.
Amazon SageMaker AI es un servicio completamente gestionado que proporciona a los desarrolladores y científicos de datos las herramientas para construir, entrenar e implementar modelos de aprendizaje automático a escala. La introducción de las instancias G7e marca un momento crucial para las cargas de trabajo de IA generativa en esta plataforma. Estas instancias aprovechan las GPU NVIDIA RTX PRO 6000 Blackwell de vanguardia, cada una con una impresionante memoria GDDR7 de 96 GB. Este aumento sustancial de memoria permite la implementación de modelos fundacionales (FM) significativamente más grandes directamente en SageMaker AI, abordando una necesidad crítica para las aplicaciones avanzadas de IA.
Las organizaciones ahora pueden implementar modelos como GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) y Qwen3.5-35B-A3B con una eficiencia notable. La instancia G7e.2xlarge, que cuenta con una única GPU, puede alojar modelos de 35B parámetros, mientras que la G7e.48xlarge, con ocho GPU, escala hasta modelos de 300B parámetros. Esta flexibilidad se traduce en beneficios tangibles: complejidad operativa reducida, menor latencia y ahorros sustanciales de costos para las cargas de trabajo de inferencia.
Desglosando el Salto Generacional de Rendimiento de G7e
Las instancias G7e representan un salto monumental sobre sus predecesoras, G6e y G5, ofreciendo un rendimiento de inferencia hasta 2.3 veces más rápido en comparación con las G6e. Las especificaciones técnicas subrayan este avance generacional. Cada GPU G7e proporciona un asombroso ancho de banda de 1,597 GB/s, duplicando efectivamente la memoria por GPU de las G6e y cuadruplicando la de las G5. Además, las capacidades de red se mejoran drásticamente, escalando hasta 1,600 Gbps con EFA en el tamaño G7e más grande. Este aumento de 4 veces sobre las G6e y 16 veces sobre las G5 desbloquea el potencial para la inferencia multinodo de baja latencia y escenarios de ajuste fino previamente considerados poco prácticos.
Aquí una comparación que destaca la progresión entre generaciones en el nivel de 8 GPU:
| Especificación | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x NVIDIA RTX PRO 6000 Blackwell |
| Memoria GPU por GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Memoria GPU total | 192 GB | 384 GB | 768 GB |
| Ancho de banda de memoria GPU | 600 GB/s por GPU | 864 GB/s por GPU | 1,597 GB/s por GPU |
| vCPUs | 192 | 192 | 192 |
| Memoria del sistema | 768 GiB | 1,536 GiB | 2,048 GiB |
| Ancho de banda de red | 100 Gbps | 400 Gbps | 1,600 Gbps (EFA) |
| Almacenamiento NVMe local | 7.6 TB | 7.6 TB | 15.2 TB |
| Inferencia vs. G6e | Base | ~1x | Hasta 2.3x |
Con una colosal memoria GPU agregada de 768 GB en una sola instancia G7e, los modelos que antes necesitaban configuraciones multinodo complejas en instancias más antiguas ahora pueden implementarse con una simplicidad notable. Esto reduce significativamente la latencia entre nodos y la sobrecarga operativa. Junto con el soporte para precisión FP4 a través de Tensor Cores de quinta generación y NVIDIA GPUDirect RDMA sobre EFAv4, las instancias G7e están inequívocamente diseñadas para LLM exigentes, IA multimodal y sofisticados flujos de trabajo de inferencia agéntica en AWS.
Diversos Casos de Uso de IA Generativa Prosperan en G7e
La robusta combinación de densidad de memoria, ancho de banda y capacidades de red avanzadas hace que las instancias G7e sean ideales para una amplia gama de cargas de trabajo de IA generativa contemporáneas. Desde mejorar la IA conversacional hasta potenciar simulaciones físicas complejas, G7e ofrece ventajas tangibles:
- Chatbots e IA Conversacional: El bajo "Time To First Token" (TTFT) y el alto rendimiento de las instancias G7e garantizan experiencias interactivas responsivas y fluidas, incluso cuando se enfrentan a grandes cargas de usuarios concurrentes. Esto es crucial para mantener la participación y satisfacción del usuario en interacciones de IA en tiempo real.
- Flujos de Trabajo Agénticos y de Llamada a Herramientas: Para los pipelines de Generación Aumentada por Recuperación (RAG) y los sistemas agénticos, la inyección rápida de contexto desde los almacenes de recuperación es primordial. La mejora de 4 veces en el ancho de banda de CPU a GPU dentro de las instancias G7e las hace excepcionalmente efectivas para estas operaciones críticas, permitiendo agentes de IA más inteligentes y dinámicos.
- Generación de Texto, Resumen e Inferencia de Contexto Largo: Con 96 GB de memoria por GPU, las instancias G7e manejan hábilmente grandes cachés de clave-valor (KV). Esto permite contextos de documentos extendidos, reduciendo significativamente la necesidad de truncamiento de texto y facilitando un razonamiento más rico y matizado sobre vastas entradas.
- Generación de Imágenes y Modelos de Visión: Donde las instancias de generación anterior frecuentemente encontraban errores de falta de memoria con modelos multimodales más grandes, la capacidad de memoria duplicada de G7e resuelve elegantemente estas limitaciones, allanando el camino para aplicaciones de IA de imagen y visión más sofisticadas y de mayor resolución.
- IA Física y Computación Científica: Más allá de la IA generativa tradicional, la computación de generación Blackwell de G7e, el soporte FP4 y las capacidades de computación espacial (incluyendo DLSS 4.0 y núcleos RT de 4ª generación) extienden su utilidad a gemelos digitales, simulación 3D y la inferencia avanzada de modelos de IA física, abriendo nuevas fronteras en investigación científica y aplicaciones industriales.
Implementación Optimizada y Pruebas de Rendimiento
La implementación de modelos de IA generativa en instancias G7e a través de Amazon SageMaker AI está diseñada para ser sencilla. Los usuarios pueden acceder a un cuaderno de ejemplo aquí que simplifica el proceso. Los requisitos previos suelen incluir una cuenta de AWS, un rol de IAM para el acceso a SageMaker, y Amazon SageMaker Studio o una instancia de cuaderno SageMaker para el entorno de desarrollo. Es importante destacar que los usuarios deben solicitar una cuota adecuada para instancias ml.g7e.2xlarge o más grandes para el uso de puntos finales de Amazon SageMaker AI a través de la consola de Cuotas de Servicio de AWS, ya que estos son tipos de instancia nuevos y especializados.
Para demostrar las significativas ganancias de rendimiento, AWS comparó Qwen3-32B (BF16) en instancias G6e y G7e. La carga de trabajo involucró aproximadamente 1,000 tokens de entrada y 560 tokens de salida por solicitud, simulando tareas comunes de resumen de documentos. Ambas configuraciones utilizaron el contenedor nativo vLLM con caché de prefijo habilitada, asegurando una comparación justa.
Los resultados son convincentes. Mientras que la línea base de G6e (ml.g6e.12xlarge con 4x L40S GPU a $13.12/hr) mostró un alto rendimiento por solicitud, la G7e (ml.g7e.2xlarge con 1x RTX PRO 6000 Blackwell a $4.20/hr) cuenta una historia de costos dramáticamente diferente. Con una concurrencia de producción (C=32), G7e logró unos asombrosos $0.79 por millón de tokens de salida. Esto representa una reducción de costos de 2.6 veces en comparación con los $2.06 de G6e, impulsada por la tarifa horaria más baja de G7e y su capacidad para mantener un rendimiento consistente bajo carga, lo que demuestra que el alto rendimiento no tiene por qué tener un costo premium.
El Futuro de la Inferencia de IA Generativa Rentable
La introducción de las instancias G7e en Amazon SageMaker AI es más que una simple actualización incremental; es un movimiento estratégico de AWS para democratizar el acceso a la IA generativa de alto rendimiento. Al combinar la potencia bruta de las GPU NVIDIA RTX PRO 6000 Blackwell con las capacidades de escalabilidad y gestión de SageMaker, AWS está empoderando a organizaciones de todos los tamaños para implementar modelos de IA más grandes y complejos con una eficiencia y rentabilidad sin precedentes. Este desarrollo garantiza que los avances en la IA generativa puedan traducirse en aplicaciones prácticas y listas para producción en una vasta gama de industrias, consolidando la posición de SageMaker AI como una plataforma líder para la innovación en IA.
Fuente original
https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/Preguntas Frecuentes
What are G7e instances and how do they benefit generative AI inference?
Which NVIDIA GPU powers the new G7e instances, and what are its key features?
How do G7e instances compare to previous generations (G6e, G5) in terms of performance and memory?
What types of generative AI workloads are best suited for deployment on G7e instances?
What is the cost efficiency of G7e instances compared to G6e for generative AI inference?
What are the memory capacities for deploying LLMs on single and multi-GPU G7e instances?
What are the prerequisites for deploying solutions using G7e instances on Amazon SageMaker AI?
Mantente Actualizado
Recibe las últimas noticias de IA en tu correo.
